생성형 AI의 등장 이후로 세계는 AI가 제시하는 새로운 가능성을 경험하며 예측을 넘어선 기술이 적용되는 미래를 전망하고 있다. 거대언어모델(LLM)을 활용한 다양한 AI 기술이 각 산업 분야에 접목되며 혁신을 일으키고 있고, 그 속도는 더욱 빨라질 듯하다.
이는 최근 세상에 놀라움을 던진 이미지, 영상 생성형 AI 모델의 한계를 넘어서는 시도로도 이어지고 있다. 바로 창업 5개월여에 불과한 극초기 스타트업 ‘호미AI’를 통해서다.
이들이 주목한 것은 미드저니(Midjourney), 소라(SORA), 런웨이ML(RunwayML) 등 제로베이스에서 텍스트 기반 프롬프트 입력을 통해 콘텐츠를 생성하는 AI 모델의 한계다. 이들 모델은 텍스트를 기반으로 콘텐츠를 생성하기 때문에, 제작자가 원하는 이미지를 100% 구하기 어렵고, 디테일을 묘사하기 어렵다. 엄청난 프롬프트를 입력하는 과정을 통해 완성도를 개선할 수 있다고 해도 이를 활용해 장편의 영상을 제작하거나 미세 조정은 쉽지 않은 것이 사실이다. 바로 ‘연속성 문제’, ‘일관성 문제’가 그것이다.
이에 호미AI는 기존 생성형 AI 모델과는 전혀 다른 접근법을 도입해 연속성과 일관성을 확보할 수 있는, 즉 ‘제어 문제’를 해결하는 완전 새로운 콘텐츠 생성 AI 프레임워크를 구상했다. 이들이 주목한 것은 최근 등장한 브릿지 디퓨전(Bridge Diffusion)이라는 수학 이론이다.
아산나눔재단의 창업가 플랫폼 ‘마루360’에서 만난 김태윤 호미AI 대표는 자사의 연구를 “브릿지 디퓨전 이론의 첫 실용적인 적용 사례”라며 남다른 자신감을 드러냈다. 그도 그럴 것이 창업 3개월 만인 지난 10월 호미AI의 기술은 그 독창성을 인정 받아 국제적인 컴퓨터 비전 학회인 ‘ECCV ‘24’에 발표됐고, 과기부장관상을 수상하기도 했다.
호미AI가 선보일 브릿지 디퓨전 이론 기반 콘텐츠 생성 AI 엔진의 첫 모델은 내년 상반기에 선보일 예정. 범용적으로 쓰인 생성형 AI 모델을 넘어 미디어 크리에이터 등 전문가 영역에서 실 제작에 활용할 수 있는 모델이라고 하니 호기심이 더욱 커졌다.
ITI(Image To Image)에 특화된 프레임 워크 ‘EBDM’ 개발
“현재 AI는 대부분 텍스트를 기반의 LLM 모델을 기반으로 동작을 하고 있어요. 미디어, 즉 영상이나 이미지를 생성하는 쪽도 예외가 아니죠. 소라나 런웨이와 같은 비주얼 제너레이팅 AI들이 거의 다 텍스트 프롬프트를 기반으로 동작을 하고 있는데 이게 좀 문제가 있습니다. 단순하게 말씀드리면 컷이 바뀌어도 인물의 얼굴을 유지하지 못하고 계속 바뀌는 등의 문제죠. 그 외에도 똑같은 프롬프트를 입력해도 제너레이팅 할 때마다 결과물이 다르게 나오는 문제도 있고요.”
김 대표의 말에 따르면 기존 모델들의 이러한 문제는 텍스트 기반 프레임워크를 사용하는 '레이턴트 디퓨전(Latent Diffusion)' 방식 때문이다. 노이즈에서부터 이미지를 새롭게 만들어 내는 이 방식은 앞서 어떤 이미지를 생성했는지 기억하지 못한 채 계속 새로운 노이즈를 통해 이미지를 만들어 낸다. 김 대표는 미용실에 방문한 고객 사례를 통해 좀 더 쉽게 풀어 설명을 이어갔다.
“어떤 고객이 자신이 원하는 헤어스타일이 있다고 할 때 미용실에서 아무리 말로 설명을 해도 정확하게 전달이 안되는 경우가 대부분이죠. 대신 원하는 헤어스타일을 한 연예인의 사진을 보여주면 단번에 이해가 되죠. 그래서 요즘 미디어 생성 AI의 패러다임도 텍스트 기반이 아닌 이미지 기반으로 다른 이미지를 만들어 내는 ‘Image To Image’ 패러다임으로 변하고 있어요. 문제는 기존 레이턴트 디퓨전 방식을 그대로 적용할 때 효용이 잘 안 나온다는 거죠. 똑같이 노이즈에서 이미지를 생성하는 과정에 제작자가 쓰고 싶은 사람의 얼굴 등을 반영하고자 하는데, 기존 AI 모델은 참고만 하기 때문에 결과적으로 완전한 구현이 어려워요. 그래서 저희는 이미지에서 출발해 그것을 다시 리빌딩하는 작업에 특화된 모델 개발을 진행하고 있는 거고요.”
호미AI가 개발하는 ‘EBDM’이라는 모델은 기존 레이턴트 디퓨전과 달리 Text-Free 프레임워크로 설계됐다는 것이 특징이다. 이는 레이턴트 디퓨전의 범용성 대신 특정 인물 및 이미지의 정밀 제어와 일관성 유지에 초점을 맞춤 최적화 모델이라 할 수 있다. 김 대표는 “텍스트를 사용하지 않고 실제하는 이미지 혹은 기존 AI 엔진으로 생성한 이미지를 새롭게 컨버팅해서 일관성을 유지한 채 제작자가 원하는 포즈와 액션, 복장까지도 다양하게 변화를 줄 수 있는 기술”이라며 말을 이어갔다.
“저희 기술의 근간이 되는 브릿지 디퓨전 이론은 지난해 처음 제기된 신생 이론이예요. 저희는 그 논문에 착안해 지난해 하반기쯤 연구를 시작했죠. 그때까지 이론적으로만 언급된 프레임워크를 상용화하는 작업인 셈이예요. 이미지와 영상의 정밀한 구현이 가능하다면 컴퓨팅 리소스 등 비용과 시간 면에서 획기적인 개선을 가져올 수 있을 거라고 판단했죠. 내년 상반기에 첫 제품을 선보일 예정인데, 그렇게 되면 브릿지 디퓨전을 기반을 한 첫 상용화 AI 모델이 나오는 거라 할 수 있습니다.”
미디어 생성 AI, ‘멋지다’에서 ‘유용하다’로 인식 바꾸겠다
“사람들은 초기 미디어 생성 AI 등장을 보며 단어 몇 개 만으로 기대 이상의 퀄리티를 확보한 영상이 만들어지는 것에 환호했어요. 이후로도 오픈AI의 소라나 다른 모델들은 그런 ‘와우 포인트(Wow point)를 제공하는 것에 집중했죠. 하지만 이런 모델들은 결국 일반 유저들에게 ‘멋지다’는 인식으로 끝납니다. 활용한다고 해도 프로토타입을 아이디에이션하는 정도겠죠. 하지만 크리에이터들이 생각하는 로직은 어떤 아이디어가 떠오르면 그것을 확실하게 구현하고자 하는 방향성이 있어요. 그 과정에서 기존 AI 모델들이 엄청난 확장성으로 여러가지 생성물을 제시해 봤자 쓸모 없는 것이 되죠. 실제 ‘소라’ 초기 유저의 피드백 중 상당 수가 ‘미디어 크리에이터처럼 생각하지 않는다’ ‘크리에이터들이 쓸 만한 툴은 아니다’라는 것이었어요.”
제작자, 혹은 미디어 크리에이터의 생각을 정확하게 읽을 수 있었던 배경에는 독립 영화를 제작하기도 한 아마추어 감독 출신이라는 김 대표의 독특한 이력도 한몫 했다. 콘텐츠 제작 영역의 전문가들이 느끼는 페인포인트에서 새로운 가능성을 발견한 것이다. ‘내가 원하는 이미지와 영상을 생성할 수 있는 정밀 제어 솔루션을 만들자’에서 시작한 호미AI 창업과 새로운 AI 모델 개발은 이제 곧 가시적인 성과를 확인할 수 있는 단계에 접어들고 있다. 하지만 한편으로 이렇게 단기간에, 비용과 자원이 부족한 스타트업이 AI 모델을 개발한다는 것에 있어 의문점을 표하는 목소리도 적지 않다. 이에 김 대표 역시 고개를 끄덕이며 “창업 후 컴퓨팅 리소스와 데이터를 확보하는데 집중했다”고 강조했다.
“저희 모델은 일단 레퍼런스 이미지를 재구축하는 방식이라는 점에서 제로베이스에서 이미지를 생성하는 것에 비해 개발 접근성이 용이하다고 할 수 있어요. 물론 본격적인 상용화 수준까지 끌어올리기 위해서는 적잖은 비용과 시간이 필요하겠죠. 시간은 어떻게든 줄인다 해도 비용이 문제인 것은 맞습니다. 그래서 지난해부터 연구를 이어오며 올해 7월 법인을 내며 정식으로 호미AI 창업을 했고, 여러 지원사업을 통해 10억원 규모의 자금을 유치했어요. 지금은 이를 데이터 학습 등에 최대한 투입하고 있는 중입니다. 그럼에도 불구하고 브릿지 디퓨전이라는 것 자체가 이미지 투 이미지(Image-to-Image), 이미지 투 비디오(Image-to-Video)에 특화되어 있어 기본적으로 연산량이 매우 적은 것이 장점입니다. 기존 모델 대비 GPU 사용량이 42% 정도 줄고, 컴퓨팅 타임도 18% 정도 줄거든요. 쉽게 말해 기존 모델에 비해 절반 정도의 컴퓨팅 리소스만으로도 동일한 성능을 낼 수 있는 경량화가 가능하다는 거죠.”
이어진 김 대표의 설명에 따르면 호미AI가 선보일 모델은 일관성을 유지하며 정밀한 제어가 가능하기 때문에 몇 번의 생성만으로도 원하는 콘텐츠를 확보할 수 있다. 가령 기존 모델이 300차례 생성을 거쳐 유용한 1개의 콘텐츠를 얻고 나머지는 폐기하는 방식이라면 호미AI의 모델은 4~5회 생성만으로도 원하는 콘텐츠를 얻을 수 있다는 것이다. 그 첫 상용화 모델은 인물 제어 특화 솔루션으로 선보일 예정이다.
초기 솔루션으로 파이프라인 구축, 플립도 고려 중
“가령 포토그래퍼가 모델 사진을 촬영하거나 영상 기사가 촬영을 할 때, 혹은 AI를 통해 새로운 캐릭터를 만들 때 등과 같이 각각의 상황에서 정밀 제어가 필요할 때 저희 인물 제어 특화 솔루션이 성능을 발휘할 겁니다. 인물의 각도를 수정하거나 표정을 바꾸거나 하는 정밀한 제어가 가능하게 되는 거죠. 그 외에 다른 오브젝트, 이를테면 자동차나 배경, 카메라 워크까지 포괄적으로 제어할 수 있는 솔루션은 그 이후인 2026년~2027년 내에 론칭 할 계획이고요.”
초기 솔루션을 통해 일정 수준의 매출을 발생시켜 자생력을 확보하고 이후 시장의 니즈를 살피며 고도화를 진행하겠다는 호미AI의 전략은 국내외 여러 투자사들의 관심을 받고 있다. 실제로 최근 새롭게 둥지를 튼 마루360에서 아산나눔재단의 지원을 통해 미국 실리콘밸리의 VC(벤처캐피탈) 투자 유치 등도 논의되고 있다. 김 대표는 “마루 입주사의 3분의 1 정도가 미국에 진출해 있다”며 말을 이어갔다.
“선배 스타트업들의 조언이 실질적인 도움이 되고 있어요. 브릿지 디퓨전 이론을 세계 최초로 상용화하고 있다는 점에 관심을 보이는 투자자들도 생겨나고 있고요. 확정하진 않았지만, 플립(FLIP, 한국에 소재한 법인이 해외에 법인을 설립한 후 그 해외법인을 본사로 만들고 기존의 국내법인을 지사로 만드는 일련의 절차)도 고려 중 입니다. 실제로 저희 초기 투자자 분이 실리콘밸리에 계시기도 하고요. 여러가지 방향성을 보고 있습니다.”
이야기를 듣는 와중에 ‘호미’라는 사명이 정해진 배경도 궁금해졌다. 두 가지 의미가 있는데 일단 첫 번째는 전통 농기구의 명칭 그것을 의미한다고. 맞다, 우리가 아는 그 ‘호미’다. 짐짓 미소를 짓던 김 대표의 설명은 이렇다.
“저희 사명에는 두 가지 의미의 브랜딩이 담겨 있어요. 우선 대외적으로는 말씀하신 농기구 ‘호미’가 맞아요(웃음). 최근까지 대부분의 AI는 확장을 기조로 하고 있어요. 오픈AI의 ‘소라’는 일본어로 하늘을 의미하기도 하죠. 이를테면 ‘하늘에 너희 꿈을 펼치라’는 건데, 저희 생각에 크리에이터들은 그런 무한한 확장성을 좋아하지 않거든요. 대신 본인이 원하는 것을 제대로 구현하기를 원하죠. 이에 저희 사명은 호미와 같이 특정한 땅에 원하는 것을 고정하고 생명을 키워내는 특화된 엔진을 개발하는 기업이라는 뜻을 담았어요. 또 ‘호미’는 미국을 비롯해 서구권 등에서 한국 전통의 가드닝 도구로 세계적인 인기를 얻고 있죠. 한국 오리지널 툴로서 세계로 뻗어 나가도록 하겠다는 의미도 담은 셈이예요. 그 외에 ‘HOMI’라는 단어는 미국 속어로 가족이나 친한 친구를 의미하기도 하는데, 내부적으로는 저와 코파운더들이 친구가 돼 ‘HOMI’처럼 1년 넘게 소통하고 연구하며 시작한 프로젝트가 창업의 시초가 됐다는 의미를 담기도 했어요.”
생성 AI 기업과 공생 추구, 미디어 시장의 바틀넥을 뚫어주는 기업이 될 것
김 대표는 독립영화 감독이라는 이력 외에도 기계공학과 디자인을 전공한 융합형 전문가이기도 하다. 첫 커리어는 자동차 엔지니어로 시작해 헬스케어 디바이스 기반의 스타트업, 주차 관제 AI 등 네 차례의 창업으로 이어졌다. 현재 3명의 호미AI 코파운더들은 김 대표가 그 모든 과정을 뒤로한 채 휴식기에 창업 커뮤니티에서 만난 멤버들이다. 1년여가 넘는 기간 동한 함께 여행하고 프로젝트를 진행하며 ‘HOMI’가 된 이들은 저마다 창업 경험을 갖춘 실력자들이다.
“모두 스타트업계에서 잔뼈가 굵은 친구들이죠. 데카콘 스타트업에 성장 과정을 함께한 초기 멤버도 있고, 대기업에 엑싯을 한 경험도 있고요. 스타트업계에서 저마다 성공을 경험한 멤버들이 모여 호미AI를 만든 것은 이 시장에 ‘골드러시’가 시작되고 있다는 것을 감지했기 때문이예요. 공통점은 모두 어떤 방식으로든 사회에 긍정적인 영향을 미치는 것에 기쁨을 느끼는 사람들이라는 거죠.”
현재 호미AI는 여러 기업과 프로토 타입의 솔루션을 가지고 PoC(개념 검증)을 진행하고 있다. 내년 상반기 첫 상용화 솔루션을 선보이는 것을 시작으로 호미AI가 그려 나갈 계획은 다양하다. 인터뷰 말미, 김 대표는 “기존 생성 AI 기업과 경쟁이 아닌 상생하는, 미디어 크리에이티브 시장에 바틀넥을 뚫어주는 기업이 될 것”이라며 호미AI의 비전을 이야기했다.
“AI는 엄청난 확장성과 잠재력을 가졌고, 미디어 시장에서도 엄청난 잠재 니즈가 있는 기술이라 할 수 있어요. 다만 지금은 실질적으로 제작에 적용하기에 기존 기술과 크리에이터 니즈 사이에 바틀넥(bottleneck, 병목)이 존재해요. 저희가 꿈꾸는 방향성은 사람들 누구나 쉽게 미디어를 만들어내는 거죠. 내가 원하고 꿈꾸고 믿는 어떤 철학을 사람들과 공유하는 세상이 되는 과정에서 저는 AI가 긍정적인 영향을 미칠 수 있을 거라고 생각해요. 저희는 그 과정에서 AI 기술과 이용자 사이에 바틀넥을 뚫어주는 솔루션을 만들고 있는 것이고요. 바로 크리에이터의 생각과 의도를 담을 수 있는 전문 제어 솔루션이죠.”