생성형 인공지능(이하 AI) 등장은 앞서 산업 각 분야에서 진행되고 있는 디지털 전환과 AI 기술 적용을 통한 변화의 흐름을 대중들에게 더욱 확실히 각인 시켰다. 각계 전문가들은 이러한 AI 기술이 인터넷, 모바일로 이어진 혁명적인 변화를 더욱 능가하는 수준의 격변을 만들어 낼 것이라 전망하고 있다.
이미 다양한 생성형 AI 모델이 1년이 멀다하고 새로운 버전으로 업그레이드 되고 있고 그와 동시에 내 놓는 답이나 생성하는 결과물들의 수준은 파격이라 할 정도로 이전 버전의 성능을 능가하고 있다. 이러한 기술은 로봇 산업에도 고스란히 적용되며 먼 미래의 일이라고 여겨졌던 인간의 역할을 대신할 로봇의 상용화가 수년내 이뤄질 것으로 예측되는 상황이다.
결과적으로 이러한 격변은 인간을 능가하는 AI의 일반화, 즉 AGI(Artificial General Intelligence, 범용인공지능) 시대를 열고 있는 상황이다. 그렇다면 이러한 AGI가 의료, 금융, 제조 등 다양한 분야에서 제대로 된 역할을 하기 위해 필요한 전제는 무엇일까? 여러 기술적 필요충분조건이 꼽히지만 그 중에서도 데이터의 중요성은 두말할 필요가 없다.
최근까지 AI 기술 고도화를 위해서 대규모 데이터, 이른바 빅데이터는 필수적인 요소로 인식돼 왔다. 그러나 근래에 들어 많은 양의 데이터보다는 보다 정밀하고 정확한 데이터의 중요성이 부각되고 있다. 단순히 데이터가 많다고 해서 AI의 성능이 고도화되는 것이 아니라 정제되고 그 쓰임에 따른 정확한 데이터라면 적은 양으로도 AI의 성능을 높일 수 있다는 것이다.
이러한 격변의 와중에서 로보틱스, 스마트팩토리, 자율주행, 미디어 분야를 대상으로 양질의 AI 데이터 가공 및 유통에 나선 바운드포(BOUND4)는 이른바 ‘AI 데이터 파운드리’ 기업을 표방하며 남다른 기술력을 과시하는 기업으로 주목받고 있다.
AI 업계도 반도체와 비슷한 생태계로 발전 할 것
글로벌 혁신의 아이콘으로 꼽히고 있는 테슬라는 수년 전부터 카메라만을 사용해 자율 주행을 완성해 내려는 퓨어 비전(Pure Vision) 전략을 적용하고 있다. 이는 테슬라가 개발 중인 휴머노이드 로봇에도 적용되는 것으로 알려졌다. 엔비디아 역시 2020년 선보인 산업용 디지털 트윈 솔루션인 옴니버스(Omniverse)의 상용화에 드라이브를 걸고 있다. 오는 25일 ‘AGI 콘퍼런스 2024’ 발표를 앞두고 만난 황인호 바운드포 대표는 “테슬라를 벤치마킹하며 엔비디아 옴니버스의 방향성에 집중했다”고 말했다.
글로벌 혁신을 주도하고 있는 두 빅테크가 컴퓨터 비전 데이터를 활용하는 것에 주목하며 바운드포 역시 그에 필요한 AI 학습 데이터를 구축하는 프로덕트를 개발해 왔다는 것이다. 그 결과물이 바로 최근 선보인 ‘R1 시리즈’와 ‘S1 시리즈’다.
R1 시리즈는 판별형AI 모델에 탑재되는 현실세계 데이터로 객체식별과 영역구분 학습에 활용되는 범용성 제품이다. 특히 ‘R1 Pro’는 현실세계 패치데이터로 AI을 통해 고해상도 이미지 분석과 생성이 가능하게 한다. 얼마전 업계에 충격을 안겼던 오픈 AI의 영상 생성AI ‘소라(SORA)도 패치데이터를 기반으로 학습했다고 알려졌다. 황 대표는 “두 프로덕트 모두 컴퓨터 비전 AI 학습 데이터셋이지만 차이가 있다”며 말을 이어갔다.
“고객사의 니즈에 맞춰 클라우드, 온프레미스 방식으로 데이터를 제공하는 차이가 있고, R1 시리즈와 S1 시리즈에도 차이가 있습니다. R1 시리즈의 경우는 리얼 데이터셋을 의미합니다. AI가 현실 세계를 이해하는데 필요한 데이터죠. 로보틱스와 자율주행, 스마트팩토리 세 영역에서 핵심적으로 데이터를 공급하고 있습니다. 테슬라의 퓨어 비전에 적용되는 기술적 역량을 준용해 자율주행 핵심 데이터 요소들에 맞춰 데이터를 기획하고 구축했습니다. 이에 비해 S1 시리즈는 가상공간에서 현실세계를 시뮬레이션 학습하는데 필요한 데이터를 제공합니다. 가령 엔비디아 옴니버스에 탑재되는 3D 에셋을 만드는데 특화돼 있다고 할 수 있어요. 에셋을 축적해 놓은 데이터셋을 S1이라고 부르는 거죠.”
취임 이후 황 대표는 피보팅 과정에서 기존 구성원들의 역량을 AI 사업으로 전환하는데 집중했다. 그러면서 기술 개발에 모든 역량을 쏟아 부었다고. 그 결과가 바로 ‘초거대 AI 비전 데이터 드리프트탐지 네트워크 기반의 AI 데이터 관리 시스템 및 방법’이라는 이름의 특허다. 황 대표는 “AI 모델에 탑재된 데이터 중 성능을 저하시키는 데이터를 식별하는 기술 특허”라며 말을 이어갔다.
“최근까지 우리나라 주요 기업들은 데이터 단가가 너무 비싸다 보니 상대적으로 가격이 저렴한 동남아 등에서 데이터를 많이 만들었어요. 문제는 가격은 저렴하지만 난이도가 높은 데이터는 엉망으로 만들어진다는 거였죠. 결국 적잖은 돈을 들인 데이터를 쓰지 못하고 버리는 일이 반복됐죠. 혹 이런 데이터들이 자율주행차, 로보틱스 등에 탑재된 AI에 적용될 경우 생명에 직결되는 안전 문제가 발생할 수도 있어요. 저희 특허는 이렇듯 AI 성능을 떨어뜨리는 저품질 데이터를 식별하는 기술이예요. AI 모델 규모가 점진적으로 커지더라도 일정하게 고성능을 유지할 수 있게 하는 요소 기술이죠.”
그러면서 황 대표는 “바운드포는 AI 학습 모델이 아닌 고품질 AI 데이터 제공하는 기업”이라고 강조했다. 이른바 ‘AI 데이터 파운드리 기업’이라는 것이다. 그의 말에 따르면 이는 반도체 산업 생태계와 다르지 않다.
“저희의 주요 분야는 데이터 라벨링과 정확히 동일하다고 할 수 있습니다. 하지만 이제까지 기존 업계는 데이터 라벨링을 한다고 하면서도 AI 모델도 개발한다는 식으로 모호한 면이 있었어요. 저는 이를 반도체 공급망 방식으로 전문화하는 것이 필요하다고 봤어요. 향후 AI 업계는 ‘데이터를 설계하는 모델’ 전문과 ‘데이터 생산’ 전문으로 나뉠 거라고 생각합니다. 이 때 저희 영역은 데이터 설계도, 머신러닝 개발도 아니라고 생각했습니다. 반도체 공급망으로 봤을 때는 TSMC와 동일한 포지션, 즉 파운드리라고 할 수 있죠.”
데이터는 양보다 질, 패치 데이터로 승부한다
AI 데이터 파운드리 기업을 표방하는 바운드포는 피보팅 이후 차별적인 기술력을 바탕으로 AI 모델 성능을 높이거나 도입하려는 각 분야의 기업을 주요 타깃으로 삼고 고품질 AI 데이터를 제공하는데 집중했다. 그 과정에서 황 대표가 고객사들에게 강조하는 것은 “많은 데이터를 만들 필요가 없다”는 것이다.
“AI를 활용하는 실무자와 동일선상의 AI를 만들기 위해서는 데이터의 양이 중요한 것이 아니라 소량의 데이터라도 기획한 의도가 적절하게 반영된 데이터를 먼저 구축하고 차근차근 증강시키는 것이 바람직한 방향입니다. 저희 입장에서도 당장 매출 증가를 위해서는 대량의 데이터를 구축해야 한다고 말할 수 있지만, 실질적으로 안전한 AI 개발을 위해서는 정확한 데이터가 더 중요하거든요. 이는 실제 저희 고객사 사례를 통해서도 입증되고 있어요. 일례로 한 고객사의 경우, 다른 기업 대비 10분의 1의 데이터만 가지고도 AI 성능은 98점을 기록한 바 있죠. 이런 방향성을 통해 그간 부정적인 이용 경험이 쌓인 시장의 고정관념을 바꾸고 큰 돈을 들이지 않아도 AI 고도화에 필요한 데이터를 얻을 수 있다는 긍정적인 인식을 심어주고 있습니다.”
물론 그 과정은 쉽지 않았다. 황 대표 역시도 “지난 2년은 정말 고통스러웠다”고 털어놨다. 그간 쌓인 시장의 불신을 해소하고 단순히 데이터 라벨링으로 통칭되며 폄하된 데이터 생산 분야의 인식을 바꾸는 것이 쉽지 않았다는 것이다. 황 대표는 그런 어려움을 극복할 수 있었던 것은 바운드포가 제공하는 정밀한 데이터, 즉 패치데이터(Patch Data) 기술력이라고 강조했다.
“패치데이터는 픽셀 단위로 학습을 시키는 데이터에요. 로보틱스나 의료, 스마트팩토리 같이 정밀하고 안전해야 하는 분야의 AI에 반드시 패치데이터가 들어가야 하죠. 가령 기존 AI는 사물을 식별하는 수준이라면 새로운 사물을 만들어 낸다던가, 영역을 분할해 사물까지의 거리까지 계산하는 정밀한 AI를 만들기 위해서는 패치데이터가 반드시 필요합니다. 최근까지 패치데이터를 만드는 소프트웨어가 있는 나라는 미국, 독일, 프랑스 정도였어요. 그래서 저는 바운드포 피보팅 과정에서 패치데이터를 만들 수 있는 소프트웨어 개발에 집중을 한 거죠.”
문제는 또 있었다. 패치데이터를 만드는 소프트웨어를 개발했지만, 이를 활용해 패치데이터를 만들 전문가가 많지 않다는 것이었다. 이에 황 대표는 “패치데이터를 만드는 분들을 교육하는 교육 프로그램도 병행했다”며 말을 이어갔다.
“지난 2년간 가장 큰 목표는 두 가지였어요. 이를테면 패치데이터를 만드는 도구 개발과 더불어 생산할 수 있는 인프라를 구축하는 것이었죠. 이를 위해 기존 재택근무 형태로 진행되는 데이터 라벨러들 양성 과정 대신 오프라인 방식으로 패치데이터를 만드는 과정을 교육했어요. 그리고 그 중에서도 일정 수준의 능력을 갖추신 분들만 따로 선정해 ‘바운드포 파트너 네트웍스’를 만들었죠. 현재 저희가 자신하는 것은 컴퓨터 비전, 그 중에서도 난이도가 가장 높은 패치데이터는 우리나라에서 바운드포가 최고라는 겁니다.”
이른바 BPN(Bound4 Partner Networks)로 명명된 전문가들은 100명 정도의 규모로 금융사를 비롯해 각 분야에서 전문성을 갖춘 시니어들로 구성돼 있다. 이들은 전국 각지에서 바운드포의 파트너로서 패치데이터 구축은 물론 저마다의 분야를 대상으로 세일즈까지 나서고 있다. 바운드포의 AI 데이터 전문성과 기존 파트너들이 보유한 분야별 전문성이 시너지를 내며 각 분야에 데이터 생태계를 구축하고 있는 것이다. 결과적으로 이와 같은 전략은 지난해부터 매년 2배 이상의 매출 증대라는 성과로 돌아오고 있다.
각고의 노력 끝에 성장세를 맞이한 바운드포의 시선은 이제 국내를 넘어 글로벌로 향하고 있다. 이미 지난해 엔비디아 인셉션 프로그램에 합류하며 글로벌 시장에서 기술력은 검증 받은 상황이다. 황 대표는 “삼성이 평택에 반도체 파운드리의 핵심적인 생산라인을 만들고 있는 것을 벤치마킹하고 있다”며 글로벌 전략을 설명했다.
“삼성과 같이 저희도 고품질 데이터를 만드는 생산 기지를 국내에 두고, 미국의 빅테크, 유럽의 AI 기업들에게 데이터를 공급하기 위한 준비를 하고 있습니다. 데이터는 무형의 자산이기 때문에 반도체와 같은 물류 부담이 없다는 장점도 있으니까요. 현재는 엔비디아의 AI 컨퍼런스인 ‘GTC 2025’에서 발표할 핵심 기술을 준비 중입니다.”
황 대표는 “기업들의 생산 라인에 적용되는 민감 데이터들이 대부분인 상황에서 데이터 구축은 온프레미스 방식으로 진행된다”며 데이터 안전에 대해서도 강조했다. 데이터 보안의 문제는 AGI 시대가 도래했을 때 예측하기 어려운 윤리적, 사회적 문제로 이어질 수도 있다. 이를 위해 황 대표는 한양대 법학전문대학원 지식재산권 박사과정을 밟으며 관련된 전문성을 강화하는 중이다.
“다수의 투자사나 언론에서 AGI 시대는 올바른 방향성으로 간다면 3년 이내에 도래한다고 전망하더군요. 하지만 문제가 되는 것이 데이터 부족이라고 합니다. 데이터 부족으로 AI 고도화가 지연되면 AGI 등장이 지연된다는 것이죠. 이에 바운드포는 AGI 시대를 대비해 좋은 데이터를 글로벌 시장에 원활하게 유통할 수 있는 생산 역량과 유통망을 만드는데 집중할 계획입니다. 그 과정에서 물리적인 현실 세계에 AI가 작동할 때 발생할 수 있는 리스크를 고려하고 준법적으로 AI를 학습시키는 데이터 구축도 신경을 쓸 생각입니다.”
인터뷰 말미, 황 대표는 “AGI 시대를 앞두고 미국 빅테크 등과 동등한 경쟁을 하기 위해서는 우리나라 AI 기업들이 각자 잘 할 수 있는 영역에서 협업하며 원팀으로 대응해야 한다”며 “글로벌 시장에서 경쟁할 수 있는 구조를 만드는 것이 우리나라 모든 AI 기업이 AGI 시대가 오기 전에 준비해야 할 일”이라고 재차 강조했다.
황인호 바운드포 대표의 좀 더 자세한 이야기는 오는 25일 JW 메리어트 호텔 그램드볼룸에서 개최되는 ‘AGI 콘퍼런스 2024-AGI 시대 돈 버는 AI’에서 ‘Post GPT 시대, AI 데이터 팹리스와 파운드리’ 주제 발표로 확인할 수 있다.