AI는 데이터 라벨링부터 시작한다

데이터는 물과 같다?

지구의 70%는 바다로 채워져 있으며, 그 무한에 가까운 물을 사용해 인류는 생존한다.

커피로 마시고, 술로 마시고, 얼음으로도 만들고, 전기 생산을 위해 발전소의 열을 식히기도 한다. 

그러나 많은 국가에서 물이 부족해 공급 문제를 겪는다.

사실 무한이지만 바로 사용할 수 없기 때문.

우리가 마실 수 있는 물을 만들기 위한 정제 작업이 필요하다.

데이터 역시 정제가 필요한 물과 같다.

 

AI의 핵심, 데이터 라벨링

오늘날의 ICT 환경에서 데이터 역시 물처럼 많다. 

활용 역량에 따라 인류의 생활이 달라지는 성격도 유사하다.

그러나 AI는 단순 데이터만으로 아무런 계산도 할 수 없기에, 그 자체만으로는 의미를 가질 수 없다.

데이터를 학습 가능한 형태로 바꾸는 라벨링 작업이 필요하다.

데이터 라벨링은 원천 데이터를 가공을 통해 학습 가능한 데이터로 변환하는 작업을 말한다.

 

(출처: 슈퍼브AI)

 

위 사진을 보면 사람으로 눈으로는 인도의 사람, 도로의 차량, 주변 장애물을 인식할 수 있다.

그러나 AI는 이를 구분할 수 없기 때문에, 무엇이 무엇이라는 지정이 필요하다.

자율주행 차량의 경우, 미리 이렇게 지정된 데이터를 바탕으로 운행되고 있는 것.

그래야만 차량이 카메라를 통해 유사한 이미지를 습득하더라도 도로를 따라 차량과의 간격을 유지할 수 있다.

예를 들면, 테슬라의 자율주행 사고는 AI가 흰색 트럭 지붕이 도로에 있는 상황에 대한 데이터를 학습하지 못해 발생했다.

물론 학습 후에는 유사한 사고가 일어나지 않는다.

 

테슬라 자율주행 사고 (출처: 메리츠증권리서치센터)

 

사실 데이터 라벨링 방식은 사람이 하나하나 사람이 작업하는 방식이었다.

정형화되지 않은 이미지나 영상은 사람이 그리거나 점으로 이어붙여 변환했던 것.

여기에 속도를 붙일 수 있었던 것은 라벨링 솔루션 기업의 등장 덕분이다.

게다가 바운딩, 폴리라인, 폴리곤 등의 라벨링 작업은 정밀도과 지정 선택 측면에서 해당 분야 전문가가 맡아야만 일정 수준의 학습 가능한 데이터를 만들 수 있었다.

전문 데이터 라벨링 기업은 데이터를 텍스트, 이미지, 비디오, 오디오로 나눠 작업할 수 있는 솔루션을 구현했다.

물론 사람이 작업한다는 건 달라지지 않았지만, 전문 인력이 아닌 일반인도 쓸 수 있게 솔루션을 만들어 작업 비용을 낮췄다.

 

박스 형태로 묶는 바운딩(출처: 테스트웍스)
점 찍어 연결하는 폴리곤
키포인트(출처: 테스트웍스)

 

잘 나가는 데이터 가공 공장들

데이터 라벨링 기업은 데이터 가공 공장인 셈이다.

현재 슈퍼브AI, 테스트웍스, 크라우드웍스 등이 데이터 라벨링 솔루션 기업들이 업계를 주도하고 있다.

 더불어 정부의 디지털 뉴딜의 핵심인 '데이터 댐' 사업으로 미래 역시 밝다. 

과기정통부는 올해도 1300억원의 예산을 데이터 바우처, 데이터 플래그십, 중소기업 빅데이터 활용 지원 등에 투입할 예정이다.

여기서 데이터는 라벨링된 데이터거나 라벨링을 통해 만들어지는 데이터를 의미한다.

데이터 라벨링 업계 관계자는 "축적된 다량의 데이터를 가진 대기업에서도 AI를 활용하기 전에 라벨링을 위해 찾아온다"며, "데이터 관련 일거리는 계속 생길 것"이라고 전했다. 

 

 

석대건 기자

daegeon@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

[인터뷰] 윤거성 펄스애드 대표 “셀러의 광고 효율을 높여주는 글로벌 리테일 미디어 플랫폼을 만들고 있습니다”

설립 직후 시드 투자 유치에 이어 아마존 광고 기술 분야 파트너 선정, 이어진 CJ ENM으로부터 전략적 투자 유치, 팁스 선정 등이 모두 지난 몇 개월 사이에 펄스애드가 이뤄낸 일들이다. 놀랍도록 빠른 속도로 성과를 만들어 내고 있는 펄스애드의 전략과 무기, 다가오는 새해의 계획은 무엇일까? 오는 28일 개최되는 ‘디지털 마케팅 인사이트 2025(DMI 2025)’에서 ‘리테일 미디어의 성장과 브랜드의 채널 전략 변화’를 주제로 발표를 앞둔 윤거성 대표를 만나 좀 더 구체적인 이야기를 들어봤다.

‘2024 빅테크 성적표’ AI 지출과 기업 점유율 보기

올해 빅테크의 AI에 대한 기업지출이 올해 500% 급증해 약 19조원을 쏟아부은 것으로 집계됐다. 그동안 AI 시장의 선두에 있었던 오픈AI의 시장 점유율은 지난해 50%에서 올해 34%로 줄어들었으며, 이는 경쟁사인 앤트로픽의 챗봇 모델 클로드 3.5의 활약때문이라는 분석이 나온다.

AI부터 암호화폐까지 ‘트럼프 2기’ 변화할 핵심 ‘기술 정책’

도널드 트럼프가 백악관으로 복귀하고 공화당이 양원을 장악하면 의심할 여지 없이 기술 분야가 재편될 것으로 보인다. 트럼프의 미국 우선주의 철학과 함께, 규제보다 혁신에 기반한 그의 행정부 정책은 AI, 사이버 보안 및 기타 핵심 기술 정책 분야의 글로벌 역학을 크게 바꾸면서 급속한 기술 발전을 촉발할 것으로 예상되고 있다.

스타워즈에서 영감을 받은 킬러 위성이 등장했다

조지 루카스 감독의 스타워즈(1977)에 등장한 ‘데스스타’(죽음의 별)는 가상의 우주 정거장이자 슈퍼무기다. 이 영화에 영감을 받은 중국 과학자들이 실제로 ‘데스 스타’를 만들었다. 스타워즈에서 영감을 받은 이 무기는 마이크로파 빔을 집중시켜 적의 위성을 쓸어버린다.