AI는 데이터 라벨링부터 시작한다

데이터는 물과 같다?

지구의 70%는 바다로 채워져 있으며, 그 무한에 가까운 물을 사용해 인류는 생존한다.

커피로 마시고, 술로 마시고, 얼음으로도 만들고, 전기 생산을 위해 발전소의 열을 식히기도 한다. 

그러나 많은 국가에서 물이 부족해 공급 문제를 겪는다.

사실 무한이지만 바로 사용할 수 없기 때문.

우리가 마실 수 있는 물을 만들기 위한 정제 작업이 필요하다.

데이터 역시 정제가 필요한 물과 같다.

 

AI의 핵심, 데이터 라벨링

오늘날의 ICT 환경에서 데이터 역시 물처럼 많다. 

활용 역량에 따라 인류의 생활이 달라지는 성격도 유사하다.

그러나 AI는 단순 데이터만으로 아무런 계산도 할 수 없기에, 그 자체만으로는 의미를 가질 수 없다.

데이터를 학습 가능한 형태로 바꾸는 라벨링 작업이 필요하다.

데이터 라벨링은 원천 데이터를 가공을 통해 학습 가능한 데이터로 변환하는 작업을 말한다.

 

(출처: 슈퍼브AI)

 

위 사진을 보면 사람으로 눈으로는 인도의 사람, 도로의 차량, 주변 장애물을 인식할 수 있다.

그러나 AI는 이를 구분할 수 없기 때문에, 무엇이 무엇이라는 지정이 필요하다.

자율주행 차량의 경우, 미리 이렇게 지정된 데이터를 바탕으로 운행되고 있는 것.

그래야만 차량이 카메라를 통해 유사한 이미지를 습득하더라도 도로를 따라 차량과의 간격을 유지할 수 있다.

예를 들면, 테슬라의 자율주행 사고는 AI가 흰색 트럭 지붕이 도로에 있는 상황에 대한 데이터를 학습하지 못해 발생했다.

물론 학습 후에는 유사한 사고가 일어나지 않는다.

 

테슬라 자율주행 사고 (출처: 메리츠증권리서치센터)

 

사실 데이터 라벨링 방식은 사람이 하나하나 사람이 작업하는 방식이었다.

정형화되지 않은 이미지나 영상은 사람이 그리거나 점으로 이어붙여 변환했던 것.

여기에 속도를 붙일 수 있었던 것은 라벨링 솔루션 기업의 등장 덕분이다.

게다가 바운딩, 폴리라인, 폴리곤 등의 라벨링 작업은 정밀도과 지정 선택 측면에서 해당 분야 전문가가 맡아야만 일정 수준의 학습 가능한 데이터를 만들 수 있었다.

전문 데이터 라벨링 기업은 데이터를 텍스트, 이미지, 비디오, 오디오로 나눠 작업할 수 있는 솔루션을 구현했다.

물론 사람이 작업한다는 건 달라지지 않았지만, 전문 인력이 아닌 일반인도 쓸 수 있게 솔루션을 만들어 작업 비용을 낮췄다.

 

박스 형태로 묶는 바운딩(출처: 테스트웍스)
점 찍어 연결하는 폴리곤
키포인트(출처: 테스트웍스)

 

잘 나가는 데이터 가공 공장들

데이터 라벨링 기업은 데이터 가공 공장인 셈이다.

현재 슈퍼브AI, 테스트웍스, 크라우드웍스 등이 데이터 라벨링 솔루션 기업들이 업계를 주도하고 있다.

 더불어 정부의 디지털 뉴딜의 핵심인 '데이터 댐' 사업으로 미래 역시 밝다. 

과기정통부는 올해도 1300억원의 예산을 데이터 바우처, 데이터 플래그십, 중소기업 빅데이터 활용 지원 등에 투입할 예정이다.

여기서 데이터는 라벨링된 데이터거나 라벨링을 통해 만들어지는 데이터를 의미한다.

데이터 라벨링 업계 관계자는 "축적된 다량의 데이터를 가진 대기업에서도 AI를 활용하기 전에 라벨링을 위해 찾아온다"며, "데이터 관련 일거리는 계속 생길 것"이라고 전했다. 

 

 

석대건 기자

daegeon@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

헤즈볼라 겨냥한 ‘죽음의 삐삐’ 폭발···멀웨어, 문자, 그리고 의문의 헝가리 업체

17일 오후(현지시각) 중동 분쟁지역 중 하나인 레바논 여러 도시에서 레바논 무장 정파 헤즈볼라 대원들의 무선호출기(페이저·일명 삐삐) 수천대가 치명적인 폭발을 일으켰다. 분명해지는 것은 이번 사건이 사전에 무선호출기 공급망과 어떻게든 연결돼 있었고 여기에 폭약이 들어갔을 개연성이 높아지고 있다는 점이다. 또한 여기에 멀웨어와 휴민트 개입이 있었을 가능성이 높아지고 있다는 점이다. 물론 가장 유력한 배후로 이스라엘이 의심받고 있지만 확증은 없고, 이스라엘은 함구하고 있다.

“당신은 인간인가요?” 샘 알트먼의 디스토피아 ‘월드ID 홍채 디지털 여권’

갑자기 온라인에서 우리와 공존하는 다른 존재가 생겨나 다른 사람들과 구별할 수 없게 되며, 심지어 그들은 매우 똑똑하다. 문제는 AI의 특정 목표는 사회가 원하는 것과 일치하지 않을수 있다는 점이다. 샘 알트먼은 그가 만들고 있는 AI가 지배하는 세상에서 우리를 구하고자 한다. 그의 계획은 지구상의 모든 사람의 눈동자를 스캔하고 자신이 만든 암호화폐로 모든 거래를 지불하게 만들려는 시도가 포함된다.

전기차 전환 흐름에 퍼펙트스톰···EU거인들이 맞닥뜨린 고통스런 진실

올초부터 서서히 부상하기 시작한 전기차의 낮은 성장세가 유럽의 전기차 제조업체들의 완전전기차 전환 계획을 잇따라 연기 또는 폐기하게 만들고 있다. 세계 자동차 제조업체들이 전기차전환 계획 항로에서 퍼펙트스톰을 맞았다는 분석이 나왔다. 저렴한 모델 부족, 느린 충전소 인프라 확대, 미중 기술경쟁에 따른 중국산 차량에 대한 관세 부과 부담 등이 그것이다. 사진은 완전 전기차로의 전환계획이나 당초 계획한 새 전기차 출시 계획 및 완전전기차 전환 시점을 연기한 볼보와 메르세데스 전기차 컨셉카(왼쪽부터)와 폭스바겐의 차량들이다.

‘AI FOR ALL’, 머신러닝 솔루션으로 몰로코가 만들어가는 ‘AI 수익화’ 혁신

몰로콘24 키노트 발표에 나선 안익진 몰로코 대표. 애플, 구글, 메타 등이 구축한 글로벌 광고 생태계의 영향력을 벗어나 독자적인 머신러닝 솔루션으로 혁신을 선보이는 기업이 바로 몰로코다. 몰로코는 스트리밍 플랫폼·앱·게임·커머스 등의 분야에서 고도화된 자사의 머신러닝 솔루션을 적용해 놀라운 비즈니스 성과를 만들어 냈고, 그 결과 2020년 150억원을 기록했던 매출은 최근 1.5조원으로 100배 급증하며 시장에 놀라움을 던지고 있다. 그러한 몰로코의 성과와 비즈니스 혁신 사례는 최근 서울 삼성동 코엑스 신한카드 아티움에서 개최된 ‘MOLOCON SEOUL 2024: AI FOR ALL’을 통해 소개됐다.