무하유, '2024년 초거대 AI 데이터 구축사업' 주관기업 선정

자연어를 이해하는 실용 AI 기술 기업 무하유는 과학기술정보통신부가 주관하고, 한국지능정보사회진흥원이 추진하는 '2024년 초거대 AI 데이터 구축사업'의 주관기업으로 선정됐다고 7일 밝혔다.

무하유는 해당 사업 내 교육 영역의 '학술논문 이해 데이터' 구축을 담당한다. 일반인들도 학술 논문을 쉽고 빠르게 이해할 수 있도록 CC-BY 라이선스[1] 형태의 학술 논문 1만 건에 대한 포스터 생성을 돕는다.

포스터 생성을 위한 논문 요약, 핵심 표·그림 선정, 표·그림에 대한 설명문 작성 등을 지원하는 학습 데이터를 구축하고, AI 모델을 개발할 예정이다. 이는 데이터 수집부터 모델링까지 AI 모델 제작을 위한 전 과정에 해당한다.

무하유 측은 “수작업으로 진행할 경우 많은 시간이 소모되는 학술논문 포스터 제작을 자동화하는 것이 목표”라며 “학술 논문 전문 중 포스터에 활용될 영역을 매핑하는 데이터를 라벨링하는 게 핵심이며, 라벨링 과정에는 국내 연구기관출신의 석·박사급 인재를 고용해 정확도를 높일 계획”이라고 설명했다.

무하유는 지난 13년간 AI 기반 학술논문 전문 표절검사 서비스 '카피킬러'를 운영하며 축적한 자연어 이해(NLU) 전문성 및 학술 논문 내용에 대한 높은 이해도를 바탕으로 안정적으로 데이터를 구축해왔다.

이번 사업에는 품질관리 전문기업 더테스트가 참여해 구축 데이터의 품질을 보증할 예정이다. 주관기관이 구축 과정에서 자체 검증한 데이터를 교차 검증해 데이터 품질을 제고한다.

신동호 무하유 대표는 "무하유는 AI 기반의 논문표절 검사, 서류 분석, 비대면 면접 등 다양한 서비스를 자체 개발해 운영하고 있으며, 이를 위한 AI 모델 개발 관련 석박사급 인력을 다수 보유하고 있어 분야 전문성이 우수하다"며 "자체 보유한 데이터 팩토리를 통해 신뢰할 수 있는 고품질 데이터를 대량 구축할 수 있어 공공부문에서의 구축 사례가 늘고 있다"고 전했다.

한편 무하유는 데이터셋 구축 전문 플랫폼 ‘데이터 팩토리’를 운영하며 고품질의 학습 데이터셋을 구축해 오고 있다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다. 대량으로 생성해야 하는 데이터는 AI가 담당하고, 생성된 데이터의 품질을 높이는 건 사람이 담당하는 방식을 적용해 시간을 단축하고 학습 데이터의 품질을 보장하고 있다.


[1] CC-BY 라이선스 : 저작자를 명시하는 조건 하에 창작물 복사 및 배포 가능하며 상업적으로 이용할 수 있도록 허용하는 라이선스

황정호 기자

jhh@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

주주(ZUZU), ‘글로벌 스타트업 전용관’ 개설…해외 스타트업과 한국 VC 연결한다

코드박스는 해외 유망 스타트업과 한국 벤처캐피털(VC) 간의 투자 연결을 강화하기 위해 ‘ZUZU 글로벌 스타트업 전용관’을 개설했다고 11일 밝혔다. 코드박스에 따르면...

다이노즈, 서울시 종로구가족센터와 MOU 체결…공동육아 활성화 협력

모바일 앱 ‘엄마들의 동네 육아친구 찾기 - 육아크루’를 운영하는 다이노즈는 종로구가족센터와 업무협약(MOU)을 체결했다고 11일 밝혔다. 지난 5일 진행된 협약을 통해...

레인보우로보틱스-티로보틱스, 대규모 물류자동화 로봇 시장 공략 ‘한마음’

로봇 플랫폼 전문기업 레인보우로보틱스는 공장자동화 및 AMR 전문 기업 티로보틱스와 손잡고 대규모 물류자동화 로봇 시장 공략을 위한 공동 사업 추진...

데이터스페이스 영·일 웹 서비스, 글로벌 SaaS 시장 진입

오픈서베이는 자사가 운영하는 B2B SaaS 플랫폼 데이터스페이스가 글로벌 웹 서비스를 지원한다고 11일 밝혔다. 오픈서베이 측은 “기업의 데이터 활용을 돕는 리서치&경험...