자연어를 이해하는 실용 AI 기술 기업 무하유는 과학기술정보통신부가 주관하고, 한국지능정보사회진흥원이 추진하는 '2024년 초거대 AI 데이터 구축사업'의 주관기업으로 선정됐다고 7일 밝혔다.
무하유는 해당 사업 내 교육 영역의 '학술논문 이해 데이터' 구축을 담당한다. 일반인들도 학술 논문을 쉽고 빠르게 이해할 수 있도록 CC-BY 라이선스[1] 형태의 학술 논문 1만 건에 대한 포스터 생성을 돕는다.
포스터 생성을 위한 논문 요약, 핵심 표·그림 선정, 표·그림에 대한 설명문 작성 등을 지원하는 학습 데이터를 구축하고, AI 모델을 개발할 예정이다. 이는 데이터 수집부터 모델링까지 AI 모델 제작을 위한 전 과정에 해당한다.
무하유 측은 “수작업으로 진행할 경우 많은 시간이 소모되는 학술논문 포스터 제작을 자동화하는 것이 목표”라며 “학술 논문 전문 중 포스터에 활용될 영역을 매핑하는 데이터를 라벨링하는 게 핵심이며, 라벨링 과정에는 국내 연구기관출신의 석·박사급 인재를 고용해 정확도를 높일 계획”이라고 설명했다.
무하유는 지난 13년간 AI 기반 학술논문 전문 표절검사 서비스 '카피킬러'를 운영하며 축적한 자연어 이해(NLU) 전문성 및 학술 논문 내용에 대한 높은 이해도를 바탕으로 안정적으로 데이터를 구축해왔다.
이번 사업에는 품질관리 전문기업 더테스트가 참여해 구축 데이터의 품질을 보증할 예정이다. 주관기관이 구축 과정에서 자체 검증한 데이터를 교차 검증해 데이터 품질을 제고한다.
신동호 무하유 대표는 "무하유는 AI 기반의 논문표절 검사, 서류 분석, 비대면 면접 등 다양한 서비스를 자체 개발해 운영하고 있으며, 이를 위한 AI 모델 개발 관련 석박사급 인력을 다수 보유하고 있어 분야 전문성이 우수하다"며 "자체 보유한 데이터 팩토리를 통해 신뢰할 수 있는 고품질 데이터를 대량 구축할 수 있어 공공부문에서의 구축 사례가 늘고 있다"고 전했다.
한편 무하유는 데이터셋 구축 전문 플랫폼 ‘데이터 팩토리’를 운영하며 고품질의 학습 데이터셋을 구축해 오고 있다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다. 대량으로 생성해야 하는 데이터는 AI가 담당하고, 생성된 데이터의 품질을 높이는 건 사람이 담당하는 방식을 적용해 시간을 단축하고 학습 데이터의 품질을 보장하고 있다.
[1] CC-BY 라이선스 : 저작자를 명시하는 조건 하에 창작물 복사 및 배포 가능하며 상업적으로 이용할 수 있도록 허용하는 라이선스