음성 기반 인공지능(AI) 전문 기업인 미디어젠은 한국정보화진흥원(NIA)이 추진하는 ‘2020 인공지능(AI) 학습용 데이터 구축 사업’ 중 ‘감성 대화 말뭉치 AI 데이터 구축’ 분야의 수행 기업으로 선정됐다고 30일 밝혔다.
정부가 추진하는 이번 사업은 산업적 활용 가치가 높으며 데이터 확보가 시급한 스무 가지 분야를 선정해 양질의 AI 학습용 데이터를 대규모로 저장하고 필요에 따라 개방하기 위한 목적으로 운영된다.
미디어젠은 ‘딥러닝 기반 감성대화 서비스 인공지능 챗봇’ 개발용 AI 말뭉치 데이터 구축에 참여하며 11월 30일까지 데이터 구축 및 딥러닝 모델 개발을 수행할 예정이다. 이 과제를 통해 구축할 감성대화 말뭉치 데이터는 여러 감정과 상황에서 사람이 표출할 수 있는 다양한 음성 발화(말하기) 표현과 응답 대화를 기반으로 수집된다. 사람의 감정적인 발화에 대해 긍정적인 감정을 유도하기 위한 감성 챗봇을 개발하는 데 기여할 전망이다.
미디어젠은 음성 및 언어 AI 전문 연구소인 남즈(NAMZ) 연구소를 운영하고 있으며 차량 음성인식 분야에서도 세계 최고 수준의 품질 경쟁력을 보유하고 있는 기업으로 과제를 통해 다양한 대화 시스템 개발에 활용할 수 있는 알버트(ALBERT) 기반 언어 모델을 제공할 계획이다.
알버트(ALBERT)는 대화 모델을 최적화하고 학습 방법을 개선해 기존 딥러닝 언어 모델인 BERT의 성능을 유지하면서 모델 크기는 줄인 경량화된 버전으로 현재 SQuAD2.0의 최상위권을 차지하고 있는 가장 진보된 모델이다.
과제 총책임자 송민규 상무는 “크라우드 소싱 방식을 활용하여 빅데이터 가공 인력을 추가 채용해 일자리 창출에 적극 노력할 계획이며 AI 오픈 플랫폼 기업 및 인공지능 분야 전문가들과의 협업을 통해 추가적인 시너지 효과도 기대하고 있다”고 말했다.
아울러 “구축되는 구어 말뭉치 AI 데이터와 알버트(ALBERT) 모델을 일반에 공개해 새로운 챗봇을 직접 만들어 보는 해커톤 대회도 개최할 예정이므로 많은 관심을 부탁드린다”고 덧붙였다.
미디어젠은 이번 과제를 통해 AI 기술의 미래 유망 분야인 감성대화 기술을 활성화하는 데 주력하며 다양한 영역에서의 AI 서비스 구축과 신시장 진출을 확대할 계획이다. 미디어젠 개요 미디어젠은 음성인식 기술의 한길만을 걸어온 국내 No. 1 음성인식 솔루션 전문기업이다.