AI 학습용 데이터 170종 4.8억건 민간 공개...'데이터 댐' 개방

정부가 2017년부터 쌓아온 인공지능(AI) 학습용 데이터를 민간에 개방한다. 이번에 개방하는 데이터는 170종, 4억8000만건에 달하며 인공지능 허브(aihub.or.kr)를 통해 18일부터 개방된다. 이 프로젝트는 과학기술정보통신부와 한국지능정보화사회진흥원이 담당했다.

인공지능 허브를 통해 개방되는 AI 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업 및 스타트업, 그리고 대기업도 자체 확보가 어려운 대규모 데이터를 제공한다. 이로 인해 국내 AI 산업계의 가장 큰 걸림돌이었던 '데이터 갈증'이 어느 정도 해소될 것으로 기대된다.

그동안 국내 AI 기업들은 AI 개발에 필요한 데이터 확보를 위해 해외의 '오픈데이터'를 주로 활용해 왔다. 그렇지만 한국어와 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 우리나라에 적합한 AI 서비스 개발에 한계점이 있었다.

이번에 공개되는 데이터에는 지역별 방언(사투리)를 포한 한국어, 국내 주요 도로, 환자 의료영상 데이터 등이 대폭 확충됐다.

오는 30일 공개 예정인 경상 전라 충청 강원 제주의 사투리 발화 데이터는 표준어에 비해 사투리를 인식하지 못했던 음성기반 AI 서비스의 문제점을 상당 부분 해결해 줄 것으로 기대된다. 이는 데이터 개방 전 활용성 검토 결과 '자연스러운 방언이 수집됨', '기존 서비스의 인식률이 12% 향상됨' 등 좋은 평가를 받기도 했다.

18일부터 30일까지 순차적으로 공개되는 자율주행 데이터는 도로주행 영상, 각종 장애물 인지영상, 버스 노선 영상 등의 데이터를 제공한다. 이렇듯 특수 차선이나 포트홀 등 다양한 객체가 포함돼 있어 국내 환경에 맞는 자율주행차 개발에 도움이 될 것으로 기대된다.

이번에 대규모로 개방되는 8대 분야 170종의 AI 학습용 데이터는 기획부터 구축까지 산업계, 전문가, 그리고 일반 국민들이 참여해 만들어 졌다.

 

민간의 광범위한 수요를 바탕으로 분야별 전문가와 기업이 직접 참여해 해당 데이터(한국어 음성, 도로주행 영상, 주요 암질환 영상 데이터 등)를 기획했다. 이 데이터는 민간에서 대규모로 구축이 어렵고, 산업 파급효과가 큰 영역의 데이터를 모으는 것이 목표다.

그리고 데이터 구축에는 국내 AI 및 데이터 전문기업과 주요 대학, 병원 등 총 674개 기업/기관이 참여했다.

가장 주목할 부분은 데이터의 수집과 가공 과정에서 경력단절여성, 취준생 등 국민 누구나 참여할 수 있는 크라우드 소싱 방식을 도입해 4만여명의 참여를 이끌어 냈다.

2020년 AI 학습용 데이터 구축 예시
2020년 AI 학습용 데이터 구축 예시

이렇게 모인 AI 학습용 데이터는 그 품질과 활용성 검증에 각 분야의 전문가 80여명이 참여하는 품질 관리 지원체계를 구축했다. 또한 네이버, LG, 삼성전자, KT, 현대차 등 대기업을 비롯해 스타트업, 대학, 연구기관 등 20여개 기업/기관이 참여해 활용성 검토를 진행했다.

과기정통부 양기성 데이터진흥과장은 "데이터 개방 후에도 이용자 참여형 집중개선기간을 운영하면서 요구사항을 적극 반영하는 민관 협력을 통해 지속적으로 데이터를 개선할 것"이라고 말했다.

한편, 과기정통부는 AI 학습용 데이터 개방과 함께, 18일 인공지능 데이터 활용협의회 출범식을 갖고 현장 간담회를 개최해 이용 기업/기관의 의견을 수렴했다.

이 자리에서 임혜숙 과기정통부 장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"고 강조했다.

김광우 기자

kimnoba@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

초기투자AC협회, 글로벌 엔젤투자 국제기구 WBAF와 협약 갱신

초기투자액셀러레이터협회(이하 협회)는 바레인의 수도 마나마에서 열린 2024 WBAF Global Congress에서 WBAF(World Business Angels Investment Forum)와 글로벌 파트너스 업무협약을 체결했다고 22일...

스노우플레이크, 마이크로소프트 파워 플랫폼 전용 커넥터 출시

글로벌 AI 데이터 클라우드 기업 스노우플레이크(Snowflake)는 미국 워싱턴주 시애틀에서 개최된 연례 개발자 컨퍼런스 마이크로소프트 이그나이트(Microsoft Ignite)에서 마이크로소프트 파워 플랫폼(Microsoft Power...

삼성전자, 차세대 AI '가우스2' 공개..."기존 오픈소스 모델보다 3배 빨라"

삼성전자가 자체 개발한 2세대 생성형 AI 모델 '삼성 가우스2'를 공개했다. 기존 오픈소스 AI 모델 대비 처리 속도가 최대 3배 빠르고, 다양한 형태의 데이터를 동시에 처리할 수 있는 것이 특징이다.

대화형 AI 에이전트 ‘젠투’, ‘98% 고객 붙잡는 커머스 전략’ 웨비나 개최

대화형 인공지능(AI) 에이전트 ‘젠투(Gentoo)’ 개발사 와들은 ‘이탈하는 98%의 고객을 붙잡는 온라인 커머스 성공 전략’을 주제로 웨비나를 개최한다고 21일 밝혔다. 와들...