네이버는 1년에 한 번씩 '커넥트 컨퍼런스'라는 대규모의 오프라인 행사를 진행해왔다. 2019년 겨울이 마지막이었다. 코로나 시국으로 인해 인산인해를 이루며 사람들이 모이는 대부분의 오프라인 행사들이 '웨비나(Webinar)'와 같은 온라인 방식으로 진행되기도 한다. 5월 25일 오후 2시부터 네이버 TV 라이브를 통해 네이버 인공지능의 현주소와 미래 지향 프로젝트를 알리기 위한 온라인 행사가 이른바 <NAVER AI NOW>라는 거창한 타이틀로 약 3시간 30분간 펼쳐졌다. 모두를 위한 AI의 시작, 모두를 위한 일상 속의 도구로 새로운 AI 시대를 열겠다는 네이버의 비전을 조금이나마 엿볼 수 있는 기회가 되기도 했다.
아래는 네이버 Clova 정석근 CIC 대표의 키노트를 시작으로 각 세션별 요약이니 참고하길 바라며 공식 홈페이지에서 다시 볼 수 있다.
<세션 1>
Keynote : 네이버 클로바 CIC 정석근 대표
'NAVER AI NOW'는 '모두를 위한 일상의 도구'라는 타이틀 아래 그동안 연구하고 개발한 인공지능 클로바(Clova)의 현재와 앞으로 나아갈 방향과 비전을 제시하는 자리다. 그간 야후 재팬과 라인, 소프트뱅크와 경영 통합을 이룩하며 힘을 키워왔다. 특히 슈퍼컴퓨터를 도입하여 '한국어 최대 언어 모델'을 구축하고자 자연어 처리, 음성인식, 음성합성 등의 기술을 독자적으로 개발하고 있는 상황이다. 대규모 데이터를 학습하는 슈퍼컴퓨팅, 고품질의 데이터 수집, 2020년 한 해 동안 40여 개의 인공지능 관련 논문을 발표한 전문가 집단을 통해 하이퍼클로바(Hyper Clova)를 구축해왔으며 이를 통해 보다 거대한 규모(Hyper Scale)의 인공지능 프로젝트를 진행하고 있다. 현존하는 인공지능 중 언어를 이해하고 응답하는 오픈 AI의 'GPT-3'를 뛰어넘는 수준의 인공지능으로 하이퍼클로바의 기술은 세계 최대가 될 것으로 보인다.
네이버는 베트남 하노이 과학대학, 서울대학교, 카이스트, 엔비디아, 네이버랩스 유럽 등과 꾸준하게 인공지능 프로젝트를 위해 협업을 진행해왔고 이미 10개 이상의 서비스에 적용 가능한 수준이라고 밝혔다.
오세정 서울대학교 총장, 이광형 카이스트 총장 등이 나와 축사를 하기도 했는데 그중, 오세정 총장은 "97%의 인공지능이 영어기반인 환경에서 네이버가 준비하게 될 '한국어 AI'는 거대한 빅 프로젝트이다. 서울대가 이를 위한 인재 양성을 위해 노력하겠다"라고 언급했다. 서울대학교 역시 이미 네이버와 손을 잡고 초거대규모 AI 연구센터(Hyper Scale)를 설립하고 카이스트는 네이버와 초창의적 AI 연구센터(Hyper Creative)를 세웠다.
Big Start(새로운 AI의 시작, Hyper Clova) : 네이버 클로바 Biz AI 성낙호 책임리더
하이퍼클로바의 주축이 되는 슈퍼컴퓨팅은 기존의 그 어떤 프로젝트보다 눈에 띌 정도로 시간을 단축시킬 수 있고 학습능력 또한 뛰어난 수준이라 매우 효율적인 인공지능 시스템으로 진화하고 있다. 특히 맥락을 이해하고 창작까지 도와주는 인공지능으로 변모하고 있는 상황이다. 특별한 데이터셋 없이 대화 결과를 추출할 수 있고 이전에 있었던 질문과 응답을 스스로 이해하고 답변하므로 수십여 개의 대화가 자연스럽게 이어질 수 있는 수준이다.
세션 발표 중 실제로 인공지능에게 "음악의 아버지는 누구야?"라고 질문했다. 이어 "바흐가 왜 음악의 아버지야?"라는 질문에도 스스로 대답을 하며 추가적인 답변을 제시하기도 했다.
HyperClova Infra(HyperClova를 위한 슈퍼 컴퓨팅 인프라) : 네이버 클라우드 황인용 리더
하이퍼클로바를 구축한 슈퍼컴퓨팅은 국내 유일의 인공지능이자 글로벌 상위권 수준의 인공지능으로 발전시켜줄 수 있는 기술력이 담겨있다. 특히 140개의 컴퓨팅 노드, 1천120개의 GPU를 탑재하고 있으며 일반 서버 3천대 수준의 전력과 맞먹는 수준에 이르는 인프라를 구축하고 있어 보다 거대한 프로젝트를 수행하는데 충분한 능력을 갖추고 있다.
Big Data(HyperClova를 위한 Big data) : 네이버 서치 CIC 강민호 책임리더
빅데이터는 이른바 인공지능의 핵심이다. 양질의 데이터를 수집하고 정제하여 고품질의 정보를 제공하는 것이 목적이다. 네이버는 검색이 허용된 정보, 오픈 리소스, 전문지식을 기반 지식으로 활용하되 중복되는 정보의 경우 자칫 편향된 데이터로 추출될 가능성이 있어 제외 처리하기도 한다. 양질의 정보를 위해 상위 품질의 영역까지 선별하여 데이터를 정체한다.
하이퍼클로바를 위해 약 5천600억 토큰(형태소)을 정보로 활용하게 되는데 이는 50년 분량의 뉴스, 한국어판 위키피디아의 2천900배이며 9년 분량의 블로그 정보량과 유사한 수준에 이른다.
AI Research(새로운 글로벌 AI R&D 리더십) : 네이버 AI LAB 하정우 책임리더
네이버는 글로벌 플랫폼이 공개한 오픈 소스 및 기술 적용과 달리 자체 기술 개발을 이루고자 한다. 2018년 아시아권을 연결하는 인공지능 생태계 벨트를 넘어 미국, 영국, 프랑스, 베트남에 이르기까지 인공지능 영역 생태계를 구축하여 협업을 진행하고 있다. 앞서 언급한 것처럼 서울대 AI 연구원, 카이스트 AI 대학원과 협업하며 초거대 인공지능 프로젝트를 꾸준히 진행할 계획이다. 또한 서울대와 카이스트의 교수진, 학생들은 네이버에서 프로젝트에 참여하기도 하며 네이버의 인공지능 개발자들이 서울대와 카이스트에서 연구 결과를 공유하기도 하는 등 전례 없는 겸직도 지원하게 될 예정이라고 한다.
네이버 AI는 크리에이터를 비롯하여 연구소, 스타트업, AI대학교/대학원, 파트너사 등과 함께 글로벌 AI 리더십을 구축하기 위해 벨트를 구성하고 고도화를 진행 중이다.
발표 중에는 서울대 장병탁 AI 연구원장, 카이스트 정송 AI 대학원장, 네이버랩스 유럽 리서치 그룹의 마티아스 갈리 리더가 AI 프로젝트에 대한 언급이 있었다.
참고로 파트너사로는 스캐터랩, 뤼이드, 카카오엔터프라이즈, 한국경제신문, 구글 등이었고 참여하게 되는 학교는 이미 수차례 언급한 서울대학교, 카이스트를 비롯하여 연세대, 서강대, 뉴욕대도 포함하고 있다.
AI Ethics(AI, 사람을 위한 일상의 도구) : 네이버 송대섭 책임리더
네이버의 AI 윤리준칙은 첫 번째 사람을 위한 AI 개발, 두 번째 다양성의 존중, 세 번째 합리적인 설명과 편리성의 조화, 네 번째 안전을 고려한 서비스 설계, 다섯 번째 프라이버시 보호와 정보 보안 등을 조항으로 담는다. 한성숙 대표는 네이버 커넥트 컨퍼런스에서 "AI와 로봇은 첨단 기술이지만 누구나 이용할 수 있는 일상으로의 도구로 바꿔내는 것이 네이버의 몫"이라고 언급한 바 있다. 이처럼 네이버의 인공지능은 '모두를 위한 일상의 도구'를 지향한다.
국민의 건강을 위한 도구로서 'Clova Care Call'을 도입한 후 확대하기도 했는데 코로나 시대 속에서 보건소 직원들을 직간접적으로 도와줄 수 있는 인공지능으로 지역 접촉자에 하루 2차례 전화를 걸어 증세를 확인하는 프로세스다. 성남시 상담건수만 해도 인공지능이 응대한 것은 무려 10만 건. 이 중 약 2천여 명의 증세를 조기 발견하는 성과를 이뤘다. 서울, 경기, 부산, 전주 등 전국 10개 지역으로 확대되기도 했다. 여기에는 네이버 AI Call을 기반으로 하며 자연어 처리와 음성인식 등의 기본적인 기술이 반영되었다.
이후로 서울대학교 AI 이니셔티브와 함께 협업하며 AI 윤리 준칙이 얼마나 어떻게 반영되어 기술 개발을 이뤘는지에 대한 AI 리포트를 발간할 계획이며 각 서비스에 윤리 준칙 반영을 모니터링하여 준칙 자체를 일부 수정하거나 필요한 것을 추가하는 등 개선해나갈 계획이라고 언급했다.
이상 세션 1에서 다뤄진 키노트 포함 6개의 발표가 있었다. 그나마 테크놀로지 개념보다 이론적이면서 이미 알려진 내용들이 있어 6개 발표 모두 쉽게 이해가 가능했다. 세션 2의 경우, 대부분이 하이퍼클로바를 개발하고 학습시키며 일어날 수 있는 Loss, 쿼리에 대한 답변 제시의 프로세스, 데이터셋 등 상당한 개발언어들이 다수 포함되었다. 일부 발표에서는 'log'가 담긴 수학 공식이 뜨기도 했다. 같은 한국어이지만 다른 언어를 내뱉는 경우들이 다수 있어 아래 글에서 누락되었을 수 있다. 더불어 최대한 요약한 것이니 필요한 경우 따로 링크를 붙인다(하단 링크 참조)
<세션 2>
HyperClova의 한국어 모델 : Clova Conversation 박우명, 김보섭, 김형석
한국어 학습 모델은 네이버의 각 서비스에서 추출한 수많은 데이터를 기반으로 반복 학습되고 있다. "학습 중에는 충분히 이슈가 생긴다. 문제가 발생하고 시간이 다소 소요되더라도 학습 모델의 볼륨을 키워왔다. 그 결과 학습이 진행될수록 손실 없이 원활하게 진행되었고 결국 고성능으로 발전할 수 있었다"라고 한다.
다양한 어휘 집합군을 학습할 필요가 있으나 정제된 데이터가 매우 중요한 상황이었다. 말뭉치의 경우 대략 2 테라 바이트 수준이지만 이를 모두 추출하여 학습하거나 검증할 수 없어 1%를 추출하여 검증하고 다시 1%를 꺼내 추출, 검증하는 방식으로 진행했다.
HyperClova Studio, 나에게 필요한 인공지능 내 손으로 쉽게 만들기 : 네이버 AI LAB 장민석
언어 번역, 제목 생성, 기사 작성, 자기소개서 작성, 이메일 작성 등 프로그래밍 언어가 아닌 자연어 처리로 가능해질 수 있도록 구현했다. 이러한 기능은 '하이퍼클로바 스튜디오'에서 가능하도록 구축했으며 사용자 리서치, 에러 분석, 모니터링 등 손쉬운 개발 환경을 넘어 서로 공유 가능한 플랫폼으로 진화해왔다.
하이퍼클로바 스튜디오에서 예제를 실행하고 테스트한 결과로 나만의 AI를 개발하고 네이버와 라인 등 클로바 생태계 안에서 완벽하게 활용 가능하도록 고도화가 진행 중이라고 언급했다.
HyperClova의 활용 (1) 검색 어플리케이션(Search Application) : 네이버 Search NLP 김선훈
사용자 검색 질의에 대한 쿼리를 재작성하거나 쇼핑 리뷰를 요약 혹은 질의응답에 관한 프로세스 등을 보다 구체화하고 있다. 특히 질의 내용에 오타가 있는 경우나 띄어쓰기가 잘못되어 의미가 달라지는 케이스, 잘못된 정보가 있는 경우를 인공지능이 판단하여 쿼리를 재작성한다.
쇼핑 리뷰의 경우 리뷰 클러스터링을 통해 한 줄로 요약한 중론을 취합해 결과물로 노출시키기도 한다. 질의응답의 경우, "한글 만든 사람이 누구야?" 혹은 How나 Why에 대한 질의 등을 지식 백과 기반으로 Few-Shot 서치를 통해 다시 한번 질의를 만들고 답변을 위한 연관정보를 구성한다. 검색 결과 중 passage 안에 관련 키워드가 있는지, 응답에 대한 팩트 체크로 신뢰도를 확인한다. 결과적으로 질의에 대한 응답은 연관성, 신뢰도, 팩트체크 모두 담아 노출시킨다.
HyperClova의 활용 (2) AI 어시스턴트(AI Assistant) : 네이버 AI Assistant 김경덕
인공지능 대화에서 화자의 질문과 응답이 섞여있는 대화의 '전체'를 이해하고 시스템이 이를 인지하여 응답을 선택해 답변으로 제시한다. '미세먼지 알려줘'라는 쿼리를 보냈을 때 미세먼지의 농도는 물론이고 미세먼지의 의미까지 생성하여 답변을 준비하도록 한다는 것이다. 따라서 보다 고품질의 대화가 진행될 가능성이 높다.
AI 어시스턴트는 보다 원활하고 심층적인 대화 기술을 위해 Real service에 적용 가능한 최적화, Multi-Turn 대화의 자연스러운 기술 확보, 품질 향상과 더불어 효과적으로 제어할 수 있는 최신 기술을 적용할 것이라고 밝혔다.
HyperClova의 활용 (3) 대화(Conveersation) : Clova Conversation 강재욱, 이상우
하이퍼클로바가 만드는 캐릭터 대화의 경우 '일관적 캐릭터 대화체'를 유지할 수 있도록 한다. 더불어 유창한 대화 능력을 기본으로 하고 캐릭터 세계관까지 유지할 수 있어야 한다. 그래야 보다 자연스러운 대화가 이어지기 때문이다.
유저가 발화할 때 이를 초대형 언어 모델에 적용한 후 쿼리에 대한 답변을 하게 되지만 특정 질문에도 일관성 있는 답변을 할 수 있어야 한다. 때문에 대화 scene 여러 개를 탐지하고 인코딩하여 Prompt라는 필터링을 거쳐 초대형 언어 모델에 적용하는 프로세스를 거친다. 이를 통해 보다 자연스러운 대화가 가능해진다는 것이다. 대화에 있어 목표 지향 대화 즉 사용자 의도에 맞는 대화 방식도 필요하다.
'방으로 예약 가능한가요?', '단체석도 되나요?', '메뉴 추천 가능한가요?', '주말에도 예약 가능한가요?' 등의 식당 예약 질의 내용처럼 연속 대화를 생성할 수 있는 Goal Script가 필요하다. 다양한 질의에 대해 자연스러운 답변을 제시할 수 있도록 복잡하면서 다양한 대화 시스템을 확보하고자 한다.
HyperClova의 활용 (4) 데이터 증강(Data Augmentation) : 네이버 AI LAB 유강민
영화에 대한 리뷰를 사례로 들었다. 긍정의 예시와 부정의 예시가 있는 경우 긍정과 부정의 값을 분석하여 적당하면서 새로운 예시로 제시한다. 이 때, Hyper Mix(하이퍼 믹스)라는 프로세스를 통해 새로운 예시로 생성하는 경우인데 적당한 데이터셋을 제시할 수 있는 하이퍼 믹스를 데이터 증강 사례로 들어 설명했다. 역시 자세한 내용은 영상을 참고해주시길 바랍니다.
HyperClova의 조율(Controllability) : Clova AI Assistant 인수교
사용자의 의도를 학습하고 예측하여 적절한 답변을 제시할 수 있어야 한다. 가령, "평창 동계 올림픽이 몇 년도에 열렸어?" -> "2018년입니다." -> "그럼 그때 미국 대통령은 누구야?"라는 대화가 이어질 경우 질의를 던진 사용자의 의도는 "2018년도 미국 대통령이 누구야?"라고 요약될 수 있는 것.
하이퍼클로바 시스템에 존재하는 Prompt Tuning 고도화를 통해 사용자 질의에 대한 의도를 파악하여 적절한 답변을 찾아 제시하고자 한다. 이러한 고도화를 통해 산출된 결과물을 서비스에 적용할 예정이라고 한다.
HyperClova를 위한 서비스 기반(Service Infrastructure) : Clova ML System 서동필
하이퍼클로바 앱은 AI 윤리 준칙에 의거하여 배포와 운영이 이루어진다. 향후 하이퍼클로바 서비스는 클로바 생태계 아래 다이내믹한 배치로 고도화가 있을 예정이라고 전했다. 하이퍼클로바 앱은 향후 플랫폼으로 진화될 것이라고 덧붙였다.
"한국어를 가장 잘 이해하고 구사할 수 있는 한국어 AI"는 사실상 우리에게 필수적인 요소와도 같다. 네이버는 이러한 한국어 AI를 통해 글로벌 시장 주도권을 장악하겠다라는 일종의 포부 같기도 하다. 과거 GPT-3 모델은 전 세계 최대 규모이기도 했지만 언어분포 중 93%가 영어였다. 이는 오세정 서울대 교수가 언급한 내용과 일치한다. 사실 인공지능은 다국어모델을 지향하기도 하지만 한국어의 경우 생성능력이 제한적이라 영어를 기반으로 하는 테크놀로지가 우선적이었다. 하이퍼클로바도 영어를 다루긴 하겠지만 한국어에 집중하게 될 것이고 한국어가 핵심이며 한국어를 중심으로 학습하게 될 모양새다. 네이버가 수집하고 보유한 데이터를 비롯하여 국립국어원의 '모두의 말뭉치'처럼 신뢰도가 높은 고품질의 데이터를 빅데이터로 활용하게 될 것이다. 어떻게 쓰이게 될지, 고도화는 어떻게 이루어질지 그리고 어떤 문제들이 크리티컬하게 남아있는지 세심하고 꼼꼼하게 따져볼 필요가 있겠다. 그럼에도 불구하고 네이버의 이와 같은 프로젝트는 말 그대로 거창하고 거대하다. '초거대'라는 수식어가 아깝지 않을 정도인데 한국어가 핵심이 되고 주축이 되는 인공지능을 직접 경험해볼 수 있는 날이 멀지 않은 것 같다. 나아가 글로벌 인공지능 시장의 주도권을 잡아주기를.
※ 위 내용은 25일 있었던 웨비나 직접 참여하여 보고 들은 내용이며 실제로 발표한 정보와 다를 수 있습니다. 가급적 이해하려고 했고 그 내용을 최대한 담아 요약하려 했으나 쉽지 않았습니다. 실제로 네이버 TV에 각 세션, 발표들이 클립으로 올라와있으니 참고하여 주시기 바랍니다.
※ 다시 보기 링크는 아래와 같습니다.
https://tv.naver.com/ainow/clips
pen잡은루이스님은 IT 트렌드에 남다른 관심을 갖고 여러 곳에서 활동하는 출간작가입니다. https://brunch.co.kr/@louis1st