AI 빅3, 음성채팅 패권전쟁 시작됐다···구글·오픈AI에 MS 참전

스마트폰이나 PC에서 사용자들이 원하는 것을 뭐든지 답해준다는 생성형 인공지능(AI) 음성채팅 비서를 둘러싼 시장 패권전쟁이 격렬한 포성을 울리기 시작했다.

지난 5월 오픈AI가 처음 기능을 공개하고, 7월 말 한정된 가입자를 대상으로 AI 음성 채팅을 지원하는 챗GPT 고급음성모드(어드밴스트 보이스 모드)를 출시했을 때 이미 예견된 것이긴 했다. 그리고나서 불과 3개월 만에 오픈AI, 구글, 마이크로소프트(MS)가 약속이나 한 듯 차례로 제품을 출시하면서 생성형 AI 음성 비서 3강 경쟁구도가 형성됐다.

지난달 13일 구글이 픽셀 9 스마트폰 발표와 함께 ‘제미나이 라이브’ 음성 비서를 출시하면서 경쟁의 포문을 열었다. 일반 소비자들에게 영화 허(Her)에서 봤던 PC는 물론 스마트폰과도 대화하는 상상속 이야기가 현실이 되기 시작했다. 24일에는 오픈AI가 챗 GPT 어드밴스트 보이스 모드를 출시하면서 본격 경쟁구도가 형성됐다. 이달 첫날 마이크로소프트(MS)가 텍스트만 지원되던 코파일럿 AI에 음성채팅 기능 등을 추가해 출시하면서 AI음성비서 시장의 3강 경쟁구도가 형성됐다.

오픈AI에서 시작된 소비자용 음성 AI 비서 시장경쟁은 이제 자연스레 구글의 아성인 기존 검색 공략으로 이어질 전망이다. 3사 모두 이 시장 공략에 대한 속마음을 숨기지 않고 있다.

어느 새 이 기술 분야 빅3로 자연스레 자리 잡은 오픈AI, 구글, 마이크로소프트(MS)의 생성형 AI 음성비서 기능과 계획, 주변상황 등을 정리했다.

MS, 기존 코파일럿에 음성채팅 기능 및 사진을 놓고 대화하는 기능까지

MS가 구글, 오픈AI에 이어 1일(현지시각) 획기적으로 업그레이드한 코파일럿을 출시했다. 이는 사용자와 생성형 AI가 상호 음성대화할 수 있는 것은 물론, 기기에 올린 사진을 놓고 대화를 주고 받을 수도 있게 업그레이드됐다. (사진=MS)

마이크로소프트(MS)가 1일 자사 블로그를 통해 “오늘 우리는 새롭고 향상된 기능을 포함한 업데이트된 코파일럿을 출시하기 시작했다”고 밝히면서 오픈AI,구글에 이어 AI기반 음성 채팅 서비스 시장 참전의 포문을 열었다. 업그레이드된 제품은 지난해 2월 발표한 코파일럿 채팅 기능에 음성을 제공하고 비전(시각) AI 기능 등을 추가한 것으로서 코파일럿 보이스(Copilot Voice), 코파일럿 비전(Copilot Vision), 코파일럿 데일리(Copilot Daily) 등으로 불린다.

▲코파일럿 보이스=이를 이용하면 사용자가 여러 아이디어를 진전시키는 브레인스토밍 과정에서 문답하거나 힘든 하루를 마무리하며 속내를 털어놓는 대화도 할 수 있다. 4가지 음성 가운데 사용자가 원하는 음성을 선택할 수 있다.

▲코파일럿 비전=사용자가 제시한 웹페이지의 텍스트나 사진 이미지를 놓고 AI와 실시간으로 대화할 수 있는 기능이다. 코파일럿 비전 세션은 옵트인 방식으로 사용후 곧 사라지는 방식의 서비스다. MS는 코파일럿 비전이 개입하는 콘텐츠 중 어떤 것도 저장되거나 AI 훈련에 사용되지 않는다고 말한다. 이 새로운 경험은 아직 모든 웹사이트에서 작동하지 않는다. MS가 코파일럿 비전이 작동하는 웹사이트 유형에 제한을 두었기 때문이다. 코파일럿 팀은 “모두에게 안전한 환경을 제공할 수 있도록 인기 웹사이트의 제한된 목록으로부터 시작한다”고 말했다.

미리보기 동안 코파일럿 비전은 유료 및 민감한 콘텐츠에서도 작동하지 않는다.

▲코파일럿 데일리=코파일럿의 다음 단계에는 코파일럿 데일리(Copilot Daily)도 포함되는데 이는 코파일럿이 매일 CNN 앵커처럼 음성으로 뉴스와 날씨를 읽어주는 서비스다. 이는 아침에 들을 수 있는 짧은 분량으로 재설계됐으며 코파일럿이 콘텐츠를 사용하도록 허가받은 뉴스 및 날씨 제공업체의 콘텐츠만 사용한다. MS는 초기 단계인 지금은 로이터, 악셀 스프링어, 허스트, 파이낸셜타임스(FT)와 협력하고 있으며, 시간 경과에 따라 더 많은 소스를 추가할 계획이다.

▲기타 보안·프라이버시 보호=MS는 특히 새 코파일럿 비전 기능과 관련해 안전과 보안을 최우선으로 고려했다고 강조했다. 또 이 기능은 옵트-인 방식으로서 이용자가 원할 경우에만 제공되며 이 기능을 통해 처리된 콘텐츠는 저장되거나 AI 학습에 사용되지 않고 해당 기능 이용이 종료되는 순간 데이터가 영구적으로 폐기된다고 말했다. 유료 콘텐츠와, 민감하다고 판단되는 콘텐츠에서는 이 기능이 작동되지 않게 했다고도 했다.

MS는 코파일럿 보이스를 우선적으로 미국, 캐나다, 영국, 호주, 뉴질랜드 등 영어권에서 영어로 제공하고 추후 더 많은 지역과 언어로 확대할 계획이라고 밝혔다. 코파일럿 비전은 미국에서 ‘코파일럿 프로’ 유료 구독자 등을 대상으로 제한적으로 제공한다.

MS의 코파일럿은 말그대로 음성 및 비전 기능을 추가해 더욱더 강력한 개인화된 AI로서 일반 소비자들에게 다가서게 됐다고 할 수 있다. 더버지는 새 코파일럿이 모바일, 웹, 전용 윈도 앱에서 카드 기반의 사용자 환경으로 재설계되고 있으며, 인플렉션 AI가 개인화된 AI 비서인 파이(Pi)로 수행한 작업과 매우 유사하다고 평가했다.

사실 MS의 이같은 성과는 지난 3월 유망 AI 스타트업인 인플렉션 AI(Inflection AI)의 최고경영자(CEO)와 핵심 기술인력 스카웃은 물론, 특허기술 라이선스까지 받는 방식으로 이 업체를 변칙 인수한 덕분이라고 볼 수 있다. 그 결과 인플렉션 AI 핵심 인사들의 기술력과 그들의 경험과 스킬을 단숨에 코파일럿에 녹여낼 수 있었던 것으로 보인다.

이 최신 코파일럿은 술레이만이 MS의 AI 소비자 부문 CEO로서 이 사업을 떠맡은 후 가져온 첫 번째 큰 변화이다.

술레이만은 이날 공개 서한에서 “MS AI에서 우리는 모든 사람을 위한 AI 동반자를 만들고 있다. 나는 우리가 지금까지 본 것과는 전혀 다른, 더 차분하고 도움이 되고 지원하는 기술 시대를 만들 수 있다고 믿는다”고 말했다.

구글의 제미나이 라이브

구글의 제미나이 라이브는 현재 모든 영어권 안드로이드 기기 사용자들에게 개방됐다. (사진=구글)

구글은 지난 5월 14일(현지시각) 마운틴뷰 본사에서 열린 ‘구글 연례 개발자 회의(I/O)’에서 구글은 이 때 생성형 AI를 기반으로 사람처럼 대화하며 이용자의 업무를 돕는 음성 비서 서비스를 함께 공개했다. 구글은 이용자들이 딥마인드의 제미나이 음성 대화 기능을 통해 자유롭게 인터넷 검색을 할 수 있으며, 사진뿐만 아니라 동영상으로도 검색할 수 있게 된다고 설명했다. 제미나이가 이 기능을 통해 다단계로 추론을 한 후 검색 사용자에게 가격, 위치 등 다양한 요소를 고려한 답을 제공한다고 했다. 이 기능은 검색결과가 음성 대화 형태로 제공돼 구글 음성 AI검색 이용자의 편의성을 높여줄 것으로 기대를 모았다.

구글은 제미나이와 구글의 음성 모델을 기반으로 하는 딥마인드의 아스트라 프로젝트(Project Astra)를 공개하면서 그 기반이 될 제미나이 라이브(Gemini Live) AI를 선보였다. 사람처럼 보고 들을 수 있고 음성으로 대화하면서 이용자의 개인 비서 역할을 하는 AI를 소개했다.

당시 구글은 수개월내 제미나이 라이브를 출시하고 이후 실시간 시각과 청각 등 프로젝트 아스트라를 위한 기능도 추가할 계획이라고 밝혔다. 그리고 4개월 만인 9월 13일부터 자사의 모든 안드로이드 OS 사용기기에서 음성명령을 통해 음성채팅 AI 비서인 제미나이 라이브 기능을 무료로 제공하기 시작했다.

이는 오픈AI가 고급 음성모드(어드밴스트 보이스 모드)를 출시한 9월24일보다 9일 앞선 선제적 서비스였다. 이로써 제미나이 라이브 사용자는 지난 8월 구글 ‘픽셀 9’ 시리즈 출시 행사 당시 유료 제미나이 어드밴스트 가입자에서 모든 안드로이드 제미나이 앱이나 오버레이 사용자로 확대됐다.

제미나이 라이브 사용자는 음성으로 질문을 하거나 AI의 응답을 중간에 끊고 질문을 던질 수 있다. 또 다양한 목소리를 선택할 수 있으며, 맞춤 설정으로 상호 작용을 제어할 수 있다. 구글은 현재는 영어만 지원하지만, 향후 지원되는 언어를 확대할 계획이다.

오픈AI, 50개 언어 음성모드 기선제압 나섰지만 뒤숭숭

오픈AI는 지난달 50개 언어로 구성된 음성모드로 경쟁사 기선제압에 나섰지만 최근 CTO등 임원 퇴사로 뒤숭숭한 상황이다. (사진=오픈AI X)

당초 오픈AI는 지난 7월 말부터 일부 사용자들에게만 ‘챗GPT 스탠더드 음성 모드만 제공하기 시작했다. 2개월 후인 9월 24일 X(이전 트위터)를 통해 챗GPT 유료 사용자를 대상으로 한국어, 일본어를 포함한 전세계 50개 국어로 고급음성모드(어드밴스트 보이스 모드 AVM) 기능을 정식 출시하며 생성형 AI 음성비서 경쟁사들의 기선을 제압했다.

이에따라 이날부터 챗GPT 플러스 및 팀즈 사용자에 업데이트를 적용하며, 엔터프라이즈와 에듀 사용자에게는 그 다음 주부터 적용한다고 발표했다.

이번 업그레이드에 따라 AVM의 목소리는 모두 9개가 됐다.

다만 지난 5월 발표때 선보였던 챗GPT의 비디오 및 화면 공유 기능은 빠졌다. 오픈 AI는 이런 멀티모달 기능을 언제 출시할지에 대한 추가 일정은 밝히지 않았다.

오픈AI는 다음날 홈페이지에 AI 기반 검색 엔진인 서치 GPT(Search GPT)를 자체 개발해 시험중이며 향후 이를 챗GPT에 통합하겠다는 목표도 밝혔다.

하지만 최근 오픈AI에는 돌발 변수가 생기고 있다. 지난달 26일 미리 무라티 최고기술책임자(CTO)가 떠났고, 이에 앞서 공동창업자이자 CTO를 맡았던 일리야 수츠케버도 떠났다. 디인포메이션은 내부 관계자의 말을 빌어 이런 동요 분위기의 배경엔 알트먼 CEO의 리더십 문제가 자리잡고 있다고 전했다.

과연 AI 음성 비서 시장경쟁의 패권은 누구에게로 돌아갈까.

이재구 기자

jklee@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

‘우리 봇은 따뜻하고 웃겨요’ 개성적인 ‘AI 챗봇’의 등장

사용자와 대화를 하기 위해 설계된 마이크로소프트의 AI 챗봇 코파일럿이 기존보다 더 유창하고 친근하게 돌아왔다. 마치 진짜 에너지와 캐릭터가 있는 것 같은, 가끔은 웃기기도 한 ‘개성적인’ AI 챗봇을 공개한 마이크로소프트의 비전은 무엇일까.

"노인 교통사고율을 줄여라", 로보택시 어디까지 와 있나?

로보택시는 운전자가 없는 완전 자율주행 택시 서비스를 의미하며, 로봇(Robot)과 택시(Taxi)의 합성어로 인공지능과 첨단 센서 기술을 활용해 승객을 안전하게 목적지까지 이동시키는 혁신적인 교통수단이다. 이러한 교통 혁신은 일상생활에 큰 변화를 가져올 것으로 예상된다.

AI와 지속가능한 미래를 위한 스타트업의 역할은?

‘지속가능한 사회를 위한 스타트업의 역할’ 세션에서는 양우정 더그리트 대표와 김지현 에이지프리 대표의 발표가 이목을 집중시켰다. 이어 기조강연에 나선 구글 딥마인드의 최고운영책임자(COO)인 ‘라일라 이브라힘’은 ‘생성형 AI가 만들어 가는 우리의 미래’를 주제로 산업, 환경, 교육 등 사회 전반의 변화와 인류 모두에 도움되는 AI 기술을 활용하는 방안에 대한 전망과 통찰을 공유했다.

SEO가 디지털 마케팅 팀과 어떻게 협력할 수 있을까?

인터넷 시대에 기업의 온라인 가시성은 그 어느 때보다 중요해졌다. 이러한 환경에서 '검색엔진최적화(SEO)'는 기업의 디지털 마케팅 전략에서 핵심적인 역할을 하고 있다.