‘챗GPT·라마2·클로드2·코히어AI’ 거짓말 제일 많이 하는 A.I는?

[AI요약] 터무니없는 거짓말을 사실처럼 가장 당당하게 제공하는 A.I 모델에 대한 최신 분석이 나왔다. 오픈AI의 ‘GPT-4’, 메타의 ‘라마2’, 앤트로픽의 ‘클로드2’, 코히어의 ‘코히어AI’ 등 LLM 모델의 성능이 카테고리마다 각양각색으로 조사됐다.

챗GPT·라마2 등 대형언어모델에 대한 A.I 환각 분석이 공개됐다. (이미지=아서AI)

최악의 A.I 환각을 보이는 AI 모델은 어떤 것일까.

기계 학습 모니터링 플랫폼인 아서AI(Arthur AI)가 분석한 대형언어모델(LLM)들의 A.I 환각에 대해 CNBC 등 외신이 19일(현지시간) 보도했다.

현재 기술 업계의 최상급 A.I 모델은 마이크로소프트가 지원하고 있는 오픈AI의 ‘GPT-4’, 메타의 ‘라마2’, 앤트로픽의 ‘클로드2’, 코히어의 ‘코히어AI’ 등의 모델을 꼽을수 있다.

AI 환각은 LLM이 정보를 완전히 조작하여 마치 사실을 내뱉는 것처럼 행동할 때 발생한다. 예를 들면, 지난 6월 챗GPT가 뉴욕연방법원 제출한 문서에 ‘가짜 사건’을 인용하면서 관련 뉴욕 변호사는 제재를 받았다.

이번 연구는 2024년 미국 대통령 선거를 앞두고 생성AI의 붐이 일고 있는 가운데 AI 시스템에서 비롯된 잘못된 정보에 대해 그 어느 때보다 뜨겁게 논의되는 시점에 이뤄졌다.

연구팀은 조합수학, 미국대통령, 모로코정치 지도자 등 범주에서 AI 모델을 테스트했으며, AI 모델에 정보에 대한 여러 단계의 추론을 요구하면서 LLM을 실수하게 만드는 핵심 요소를 포함하도록 설계된 질문을 던졌다.

실험에 따르면 GPT-4는 테스트한 모든 모델 중에서 가장 좋은 성능을 보였다. 특히 해당 모델의 이전 버전인 GPT-3.5보다 환각이 적다는 사실을 발견했다. 반면 라마2는 GPT-4 및 클로드2보다 전반적으로 환각이 더 심한 것으로 나타났다.

수학 부문에서는 GPT-4가 1위를 차지했으며 클로드2가 그 뒤를 이었다. 미국 대통령 부문에서는 클로드2가 정확도에서 1위를 차지하며 GPT-4를 2위로 밀어냈다. 모로코정치에 대해 질문했을 때는 GPT-4가 다시 1위를 차지했으며 클로드2와 라마2는 대부분 질문에 대답하지 않기로 선택한 것으로 보였다.

LLM 모델의 얼버무림 순위표. (이미지=아서AI)

연구팀은 두 번째 실험에서 AI모델이 확실치 않은 정보 제공에 대한 위험을 피하기 위해 경고 문구로 답변을 얼마나 얼버무리는지 테스트했다. 예를 들어 “AI 모델로서 나는 의견을 제공할 수 없습니다”와 같은 답변이다.

얼버무림과 관련해서 GPT-4는 GPT-3.5에 비해 상대적으로 50% 증가했으며, 이는 GPT-4가 사용하기가 더 어렵다는 대부분 사용자의 의견을 반영하고 있다. 코히어AI는 얼버무림 자체를 시도하지 않고 답변하지 않았다. 반면, 클로드2는 자기 인식 측면에서 가장 신뢰할수 있는 모델로 나타났다. 이는 AI가 스스로 무엇을 알고 있는지 정확하게 측정하고 지원할수 있는 데이터가 있는 질문에만 답한다는 것을 의미한다.

애덤 웬첼 아서AI CEO는 “이번 보고서는 단순히 LLM 순위표를 매기는 것이 아니라 환각 비율을 포괄적으로 살펴보는 업계 첫 번째 보고서”라고 언론을 통해 설명했다.

그는 “많은 벤치마크는 LLM 자체에 대한 일부 척도를 살펴보고 있지만, 이는 LLM이 실제 세계에서 사용되는 방식이 아니다”며 “LLM이 실제로 사용되는 방식과 수행하는 방식을 이해하고 있는지 확인하는 것이 핵심이다”고 강조했다.

류정민 기자

znryu@daum.net
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

글로벌 혁신 허브로 주목 받는 싱가포르, 한국 스타트업이 제대로 활용하는 전략은?

수년 째 이어지고 있는 스타트업 투자 혹한기에 더해 고물가·고금리 부담이 더해지며 국내 스타트업 생태계의 위기는 커지고 있다. 이에 정부는 최근 스타트업계 지원을 대폭 확대하고 모태펀드 출자를 스타트업코리아, 글로벌, M&A 등 핵심 출자 분야의 혁신 스타트업 투자에 집중한다는 방침을 밝혔다. 주목되는 변화 중 하나가 국외 창업 스타트업 지원이다. 이처럼 국외 창업 스타트업에 대한 지원이 늘어나는 상황에서 주목해야 할 해외 진출 전략은 무엇일까? 이에 대한 답을 최근 스타트업얼라이언스가 진행한 ‘아시아의 한국인’ 행사에서 찾아봤다.

오픈AI ‘샘 알트먼’이 ‘미국 정치판’을 길들인 방법

오픈AI의 CEO 샘 알트먼이 매력적인 언변과 교묘한 로비활동으로 지구상에서 가장 강력한 사람 중 하나가 되고 있다. 소셜 미디어 산업을 대표하는 메타의 마크 저커버그를 매우 공격적으로 비판했던 미국 정치계가 어쩐 일인지 AI 산업을 대표하는 알트먼에게는 부드럽다. 알트먼은 미국 정치판을 어떻게 길들인 것일까.

하루앞둔 미 대선···빅테크들, 트럼프에 대한 전략적 모호성 이면엔

실리콘 밸리 빅테크 리더들의 친 트럼프 분위기가 트럼프의 잠재적 보복 우려 때문인지, 정부사업 계약으로 보상받길 원해서인지인지, 아니면 해리스 민주당 후보가 승리할 경우 추가 감독 및 규제를 받을까 봐 경계해서인지를 단언할 수는 없다. 하루앞으로 다가온 미 대선 후보에 대한 빅테크 CEO들의 ‘전략적 모호성의 이면을 들여다 봤다.

[인터뷰] 방은혜 밀리의서재 AI서비스본부장 “AI를 접목한 플랫폼 기반 독서 경험 강화, 기대하셔도 좋습니다”

2016년 등장한 밀리의서재는 오랜 세월 오프라인에 머물고 있던 사람들의 독서 습관을 플랫폼으로 확장하며 독서 경험의 혁신을 이뤄냈다. 그리고 지금, 밀리의서재는 또 한 번의 혁신을 시도하고 있다. ‘AI서비스본부’를 신설하고 자사 플랫폼에 AI 기술 접목을 본격화한 것이다. 이에 테크42는 AI 격변이라는 파고에 맞서 정체성을 지켜가며 조용한 혁신을 시도하고 있는 밀리의서재가 나아갈 방향과 전략을 방은혜 AI 서비스본부장을 만나 직접 들어봤다.