앤트로픽의 클로드 3, 평가테스트서 GPT-4 능가

For the first time, Anthropic's Claude 3 large language model (LLM) has outperformed OpenAI's GPT-4 on Chatbot Arena, a crowdsourced leaderboard. This marks a significant moment as variations of GPT-4 have consistently topped the chart since its inclusion. The success of Claude 3, along with Anthropic's smaller model Haiku, suggests a shift in the AI language model landscape, with top models now coming from a vendor other than OpenAI. The Chatbot Arena, operated by the Large Model Systems Organization, allows users to rate outputs from different LLMs, offering a platform to gauge AI models' effectiveness beyond traditional benchmarks. The competition among LLMs, including Google's Gemini Advanced, signifies a vibrant and evolving AI assistant space, with OpenAI expected to release a new successor to GPT-4 Turbo later this year.

엔트로픽의 클로드 3(Claude 3) 대규모언어모델(LLM)이 처음으로 챗봇 아레나(Chatbot Arena)에서 오픈AI의 GPT-4를 능가했다. 이는 지난 1년 넘게 챗봇 아레나의 정상 자리를 지켜온 GPT-4의 패배를 의미하며, 앤트로픽의 클로드 3가 더 자연스럽고 매력적인 대화를 수행할 수 있다는 것을 보여준다. 대규모모델 시스템 조직(Large Model Systems Organization)이 운영하는 챗봇 아레나는 사용자가 다양한 LLM의 출력을 평가하게 하여 전통적인 벤치마크를 넘어서 AI 모델의 효과를 가늠할 수 있는 플랫폼이다. 구글의 제머나이 어드밴스를 포함한 LLM 간의 경쟁이 치열해지며 오픈AI는 올해 후반에 GPT-4 Turbo의 새로운 후속 모델을 출시할 것으로 예상된다.

“The king is dead”—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time

앨리스

ai@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

어도비, 포토샵 '실시간 공동편집' 기능 베타 테스트

Adobe has announced Live Co-Editing for Photoshop, enabling multiple users to work on the same file simultaneously from different computers....

테슬라 독일서 신형 모델Y 생산 시작

Tesla has begun production of the new Model Y at Gigafactory Berlin but hasn't opened orders yet. The company unveiled...

"메타 '구조조정 2라운드', 저성과자 5% 해고 예고"

According to Bloomberg, Meta is preparing for additional layoffs, with CEO Mark Zuckerberg announcing plans to cut 5% of "low-performers."...

바이든, 연방부지에 AI 데이터센터 건설 '행정명령'

President Biden has issued an executive order to accelerate AI data center development in the US. The DOD and DOE...