OpenAI's GPT-4o is the first AI model to learn text, image, and voice data, and sometimes exhibits strange behavior. For example, it may imitate the other person's voice or shout randomly during a conversation. According to a new 'red teaming' report, GPT-4o rarely mimics the user's voice in environments with a lot of background noise. This issue does not currently occur in Advanced Voice Mode, and OpenAI has stated that it has taken steps to prevent it. GPT-4o can produce disturbing vocal expressions, such as sexual moans or violent screams, when prompted in certain ways. Additionally, a filter has been applied to prevent music copyright infringement. OpenAI claims it is impossible to train its key models without copyrighted materials, arguing that fair use serves as its defense.
OpenAI의 GPT-4o는 텍스트, 이미지, 음성 데이터를 학습한 첫 번째 AI 모델로, 때때로 이상한 행동을 보인다. 예를 들어, 대화 중에 상대방의 목소리를 모방하거나 무작위로 소리를 지를 수 있다. 새로운 ‘레드티밍(red teaming)’ 보고서에 따르면, GPT-4o는 배경 소음이 많은 환경에서 사용자의 목소리를 흉내 내는 경우가 드물게 발생한다고 한다. 현재 Advanced Voice Mode에서는 이 문제가 발생하지 않으며, OpenAI는 이를 방지하기 위한 조치를 취했다고 전했다. GPT-4o는 특정 방식으로 프롬프트를 받으면 성적인 신음이나 폭력적인 비명과 같은 불안한 음성 표현을 생성할 수 있다. 또한, 음악 저작권 침해를 방지하기 위해 필터를 적용했다. OpenAI는 주요 모델을 저작권이 있는 자료 없이 학습하는 것은 불가능하다고 밝히면서, 공정 사용이 방어 수단이라고 주장하고 있다.