An investigation by Proof News and Wired revealed that over 170,000 YouTube videos were part of a massive dataset used to train AI systems for major tech companies. Apple, Anthropic, Nvidia, and Salesforce are among those who used the 'YouTube Subtitles' data extracted without permission. The dataset includes subtitles from videos of popular creators and major news outlets. YouTube has not immediately responded to the findings. AI companies rarely show transparency about the data used in their AI systems. In previous interviews, YouTube CEO Neal Mohan stated that using video content for AI training would violate the platform's terms. Google CEO Sundar Pichai agreed with this assessment, emphasizing the importance of abiding by terms and conditions when building products.
조사에 따르면, 주요 빅테크 기업들이 AI 훈련을 위해 17만 개 이상의 유튜브 동영상을 데이터셋으로 활용했다고 밝혀졌다. 애플, 앤스로픽, 엔비디아, 세일즈포스 등이 허가없이 유튜브에서 추출한 '유튜브 자막(YouTube Subtitles)' 데이터를 사용했다. 이 데이터셋에는 MrBeast, Marques Brownlee 등 유명 크리에이터와 주요 뉴스 매체의 영상 자막이 포함되어 있다. 유튜브는 이에 대한 즉각적인 답변을 하지 않았다. AI 기업들은 자사 AI 시스템에 사용된 데이터에 대해 거의 투명성을 보이지 않고 있다. 유튜브 CEO는 이전 인터뷰에서 AI 훈련을 위한 동영상 콘텐츠 사용이 플랫폼 이용약관을 위반한다고 말한 바 있다. 구글 CEO도 이러한 견해에 동의했다.