뉴욕타임스 고소장 전문을 읽고 정리합니다. 뉴욕타임스는 오픈 AI와 MS를 저작권법 위반으로 뉴욕법원에 제소해 법정다툼을 시작했습니다. 이 사건은 언론사가 공개적으로 생성형 AI 회사를 저작권법 위반으로 소송한 사례로 언론사가 참고할 만한 내용이 많습니다.
1. 뉴욕타임스 고소장 – 6가지 구성
소송의 성격(Nature of the Action)
소송 당사자들
사실 주장(Factual Allegations)
죄목(Counts)
청구취지(PRAYER FOR RELIEF)
배심원단 판결 요청(DEMAND FOR JURY TRIAL)
2. 소송의 성격
뉴욕타임스는 높은 위험과 비용을 감수하는 독립 저널리즘으로 진실을 밝혀왔고 최근 더욱 희귀하고 소중해졌음
피고(오픈 AI와 MS)는 고품질의 뉴욕타임스 콘텐츠를 불법적으로 사용해 AI 제품을 개발해 뉴욕타임스를 대체해 시장에서 경쟁함
헌법과 저작권법은 창작자의 콘텐츠에 독점권을 부여해 보호하고 있음
피고는 저작물에 대한 법의 보호를 거부함. 생성형 AI는 뉴욕타임스의 콘텐츠를 학습해 이를 모방하거나 동일한 정보를 되풀이함. 더해서 허위 정보를 만들고 책임을 뉴욕타임스의 탓으로 돌리기도 함
마이크로소프트의 빙 검색 색인을 통해 뉴욕타임스 콘텐츠를 그대로 인용하고 요약함으로써 뉴욕타임와 독자의 관계를 해치고, 구독, 라이선스, 광고, 제휴 수익 기회를 박탈함. 이익을 침해하고 피고가 금전적 이익을 갈취함
피고가 뉴욕타임스의 고비용 콘텐츠를 갈취해 사용하는 것은 수익성이 높음. MS는 최근 1년간 1조달러의 시가총액이 증가했고, 오픈 AI는 900억달러임
뉴욕타임스가 피고의 불법적 행위를 파악하고 협상에 나섰지만 결렬됨. 피고는 저작권이 있는 콘텐츠로 생성형 AI모델을 훈련시키는 데 사용하는 것이 새로운 ‘변형적’ 목적을 위한 ‘공정 사용’으로 보호된다고 공개적으로 주장해왔음. 하지만 뉴욕타임스의 콘텐츠를 지불 없이 사용해 뉴욕타임스를 대체하고 그 독자를 빼았는 제품을 만드는 것에 대해 변형적이라고 할 것이 없음. 피고의 생성형 AI모델의 출력물이 훈련을 위해 사용된 뉴욕타임스의 콘텐츠와 경쟁하고 이를 밀접하게 모방함. 따라서, 뉴욕타임스의 콘텐츠를 복사하는 것은 공정 사용이 아님
법은 피고가 저지른 이러한 체계적이고 경쟁적인 침해를 허용하지 않음. 이 소송은 뉴욕타임스의 독창적이고 가치 있는 콘텐츠의 불법 복사 및 사용에 대해 피고가 지불해야 할 수십억 달러의 법정 및 실제 손해에 대한 책임을 묻고자 함
3. 당사자들
원고 : 뉴욕타임스
피고 1 : 오픈 AI와 관계사들
피고 2 : 마이크로소프트
4. 사실주장
뉴욕타임스와 미션
200년간 고품질, 오리지널, 독립뉴스를 제작
획기적이고 심층적인 저널리즘과 높은 비용을 투자한 속보 서비스
고품질 저널리즘에 대한 헌신
고품질 저널리즘을 위협하는 생성형 AI 제품들
피고의 생성형 AI 제품들
광범위한 저작권 위반에 기반한 사업모델
생성형 AI의 작동방식
피고가 뉴욕타임스 콘텐츠를 승인없이 사용하고 복제
GPT 모델 훈련 기간 중 승인없는 복제
GPT-2와 GPT-3의 훈련 데이터 세트: GPT-2와 GPT-3 모델은 ‘WebText’ 및 ‘WebText2’ 데이터 세트를 포함해 다양한 출처의 텍스트 콘텐츠로 훈련됨. 이 데이터 세트들은 인터넷에서 수집한 텍스트 콘텐츠를 기반으로 함.
WebText의 구성: WebText 데이터 세트는 Reddit 소셜 네트워크 사용자들이 게시한 약 4천 5백만 개의 링크에서 추출된 텍스트 콘텐츠를 포함함. 이 데이터 세트는 “문서 품질을 강조하는 새로운 웹 스크랩” 방식으로 만들어졌으며, 뉴욕타임스에서 스크랩된 콘텐츠를 포함함. 뉴욕타임스의 도메인은 WebText 데이터 세트에서 용량별 상위 5위를 차지하고 약 33만개의 콘텐츠가 있음
WebText2, 고품질 콘텐츠 : WebText2는 원래의 WebText와 유사하게 Reddit에서 인기 있는 외부 링크를 기반으로 하며, 고품질 콘텐츠에 중점을 두고 만들짐. GPT-3 훈련 혼합물에서 WebText2 말뭉치(코퍼스)는 전체 토큰의 4% 미만을 차지하면서도, 훈련 혼합물에서 22%의 비중을 가짐.
뉴욕타임스 콘텐츠의 사용: WebText2 데이터 세트에서 뉴욕타임스 콘텐츠는 총 20만개의 고유 URL을 가지며 GPT-3 훈련에 사용된 OpenWebText2의 모든 출처 중 1.23%를 차지함. 이는 OpenAI가 뉴욕타임스의 콘텐츠를 포함한 고품질 콘텐츠를 GPT 모델 훈련에 중요하고 가치 있게 여겼다고 보임
GPT 모델에서 뉴욕타임스 기사에 대해 승인되지 않은 재생산과 변형의 사례
GPT LLM 자체는 그들의 파라미터에 인코딩된 많은 동일한 콘텐츠들의 ‘기억된’ 복사본을 가지고 있다. 아래 및 별첨 J에서 보여지듯이, 현재 GPT-4 LLM은 그렇게 요청되면 타임스 콘텐츠의 상당 부분을 거의 그대로 복제하여 출력함
이런 기억된 예시들은 모델을 훈련시키는 데 사용된 타임스 콘텐츠의 무단 복제본이나 파생 콘텐츠를 구성함
2012년에 타임스는 Apple과 다른 기술 회사들의 아웃소싱이 글로벌 경제를 어떻게 변화시켰는지 검토하는 시리즈. 3개 대륙에서 조사. 수백 명의 현직 및 전직 애플 임원들에게 연락해 70명 이상의 내부자 정보를 확보함. 생성형 AI는 허락없이 명령어 하나로 이를 재현함
2019년 뉴욕시 택시 산업에서의 약탈적인 대출에 관한 기사는 퓰리처상을 수상함. . 18개월 조사, 600회의 인터뷰, 100건 이상의 기록 요청, 대규모 데이터 분석, 수천 페이지에 달하는 내부 은행 기록 및 기타 문서 검토를 했으나 생성형 AI는 허락없이 명령어 하나로 재현함
GPT 제품 출력물에서 뉴욕타임스 기사에 대해 승인되지 않은 공개
피고들은 GPT 모델을 기반으로 한 제품(챗GPT, 빙챗, Microsoft 365 Copilot 디지털 어시스턴트 라인 등이 포함)에 의해 제공된 생성적 출력의 일부로 타임스 콘텐츠를 대중에 무단으로 공개하는 데 직접 참여함
사례 1 : ChatGPT는 기사에 대한 유료 장벽을 우회하도록 한 명령에 ‘2012년 퓰리처상을 수상한 뉴욕 타임스 기사 ‘Snow Fall: The Avalanche at Tunnel Creek’의 일부를 인용하는 것으로 보임
사례 2 : ChatGPT는 2012년 Pete Wells가 Guy Fieri의 American Kitchen & Bar에 대해 작성한 타임스 레스토랑 비평가의 리뷰를 인용하는 것으로 보임
최신 뉴스에 대한 승인되지 않은 검색과 유포
빙챗 검색 결과 사례
챗GPT 내 ‘빙과 함께 검색’을 통한 합성 검색(synthetic search) 결과 사례
의도적인 저작권 위반
피고들의 타임스 콘텐츠에 대한 무단 복제와 일반 대중에 대한 공개는 고의적임. 피고들은 GPT 모델의 훈련, 세밀한 조정 및 기타 테스트에 밀접하게 관여했다. 피고들은 이러한 행동들이 훈련 중에 타임스 콘텐츠들의 대규모 무단 복사를 포함하고, 모델 자체에 엄청난 수의 콘텐츠를 무단으로 인코딩하며, 이러한 콘텐츠들을 기억하거나 합성 검색 결과의 형태로 사용자에게 제시하는 무단 공개로 이어질 것임을 알거나 알아야 했음.
실제로, 2023년 말 Sam Altman이 OpenAI의 CEO로서 축출되고 다시 복귀하기 전에, OpenAI 이사회 멤버 Helen Toner와 ‘ChatGPT와 GPT-4의 출시와 관련된 안전 및 윤리 문제, 저작권 문제를 포함하여’ 비판적인 논문을 쓴 것으로 알려져 있음
타임스는 자신들의 웹사이트의 모든 페이지에 저작권 고지와 서비스 이용 약관 링크(다른 것들 중에서도 자신들의 콘텐츠 사용에 대한 조건을 포함하는)를 배치함으로써 피고들에게 타임스 콘텐츠들의 이러한 사용이 허가되지 않았다는 것을 특별히 통지함
주어진 정보와 추정에 근거해, 피고들은 모델을 훈련시키기 위해 준비하는 과정에서 타임스 콘텐츠들에서 저작권 관리 정보(‘CMI’)를 고의적으로 제거했으며, 이러한 CMI가 모델 내에 보존되거나 모델이 무단 복제본이나 타임스 콘텐츠들의 파생물을 사용자에게 제시할 때 표시되지 않을 것임을 알고 있었으며, 이를 통해 그들의 침해를 용이하게 하거나 숨겼음
상업적인 추천 남용 사례(와이어커터)
와이어커터의 기자들은 매년 수천 시간을 연구하고, 제품을 테스트해 최고의 제품을 독자에 추천함
와이어커터는 추천 제품을 구매하면 제품회사에서 판매 수수료를 받아 수익을 창출함
피고의 생성형 AI기술은 일반적인 검색 결과를 넘어서 와이어커터의 추천과 근거를 재현함
피고의 생성형 AI 제품으로 인해 ▲ 챗GPT나 빙챗에서 추천 내용만을 제공해 제휴 추천 수익을 받을 수 없음 ▲ 트래픽 감소로 구독과 광고 수입 감소 ▲ 환각 현상으로 와이어커터가 작성하지 않는 제품을 추천해 와이어커터의 평판을 위협
허위 정보 책임을 뉴욕타임스로 책임 전가
피고들의 모델이 타임스 콘텐츠를 동의나 보상 없이 복사, 재현, 의역하는 동시에, 실제로 발행하지 않은 콘텐츠를 타임스에 부당하게 책임 지워서, 타임스에 상업적 및 경쟁적 손해를 입히고 있음
AI 용어로 이것은 ‘환각’이라고 불리며 다른 말로 표현하면 허위정보임
오렌지 주스가 비호지킨 림프종과 관련이 있다고 보도했다는 내용의 정보성 기사를 요청하는 프롬프트에 대한 응답으로, GPT 모델은 ‘뉴욕타임스가 2020년 1월 10일에 ‘오렌지 주스와 비호지킨 림프종 간의 가능한 연관성을 발견한 연구’라는 제목의 기사를 발표했다’고 허위 정보를 만들었음.
이런 허위정보는 사용자들이 얻고 있는 정보의 출처에 대해 오해를 일으키고, 제공된 정보가 뉴욕타임스에 의해 검증되고 발행됐다고 오도함.
어떤 주제에 대해 타임스가 작성한 내용을 묻는 검색 엔진 사용자에게 타임스 기사의 무단 복사본이나 부정확한 위조본이 아닌, 기사 자체로의 링크를 제공해야 함
피고의 이익
뉴욕타임스 콘텐츠를 무료료 사용해 자신들의 LLM을 만드는 데 상당한 경비절감을 달성함
뉴욕타임스의 기사는 매년 수백만 달러가 드는 수천 명의 기자들의 결과물임. 각 피고는 저작권법에 의해 보호되는 100년이 넘는 콘텐츠에서 부당하게 이익을 얻었음. 피고들은 그 작업을 만드는 데 타임스가 투자한 수십억 달러를 지출하지 않고 허가나 보상 없이 효과적으로 가져감
뉴욕타임스 콘텐츠는 LLM을 훈련시키기 위한 매우 가치 있는 데이터 모음임. 언론사 기사 그리고 특히 뉴욕타임스의 콘텐츠는 GPT 모델의 훈련과 응답 근거에 사용될 수도 있는 인터넷의 다른 대부분의 콘텐츠보다 더 가치가 있다는 것을 여러 지표가 확인함(지표 제시함)
오픈 AI는 기업가치가 900억달러, 1억7300만명의 사용자(2023년 4월 기준), 포춘 500대 기업 중 80% 사용 고객의 이익을 가짐
마이크로소프트는 GPT-4를 Bing Chat에 통합한 빙챗 출시 몇 주 후에 14년 역사상 처음으로 하루 사용자 1억 명을 돌파함. 빙챗 출시 후 약 6주 만에 Bing 페이지 방문 수가 15.8% 증가함. GPT-4로 구동되는 도구인 Microsoft 365 Copilot에 사용자 당 월 30달러를 부과하고 있는데, 이 도구는 문서, 이메일, 프레젠테이션 등의 작성을 돕도록 설계됨. 이 30달러의 사용자당 월 프리미엄은 Microsoft 365 E3은 구독한 기업의 비용을 거의 두 배로, Microsoft 365 Business Standard에 구독한 기업의 비용을 거의 세 배로 증가시킴
뉴욕타임스의 피해
개인이 뉴역타임스의 가치 있는 콘텐츠에 피고들의 제품을 통해 비용을 지불하지 않고, 타임스의 유료 장벽을 통과하지 않고 접근할 수 있게 됐음
피고들의 불법 행위는 현재 구독자와 잠재 구독자를 타임스로부터 멀어지게 하여, 타임스가 현재 수준의 혁신적인 저널리즘을 계속 생산할 수 있게 하는 구독, 광고, 라이선스, 제휴 수익을 줄일 위협이 됨
5. 죄목
저작권법 위반 행위(모든 피고인)
간접적인 저작권 위반(MS, 오픈AI)
저작권 위반 방조(MS)
저작권 위반 방조(모든 피고인)
디지털 밀레니얼 저작권법상 저작권 관리 정보 제거(모든 피고인)
일반 부정경쟁방지법 위반(모든 피고인)
브랜드 가치 훼손(모든 피고인)
6. 청구취지(요구사항)
뉴욕타임스에 법적 손해배상
소장 내에서 언급한 불법적이고, 불공정하고, 저작권 위반 행위를 피고에 영구적으로 금지
저작권법에 따라 뉴욕타임스의 저작물을 포함하는 모든 GPT 또는 LLM 모델 및 훈련세트의 파괴 명령
얼마전에는 <흑백요리사>라는 예능 콘텐츠가 큰 인기를 얻었는데, 올해 최고의 히트작이라 불러도 손색이 없을 것이다. <흑백요리사>의 성공은 K-예능의 잠재력에 대한 기대감을 높여주고 있는데, 2013년 넷플릭스에서 큰 사랑을 받았던 또 다른 K-예능 <피지컬 100>과의 공통점이 눈에 띤다.