지난해 11월 챗GPT의 등장으로 전세계적 열풍을 몰고온 챗AI 모델은 슈퍼컴퓨터 가동해 엄청난 데이터를 학습한 결과를 바탕으로 답을 내놓는다. 그런데 오는 2026년이면 그 AI학습 용 고품질 데이터(언어)가 고갈될 것이라는 연구결과가 나왔다. 문제는 일반 사회관계망(SNS)에서 사용되는 저품질 데이터가 아닌 위키피디아에 등장하는 것 같은 고품질 데이터가 고갈되면서 이런 데이터를 바탕으로 한 AI교육 기반의 더 정교한 답을 확보하기가 점점더 어려워진다는 것이다. 이는 지난해 10월 26일 첨단 AI 연구 및 조사 연구자 그룹인 에포크가 아카이브에 발표한 논문에 등장한 내용이다. 에포크는 애버딘대학교, 매사추세츠공대(MIT) 컴퓨터과학 및 AI연구소, 튀빙겐대학교 AI거버넌스센터 과학자들의 공동연구 결과를 이같이 발표했다.
아카이브가 소개한 에포크 논문을 요약해 소개하고, 데이터 고갈에 따른 제반 문제점과 3가지 해결방안을 함께 고민해 본다. 아이반 스메타니코프 세로켈(Serokell) 데이터 과학 팀장은 벤처비트 기고를 통해 데이터 고갈에 따른 대응책을 제시하면서도 아직까지 인류는 여전히 어떤 해결책을 정확히 알지 못한다고 말했다.
에포크가 제시한 AI시대 데이터 고갈 문제
대규모 언어 모델(LLM)은 오늘날 가장 주목받는 혁신 중 하나다. 오픈AI와 마이크로소프트(MS)와 같은 회사들이 새로운 자연어처리(NLP) 시스템을 출시하기 위해 노력하고 있는 가운데, 훼손될 수 없는 대량의 품질 데이터에 액세스하는 것의 중요성을 부인할 수 없다.
하지만 지난해 10월 에포크(Epoch)가 수행해 아카이브에 발표한 연구 결과에 따르면 우리는 곧 AI 모델을 훈련시키기 위해 더 많은 데이터가 필요할(필요성에 직면할) 수 있다.
에포크는 향후 수십 년 동안 인터넷에서 사용할 수 있는 라벨이 지정되지 않은 데이터의 총 재고를 추정해 데이터 사용량 증가와 함께 인터넷에서 이용할 수 있는 고품질 데이터의 양을 조사했다. (‘고품질’ 데이터는 소셜 미디어 게시물과 같은 저품질 데이터와 대조되는 위키백과와 같은 리소스를 나타낸다.)
분석 결과 고품질 데이터는 곧 소진될 것이며, 아마도 2026년 이전에 소진되는 것으로 결론이 나왔다.
이와 대조적으로 품질이 낮은 데이터는 훨씬더 늦은 2030~2050년(저품질 언어), 그리고 2030~2060년(저품질 이미지)에 소진될 것으로 예측됐다.
연구진은 결론적으로 향후 데이터 효율성이 크게 향상되지 않거나 새로운 데이터 소스를 사용할 수 없게 된다면, 기계학습 AI모델의 현 확장 추세가 느려질 수 밖에 없다는 것을 분명하게 드러내고 있다. 막대한 데이터 세트가 없이는 AI모델 결과 개선을 기대하기 어렵기 때문이다.
기계 학습(ML) 모델은 학습용 데이터의 양이 증가함에 따라 성능이 향상되는 것으로 알려져 있다. 그러나 단순히 AI 모델에 더 많은 데이터를 제공하는 것만이 항상 최선의 해결책은 아니다.
특히 희귀 이벤트나 틈새 애플리케이션의 경우에는 더욱 그렇다. 예를 들어 희귀 질병을 탐지하는 모델을 훈련하려면 작업할 데이터가 더 필요할 수 있다. 하지만 우리는 여전히 시간이 지남에 따라 모델이 더 정확해지기를 원한다.
아이반 스마타니코프 팀장은 “이는 만일 우리가 기술이 느려지지 않고 AI가 계속 발전하려면 우리가 데이터의 양과 무관하게 기계학습 모델을 구축할 수 있는 또다른 패러다임을 개발해야 한다는 것을 시사한다”고 지적했다.
AI 모델 확대에 따른 여러 가지 한계
스마타니코프는 머신 러닝 모델을 확장하는 데 있어 가장 중요한 해결 과제 중 하나로 무엇보다도 모델 크기 증가로 인한 마진(신호가 일그러져도 바른 정보로 인식할 수 있는 신호의 변형 한계) 감소를 꼽는다.
AI 모델의 크기가 계속 커짐에 따라 모델의 성능 향상은 미미해지게 된다. AI 모델이 복잡해질수록 최적화하기가 어렵고 과대적합(overfitting)되기 쉽기 때문이다. (*AI모델이 학습한 데이터에는 굉장히 잘 맞지만 새로운 데이터에는 잘 맞지 않을 때 과대적합됐다고 한다. 이와 반대로 너무 단순한 모델을 생성해 학습 데이터와 잘 맞지 않을 때 모델이 과소적합(Underfitting)됐다고 한다.)
게다가 더 큰 모델은 더 많은 계산 자원과 훈련 시간을 필요로 하기 때문에 실제 용도에 덜 실용적이다.
확장 모델의 또 다른 중요한 한계는 견고성과 일반화 가능성을 보장하기 어렵다는 것이다.
견고성은 잡음이 많거나 적대적 입력에 직면해도 잘 수행하는 모델의 능력을 말한다. 일반화 가능성은 모델이 훈련 중에 보지 못한 데이터 상에서도 잘 수행할 수 있는 능력을 말한다. 그런데 모델이 복잡해짐에 따라 적대적 공격에 더욱 취약해져 견고성이 떨어진다. 또한 더 큰 모델은 뒤에 숨은 패턴을 학습하는 대신 훈련 데이터를 암기해 일반화 성능이 저하된다.
해석 가능성과 설명 가능성은 AI모델이 예측하는 방식을 이해하는 데 필수적이다. 그러나 모델이 복잡해짐에 따라 내부 작업이 점점 불투명해져 이들의 결정을 해석하고 설명하는 것이 어려워진다. 이러한 투명성 부족은 의사 결정 과정이 설명 가능하고 투명해야 하는 의료나 금융과 같은 중요 활용분야에서 문제가 될 수 있다.
일단 “더 다양한 훈련데이터·동일 데이터 여러번 교육”이 도움
문제를 극복하기 위한 한 가지 접근 방식은 고품질 및 저품질 데이터로 간주되는 것을 재고하는 것이다.
스와바 스웨이얌딥타 미국 서던캘리포니아대 머신러닝 교수에 따르면 더 다양한 훈련 데이터 세트를 만드는 것은 품질을 저하시키지 않고 이같은 한계를 극복하는 데 도움이 될 수 있다.
또한 그는 동일한 데이터에 대해 모델을 두 번 이상 교육하면 비용을 절감하고 데이터를 더 효율적으로 재사용하는 데 도움이 될 수 있다고 말한다.
이러한 접근 방식은 문제를 지연시킬 수 있지만 동일한 데이터를 사용해 모델을 교육할수록 과대적합 되기 쉽다. 우리는 장기적으로 데이터 문제를 극복하기 위한 효과적인 전략이 필요하다.
그렇다면 단순히 모델에 더 많은 데이터를 제공할 수 있는 대안은 무엇일까?
“JEPA 방식, 데이터 증강, 전이학습”
우선 AI 4대천왕 가운데 한사람으로 불리는 얀 르쿤이 제안한 JEPA(Joint Experimic Probability Approvalation)가 꼽힌다. 이는 기계 학습 접근 방식으로서, 경험적 확률 분포를 사용해 데이터를 모델링하고 예측한다는 점에서 전통적 방법과 차이를 보인다. 전통적 접근 방식에서는 AI모델이 종종 데이터의 기본 분포에 대한 가정을 기반으로 해 수학방정식을 데이터에 맞추도록 설계됐다. 그러나 JEPA에서 AI모델은 경험적 분포 근사치를 통해 데이터로부터 직접 학습한다. 이 접근 방법은 데이터를 부분 집합(서브세트)로 나누는 것과 각 하위그룹에 대한 확률 분포를 추정하는 것을 포함한다. 그런 다음 이러한 확률 분포를 결합해 예측하는 데 사용되는 공동 확률 분포를 형성한다. JEPA는 복잡한 고차원 데이터를 처리하고 변화하는 데이터 패턴에 적응할 수 있다.
또 다른 접근 방식은 데이터 증강 기술을 사용하는 것이다. 이 기술에는 새 데이터를 생성하기 위해 기존 데이터를 수정하는 작업이 포함된다. 이 작업은 이미지를 뒤집거나 회전하거나 잘라내거나 이미지에 노이즈를 추가하는 방식으로 수행된다. 데이터 증강은 과대적합을 줄이고 모델의 성능을 향상시킬 수 있다.
마지막으로, 전이 학습(transfer learning)을 사용할 수 있다. 여기에는 사전 훈련된 모델을 사용하고 이를 새 작업에 미세 조정하는 작업이 포함된다. (*즉 학습된 모델의 가중치를 가져와 해결하려는 문제에 맞게 보정해서 사용하는 것이다.) 이 경우 모델이 이미 대규모 데이터 세트에서 가치있는 기능을 학습했기 때문에 시간과 리소스를 절약할 수 있다. 사전 훈련된 모델은 적은 양의 데이터를 사용해 미세 조정될 수 있으므로 드문 데이터에 대한 좋은 솔루션이다.
결론
오늘날 우리는 여전히 데이터 증강 및 전이 학습을 사용할 수 있지만 이러한 방법들이 문제를 완전히 해결하지는 않는다. 그것이 우리가 미래에 이 문제를 극복하는 데 도움이 될 수 있는 효과적 방법에 대해 더 많이 생각할 필요가 있는 이유다.
우리는 아직 정확히 어떤 해결책이 있을지 모른다. 결국 인간에게는 새로운 것을 배우기 위해 단지 몇 가지 예를 관찰하는 것으로 충분하다. 언젠가는 우리도 그렇게 할 수 있는 AI를 발명할 것이다.
소셜댓글