글로벌 AI 데이터 클라우드 기업 스노우플레이크(Snowflake)가 기업들이 강력한 AI 애플리케이션을 대규모로 쉽게 활용 및 구축할 수 있도록 스노우플레이크 코텍스 AI(Snowflake Cortex AI)에서 라마 3.1에 대한 호스팅을 개시한다고 9일 밝혔다.
이와 같은 내용은 10일 서울 코엑스에서 ‘엔터프라이즈 AI 시대’를 주제로 진행될 ‘스노우플레이크 월드 투어’에서 구체적으로 소개될 예정이다.
이에 앞서 이날은 행사를 위해 방한한 크리스티안 클레이너만 스노우플레이크 제품 담당 수석 부사장, 제프 홀란 애플리케이션 및 개발자 플랫폼 총괄이 기자간담회를 통해 직접 자사의 서비스 특장점을 소개하는 자리를 가졌다.
이날 클레이너만 부사장은 “한국 기업들이 클라우드, 데이터, AI 기술을 어떻게 받아들이고 있는지를 보면 매우 흥미롭다”며 “스노우플레이크의 이야기는 베타 컴퓨팅과 보안 및 거버넌스로 구성된 강력한 기반을 갖추는 것에서 시작된다”고 강조했다.
이어 클레이너만 부사장은 스노우플레이크만의 데이터 처리 방식과 더불어 도큐먼트 AI, 폴라리스 카탈로그, 보안과 거버넌스 등의 세부 사항에 대해 설명했다.
바톤을 이어받은 제프 홀란 총괄은 보안을 강조하며 “고객 지원 데이터 같은 것을 AI로 보낼 경우 유출의 우려가 있기 때문에 데이터에 AI를 가져오는 방식을 적용했다”고 설명했다.
“수백, 수천건의 지원 사례를 보면 AI가 제 데이터를 검토한 후 요약을 작성해 줍니다. 여기서 특별하고 강력한 점은 플랫폼에서 모든 작업을 수행하기 때문에 데이터가 제 계정을 떠나지 않는다는 거죠. 실제로 이 프로세스를 스노우플레이크에서 모두 실행한 후 결과를 얻기 까지는 10분 정도가 걸리고 1달러 정도의 비용이 듭니다.”
코텍스 AI에서 라마 3.0 호스팅 개시
그렇다면 10일 공개될 메타와 협업을 통해 스노우플레이크가 이뤄낸 기능의 구체적인 내용은 뭘까? 앞서 스노우플레이크 AI 리서치팀은 오픈소스 커뮤니티와 협업으로 초거대 LLM 추론 및 파인튜닝 시스템 스택을 출시했다. 이를 바탕으로 라마(Llama) 3.1 405B와 같은 수천억 개의 매개변수 모델에 필요한 오픈소스 추론 및 파인튜닝 시스템용 최첨단 솔루션을 구축한다.
라마 3.1은 다중 언어 오픈소스 대규모언어모델(LLM)의 컬렉션이다. 이번에 출시한 서비스에는 메타(Meta)에서 가장 큰 규모이자 강력한 성능의 오픈소스 LLM인 라마 3.1 405B가 제공된다. 스노우플레이크는 실시간의 고처리량 추론을 구현함은 물론 강력한 자연어 처리 및 생성 애플리케이션의 보편화를 증진하는 추론 시스템 스택을 개발하고 오픈 소싱한다.
스노우플레이크 AI 리서치팀은 추론 및 파인튜닝에 대해 라마 3.1 405B를 최적화함으로써 서비스 개시 첫날부터 거대한 128K 컨텍스트 윈도우를 지원한다. 동시에 기존 오픈소스 솔루션에 비해 엔드투엔드 지연시간은 최대 3분의 1로 낮아지고 처리량은 1.4배 높아진 실시간 추론을 구현한다. 또한, 코텍스 AI에서 하나의 GPU 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화해준다.
메타와 협력을 통해 스노우플레이크 고객은 AI 데이터 클라우드에서 메타의 최신 모델에 원활하게 액세스하고 파인튜닝하여 배포할 수 있다. 스노우플레이크는 사용이 간편하고 효율성 및 신뢰도 높은 방법은 물론, 기본적으로 내장된 신뢰도 및 안전성에 대한 포괄적인 접근방식을 제공한다.
비벡 라구나단(Vivek Raghunathan) 스노우플레이크 AI 엔지니어링 부사장은 “스노우플레이크의 AI 리서치팀은 기업과 오픈 소스 커뮤니티가 라마 3.1 405B 등의 최첨단 오픈 모델을 적극 활용해 효율 극대화를 위한 추론 및 파인튜닝을 가능하게 한다”며, “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라, 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도우와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등을 지원하는 새로운 연구 및 오픈소스 코드로 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.
가장 빠르고 메모리 효율 높은 오픈소스 추론 및 파인튜닝 주도
스노우플레이크 AI 리서치팀은 AI 커뮤니티에 정기적으로 기여하고 최첨단 LLM 기술 구축 방식에 대한 투명성을 높여 오픈소스 혁신의 한계를 넓혀가고 있다. 또한, 라마 3.1 405B의 출시와 더불어 딥스피드(DeepSpeed), 허깅페이스(HuggingFace), vLLM 및 보다 폭넓은 AI 커뮤니티와의 협업을 통해 자사의 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택을 오픈 소스화하고 있다. 이러한 혁신을 통해 수천억 개의 매개변수 모델에 대한 오픈소스 추론 및 파인튜닝 시스템에 필요한 새로운 최첨단 솔루션을 구축한다.
초거대 모델의 규모 및 메모리에 대한 요구사항은 실시간 유스케이스에 요구되는 저지연성 추론과 비용 효율을 위한 높은 처리량, 그리고 다양한 엔터프라이즈급 생성형 AI 유스케이스에 필요한 긴 컨텍스트 지원을 실현하고자 하는 사용자에게 있어 상당한 도전 과제다. 모델 및 활성 상태 저장에 대한 메모리 요구사항도 파인튜닝을 어렵게 하며, 훈련을 위한 모델의 상태에 맞춰야 하는 대규모 GPU 클러스터에 데이터 과학자가 액세스할 수 없는 경우도 빈번하다.
스노우플레이크의 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택은 이러한 문제를 극복했다. 스노우플레이크는 고급 병렬화 기술과 메모리 최적화를 통해 복잡하고 고비용의 인프라가 없어도 효율적인 AI 처리가 가능하다. 라마 3.1 405B의 경우 스노우플레이크의 시스템 스택은 단일 GPU 노드 하나로도 실시간의 고처리량 성능을 발휘하고 다중 노드 설정 전반에 걸쳐 128k 개의 거대한 컨텍스트 윈도우를 지원한다. 이러한 유연성은 차세대 하드웨어와 레거시 하드웨어 모두에 유효해, 보다 광범위한 기업들이 이용할 수 있다. 또한 데이터 과학자들이 전보다 적은 개수의 GPU 상에서 복합 정밀 기술을 사용해 라마 3.1 405B를 파인튜닝할 수 있으므로 대규모 GPU 클러스터에 대한 필요성이 사라진다. 이에 따라 기업들은 강력한 엔터프라이즈급 생성형 AI 애플리케이션을 보다 편리하고 효율적이며 안전하게 채택하고 배포할 수 있다.
스노우플레이크의 AI 리서치팀은 기업들이 이러한 유스케이스를 코텍스 AI에서 쉽게 적용할 수 있도록 모델 증류, 안전 가드레일, 검색 증강 생성(RAG), 합성 데이터 생성 등 파인튜닝에 최적화된 인프라도 개발했다.
스노우플레이크 코텍스 AI, 신뢰도 높고 책임감 있는 AI 제공을 위한 노력 강화
AI 안전성은 스노우플레이크와 고객에게 가장 중요한 요소 중 하나이다. 이에 따라 스노우플레이크는 코텍스 AI에 구축된 모든 LLM 애플리케이션 및 자산을 유해한 콘텐츠로부터 더욱 강도 높게 보호하기 위해 업계 선도 기업과 협업하고 있다. 메타의 모델 또는 AI21 랩스(AI21 Labs), 구글(Google), 미스트랄 AI(Mistral AI), 레카(Reka) 및 스노우플레이크 등이 제공하는 LLM을 통해 스노우플레이크 코텍스 가드를 일반인들이 이용할 수 있도록 공개하고 있다.
데이브 린들리(Dave Lindley) E15 그룹 데이터 제품 상무는 “당사는 접객 서비스 산업의 선두주자로서 고객의 소리(VOC) 플랫폼 내의 주요 사안을 심도 있게 이해하고 정량화하는 데 있어 생성형 AI를 전적으로 사용하고 있다. 스노우플레이크 코텍스 AI 상에서 메타의 업계 최고 모델인 라마를 이용할 수 있게 되어 데이터와의 소통을 더욱 강화하고 비즈니스 성과 향상에 필요한 인사이트를 확보할 수 있게 됐다”며, “라마를 파인튜닝하고 테스트하여 게스트의 실시간 피드백에 기반한 조치를 운영에 반영하게 되길 기대한다”고 말했다.
라이언 클래퍼(Ryan Klapper) 하코다(Hakkoda) AI 리더는 “생성형 AI를 활용하는 데 있어 안전과 신뢰는 비즈니스의 필수 요소다. 스노우플레이크는 우리가 업계 최고 수준의 LLM을 혁신하고 활용하는데 필요한 확신을 제공한다”며, “스노우플레이크 코텍스 AI 내에 메타의 라마 모델이 강력하게 결합됨으로써 우리에게는 내부 RAG 기반의 애플리케이션 서비스를 제공할 기회가 훨씬 더 늘어날 것이다. 이러한 애플리케이션은 사용자에게 포괄적인 내부 지식기반과 매우 원활하게 상호작용할 수 있는 역량을 부여함으로써 필요할 때면 언제든지 정확하고 적절한 정보에 액세스할 수 있게 한다”고 말했다.
매튜 스컬리온(Matthew Scullion) 마틸리온(Matillion) CEO 겸 공동창립자는 “마틸리온은 메타의 라마 모델을 스노우플레이크 코텍스 AI 내에서 활용해 고객들에게 최신 오픈소스 LLM에 대한 액세스를 부여하고 있다”며, “앞으로 추가될 라마 3.1은 우리의 팀과 사용자들에게 유스케이스에 가장 잘 부합하고 첨단 AI 혁신을 지속하도록 지원하는 대규모언어모델을 액세스하는 데 있어 지금보다 더 많은 선택과 유연성을 제공할 것이다”고 말했다.
케빈 니파코(Kevin Niparko) 트윌리오 세그먼트(Twilio Segment) 제품 및 기술 전략 부사장은 “고객 참여 및 고객 데이터 플랫폼 분야의 리더인 트윌리오의 고객들은 적절한 타깃에게 적절한 메시지를 적시에 생성하기 위해 올바른 데이터에 액세스해야 한다”고 말했다. “스노우플레이크 코텍스 AI 내에서 유스케이스에 적합한 모델을 선택할 수 있는 역량은 우리의 공통된 고객들이 AI 기반의 인사이트를 생성하고 후속 툴에서 이를 쉽게 구현하는데 도움이 된다. 급속도록 발전하는 시대에 기업들이 최상의 결과를 도출하기 위해서는 통합 데이터 세트에 대한 작업을 빠른 속도로 반복해야 한다”고 덧붙였다.