①AI 붐이 낳은 최고 슈퍼스타...세계 IT업계 요동
③세계 IT업계 요동… 대안을 찾아 나선 기업들
지난달 23일 엔비디아 2분기 실적 발표로 전세계는 AI시대의 슈퍼스타 기업에 또다시 환호했다. 이 회사는 올초 시총 1조 달러를 달성하더니 증권가의 사상 최고 실적 전망을 훌쩍 뛰어넘는 놀라운 실적, 테슬라의 3배에 이르는 주가수익률 등으로 도다시 놀라움과 부러움의 대상이 되고 있다. AI시대의 기린아 엔비디아의 놀라운 실적, 한번 맛들이면 빠져나오기 힘들다는 성공적인 GPU 확산의 비결과 품귀 현상의 향배, 그리고 다양한 엔비디아칩 대체 노력 등을 세차례에 걸쳐 소개한다. 세계 반도체 역사상 몇 손가락 안에 들 만한 엔비디아 칩의 인기 비결은 AI시대의 흐름과 맞물린 점과 떼놓고 생각할 수 없다. 하지만 고객 편의 위주로 조성된 칩 사용자 생태계 형성 노력도 간과할 수 없다. 이는 추격자 구글, 인텔, AMD가 안간힘을 쓰면서도 쉽사리 따라잡지 못하는 이유로 꼽힌다. 현재 AI붐이 이어진다면 엔비디아 GPU 전성시대는 꽤 오래 갈 것 같다. CNBC, 더레지스터, 디코더, 비즈니스 인사이더, 뉴욕타임스, 비주얼 캐피털리스트 등을 참고했다.
엔비디아 GPU만으로는 수급난 해소 어렵다
엔비디아는 지난해 11월 오픈AI의 챗GPT로 촉발된 인공지능(AI) 산업 붐 덕분에 이에 최적화된 GPU로 연속 성장 행진을 보이면서 시총 1조달러(약 1333조 원) 회사에 오르는 등 연일 상승세다.
AI 관련 기업들이 이 새로운 AI 세계 질서 하에서 향상된 제품과 신제품을 개발하면서 연계성을 지속하고 유지하기 위해 앞다퉈 엔비디아 GPU를 사들였다. 그에 따른 엔비디아 GPU 수요폭발은 이 회사의 매출을 새로운 수준으로 끌어올렸다. 이에 엔비디아 경영진은 향후 몇 분기에 걸쳐 이러한 수요로부터 수십억 달러의 이익을 얻을 것으로 예상하고 있다.
하지만 물량이 부족한 현시점에서 많은 사람들의 관심사는 결국 엔비디아와 협력사가 실제 수요를 충족시킬 수 있는 충분한 GPU를 구축할 수 있을지, 그리고 그렇게 하지 못할 경우 어떻게 될지일 것이다.
콜레트 크레스 엔비디아 최고재무책임자(CFO)는 지난달 23일 월가 분석가들과의 2분기 실적 발표 컨퍼런스콜에서 자사는 GPU 공급주기를 단축하고 공급물량을 늘리기 위해 파트너와 긴밀하게 협력하고 있다고 말했다. 크레스는 구체적 사항을 요구받자 자사 기기는 너무 많은 공급업체와 관련돼 있어 언제 얼마나 많은 용량을 제공할 수 있을지 말하기 어렵다고 주장하며 질문을 반복적으로 회피했다.
하지만 엔비디아의 말을 받아들여 파이낸셜타임스(FT)의 최근 보도대로 엔비디아가 내년에 최고 사양의 H100 GPU가속기를 올해의 최소 3배 규모인 150만~200만대로 늘리더라도 문제는 여전하다.
이게 나오면 엔비디아의 매출은 더 늘겠지만 일부 기업은 엔비디아가 그때까지 기다릴 수 없기 때문이다. 이를 대체할 경쟁자들은 다 어디로 갔을까.
AMD와 인텔, H100급 대항마 출시 및 예고
엔비디아의 장벽을 넘어서 모험을 떠나려는 다른 사람들에게 대안이 없는 것은 아니다.
최근 로이터는 업계 소식통을 인용, 아마존이 AI 훈련을 위해 인텔의 가우디 AI 가속기로 자체 맞춤형 트래이니엄(Trainium) 칩을 보완하고 있다고 전하고 있다. 다만 얼마나 사용하고 있는지는 분명치 않다.
CPU의 종가인 인텔이 엔비디아 대항마인 가우디-2를 출시한 것은 지난 5월이다. 인텔은 이 프로세서가 엔비디아 A100과 비교할 때 적어도 레스넷-50(ResNet-50) 이미지 분류 모델과 버트 자연어 처리 모델에 관한 한 약 2배의 성능을 제공한다고 주장한다. 여기에 인텔은 최근 중국 AI 칩 수요기업들을 위해 판매가격을 낮춘 중국향 칩버전을 소개했다.
이어 인텔은 내년에 엔비디아 현세대 최강 AI칩인 H100과 경쟁하기 위해 가우디-3로 불리는 훨씬 강력한 버전의 프로세서를 출시할 것으로 예상된다.
여기에 최근 슈퍼컴퓨팅 분야에서 세간의 이목을 끈 AMD도 AI 시장에 높은 관심을 보이고 있다.
AMD는 지난 6월 데이터 센터 및 AI 행사에서 올해 말 출하를 시작할 예정인 인스팅트 MI300X에 대해 자세히 설명했다. 이 가속기는 단일 패키지에 192GB 속도의 HBM3 메모리와 8개의 CDNA아키텍처 GPU 다이가 들어간다.
슈퍼컴 전문 뉴스사이트인 더넥스트플랫폼은 이 칩이 8FP(8비트 부동소수점)데이터 타입에서 약 3페타플롭스(1페타플롭·1PF=초당 1000조번 부동 소수점 연산 속도) 성능을 제공할 것으로 추정한다.
성능 측면에서 엔비디아 H100의 75%는 더 높은 메모리 성능을 제공하지만, MI300X는 2.4배 더 높은 메모리 용량을 제공하므로 고객이 모델 교육을 위한 GPU 사용을 줄일 수 있다.
이같은 설득력 있는 성능 제공과 함께 실제로 구입할 수 있는 GPU에 대한 전망은 분명히 수요자들의 관심을 자극했다. 지난달 초 리사 수 AMD 최고경영자(CEO)는 2분기 실적 발표에서 자사의 AI 참여가 분기 중 7배 성장했다고 자랑했다. 그녀는 “데이터 센터에서만 우리는 AI 가속기 시장이 2027년까지 1,500억 달러 이상에 이를 것으로 예상한다”고 말했다.
인텔, AMD의 고민은 타이밍 맞출 수 있는지 여부
여전한 도입 장벽 속에서 인텔과 AMD 두 회사의 움직임은 엔비디아 칩 품귀현상 가속화를 저지할 희망으로 보인다. 하지만 두 회사를 비롯한 경쟁사들은 이 대항마를 적절한 시점까지 내놓지 못할 가능성이 크다는 지적과 우려도 나온다.
더레지스터에 따르면 AMD와 인텔 모두 최소한 성능 측면에서 엔비디아의 H100에 도전할 수 있는 가속기를 몇 달 동안 준비하지 못할 것으로 보인다. 게다가 두 회사가 엔비디아 GPU 대항마를 내놓더라도 고객들은 여전히 이들의 덜 성숙한 SW를 사용하려 들지도 의문이다.
게다가 엔비디아의 경쟁사들은 그간 엔비디아가 확보해 놓았거나 더 확보하길 원하는 것과 동일한 수준의 공급 및 제조능력 확보 여부도 불투명하다.
예를 들어 AMD는 엔비디아처럼 칩 제조를 TSMC에 맡기고 있지만 이를 만들어 줄 때까지 꽤 오래 기다려야 할지 모른다는 것이다. 최근 PC, 휴대폰 구매자들이 줄어들면서 반도체 수요가 침체에 빠져 있지만 모델을 훈련시키고, 기계학습 애플리케이션을 가동하기 위한 서버 가속기에 대한 수요는 여전히 엄청나기 때문이다.
또한 코드 문제를 보더라도 엔비디아의 수년간 지속돼 온 가깝고 긴밀한 HW 및 SW 연결 생태계가 위협적이다. 그 결과 이미 이 업계를 지배하고 있는 엔비디아의 쿠다(CUDA) 프레임워크에 최적화된 가장 인기 있는 AI 모델을 포함한 많은 코드가 있다.
인텔과 AMD도 이 부분의 열세를 만회하기 위해 노력하고 있다.
인텔의 원 API(OneAPI)에는 사용자가 엔비디아의 쿠다용으로 작성한 코드를 SYCL로 변환하는 것을 돕는 도구가 포함돼 있다. 이는 이후 인텔의 AI 플랫폼 제품군에서 실행될 수 있다. AMD도 이와 유사하게 HIP API를 사용해 쿠다 워크로드를 자사의 인스팅트 GPU 제품군에서 실행되도록 변환하려는 노력을 해 오고 있다.
하지만 고객들의 인정에 기반한 판매 확대라는 성과가 언제쯤 나올지는 알 수 없다.
이런 가운데에서도 기술적으로 앞선 고객들, 즉 레거시 코드를 개발하고 최적화하거나 좀더 새롭지만 성숙도가 낮은 새로운 아키텍처로 이식하는 데 전념할 리소스를 가진 고객들은 대체 HW 플랫폼을 선택할 수 있다. 이를 통해 잠재적 비용 절감 또는 리드 타임을 단축시킬 수 있다. 구글과 아마존 모두 이미 TPU 및 트레이니엄(Trainium) 가속기를 사용해 이 경로를 따라가고 있다.
반면 이러한 리소스가 부족한 사람들에게는 아무리 성능이 좋아도 검증된 SW 스택이 없는 인프라를 수용하는 것이 문제로 보일 수 있다. 이런 기업들이 여전히 많은 경우 엔비디아는 여전히 안심할 수 있을 것이다.
이런 기업들의 문제를 해결해 주기 위해 많은 AI 칩 제조업체들은 기계언어(ML) 앱 구축 도구를 개발하는 허깅 페이스(Hugging Face)와 같은 업체들과 제휴하고 있다. 이들에게 도움을 요청해 자신들의 HW에서 인기 모델을 실행하기 어렵게 만드는 장벽을 줄이려는 것이다. 이러한 기업들의 잇단 러브콜과 투자는 최근 허깅 페이스의 가치를 40억 달러 이상(약 5조3000억원)으로 끌어올렸다.
수요자들, 세레브라스 등 유망스타트업에 주목
지난해 11월 AI챗봇인 챗GPT 출시로 시작된 엔비디아 GPU 품귀현상 속에서 혜성처럼 등장한 세레브라스는 엔비디아 칩 시장 지배력에 도전하려는 가장 핫한 스타트업 중 하나로 꼽히고 있다.
실리콘밸리의 칩 스타트업 세레브라스 시스템즈는 당시 상업 및 학술 연구가 가능한 AI슈퍼컴인 ‘안드로메다’를 공개했다.
앞서 이 회사는 인공지능(AI) 작업을 위한 저녁식사용 접시 크기의 칩을 만들었다. 세레브라스 가속기는 엔비디아의 HGX 및 DGX 시스템을 가동하는 GPU와는 매우 다르다. 이 가속기는 랙 마운트 섀시에 GPU 4개 또는 8개를 장착하는 대신 저녁 식사용 접시 크기의 85만코어와 40GB S램을 장착한 실리콘 시트로 돼 있다.
이 회사는 1 엑사플롭(초당 100경회 부동소수점 연산속도, FP16 기준, FP=딥러닝을 위한 부동소수점 포맷) 성능을 달성하는 데 이러한 가속기 16개면 충분하다고 주장한다. 엔비디아 H100 칩으로 이 성능에 도달하려면 500개 이상이 필요할 것으로 추정된다.
실제로 세레브라스는 16개의 세레브라스 CS-2 시스템을 연결해 안드로메다를 만들었다. ( CS-2는 웨이퍼 스케일 엔진 2(WSE-2)로 불리는 초대형 칩 기반의 최신 AI컴퓨터다.) 이 회사는 안드로메다가 16비트 부동 소수점 포맷의 프리시전을 기준으로 1엑사플롭(1EF=초당 100경번회 부동소수점 연산) 가치의 AI 연산을 수행할 수 있다고 밝혔다. 미국에서 가장 빠른 속도로 핵무기 시뮬레이션을 할 수 있는 오크리지 국립연구소의 슈퍼컴 프런티어 수준이다. 이 슈퍼컴도 올해 64비트 더블 프리시전 포맷 기준으로 1엑사플롭 성능을 보이고 있다.
앤드루 펠드먼 세레브라스 창업자이자 최고경영자(CEO)는 프론티어 슈퍼컴퓨터에 대한 질문을 받자 “그들은 더 큰 기계다. 우리는 그들을 이기는 것이 아니다. 그것들은 만드는 데 6억 달러(약 8007억원)가 들었다. 안드로메다는 3500만달러(약 467억원)도 안들었다”고 밝혔다.
그는 복잡한 핵 시뮬레이션과 기상 시뮬레이션이 역사적으로 64비트 더블 프리시전 컴퓨터에서 실행됐지만 이것은 계산 비용이 많이 드는 형식이므로 연구자들은 AI 알고리즘이 결국 그러한 결과와 일치할 수 있는지 조사하고 있다고 말했다.
펠드먼 CEO는 안드로메다는 세레브라스가 소유하고 있으며 캘리포니아 산타클라라에 있는 콜로보어(Colovore)라는 고성능 데이터 센터에 구축됐으며 미국 국립 연구소의 연구원을 포함한 기업과 연구원들이 원격으로 접근할 수 있다고 밝혔다.
이 회사는 지난 3월에는 1억 1100만에서 130억개의 매개 변수를 갖는 7개의 LLM 모음인 세레브라스-GPT를 발표했다.
세레브라스는 자사의 이 엑사플롭 AI가이 하나의 가속기처럼 프로그램을 계산한다며 자사의 모델을 허깅페이스를 통해 사용해 보라고 말하고 있다.
엔비디아 칩 부족사태가 개방효과 불러오나
이같은 일련의 움직임에 대해 반도체 제반 공급망 전문 연구 및 컨설팅 회사인 세미어낼리시스의 딜런 파텔 분석가는 “대규모의 큰 수급 간 격차가 발생하자 일부 기업들이 엔비디아 HW 부족을 보완하기 위해 AMD GPU와 세레브라스 WSE로 눈을 돌리고 있다”고 말했다.
가장 매력적인 사례 중 하나는 세레브라스의 기술을 도입한 아랍에미레이트(UAE) 기업 G42가 사용하는 클라우드다. 이 회사는 세레브라스 시스템을 활용해 1억달러(약 1333억 원)에 36엑사플롭(1엑사플롭·1EF=초당 100경 번 연산 속도, FP16 연산) 성능을 구현할 수 있는 9대의 AI 슈퍼컴퓨터를 구축했다. (이는 우리나라가 내년 말까지 2912억 원을 들여 구축하겠다는 국가슈퍼컴 6호기의 용량이 600PF(1페타플롭스·1PF=초당 1000조 번의 연산 처리)인 것을 감안할 때 얼마나 엄청난 경제성과 뛰어난 연산능력을 보여주는지 알 수 있다.)
세레브라스는 지난 2021년 WSE-2를 처음 선보였고 이 회사는 이를 지구상에서 가장 빠른 AI 프로세서라고 부른다. 물론 분석가들은 AI 훈련과 추론 작업에 관련된 많은 요소가 포함된다는 것을 잘 알고 있다.
이 거래를 상당히 중요하게 만드는 것은 타이밍이다. 전 세계의 클라우드 컴퓨팅 공급업체들이 AI 컴퓨팅 파워의 선두 업체인 반도체 대기업 엔비디아의 GPU칩을 대체할 제품을 적극적으로 찾고 있는 시기이기 때문이다.
탈랄 알 카이시 G42 클라우드 CEO는 로이터에 “셀레브라스는 이른바 ‘화이트 글러브’(무결점) 서비스를 가지고 있어 우리가 기계에 AI 시스템을 쉽게 구축할 수 있게 해줬다”며 “전 세계 어느 곳에서든, 특히 미국 생태계에서 오픈소스 AI 커뮤니티의 고객들에게 세레브라스와 함께 도매하기를 희망하는 일부 과잉 용량이 있을 것이다”라고 말했다.
이에 따라 두 회사는 각각 역할을 분장하고 있다.
우선 세레브라스는 G42에 생성AI 훈련에 필요한 4엑사플롭(1엑사플롭=초당 100경회 부동소수점 연산), 5400만 코어, 64노드 콘도르 갤럭시 슈퍼컴 시스템을 제공한다. 이와 병행해 G42는 세레브라스의 슈퍼컴 3대를 구매할 예정이며, 이때 세레브라스는 이 과정의 속도를 높이기 위해 미국 내 콘도르 갤럭시(Condor Galaxy) 슈퍼컴의 개발과 건설을 담당하게 된다.
공식 발표에 따르면 첫 번째 콘도르갤럭시 슈퍼컴은 올해안에 가동되며, 나머지 두 대는 내년초에 가동된다.
안드레스 펠드먼 세레브라스 CEO는 로이터에 자사는 이 정교한 컴퓨팅 서비스를 개발할 때 최고 수준의 품질을 보장하기 위해 G42와 긴밀히 협력하기 위해 3개월 동안 사업장을 UAE로 이전할 계획이라고 말했다. 펠드먼은 또한 시장을 뒤흔들 수 있는 그런 기회의 생명력을 강조했다.
아부다비에 본사를 둔 G42는 이미 다양한 핵심 산업에 세레브라스의 컴퓨팅 파워 기반 서비스를 제공하기 위한 큰 계획을 수립하고 있다. 그 중 가장 유명한 것은 의료 및 에너지다.
이처럼 엔비디아 GPU 수급 불일치는 결국 AI칩 시장 수요에 대응한 개발을 촉진하면서 시장을 확대하고 AI산업에 물꼬를 터줄 새 국면을 열어주게 될 것이다. 그 수급의 갭을 채워줄 기업은 결국 엔비디아의 독점적 지위를 나눠 갖게 될 것이다.
잭 골드 J 골드 어소시에이츠 분석가는 “많은 GPU 제품들의 공급이 부족하기 때문에 다른 제품들이 최소한 경쟁력 있는 제품을 제공할 수 있다고 가정하면, 이는 확실히 다른 기업들의 시장 진출을 위한 문을 열어 줄 것이다. 우리는 이미 PC용 GPU에서 일부 가격 전쟁이 발생하는 것을 보았고 인텔은 특히 낮은 쪽에서 꽤 공격적으로 가격을 책정했다”고 말했다.
그는 “(데이터 용량변화에 신속히 대응 처리하는)하이스케일러가 고객들에게 인텔 기반 하이엔드 GPU를 제공할 가능성이 높으며, 해당 서비스의 가격 책정은 인텔 하이엔드 GPU가 AI 및 기타 HPC 작업용 엔비디아 GPU와 얼마나 잘 경쟁하게 될지를 결정할 것이다. 엔비디아의 하이엔드 AI 기반 제품은 여전히 함께 작동할 CPU를 필요로 하며, 엔비디아는 특히 엔비디아 하이엔드 H100 시리즈의 CPU 기능을 구동하는 새로운 제온 스케일러블 프로세서를 필요로 하기에 인텔과 실무 협력 관계를 맺고 있다”고 말했다.
시간이 지나면 GPU와 관련 HW에 대한 공급 상황 및 가격 문제를 알 수 있지만, 한 가지 확실한 것은 생성 AI에 대한 수요가 우리에게 달려 있다는 것이다.