현대적인 데이터센터는 시스템 아키텍처 측면에서 어떤 방향으로 발전하고 있을까?
예전에 데이터센터를 가득 채웠던 시스템은 적은 코어 수로 강력한 싱글 스레드 성능을 내는데 최적화되었다.
요즘 트렌드는 이와 좀 많이 다르다. 서버의 경우, 최근 추세는 가상화를 넘어 컨테이너에 최적화된 시스템 기반을 제공하려고 많은 수의 코어를 내장한 프로세서를 장착하는 한편 유연한 확장이 가능한 아키텍처 쪽으로 발전 중이다.
스토리지 서버도 역시 I/O 요구량 증가에 발맞춰 더 많은 코어를 장착하여 데이터 입출력 처리 성능을 높여가고 있다.
AI 시스템, GPU 가속은 기본...CPU는?
최근 수요가 급증하고 있는 인공지능(AI) 시스템은 GPU 가속을 기본기로 가져가고 있다. GPU 가속 기반 하이퍼스케일 아키텍처를 채택한 시스템이 데이터센터 속 데이터센터처럼 쓰이고 있다.
GPU가 이렇게 데이터센터의 주요 아키텍처가 되고 있는 것은 x86 아키텍처의 장단점에서 배경을 찾을 수 있다.
x86 아키텍처의 강점은 다양한 구성으로 여러 애플리케이션의 요구를 충족할 수 있다는 것이다. 단점은 데이터 처리 측면의 병목 현상으로 AI 시대가 되면서 더욱 도드라지고 있다.
엔비디아(NVIDIA) DGX 서버를 예로 CPU 병목을 알아보자. 이 시스템에 장착된 각각의 암페어(Ampere) GPU는 2TB/s로 실행되는 80GB 초고속 메모리에 연결되어 있다. 총 4개의 GPU는 8TB/s 속도로 320GB 메모리를 처리한다. 이와 비교할 때 CPU는 0.2TB/s 속도로 1TB를 처리한다. CPU 메모리는 3배 정도 크지만, 처리 속도는 GPU보다 약 40배 정도 느리다.
비교 불가 수준의 차이가 나는 것이다. 메모리 속도를 높이는 것도 한계가 있다. PICe 인터페이스가 병목 구간이 되는 것이다. CPU는 NVLINK를 쓸 수 없다 보니 PICe 인터페이스가 최선의 선택인데, 이 인터페이스로는 충분한 속도를 보장할 수 없다.
CPU의 한계 어떻게 극복할 수 있나...엔비디아 답은 '그레이스'
그렇다면 CPU의 한계를 극복할 방법은 없을까? 엔비디아가 직접 답을 찾아 제시한 것이 바로 프로젝트 그레이스(Grace)다. 엔비디아는 1950년대 컴퓨터 프로그래밍 선구자로 알려진 컴퓨터 공학자이자 미 해군 제독인 그레이스 하퍼(Grace Hopper)의 이름을 딴 새로운 CPU를 지난 4월 열린 GTC2021에서 공개했다.
그레이스는 Arm 코어의 장점을 집약한 미래 데이터센터를 위한 CPU다. 이 프로세서는 시스템과 메모리 대역폭을 충분히 활용할 수 있는 것이 주요 특징이다. 일반적인 CPU를 썼을 때와 비교해 메모리에서 GPU까지 이르는 구간의 대역폭이 64GB/s에서 2,000GB/s으로 크게 늘어났음을 알 수 있다. 30배 가까이 성능이 개선된 것이다.
엔비디아는 현재 스위스 국립 슈퍼컴퓨팅 센터와 손을 잡고 그레이스와 차세대 GPU 기반 시스템을 구축 중이다. 알프스(Alps)라고 명명된 이 슈퍼컴퓨터는 20엑사플롭스(Exaflops) 성능을 목표로 하고 있으며, 이는 현존 최고속 슈퍼컴퓨터보다 10배 빠른 수치다. 스위스 국립 슈퍼컴퓨팅 센터는 알프스를 2023년 본격 가동할 계획이며, 이를 이용해 전 세계 기상 및 기후 시뮬레이션, 양자 화학, 양자 물리학 등의 연구에 사용할 예정이다.
이번 그레이스 발표로 엔비디아는 미래 데이터센터 구축을 위한 핵심 프로세서를 모두 확보하게 되었다. 이로써 CPU, GPU, DPU 라인업을 완성한 엔비디아는 매년 지속해서 신규 프로세서를 선보일 방침이라고 한다.
엔비디아의 CPU 시장 진출은 x86 진영과의 직접적인 경쟁 보다는 AI 데이터센터 시대를 위한 새로운 진보로 봐야 할 것이다. 늘 그렇듯 더 나은 선택지는 고객 혜택으로 이어진다. 그레이스의 등장을 모두가 환영하는 이유다.