AI 시대를 맞아 제2의 전성기 맞은 NFS

인공지능(AI)에서 미래를 찾는 기업은 빠르게 늘고 있다. 업종과 규모를 가리지 않고 일어나는 현상이다. 오랜 기간 특별한 투자로 여겨지던 AI가 이제는 보편적인 투자가 되면서 인프라 구축과 운영을 바라보는 시각이 달라지고 있다. 

전통적인 인프라 전략을 AI에 적용하다 보니 뭔가 맞지 않는 부분이 많다는 것을 기업이 체감하고 있다. 몇몇 기업은 유사성이 높은 HPC 환경에서 답을 찾기도 한다. 컴퓨팅 측면만 보면 이해가 가는 접근이다. 그러나 이 방법도 AI 환경을 위한 최선의 선택은 아니다. 스토리지가 구축과 운영이 AI와는 좀 다르기 때문이다. 

러스터 파일시스템 기반 스토리지가 AI에 맞지 않는 이유 

HPC 인프라를 운영하는 많은 곳에서 x86과 리눅스 기반 범용 시스템과 HDD를 이용한 분산 아키텍처를 채용하고 있다. 이 환경에서 러스터(Lustre) 같은 오픈 소스 기반 파일시스템을 적용한다. 이렇게 구성한 스토리지는 HPC 워크로드에 맞는 성능과 확장성을 한다. 

하지만 AI 환경에는 이런 장점이 빛을 발하지 못한다. 병렬 파일시스템 기반 분산 환경은 스토리지 인프라 구성이 비교적 단순한 편에 속한다. 하지만 그 논리적 구조를 보면 매우 복잡하다. 클라이언트에 전용 드라이버를 설치해야 하고, 대용량 데이터 처리를 위해 메타 데이터 서버를 따로 운영해야 하는 관리 포인트가 많은 구성이다(아래 그림 참조). 경우에 따라 상용 고성능 병렬 파일시스템 기반 스토리지를 적용할 수 있는데, 이 경우는 특정 기술과 업체에 종속될 우려가 있다. 

출처: https://wiki.lustre.org/Introduction_to_Lustre
출처: https://wiki.lustre.org/Introduction_to_Lustre

인프라 운영자에게 더 큰 부담으로 다가오는 것이 있다. 바로 리눅스 운영체제 업그레이드다. 각 노드를 구성하는 리눅스 시스템은 주기적인 업그레이드가 필요하다. 보안 패치, 정기 업데이트 등의 이유로 진행하는 업그레이드 작업을 피할 수 없다. 

문제는 이 작업이 인프라 운영자에게 ‘자살 협정’과 다를 바 없다는 것이다. 커널 업그레이드는 곧 병렬 파일시스템 기반 스토리지 환경의 중단을 의미한다. 물론 프로덕션 환경의 중단 없이 스케줄링 하겠지만 업그레이드는 어떤 문제가 일어날지 몰라 늘 이전 상태로 돌아갈 수 있는 롤백을 고려해야 하는 만큼 부담이 크다. 

또한 AI 인프라 사용자인 데이터 과학자와 개발자의 눈에도 러스터 파일시스템 기반 분산 스토리지는 성능 저하의 우려가 있다. 미국 에너지부가 발행한 보고서(AI for Science)에서도 보면 러스터 파일시스템 기반의 버스트 버퍼 지원 스토리지 시스템은 AI 환경의 과중한 랜덤 읽기 액세스 워크로드를 전제로 설계되지 않아 성능이 떨어지는 경우가 많다고 언급하고 있다. 이런 이유로 많은 기업이 AI 전용 스토리지 인프라의 새로운 대안을 찾고 있다. 

 

NAS의 단순함과 차세대 NFS의 강력함

최근 가장 유력한 대안으로 급부상하고 있는 기술이 있다. 우리에게 너무나도 익숙한 NAS(Network Attached Storage)가 그 주인공이다. 지금까지 우리가 접한 전통적인 NFS 파일시스템 기반 NAS는 AI 워크로드를 처리하기에 너무 느린 문제가 있다. 

가령 NVIDIA DGX A100의 데이터 처리량인 200GB/s를 처리하기에 턱없이 부족한 2GB/s의 대역폭을 지원한다. 그렇다면 HPC 파일시스템의 높은 확장성과 성능이 이점과 NAS의 단순성과 경제성이 높은 장점을 모두 누릴 수 있는 AI 전용 스토리지는 없는 것일까? 

다행히 있다. NFS는 과거에 머문 파일시스템이 아니다. 리눅스 커널 버전업이 거듭되는 가운데 성능 최적화가 지속해서 이루어지고 있다. 여기에 RDMA와 NVIDIA의 GDS(GPUDirect Storage) 같은 기술의 등장으로 네트워킹 측면의 성능도 크게 높아졌다. 이런 여러 개선 사항을 하나의 아키텍처로 정의하고 구현한 것이 VAST 데이터의 유니버설 스토리지다. 이 아키텍처는 최신 NVMe SSD인 QLC 드라이브와 스토리지 클래스 메모리인 인텔 옵테인을 적용한 인클로저를 사용하여 성능과 경제성을 모두 잡았다. 

 

VAST 데이터의 접근은 AI 환경을 위한 스토리지 고려 요소인 속도, 복잡성, 비용 각각에 명확한 답을 제시한다. 먼저 속도의 경우 NAS 구조임에도 NVIDIA DGX A100의 데이터 처리량인 200GB/s에 근접한 처리량을 보여 준다. 다음으로 복잡성은 NFS 기반 NAS가 갖는 간소화된 구조와 운영 방식을 통해 해소한다. 비용 절감 방안은 CPU, GPU 자원 효율성을 극대화하는 가운데 QLC 드라이브를 통해 제시한다. 

살펴본 바와 같이 AI 환경은 지금껏 적용한 엔터프라이즈 스토리지 구축과 운영 방식으로 소화하기 어렵다. 유사성이 크다 볼 수 있는 HPC 환경에서 해왔던 분산 구조도 맞지 않는다. 속도, 복잡성, 비용 세 측면에서 가장 합리적인 AI 전용 스토리지 아키텍처가 필요한 이유다. 

김성태

sungtai@uclick.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

'M4 프로' 칩으로 더 완벽해진 맥 미니

애플은 오늘 신형 맥 미니를 공개하며 크기를 줄이고 성능을 강화한 M4 및 M4 Pro 프로세서를 탑재한 것이 핵심이라고 밝혔습니다. 이번...

M4 아이맥 고르는 방법, 그리고 M4와 다음 맥에 대한 기대

애플이 iOS 18.1 업데이트와 함께 M4 프로세서가 탑재된 새로운 아이맥을 발표했다. 새 아이맥은 모든 모델에서 16GB 메모리를 기본으로 제공하며, 모든...

매번 혼자만 바쁘다면, 이렇게 권한 위임하라

"자네는 여기서 하는 일이 뭔가?" 핵잠수함의 신임 함장이 승조원 하사관에게 이렇게 물었습니다.  그는 망설임 없이 대답했습니다. "위에서 시키는 일은 뭐든지 다 합니다."만약...

일론 머스크의 xAI, 잘 될까요?

머스크가 꿈꾸는 인공지능 '설명가능한 인공지능'이라는 단어가 있는데 이를 영문으로 XAI(eXplainable Artificail Intelligence)라고 합니다. 사용자가 머신 러닝 알고리즘에 의해 생성된 결과물을 이해하고...