딥러닝 프로젝트 발목 잡는 네트워크-스토리지 성능 해결 팁

[AI 요약] 딥러닝 프로젝트에서 기업들이 처리해야 하는 작업이 증가하고 있지만 모델이 점점 커지고 있다는 것이 문제이다. 그래서 모델 개발과 트레이닝 관련 성능부족, 간선 현상을 어떻게 해결할 지에 대한 답이 필요한데, 이를 위해 데이터 처리 최적화, 데이터를 가까이에 두고 성능을 해결하는 것이 기본 중의 기본이라는 것 외에도 네트워크 토폴로지 최적화는 어려운 과제라고 한다. 딥러닝 전문가가 될 필요는 없지만, 딥러닝 클러스터를 쓰는 곳이라면 이들 기술을 이해도 바탕이 되어야 한다.


딥러닝 프로젝트에서 컴퓨팅 성능에 대한 기업의 고민이 깊어지고 있습니다. 클러스터가 처리해야 하는 작업은 나날이 늘고있죠. 문제는 모델이 점점 커지는 데다 트레이닝을 위해 사용하는 데이터 양이 많아지고 있다는 것입니다.

그래서 모델 개발과 트레이닝 관련 성능부족, 그리고 병목 현상을 어떻게 해결할 지에 대한 답이 필요합니다.

이러한 성능문제에 대해 정답은 없습니다. 사례에 따라 병목을 일으키는 원인과 구간이 다를 수도 있죠. 물론 성능 문제 해결을 위한 기본은 먼저 데이터 처리 최적화 입니다. 데이터가 이동하는 경로를 최단으로 잡는 것이 중요합니다. 데이터를 가까이에 두고 성능을 해결하는 것이 기본 중의 기본이죠.

유클릭의 김광정 상무와 비대면 인터뷰를 통해, 대규모 분산 컴퓨팅 환경에서 딥러닝 프로젝트에 필요한 네트워크와 스토리지 성능 문제 해결 팁을 들어봤습니다.

유클릭 김광정 상무

콜드와 핫 데이터 구분이 중요

다른 분야와 마찬가지로 딥러닝 역시 티어링 개념을 적용해 가까이 둘 데이터와 거리를 조금 두어도 되는 데이터를 구분합니다.

자주 쓰지 않는 콜드 데이터 성격의 데이터 세트는 가성비가 좋은 오브젝트 스토리지에 저장합니다. 사용 빈도가 더 높은 웜 데이터는 올플래시 스토리지 같은 고성능 스토리지에 둡니다.

그리고 매우 빈번하게 사용하는 핫 데이터는 로컬 캐시나 메모리를 이용하는 것이 가장 좋습니다. 보통 GPU를 이용하는 환경에서는 GPU 메모리를 사용합니다.

딥러닝 트레이닝 관련 속도와 효율에 영향을 끼치는 네트워크 토폴로지 최적화는 어려운 과제입니다. 알아야 할 것이 너무 많죠. InfiniBand, RoCE, RDMA, SHARP(Scalable Hierachical Aggregation & Reduction Protocole), AR(Adaptive Routing) 등을 두루 알아야 하죠.

또한 GPU 클러스터를 쓰는 곳이라면 NVLink, GPUDirect 등의 기술 이해도 바탕이 되야 합니다.

이 모든 것에 통달하는 것은 사실 딥러닝 클러스터 사용자 관리자의 몫이 아닙니다. 본영의 업무가 아니죠. 그렇다면 어떻게 네트워크 토폴리지 최적화를 바탕으로 스토리지 병목 문제를 해결할 수 있을까요?

딥러닝 및 GPU 클러스터 관리자가 네트워크, 스토리지 전문가가 될 필요는 없다

몇가지 팁을 정리해 봅니다.

첫번째는 cnvrg.io나 slurm 같은 도구를 이용하는 것입니다. 트레이닝 잡과 사용자 관련 자원 오케스트레이션 자동화 도구를 이용하면 손쉽게 성능 문제를 해결할 수 있습니다. 데이터센터 인프라 모니터링 솔루션으로 GPU 활용률, 텐서코어 활용률, CPU 활용율, IO 평균값 등을 체크하면서 선제적으로 성능 문제가 생기기 전에 아이들 잡 같은 것을 정리하는 것도 방법일 수 있죠.

NVIDIA A100 GPU를 장착한 최신 시스템을 사용 중이라면 NVIDIA Magnum IO의 혜택을 누릴 수 있습니다. 이 기능은 NCCL, NVLink, NVSwitch, GPUDirect P2P, GPUDirect RDMA, GPUDirect Storage, UCX, MPI 같은 기술을 활용해 IO를 가속합니다. 물론 사용자는 이들 기술을 몰라도 됩니다. 그저 이 기술이 제공하는 가속의 혜택을 Magnum IO로 간편이 누리면 됩니다.

이 밖에도 코드 수준에서 가속하는 방법도 있습니다. NGC가 제공하는 최신 소프트웨어, 컨테이너 이미지 등을 이용하면 CUDA-X 환경에서 딥러닝 프레임워크를 손쉽게 가속할 수 있습니다.

이상으로 딥러닝 클러스터 성능 이슈를 네트워크와 스토리지 측면에서 어떻게 해결할 수 있는지 간단히 알아 봤습니다.

김효정 기자

hjkim@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

오픈AI ‘샘 알트먼’이 ‘미국 정치판’을 길들인 방법

오픈AI의 CEO 샘 알트먼이 매력적인 언변과 교묘한 로비활동으로 지구상에서 가장 강력한 사람 중 하나가 되고 있다. 소셜 미디어 산업을 대표하는 메타의 마크 저커버그를 매우 공격적으로 비판했던 미국 정치계가 어쩐 일인지 AI 산업을 대표하는 알트먼에게는 부드럽다. 알트먼은 미국 정치판을 어떻게 길들인 것일까.

하루앞둔 미 대선···빅테크들, 트럼프에 대한 전략적 모호성 이면엔

실리콘 밸리 빅테크 리더들의 친 트럼프 분위기가 트럼프의 잠재적 보복 우려 때문인지, 정부사업 계약으로 보상받길 원해서인지인지, 아니면 해리스 민주당 후보가 승리할 경우 추가 감독 및 규제를 받을까 봐 경계해서인지를 단언할 수는 없다. 하루앞으로 다가온 미 대선 후보에 대한 빅테크 CEO들의 ‘전략적 모호성의 이면을 들여다 봤다.

[인터뷰] 방은혜 밀리의서재 AI서비스본부장 “AI를 접목한 플랫폼 기반 독서 경험 강화, 기대하셔도 좋습니다”

2016년 등장한 밀리의서재는 오랜 세월 오프라인에 머물고 있던 사람들의 독서 습관을 플랫폼으로 확장하며 독서 경험의 혁신을 이뤄냈다. 그리고 지금, 밀리의서재는 또 한 번의 혁신을 시도하고 있다. ‘AI서비스본부’를 신설하고 자사 플랫폼에 AI 기술 접목을 본격화한 것이다. 이에 테크42는 AI 격변이라는 파고에 맞서 정체성을 지켜가며 조용한 혁신을 시도하고 있는 밀리의서재가 나아갈 방향과 전략을 방은혜 AI 서비스본부장을 만나 직접 들어봤다.  

미국, 실리콘밸리서 중국 무인차 업체들에게 눈뜨고 코베이다

중국이 2025년까지 미국을 제치고 세계 최고가 되려는 기술에는 인공지능(AI), 반도체, 배터리, 그리고 자율주행차가 있다. 그런데 지난 수년간 미국 연방정부와 주정부가 중국 자율주행차 업체들에게 중요 정보유출을 당하는 줄도 모른 채 미국땅에서 자사 자율주행차를 마음껏 테스트하고 배워 갈 수 있도록 해 주었다는 지적과 경고가 나왔다. 중국과 기술전쟁중인 미국 연방정부와 주 정부가 중국 자율주행차 기술업체들에게 미국 땅에서 눈뜨고 코베이면서도 모른 채 방치했다는 얘기다.