KT 통신 장애, 무엇이 문제였나…라우터 교체 작업자 실수→전국적 인터넷 장애

지난 25일 발생한 KT 유무선 인터넷망 마비를 일으킨 네트워크 장애 사고는 장비 교체시 작업자가 누락한 명령어 탓이며, 총체적인 관리 부실로 인한 인재였음이 드러났다.

과학기술정보통신부는 이 사고와 관련해 정보보호 및 네트워크 전무가들로 구성된 사고조사반과 함께 원인을 조사 분석한 결과를 29일 발표했다.

이번 KT 네트워크 장애사고는 25일 오전 11시 16분 경부터 시작됐다. DNS 트래픽 증가에 이어 네트워크 장애가 발생했고, 약 89분 후인 12시 45분경 KT의 복구조치가 완료됐다.

사고조사반은 사고 원인 파악을 위해 ▲DNS 서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(DDoS) 였는지 ▲라우팅 오류가 어떻게 발생했고 장애확산이 됐는지 등을 분석했다.

사고 원인 분석...IS-IS 프로토콜 종료 명령어 'exit' 누락이 참사로

분석 결과, 사고 발생 당일 오전 11시 16분부터 KT DNS 서버에서 평상시에 비해 트래픽이 급증하는 현상이 벌어졌다. DNS(도메인 네임 시스템, Domain Name System)은 인터넷 도메인 주소를 IP 주소로 변환하는 역할을 수행한다.

당시 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 4배 이상, 부산 DNS는 3.7배 이상 증가하는 큰 폭의 트래픽 증가가 나타났다. 다만 이 같은 비정상적인 트래픽 증가가 DDoS 공격은 아닌 것으로 파악됐다. 통상 DDoS 공격시에는 개별 IP에서 DNS로 수백 혹은 수천 개의 질의가 발생하는데, 당시 KT에 대한 개별 IP의 DNS 질의는 최대 15개 이내 수준인 것으로 드러났다. 이처럼 시스템 자원에 대한 DDoS 공격은 없었던 것으로 결론 지었다.

또 네트워크 대역폭 공격과 관련해서도, 중앙 1차 DNS 서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입만 있어서 대역폭 대비 충분히 수용 가능한 수준이었다. 그러므로 네트워크 대역폭 공격도 아니었던 것으로 판단했다.

결론적인 사고 원인은 인재였다. 사고 로그 분석 결과, KT 부산국사에서 트래픽 증가에 따른 기업 망 라우터(네트워크 경로 설정 장비) 교체 작업 중에 작업자가 잘못된 명령을 입력했다. 이후 라우팅 오류로 인해 전국적인 네트워크 장애가 발생한 것으로 분석됐다.

인터넷 서비스가 제공될 때, PC 및 스마트폰 등 개인 단말기는 지역 라우터-센터 라우터를 거쳐 국내외 네트워크로 연결된다. 정상적인 연결을 위해서는 단말과 접속 대상 IP 주소 사이에 다수의 라우터 경로 정보가 필요하다.

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환하는 프로토콜을 사용한다. KT 네트워크와 외부 네트워크 경로 구성에는 BGP(보더 게이트웨이 프로토콜)을 사용하고, KT 내부 네트워크 경로 구성에는 IS-IS(인터미디에이트 시스템 투 인터미디에이트 시스템) 프로토콜을 사용한다. 라우터는 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해 최종 라우팅 경로를 설정하게 된다.

그런데 사건 당일 작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정 명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 'exit' 명령어를 누락했다. 이로인해 BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다.

통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 된 것이다. 이러한 오류가 전국적으로 확산돼 통신 장애가 발생했다. 부산 지역 라우터에 잘못된 라우팅 경로가 설정된 이후, 라우터들이 자동으로 데이터를 주고받는 상황에서, 타 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달된 것이다.

전체 라우터에 이러한 오류가 전파되는데 걸린 시간은 30초가 채 안됐다.

과기정통부 측은 "KT 네트워크의 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있다. 결국 하나의 잘못된 라우팅 경로 업데이트가 전국 라우터에 연쇄적으로 일어나사 전국적인 장애로 확대됐다"라고 설명했다.

한편, IPTV나음성전화/문자 서비스망은 인터넷 서비스망과 별도로 구성돼 있어 해당 장애와 직접적으로 연결되지는 않는다. 다만 인터넷 서비스 장애로 전화와 문자 이용이 급격히 늘었고, 단말 전원을 리셋한 이용자들로 인한 트래픽 증가로 인해 해당 서비스에도 장애가 발생했을 것으로 추정된다.

국가 기간통신망 관리에 허점 드러낸 KT

조사반은 사고 조사 분석 과정에서 KT의 관리적·기술적 문제점이 있다고 지적했다.

당초 KT 네트워크 관제센터가 야간 작업(새벽 1시에서 6시 사이)를 승인했는데, 실제 라우터 교체 작업은 주간에 수행됐다. 또 작업 관리자 없이 KT 협력업체 직원들끼리만 라우팅 작업을 수행하는 등 오류를 방지하기 위한 작업 관리 체계가 부실했음이 드러났다. 작업시 네트워크 분리를 하지 않은 채 네트워크 연결 상태로 작업이 이뤄지는 등 총체적인 관리 부실이 있었다.

기술적으로도 문제가 있었음이 이번 사고로 인해 드러났다. 우선 사전 검증 단계에서 오류를 파악하지 못한 것으로 알려졌다. IS-IS 프로토콜을 종료하는 'exit' 명령어가 누락됐었지만, 스크립트 작성 과정 및 사전 검증 과정에서 이를 발견하지 못했다. 또 네트워크가 차단된 가상 상태에서 오류 여부를 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 없는 시스템도 없었다.

소 잃었지만 외양간은 고쳐야지...

KT 사건으로 과기정통부는 주요 통신사업자 네트워크의 안정성 확보 방안을 마련할 계획이다. 사업자의 네트워크 관리체계를 점검하고, 이들 사업자가 네트워크 오류 여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다는 방침이다. 작업 절차 준수 여부에 대한 기술적 점검체계 구축과 라우팅 작업 시 경로정보 개수 제한도 검토한다.

이번 사건으로 피해를 입은 이용자들에 대해 KT는 이용자 피해현황 조사 및 피해구제 방안을 마련을 추진한다. 그리고 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검한다. 더불어 방통위는 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련도 검토한다.

김효정 기자

hjkim@tech42.co.kr
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

초기투자AC협회, 글로벌 엔젤투자 국제기구 WBAF와 협약 갱신

초기투자액셀러레이터협회(이하 협회)는 바레인의 수도 마나마에서 열린 2024 WBAF Global Congress에서 WBAF(World Business Angels Investment Forum)와 글로벌 파트너스 업무협약을 체결했다고 22일...

스노우플레이크, 마이크로소프트 파워 플랫폼 전용 커넥터 출시

글로벌 AI 데이터 클라우드 기업 스노우플레이크(Snowflake)는 미국 워싱턴주 시애틀에서 개최된 연례 개발자 컨퍼런스 마이크로소프트 이그나이트(Microsoft Ignite)에서 마이크로소프트 파워 플랫폼(Microsoft Power...

삼성전자, 차세대 AI '가우스2' 공개..."기존 오픈소스 모델보다 3배 빨라"

삼성전자가 자체 개발한 2세대 생성형 AI 모델 '삼성 가우스2'를 공개했다. 기존 오픈소스 AI 모델 대비 처리 속도가 최대 3배 빠르고, 다양한 형태의 데이터를 동시에 처리할 수 있는 것이 특징이다.

대화형 AI 에이전트 ‘젠투’, ‘98% 고객 붙잡는 커머스 전략’ 웨비나 개최

대화형 인공지능(AI) 에이전트 ‘젠투(Gentoo)’ 개발사 와들은 ‘이탈하는 98%의 고객을 붙잡는 온라인 커머스 성공 전략’을 주제로 웨비나를 개최한다고 21일 밝혔다. 와들...