[뉴스토마토 배한님 기자] 전국을 혼란에 빠뜨린 KT의 통신 장애가 명령어 '한 단어'의 누락으로 발생한 사태인 것으로 밝혀졌다. 이 과정에서 단어 하나가 빠진 잘못된 데이터가 전국으로 전달되는 것을 막을 안전장치조차 없었다는 사실도 함께 드러났다. 정부는 KT에 문제를 사건검증할 기술적 대비책이 없었고, 해당 작업을 제대로 관리·감독하지 않았다는 책임이 있다고 결론지었다.
과학기술정보통신부(과기정통부)는 지난 25일 발생한 'KT 네트워크 장애 사고'가 '라우팅 오류 및 장애 확산' 때문이라고 28일 발표했다. 라우터는 네트워크 경로정보를 주고받으며 데이터가 갈 곳을 찾아주는데, 이를 교체하면서 여기에 잘못된 정보가 입력돼 망 전체가 '먹통'이 된 것이다.
라우팅 오류 전국 전파 양상. 자료/과학기술정보통신부
과기정통부가 작업내역을 확인한 결과, 사고 발생 라우터에 라우팅 설정 명령어 입력 과정에서 'exit'라는 명령어가 누락됐다. 라우터는 외부 네트워크 경로를 구성하는 'BGP(Boarder Gateway Protocol)'라는 프로토콜과 내부 네트워크 경로를 구성하는 'IS-IS(Intermediate System to Intermediate System) 프로토콜'에 사용한다. KT 부산지국에서 기업용 라우터 하나를 교체 후 IS-IS 프로토콜 명령어를 마무리하면서 'exit(나가기)'를 입력하지 않아 외부로 나가야 할 데이터가 KT 내부로 쏠리게 된 것이다.
IS-IS 프로토콜 내의 라우터들은 상호 간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 문제가 생긴 IS-IS 프로토콜은 안전장치 없이 전국을 모두 하나로 연결하고 있었다. 과기정통부는 "결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나 장애가 전국적으로 확대됐다"고 말했다.
초기에 제기된 디도스 공격은 확인할 수 없었다. 디도스 공격에서 발견되는 다량의 도메인 질의나 비정상적인 도메인의 반복적인 질의도 없었고, 네트워크 대역폭도 수용 가능한 수준으로 공격받은 흔적이 없었기 때문이다.
과기정통부는 이번 사고가 사전 검증 단계에서 오류를 파악하지 못했으며, 해당 오류가 전국으로 확산되는 것을 막지 못한 KT의 기술적 문제와 새벽 1시부터 6시로 승인받은 작업이 낮 시간에 수행된 것을 막지 못한 부실한 관리체계 문제라고 지적했다.
과기정통부는 이번 조사결과를 바탕으로, 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다. 네트워크 안정성 확보방안은 단기대책과 중장기대책을 포괄하는 방안이 검토될 예정이다.
KT는 이용자 피해 현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이를 점검할 예정이다.
배한님 기자 bhn@etomato.com
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김기성 편집국장이 최종 확인·수정했습니다.
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지