MENU
CISO News HOME > CISO News > 최신뉴스

최신뉴스


행정전산망 마비 사태 왜 일어났나? 네트워크 장비 교체 시기와 시스템 이중화 대처 ‘미흡’ 논란 2023.11.20  

사고 발생 하루 전 펌웨어 업데이트 작업...롤백하고 정상 작동 확인
국가보안기술연구소에서 장애 원인 관련 테스트 예정
좀 더 신속한 장비 교체와 시스템 이중화 구성 미흡 지적


[보안뉴스 김경애 기자] 대국민 민원 서비스인 ‘정부24’와 공무원 전용 행정전산망 ‘새올’ 시스템을 비롯한 국가 행정전산망이 약 3일 동안 마비됐다가 복구된 가운데, 이를 관리하는 행정안전부 산하 국가정보자원관리원에서 발생한 장애 원인이 아직까지 명확하게 밝혀지지 않고 있어 이에 대한 관심이 커지고 있다. 본지 취재 결과 네트워크 장애 원인으로는 △장비 교체 과정에서의 문제 △네트워크 작업 과정에서의 오류 △OS 펌웨어 문제로 인한 오류 등 크게 3가지 중 하나로 추정되고 있다.

▲국가정보자원관리원의 장애 발생 이슈와 관련해 정부24 홈페이지에 올라온 공지사항[이미지=정부24]


첫째, 네트워크 장비 교체의 경우 장비를 교체하는 과정에서 호환성 문제 등으로 제대로 통신이 이뤄지지 않거나 장애가 발생하는 일이 흔하기 때문이다. 그러나 전산망 마비 사태 이후 장비가 교체됐기 때문에 장비 교체로 인한 원인은 아닌 것으로 보인다.

장비 교체와 관련해 본지 취재 결과, 사고 발생 이후 18일(토요일) 새벽 3~4시쯤 국가정보자원관리원의 요청으로 기존에 사용하던 L4 스위치 제품을 고성능의 L4 스위치 새 제품으로 교체한 것으로 파악됐다. 이후 서비스가 가오픈됐으며, 행안부에서 19일(일요일) 장비 교체에 대해 공식 발표했다.

따라서 장비 관련해서는 장비의 노후화 또는 다른 부분에서 문제가 됐을 가능성이 있다. 국가보안기술연구소는 추후 이번 사태의 원인 파악을 위해 장비에 대한 테스트를 진행할 계획으로 알려졌다.

둘째, 네트워크 작업 과정에서의 오류다. 이는 작업자의 실수를 예로 들 수 있다. 이와 관련 한 보안전문가는 “L4의 경우 장비가 많으면 스크립트를 짜서 명령을 내리는데, 스크립트가 돌면서 자동으로 명령에 따라 수행한 후, 해당 장비에서 빠져 나와 또 다른 장비에서 명령을 수행하게 된다”며, “그런데 출구 명령이라고 할 수 있는 엑시트를 잘못 넣으면 장비에서 빠져나오지 않고 그 안에서 머물러 돌면서 작업 수행이 제대로 이뤄지지 않는다”고 설명했다. 즉, 작업자의 실수로 인한 오류 발생 가능성도 배제할 수 없다는 얘기다. 그러나 본지 취재에 따르면 작업과정에서의 오류는 파악되지 않았다.

마지막 세번 째는, OS 펌웨어 문제다. 이 경우, 네트워크 장애에 있어 비일비재하게 발생하는 이슈 중 하나로 L4 스위치는 여러 서버를 연결해주는 중개 역할이기 때문에 많은 장비와 연결돼 있는데, 업데이트 과정에서 호환성 문제 등 여러 변수와 요인들로 인해 한 번에 업데이트가 안 되는 경우가 많다는 지적이다.

이와 관련 한 보안전문가는 “OS 펌웨어 업데이트의 경우 워낙 변수가 많아 한 번에 되는 경우는 거의 없다”며 “예를 들어 방화벽 장비도 똑같은 것을 사용하는데 동작하지 않는 경우도 있다. 그래서 일반 기업, 기관에서도 OS 펌웨어 업데이트는 시간을 정해두지 않고 작업한다. 이번 사태의 경우 롤백을 했는데도 문제가 발생했다는 건 특이 케이스로 펌웨어 동작 자체의 문제점일 수도 있고, 버전 업데이트 과정에서 통신에 문제가 발생한 것일 수도 있다”고 예측했다.

이와 관련 본지 취재 결과, 국가정보자원관리원의 네트워크 장애 발생 하루 전날인 16일(목요일) 당시 L4 OS 펌웨어 작업이 진행됐지만, 별다른 특이점이 발견되지는 않은 것으로 조사됐다.

이와 관련 익명을 요구한 보안업계 관계자는 “국가정보자원관리원의 요청으로 펌웨어 업데이트 일정에 따라 사고 발생 전날 펌웨어 OS 작업을 한 건 맞다. 사고 발생 이후 롤백(이전 단계로 원상 복구)으로 원상복구를 시켰지만 특이점, 이상한 점을 발견하지 못했다”며 “펌웨어는 당시 정상 운영된 것으로 확인됐다”고 밝혔다.

이처럼 네트워크 장애에 대한 정확한 원인이 파악되고 있지 않은 가운데, 장애 발생 시 서비스를 신속하게 대체할 수 있는 조치인 서비스 이중화 구성은 미흡했다는 지적이 일고 있다. 서비스 이중화는 정상적인 서비스 제공을 위해 한쪽에서 장애가 발생하면 빠르게 대체되어 정상적으로 서비스가 유지될 수 있도록 하는 장애대응 시스템 구성이다.

이와 관련 익명의 보안전문가는 “일반적으로 서비스 장애 발생시 서비스가 정상 운영되도록 이중화하는 게 일반적인데, 이번 사건의 경우 장애가 오래 지속된 걸 봐서는 이중화 체계가 제대로 갖춰지지 않은 것으로 보인다”고 했다. 또 다른 보안 관계자는 “장애 이중화 구성에 대해서는 언급할 수 없다”며 양해를 구했다.

따라서 이번 장애 발생 사건과 관련해 사고 발생시 신속한 장비 교체에 대한 부분과 서비스 이중화에 대해서는 뭇매를 피할 수 없게 됐다.

고려대학교 정보보호대학원 임종인 교수는 “L4 스위치가 문제였고, 이중화 백업 시스템이 제대로 작동하지 않은 점이 사실이라면 지난해 카카오 화재 사건과 같은 경우”라며 “당시 설계 미스 등 여러 요인으로 백업체계가 제대로 작동하지 않아 복구에 여러 날이 소요됐다. 네이버는 제대로 설계가 되어 있어 4시간 후 바로 복구된 것과 비교가 되는 부분이었다”며, “무엇보다 재해복구 시스템이 잘 작동될 수 있도록 시스템 구축 및 관리가 철저히 이뤄져야 한다”고 지적했다.

익명을 요청한 또 다른 교수는 “장애의 원인 규명이 철저히 이뤄져야 한다. 이는 동일 유형 장애의 재발 방지를 위해 매우 중요하기 때문”이라며, “또한, 장애대응 체계의 전반적인 점검과 개선이 필요하다”고 강조했다.
[김경애 기자(boan3@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>




COPYRIGHT CISOKOREA.ORG. ALL RIGHTS RESERVED.
개인정보처리방침