국가정보자원관리원 화재가 남긴 교훈 ‘페일오버’의 필요성 [지식용어]
시스템이나 서버, 네트워크에 장애가 생기면 데이터는 남아 있어도 서비스가 중단되는 일이 발생한다. 지난 9월 국가정보자원관리원 화재와 최근 드러난 국방통합데이터센터의 전산망 문제는 이런 현실을 여실히 보여줬다. 정부 주요 시스템들이 데이터를 보존하고도 즉시 복구되지 못해 수 시간 이상 마비됐고, 예비 시스템이 제때 작동하지 않아 피해가 커졌다. 이런 상황에서 필요한 핵심 기술이 바로 ‘페일오버(Failover)’다.
‘페일오버’란 시스템에 장애가 발생했을 때 주(主) 서버의 기능을 예비 서버로 자동 전환해 서비스 중단을 최소화하는 고가용성(High Availability) 기술을 말한다. 관리자가 직접 조작해 전환하는 ‘스위치오버(Switchover)’와 달리, 장애 감지와 전환 과정이 자동으로 진행된다. 전환된 서비스를 다시 원래 상태로 복귀시키는 절차는 ‘페일백(Failback)’이라 부른다.
이 용어는 1960년대 초 NASA의 보고서에서 처음 등장했다. 당시에는 우주비행 시스템의 연속 운용을 보장하기 위한 기술 개념으로 사용됐으며, 이후 데이터센터와 통신망, 금융기관 등으로 확산되면서 현대 정보 인프라의 핵심 안전장치로 자리 잡았다.
일반적으로 페일오버는 프라이머리(Active)와 세컨더리(Standby) 서버 두 축으로 구성된다. 두 시스템은 끊임없이 하트비트(Heartbeat) 신호를 주고받으며 서로의 상태를 점검한다. 주 서버가 응답하지 않거나 이상이 감지되면, 세컨더리 서버가 즉시 역할을 인계받아 서비스를 이어간다. 일부 환경에서는 보안상 이유로 자동 전환 전에 승인 절차를 두지만, 최근에는 완전 자동화된 클러스터링 시스템이 주류를 이룬다. 클라우드, 금융, 통신, 공공 데이터센터 등 ‘멈출 수 없는 서비스’를 운영하는 대부분의 인프라가 이 기능을 채택하고 있다.
하지만 우리나라의 공공 인프라 가운데는 여전히 완전한 페일오버 체계를 갖추지 못한 곳이 적지 않다. 국가정보자원관리원 화재 당시 정부 전산망이 장시간 마비됐고, 국방통합데이터센터 역시 비슷한 구조적 한계를 가진 것으로 드러났다. 국회 국방위원회 황명선 의원실에 따르면, 국방 전산망은 자동 전환 기능이 빠진 단순 스토리지 복제 방식으로 운영되고 있다. 데이터 백업은 가능하지만, 서비스 자체를 예비 시스템으로 넘겨주는 구조가 아니라는 것이다.
국방통합데이터센터(DIDC)는 ‘국방이음(1센터)’과 ‘온나라(2센터)’ 두 곳의 데이터센터를 상호 대체 수단으로 운용한다고 밝혔지만, 실제로는 데이터 복제 수준에 머물러 있다. 이 때문에 재해 발생 시 복구까지 1~2개월이 걸릴 수 있으며, 이는 군(軍) 전산망의 안정성과 즉시성을 요구하는 특성상 치명적이다. 황 의원은 “데이터를 백업하는 것만으로는 위기 상황에 대응할 수 없다”며 “자동 전환 기능을 갖춘 체계적 페일오버 시스템을 도입하고 정기적인 테스트를 의무화해야 한다”고 강조했다.
결국 페일오버는 선택이 아닌 필수에 가까운 기술이다. 국가정보자원관리원 화재가 보여준 것처럼, 데이터가 남아 있어도 서비스가 멈출 수 있다는 사실은 백업보다 중요한 것이 ‘즉시 전환의 능력’임을 일깨운다. 안정적인 사회 인프라를 위해서는 복제된 저장장치보다 멈추지 않는 시스템을 구축할 필요가 있다. 그리고 그 시작점에 ‘페일오버’가 있어야 한다는 전문가의 지적이 이어진다.
시선뉴스=심재민 기자