10월 15일 판교 데이터센터 화재에 대해 카카오가 전 영역 다중화를 추진하겠다고 발표했다. [사진=클립아트코리아]
[정보통신신문=최아름기자]
정부가 지난 10월 15일 SK C&C 판교 데이터센터 화재로 인한 카카오‧네이버 등 서비스 장애와 관련해 관련 3사에 강도 높은 물리적 분리‧서비스 분산 및 다중화를 요구했다. 카카오는 이에 대해 이번 사고를 교훈 삼아 전 영역에서 센터 간 2‧3중화를 추진하겠다고 밝혔다.
과학기술정보통신부는 방송통신위원회, 소방청과 함께 6일 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고, SK C&C, 카카오, 네이버 3사에게 1개월 이내 주요 사고원인에 대한 개선 조치와 향후 계획을 수립하여 보고하도록 할 계획임을 밝혔다.
지난 19월 15일 15시 19분 SK C&C 판교 데이터센터 지하 3층 배터리실에서 리튬이온배터리에 발화가 시작돼 23시 45분 진화됐다. 같은 공간 천장에 있던 전력선과 천장 공간이 미분리된 격벽에 있던 일부 무정전전원장치(UPS)가 화재 열기로 손상‧작동 중지됐다. 화재 진압을 위한 살수 시 누전 및 2차 피해 우려로 전체 전력을 차단했고, 전원 차단 시 전력 공급을 위한 UPS도 손상됨에 따라 전력 공급이 중단, 최대 127시간 33분간 장애가 발생하게 됐다. 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없어 전체 전력을 차단한 것이 피해를 키웠다.
다른 센터에 이중화 조치를 해 20분~12시간 내 서비스를 정상화한 네이버와 달리, 카카오의 경우 대부분의 이중화가 판교 센터 내에 돼 있어 복구가 지연됐다.
카카오는 판교 데이터센터를 ‘동작(Active)’ 체계로, 기타 센터는 동작 서버 불능 시 대기 중인 서버를 가동시키는 ‘대기(Standby)’ 체계로 이중화했으나, 대기 서버를 동작시키기 위한 권한관리 기능인 ‘운영 및 관리 도구’역시 판교 데이터센터 내에서만 이중화돼 있어 센터 전체 전력 중단에 제대로 동작하지 못했던 것으로 나타났다.
애플리케이션, 서비스 플랫폼에서도 ‘카카오인증’ 등 서비스 초기 구동에 필요한 핵심 기능은 물론, 이미지, 동영상 송수신 시스템 등이 판교 센터에만 집중돼 있어 복구에 상당 시간이 소요됐다.
2020년 KT 화재와 같은 리튬이온배터리 화재였지만, 당시 피해 규모가 이번 사고보다 미미했던 것은, 지하 1~6층으로 배터리실과 UPS실이 분리돼 살수를 통한 화재진압이 용이했던 것이 원인이었다.
정부는 이와 관련해 “국민 피해의 신속한 복구와 재발 방지를 위해 각 사업자의 선제적인 조치 이행이 필요하다”며 3사가 1개월 내로 주요 원인에 대해 개선 조치하거나 조치 계획을 수립해 방송통신재난 대책본부에 보고하도록 ‘행정지도’했다.
먼저 SK C&C에 대해서는 BMS 외 다양한 화재감지 시스템 구축 방안을 수립하고, 리튬이온배터리 화재 시 필요한 소화설비를 구축하도록 했다.
홍진배 과기정통부 네트워크정책실장은 “이번 화재에서 BMS의 오작동 가능성이 있어 BMS만 믿기는 어려운 상황”이라며 “열화상카메라 등 다중 체계 구축이 필요하다”고 말했다.
또한 정부는 △배터리와 기타 설비 간 물리적 분리 및 배터리실 내 전력선 재배치 △재난 발생 구역 전력 개별 차단 방안 마련 △현실적인 재난대응 시나리오 개발 및 세부 훈련 계획 수립‧실시 등을 요구했다.
카카오에 대해서는 데이터센터 간 동작(Active)-동작 체계 운영으로 운영 및 관리도구를 매우 높은 수준으로 다중화하고, 핵심 기능 역시 고수준의 분산 및 다중화 적용 방안 수립을 요청했다.
또한 △데이터센터 전소 등 최악의 상황을 대비한 훈련 계획 수립 및 실시 △서비스별 복구목표 설정 △상시 대응조직 구성 △복구체계 전면 재점검 △서비스 장애 발생 고지 창구 다양화 체계 구축 △보상계획 수립 등도 요구했다.
소방청은 화재 진압 매뉴얼로 기능할 데이터센터 특화 화재 대응절차를 현재 마련 중으로, 내년까지 마무리할 계획이다.
과기정통부는 내년 1분기 중 디지털서비스 안정성 확보를 위한 종합적 개선방안을 발표할 계획이다.
홍진배 실장은 “현재 추진 중인 방송통신발전법과 정보통신망법 개정안이 통과되면 종합 개선방안을 관련 재난대비계획에 반영해, 대규모 주요 사업자에 대해 일정 부분 이행력을 담보할 수 있을 것으로 보인다”고 말했다.
이와 관련, 카카오는 7일 ‘이프 카카오 개발자 컨퍼런스를 통해 서비스 장애 원인 분석 및 재발방지 대책을 공개했다.
카카오는 △데이터센터 간 이중화 미흡 △운영도구‧모니터링시스템 이중화 미흡 △데이터센터 장애 대응 인력자원 불충분 등을 주요 원인으로 들었다.
카카오 비상대책위원회 재발방지대책소위원회의 이채영 부위원장은 재발 방지를 위해 “모호하게 해석될 수 있는 이중화 개념을 적극적으로 해석해 인프라 하드웨어, 서버부터 서비스, 애플리케이션에 이르는 전체 시스템 레이어에서 철저히 실행해가겠다”고 말했다.
카카오는 먼저 메인 백본 센터를 현재 2곳에서 3곳으로 확장하고 대용량 트래픽 전송 요구 서비스의 센터 간 삼중화를 위해 별도 전용망도 구성한다. 모든 형태의 데이터는 센터 간 이중화 이상의 다중 복제 구조로 구성할 계획이다.
사내 개발자들이 사용하는 사내 계정인증, 소스 관리협업 도구 역시 이중화를 완료한 상태로, 빠른 시일 안에 삼중화를 추진할 예정이다. 플랫폼 도구 클러스터와 메타정보 스토리지, 보안 키 저장소 등 스토리지 시스템에 대해서도 데이터센터 간 삼중화를 계획 중이며, 이로 인한 지연 등 부수적 문제들도 해결해 나간다.
또한 2024년 상반기 완공을 목표로 안산에 건설 중인 카카오 데이터센터 및 여타 자체 데이터센터에는 이번 사고 교훈을 반영해 설계하고 최악의 상황에도 모듈 단위 완전 셧다운이 가능하도록 대비하며, 24시간 무중단 운영을 위해 전력, 냉방, 통신 등 각 영역에 이중화 인프라를 구축하겠다고 밝혔다. UPS실과 배터리실을 방화 격벽으로 분리 시공할 방침이다.
한편 카카오는 10만5116건의 화재 관련 피해를 접수했다. 이중 유료 서비스에 대한 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이었다.
네이버 서비스 장애 관련 조사 결과를 브리핑하고 있다.
This article is from https://www.koit.co.kr/, if there is any copyright issue, please contact the webmaster to delete it.