'인터넷 절반이 멈춘 날' 클라우드플레어 전역 장애, 원인은 DB 권한 변경

실시간 키워드

2022.08.01 00:00 기준

'인터넷 절반이 멈춘 날' 클라우드플레어 전역 장애, 원인은 DB 권한 변경

M투데이 2025-11-20 07:50:59 신고

3줄요약

[엠투데이 임헌섭 기자] 인터넷 트래픽의 상당 부분을 처리하는 글로벌 CDN 기업 클라우드플레어(Cloudflare)의 네트워크 오류로 지난 18일 주요 웹서비스 수천 개가 동시에 다운되는 사태가 발생한 가운데, 사고 원인이 드러나 눈길을 끌고 있다.

이번 장애는 지난 19일 새벽까지 약 4시간 이상 이어졌으며, 해당 기간 동안 사용자들은 평소 접속하던 웹사이트 대신 오류 페이지를 마주했다.

가장 큰 영향은 클라우드플레어 네트워크를 필수적으로 활용하는 글로벌 플랫폼들에서 나타났다. 오픈AI의 챗GPT, X, 스포티파이, 디스코드, 줌, 리그 오브 레전드, 우버, 구글 스토어 등 현대 인터넷의 핵심 서비스 상당수가 동시에 마비됐다. 수천 곳의 중소 사이트 역시 접근이 불가능해지며 “인터넷 절반이 멈췄다”는 평가까지 나왔다.

클라우드플레어는 사고 직후 발표한 기술 보고서에서 “이번 장애는 외부 공격이나 악의적 행위와 무관한 내부 기술적 오류로 발생했다”고 밝혔다.

발단은 데이터베이스 시스템의 권한 변경이었다. 클릭하우스(ClcikHouse) 기반의 쿼리 동작 방식이 바뀌면서 클라우드플레어의 봇 관리 시스템(Bot Management)이 사용하는 ‘피처(Feature) 파일’ 생성 과정에서 문제가 발생했다.

기존에는 한 번만 생성돼야 할 항목이 중복 생성되며 피처 파일의 크기가 갑자기 두 배로 비대해졌다. 이 파일은 네트워크 전역 서버로 배포되는 구조였기 때문에 초과된 파일 크기는 각 서버의 내장 보호 기준을 초과했고, 결국 프로세스가 일제히 강제 종료되며 글로벌 장애로 확산됐다.

보호 장치로 설계된 파일 크기 제한이 오히려 전체 네트워크의 작동 중단을 촉발한 셈이다.

클라우드플레어는 전 세계 CDN 시장의 약 40%를 점유하고 있으며, 수많은 웹서비스의 요청을 받아 이를 캐싱·보안 처리·속도 개선 역할을 담당한다. 그만큼 네트워크 광범위 지역이 동시에 다운되면 인터넷의 핵심 동맥이 멈춘 것과 유사한 파급이 발생했다.

이번 사고 직후 매튜 프린스(Matthew Prince) CEO는 “2019년 이후 가장 심각한 장애”라며 공개적으로 사과했다.

클라우드플레어는 이번 장애를 계기로 클라우드플레어 생성 구성 파일의 검증 강화와 전역 긴급 중단 스위치(Global Kill Switch) 확대 적용, 핵심 프록시 모듈의 모든 장애 모드 검증 재점검 등과 같은 조치를 즉시 시행한다고 밝혔다. 이와 함께 데이터베이스 쿼리와 구성 파일 배포 과정 전반에 대한 재검증도 진행 중이다.

Copyright ⓒ M투데이 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기