클라우드플레어 또 다시 먹통, 인터넷이 멈춘 날 [2025년 12월]

3주 만에 또 발생한 대규모 장애

2025년 12월 5일 오후 6시경, 국내외 수많은 인터넷 서비스가 일제히 멈춰 섰습니다. 배달의민족으로 저녁 주문을 하려던 직장인들, 업비트에서 코인 거래를 하던 투자자들, 리그 오브 레전드(LoL) 게임을 즐기던 유저들이 동시에 접속 오류 메시지를 마주했습니다.

범인은 바로 **클라우드플레어(Cloudflare)**였습니다. 더 심각한 것은 이번이 처음이 아니라는 점입니다. 지난 11월 18일에도 대규모 장애가 발생했고, 불과 3주 만에 또다시 같은 문제가 반복된 것입니다.

클라우드플레어-01

클라우드플레어, 도대체 무엇인가?

클라우드플레어는 전 세계 인터넷 트래픽의 약 **20%**를 처리하는 거대한 콘텐츠 전송 네트워크(CDN) 및 인터넷 인프라 서비스 기업입니다. 2009년 설립된 이 회사는 현재 전 세계 330개 이상의 도시에 데이터 센터를 운영하며, 웹사이트 속도 향상, DDoS 공격 방어, 보안 서비스 등을 제공합니다.

쉽게 말해, 클라우드플레어는 인터넷의 교통경찰 같은 역할을 합니다. 사용자가 웹사이트에 접속하면 가장 가까운 클라우드플레어 서버를 통해 빠르게 콘텐츠를 전달받게 됩니다. 또한 악의적인 공격으로부터 웹사이트를 보호하고, 서버 부하를 분산시켜 안정적인 서비스 운영을 돕습니다.

전 세계 수백만 개의 웹사이트와 앱이 클라우드플레어를 사용하고 있으며, 우리가 일상적으로 이용하는 많은 서비스들이 이 회사의 인프라에 의존하고 있습니다.

클라우드플레어-02

이번 장애로 영향받은 서비스들

12월 5일 발생한 장애는 약 16분간 지속되었지만, 그 파급력은 엄청났습니다.

국내 주요 서비스:

  • 업비트: 가상자산 거래소로, 오후 6시 3분경 접속 장애 공지 → 23분 만에 복구
  • 배달의민족: 저녁 식사 주문 시간대에 접속 오류 발생
  • 리그 오브 레전드(LoL): 라이엇게임즈 게임 접속 끊김, 긴급 점검 실시
  • 마비노기: 넥슨 PC 게임 실행 불가 및 튕김 현상
  • 리멤버: 명함 관리 앱 일시적 접속 오류
  • 올리브영, 무신사: 쇼핑몰 사이트 접속 장애

글로벌 서비스:

  • 클로드(Claude): AI 챗봇 서비스
  • 퍼플렉시티(Perplexity): AI 검색 서비스
  • 줌(Zoom): 화상회의 플랫폼
  • 링크드인(LinkedIn): 전문가 네트워킹 플랫폼
  • 코인베이스(Coinbase): 디지털 화폐 거래소

이는 빙산의 일각에 불과하며, 실제로는 수천 개의 서비스가 동시에 영향을 받았습니다.

11월 18일 장애는 더 심각했다

이번 12월 5일 장애가 16분 만에 복구된 것과 달리, 지난 11월 18일 장애는 훨씬 심각했습니다. 당시에는 6시간 이상 장애가 지속되면서 전 세계 인터넷 생태계가 마비되었습니다.

11월 18일 영향받은 주요 서비스:

  • 챗GPT: OpenAI의 AI 챗봇 서비스
  • X(구 트위터): 소셜 미디어 플랫폼
  • 구글, 유튜브: 검색 및 동영상 플랫폼
  • 스포티파이(Spotify): 음원 스트리밍 서비스
  • 캔바(Canva): 온라인 디자인 도구
  • 디스코드(Discord): 음성 채팅 메신저
  • 발로란트(Valorant): 인기 FPS 게임

사용자들은 ‘Internal Server Error 500‘ 메시지를 마주하거나, 보안 검증 화면에서 무한 로딩에 갇히는 현상을 겪었습니다. 이는 클라우드플레어의 엣지 네트워크가 사용자 요청을 정상적으로 처리하지 못할 때 발생하는 전형적인 증상입니다.

장애 원인은 무엇이었나?

클라우드플레어 측은 12월 5일 장애에 대해 “대시보드와 API(응용 프로그래밍 인터페이스) 문제가 발생했다”며 “수정 사항을 적용해 결과를 모니터링하고 있다”고 밝혔습니다.

11월 18일 장애에 대해서는 외부의 사이버공격이 아닌 내부 시스템의 권한 설정 오류 때문이었다고 해명했습니다. 일부에서는 산티아고, 마이애미, 로스앤젤레스 등 데이터센터의 유지관리 작업과의 연관성을 제기하기도 했습니다.

하지만 구체적인 기술적 원인이나 재발 방지 대책에 대해서는 명확한 설명이 부족한 상황입니다.

단일 인프라 의존의 위험성

이번 사태는 단일 인프라에 대한 과도한 의존이 얼마나 위험한지를 여실히 보여주었습니다. 클라우드플레어는 과거에도 여러 차례 대규모 장애를 일으킨 바 있습니다:

  • 2020년: 라우팅 설정 오류로 글로벌 접속 장애
  • 2022년: 대역폭 업체의 실수 및 DDoS 공격으로 서비스 중단
  • 2024년 11월: 내부 시스템 권한 오류로 6시간 장애
  • 2024년 12월: 3주 만에 또다시 장애 재발

한 업계 관계자는 “글로벌 CDN 사업자의 기술적 결함이 국내 서비스의 신뢰도 하락으로 이어지는 구조”라며 “멀티 CDN 도입 등 우회 경로 확보가 시급하다“고 지적했습니다.

클라우드플레어-03

기업들의 대응 방안

전문가들은 기업들이 다음과 같은 대책을 마련해야 한다고 조언합니다:

1. 멀티 CDN 전략

  • 클라우드플레어 외에 Akamai, Cloudfront(AWS), Fastly 등 다른 CDN 업체도 함께 사용
  • 주 CDN 장애 시 자동으로 백업 CDN으로 전환되는 시스템 구축

2. 자체 인프라 보강

  • 중요한 서비스는 자체 서버로도 운영할 수 있는 이중화 구조 마련
  • 완전한 외주 의존에서 벗어나 핵심 기능은 자체 관리

3. 모니터링 강화

  • 실시간 서비스 상태 모니터링 시스템 구축
  • 장애 발생 시 즉각적인 대응 체계 마련

4. 고객 커뮤니케이션

  • 장애 발생 시 신속한 공지와 안내
  • 투명한 정보 공유로 고객 신뢰 유지

사용자는 어떻게 대응해야 할까?

일반 사용자 입장에서는 CDN 장애를 직접 해결할 방법이 없습니다. 하지만 다음과 같은 대응이 가능합니다:

  • DNS 변경: 일부 경우 구글 DNS(8.8.8.8) 등으로 변경하면 접속이 가능할 수 있음
  • 모바일 데이터 활용: Wi-Fi에서 안 될 때 모바일 데이터로 전환
  • 시간 간격 두기: 장애는 대부분 1시간 내에 복구되므로 잠시 기다리기
  • 공식 채널 확인: 서비스 공식 SNS나 웹사이트에서 장애 공지 확인

클라우드플레어의 미래는?

클라우드플레어는 현재 시가총액 **약 350억 달러(약 46조 원)**에 달하는 거대 기업입니다. 반복되는 장애에도 불구하고 여전히 시장에서 압도적인 점유율을 차지하고 있습니다.

하지만 이번 사태를 계기로 기업들의 CDN 다변화 움직임이 가속화될 것으로 보입니다. 특히 국내 기업들은 네이버 클라우드, 카카오 클라우드 등 국내 CDN 서비스로의 일부 전환을 검토하고 있는 것으로 알려졌습니다.

클라우드플레어 입장에서는 재발 방지를 위한 근본적인 시스템 개선과 함께, 고객들에게 신뢰를 회복하는 것이 최우선 과제가 되었습니다.

마무리: 인터넷의 취약성을 드러낸 사건

이번 클라우드플레어 장애 사태는 현대 인터넷 생태계가 얼마나 소수의 인프라 기업에 의존하고 있는지를 적나라하게 보여주었습니다. 한 기업의 장애로 전 세계 수천만 명의 사용자가 동시에 불편을 겪는다는 것은, 인터넷의 안정성과 복원력에 대한 근본적인 질문을 던집니다.

앞으로 기업들은 단일 인프라 의존에서 벗어나 더욱 분산되고 안정적인 시스템 구축에 나서야 할 것입니다. 그리고 클라우드플레어 같은 인프라 기업들은 자신들이 맡은 막중한 책임을 인식하고, 장애를 최소화하기 위한 더욱 강력한 안전장치를 마련해야 할 것입니다.

편리함의 이면에는 항상 위험이 도사리고 있습니다. 이번 사태가 인터넷 인프라의 안정성을 재점검하는 계기가 되기를 바랍니다.


참고 자료

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다