Глобальная недоступность интернет-ресурсов: обзор инцидента

Global Failure


В воскресенье 30.08.2020, начиная, примерно, с 10:00 GMT, многие веб-сервисы внезапно стали недоступными для пользователей Интернета во всем мире из-за глобального сбоя внутри мировой паутины.


Мониторинг сетей SIM-Networks выявил недоступность подключения пользователей к своим ресурсам, как только она возникла. Автоматическое переключение на резервные каналы не исправило ситуацию. Через некоторое время мы начали получать информацию об аналогичной проблеме у множества других провайдеров и тревожные сообщения клиентов.


Сбой произошел на стороне крупнейшего в мире магистрального провайдера CenturyLink (ранее известного как Level3). В течение дня масштабные сбои в мировой сети постепенно были устранены.


Ниже приведен краткий обзор инцидента.


CenturyLink и эффект домино

Согласно оперативной информации из растущего числа источников (Qrator, Post-Gazette, Twitter, Techquila, CNN, ThousandEyes и др.), 30.08.2020 произошел сбой систем маршрутизации на стороне CenturyLink/Level3, самого крупного интернет провайдера в мире, что вызвало цепную реакцию падения доступности популярных сервисов таких провайдеров, как Cloudflare, Hulu, PlayStation Network, Xbox Live, Feedly, Discord.


Служба мониторинга доступности интернет-ресурсов Downdetector.com, помимо CenturyLink и упомянутых выше компаний, проинформировала о многих других глобальных поставщиках услуг, испытывающих серьезные проблемы с подключением в этот день. Среди них такие гиганты, как:


  • Google
  • Facebook
  • Twitter
  • YouTube
  • Netflix
  • Instagram
  • Tik Tok
  • AT&T
  • Spectrum
  • Comcast
  • COX


И этот список можно продолжить. Подробный разбор события и статистика представлены в «Analysis of Today’s CenturyLink/Level (3) Outage» от Cloudflare..


Что произошло?

«Сегодня мы стали свидетелями повсеместной оключения Интернет-связи, вызвавшего недоступность сервисов множества провайдеров. Автоматические системы Cloudflare обнаружили проблему и переключили трафик на обходные маршруты, но масштабы проблемы требовали ручного вмешательства».

- Джон Грэм-Камминг (John Graham-Cumming),
технический директор Cloudflare


Грэм-Камминг заявил, что ответственность за недоступность сервисов Cloudflare для ее многочисленных клиентов в первую очередь лежит на CenturyLink.


В CenturyLink подтвердили сбой в работе сетей доставки контента (CDN) и что «все сервисы были восстановлены по состоянию на 15:12 GMT»


Проблема возникла в одном из дата-центров CenturyLink в Миссиссоге (Mississauga), Канада, из-за некорректного анонса BGP FlowSpec. В сводке данного происшествия CenturyLink приводит следующие подробности:


«Сводка: 30 августа 2020 года в 10:04 GMT в CenturyLink определили проблему, которая затрагивает пользователей на многих уровнях. … Первоначальное исследование показало, что некорректные анонсы FlowSpec препятствовали установке протокола граничного шлюза (BGP) во многих компонентах сети CenturyLink. NOC применил глобальное изменение конфигурации, чтобы заблокировать некорректные анонсы FlowSpec, что позволило BGP восстановить работу. По мере того, как внесенное изменение конфигурации распространялось по сети, NOC наблюдал как все связанные сервисы, подававшие аварийные сигналы, возвращались в стабильное состояние».


BGP (Border Gateway Protocol – «протокол граничного шлюза») – протокол, управляющий маршрутизацией пакетов в интернете путем обмена информацией о доступности и безопасности маршрутов.


FlowSpec (или BGP flow specification – «спецификация потока BGP») – расширение протокола BGP, предназначенное для распространения правил безопасности и фильтрации среди большого числа одноранговых маршрутизаторов BGP.


Благодаря FlowSpec, участники глобальной сети могут использовать маршрутизаторы BGP для распространения правил файервола и на свои сети. Предупредительные анонсы FlowSpec дают возможность провайдерам почти мгновенно реагировать на угрозы безопасности, например, такие как DDoS-атаки или BGP-хаки.


По предположению Cloudflare, основанному на анализе статистики вплеска поступавших обновлений BGP, CenturyLink, возможно, столкнулась с атакой или иной попыткой неправомерного воздействия на свою сеть. Чтобы противостоять этому, система объявила пакет новых маршрутов, которые блокировались из-за некорректного правила FlowSpec. В результате часть маршрутизаторов CenturyLink прерывала сеанс BGP в то время, как другая часть передавала некорректные маршруты соседнему Tier-1. Это повлекло за собой дальнейшие сбои и отключения в сетях интернет-провайдеров Tier-1.


Фатальный цикл можно проиллюстрировать следующим образом:


1. Маршрутизатор получает пакет обновлений маршрутов и правил BGP, включающий также некорректное правило, блокирующее сам BGP


2. Маршрутизатор исполняет некорректное правило и отключает сеанс BGP.


3. Поскольку правила FlowSpec не сохраняются после прекращения сеанса BGP, маршрутизатор пытается установить его заново.


4. Дальше повторяется первый пункт, и это происходит со всеми маршрутизаторами CenturyLink.


Tier 1 (или провайдер высшего уровня) – глобальные операторы связи, которые соединены со всей сетью Интернет через пиринговые соединения друг с другом. Операторы уровня Tier 1 не нуждаются в покупке транзита IP-траффика для доступа к сети Интернет, а получают его бесплатно.


Критичность ситуации заставила CenturyLink пойти на беспрецедентный шаг: они обратились ко всем интернет провайдерам Tier-1 с просьбой отключиться от CenturyLink и игнорировать исходящий от нее трафик. Это позволило CenturyLink в течение 5 часов провести глобальную перезагрузку конфигурации оборудования и очистить таблицы маршрутизации BGP.


Рейтинг недоступности веб-сервисов во всем мире

Информация о падении доступности веб-сервисов по географическим регионам 30.08.2020, собранная BGP-коллекторами Qrator, отражает глобальный масштаб этого инцидента:


Global Failure


Этот инцидент, нарушивший работу огромного количества организаций и предприятий во всем мире, является важным предупреждением. Он мог бы иметь гораздо более серьезные последствия, если бы помешал работе критически важных инфраструктур (электросети, водоснабжение и очистка, медицинское обслуживание, транспорт и т. д.).


Сейчас появляется новая информация, добавляющая детали к общей картине. Ждем разбор полетов "post mortem" от самого CenturyLink. Окончательную оценку и выводы еще предстоит сделать.

Понравилась статья? Поделитесь ею в социальных сетях!

close