"Яндекс" восстановился после сбоя и рассказал о его причинах
19.08.2011 21:46
—
Новости Hi-Tech
Сервисы компании "Яндекс" сегодня были недоступны более трех часов, с примерно 16.10 по минскому времени. После 19 часов функциональность стала восстанавливаться, в 21.04 компания официально прокомментировала случившееся. К этому моменту "Яндекс" уже работал в обычном режиме.
"Сегодня в течение нескольких часов сервисы "Яндекса" были недоступны. Это произошло из-за проблемы с маршрутизацией в сети "Яндекса". С работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами это никак не связано. Сейчас основные последствия проблемы устранены. Никакие пользовательские данные не потеряны", – подчеркнул Владимир Иванов, заместитель руководителя департамента эксплуатации компании "Яндекс".
По его словам, проблема была вызвана ошибкой программного обеспечения на маршрутизаторе в новом дата-центре "Яндекса" в Амстердаме. В Яндексе используются два протокола маршрутизации: внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации – случилась практически тысячекратная перегрузка. У маршрутизаторов кончилась память, они перестали работать – нарушилась работа сети, и через несколько минут "Яндекс" стал полностью недоступен. "Администраторы исправили ошибку на маршрутизаторе. После этого, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых у нас больше сотни, нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети. Сеть начала постепенно подниматься. Через некоторое время сервисы Яндекса стали доступны большей части пользователей", – отметил В.Иванов.
"Сегодня в течение нескольких часов сервисы "Яндекса" были недоступны. Это произошло из-за проблемы с маршрутизацией в сети "Яндекса". С работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами это никак не связано. Сейчас основные последствия проблемы устранены. Никакие пользовательские данные не потеряны", – подчеркнул Владимир Иванов, заместитель руководителя департамента эксплуатации компании "Яндекс".
По его словам, проблема была вызвана ошибкой программного обеспечения на маршрутизаторе в новом дата-центре "Яндекса" в Амстердаме. В Яндексе используются два протокола маршрутизации: внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации – случилась практически тысячекратная перегрузка. У маршрутизаторов кончилась память, они перестали работать – нарушилась работа сети, и через несколько минут "Яндекс" стал полностью недоступен. "Администраторы исправили ошибку на маршрутизаторе. После этого, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых у нас больше сотни, нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети. Сеть начала постепенно подниматься. Через некоторое время сервисы Яндекса стали доступны большей части пользователей", – отметил В.Иванов.