Марина Эфендиева
«Облака» беззащитны перед стихией
Одного удара молнии хватило, чтобы значительная часть облачных сервисов Amazon и услуг Microsoft оказались временно недоступны. Клиентам дата-центров не стоит забывать о стандартной защите данных, предупреждают эксперты
Фото: Vittis from Lithuania/flickr.com
От случайностей не застрахован никто, даже дата-центры крупнейших мировых компаний, подтверждает история с ЦОДом Amazon в Дублине.
Вечером в воскресенье, 7 августа, молния ударившая в трансформатор, вызвала пожар и сбои в системах подачи электропитания в дублинских дата-центрах Amazon и Microsoft. В результате облачный сервис Amazon Elastic Computer Cloud (Amazon EC2) и часть услуг Microsoft в облаке были недоступны довольно длительное время.
Число пострадавших от простоев в работе компаний может измеряться десятками: на серверах Amazon хранятся данные известных ресурсов и крупных онлайн-магазинов.
Значительная часть сервисов была восстановлена в течение четырех-шести часов. Однако полностью инцидент не исчерпан до сих пор, а ведь с момента аварии прошло двое суток. Сбои в работе серверов Amazon до сих пор продолжаются: сегодня в течение 40 минут не работали такие популярные сервисы, как Netflix, Foursquare, Reddit, Heroku, Instagram, Fab, Turntable.fm и многие другие. Как выяснилось, отключение произошло в центре East-1.
Согласно стандартам Uptime Institute Professional Services для дата-центров класса TIER III (третий уровень надежности), допустимое время простоя в среднем не должно превышать 1 часа 35 минут. Однако это правило действует в случае единичного сбоя, пояснили BFM.ru в компании «Крок», которая в мае прошла сертификацию Uptime Institute на соответствие проекта своего нового аутсорсингового дата-центра классу TIER III.
По сообщению Amazon, повреждения в дублинском дата-центре оказались столь серьезными, что компании пришлось делать дополнительные копии всех данных. Это, в свою очередь, потребовало задействовать огромные резервные мощности, что замедлило процесс восстановления. При этом некоторые серверы были повреждены настолько сильно, что потребовались «ручные операции».
За последние несколько месяцев сервис Amazon EC2 переживает второй масштабный сбой. В апреле текущего года у Amazon также возникали неполадки, в результате которых перебои в работе возникли у нескольких популярных площадок, включая Facebook. Тогда работу большинства сервисов удалось восстановить в течение 40 минут, хотя некоторые услуги были недоступны клиентам Amazon еще около четырех дней.
В свою очередь представители Microsoft сообщили в Twitter’e компании, что удар по их части дата-центра лишил пользователей доступа к сервису Business Productivity Online Suite. Работа данного сервиса была восстановлена к утру понедельника, сообщается в том же Twitter.
«Учитывая объем повреждений, восстановить 60% мощностей за 12 часов, скорее всего, было возможно только при условии миграции на другие ресурсы провайдера. Но стоит отметить, что это хороший показатель восстановления», — считает руководитель направления центров обработки данных компании «Крок» Руслан Заединов.
По словам эксперта, трудно определить точное число компаний, которые пострадали в результате аварии. «Учитывая то, что это крупнейший европейский дата-центр Amazon, речь может идти о действительно значительном количестве», — считает Заединов.
В Дублине (Ирландия) расположены дата-центры множества европейских и американских корпораций, отмечает специализированный ресурс Data Center Knowledge. Этому способствует удачное расположение города, подходящий климат, инфраструктура и большое число квалифицированных работников. Именно поэтому Microsoft построил здесь один из крупнейших в мире дата-центров площадью 550 тысяч квадратных футов. Amazon также открыла свой европейский дата-центр в Дублине в 2008 году. А в феврале текущего года компания приобрела дополнительные площади для расширения дата-центра.
Упомянутые выше благоприятные погодные условия Дублина, позволяющие владельцам ЦОДов сокращать расходы на дорогостоящие системы охлаждения, используя холодный воздух «с улицы», на этот раз сыграли с Amazon злую шутку. Если удар молнии может так легко вывести из строя огромный дата-центр, от которого зависит жизнедеятельность множества интернет-ресурсов, то что же случится в случае масштабного стихийного бедствия?
Многое «зависит от грамотного системного архитектора или администратора проекта»
«Произошедшая авария выходит за пределы стандартов в области надежности ЦОД. Ни один из них не предусматривает случая попадания молнии в группу дизель-генераторных установок. Стандарты учитывают либо единичные поломки (и, соответственно, устойчивость ЦОД к ним), либо крупные, но и в этих случаях речь не идет о выходе из строя какой-то из подсистем полностью. А в данном случае произошло внешнее событие, которое привело к полному выводу из строя ЦОД. Причем нужно отметить, что авария носила очень непростой характер: не просто одна из дизель-генераторных установок была выведена из строя, а пострадала система синхронизации работы этих дизелей, которая не смогла поддержать работу ЦОД, когда он был полностью обесточен из-за удара молнии. В результате, дата-центр вышел из строя целиком», — пояснил Руслан Заединов.
При этом специалист не преминул отметить, что некоторые дата-центры снабжены системой защиты от молний. Была ли такая система у Amazon и если была, то почему не сработала — неизвестно.
От стихии не застрахован никто, но все же есть ряд моментов, которые можно учесть и предусмотреть. Даже в «облачную» эпоху никто не отменял устоявшиеся и проверенные на практике методы обеспечения непрерывности работы бизнеса, говорят эксперты.
««Облака» — это всего лишь технологии. И в случае, если бизнес-процессы компании завязаны на этой технологии и есть задача поддерживать их непрерывность, нужно иметь резервные системы, план перехода на них и персонал, который может осуществить качественный переход. Таким образом, переход в «облако» не освобождает компанию от необходимости обеспечивать комплекс мер, направленных на обеспечение непрерывности IT-сервисов», — предупреждает эксперт «Крока».
Сами по себе «облака» не являются панацеей от всех проблем, которые могут возникнуть с хостингом, согласен руководитель направления арендных решений «1С-Битрикс» Александр Демидов. «Всегда важно грамотно строить всю инфраструктуру для своих проектов, обеспечивать резервирование данных, иметь полноценную систему мониторинга.
«Облака» же позволяют очень быстро восстанавливать необходимые мощности. Вместе с резервированием контента в разных точках — дата-центрах — это позволяет минимизировать время простоя и возможные потери. «Облако» — лишь удобный инструмент. А как его использовать, зависит от грамотного системного архитектора или администратора проекта», — рассказал он BFM.ru.
Кто заплатит за простои
Облачные провайдеры обязаны гарантировать клиентам сохранность данных — такая ответственность поставщика услуг должна быть прописана в SLA (соглашение об уровне обслуживания, Service Level Agreement)
Однако провайдер не обязан страховать клиента от его же собственных ошибок, поясняет представитель «1С-Битрикс». «Если клиент отправит в техподдержку провайдера запрос вида «Мой контент-менеджер случайно удалил все картинки с нашего сайта неделю назад», скорее всего, провайдер ему не поможет, — привел пример Александр Демидов. — Важно иметь собственные резервные копии данных».
По его словам, убытки от простоя крупного интернет-магазина в данном случае вряд ли кто-то возместит. «У SLA провайдеров чаще всего фигурируют цифры, сопоставимые со стоимостью предоставляемых провайдером услуг. Поэтому важнее эти убытки не допустить, минимизировав время простоя», — пояснил эксперт.
Самый важный урок, который потребители облачных услуг могут вынести из данной ситуации, по мнению Демидова, — «резервировать данные в независимых друг от друга точках, в разных дата-центрах, иметь собственную стратегию на случай инцидентов, заранее разработать и протестировать возможные схемы восстановления».
Что касается провайдеров облачных услуг, то их задача в случае аварии — максимально быстрое восстановление работы, говорит представитель компании «Крок».
«Сразу после аварии персонал должен оценить обстановку и классифицировать аварию. Параллельно должны проводиться действия, которые направлены на обеспечение безопасности людей. Затем приступить к процедурам восстановления. Обычно они предполагают диагностику тех компонентов, которые пострадали; попытку восстановления их работоспособности, если можно это восстановить своими силами. В случае если это невозможно, должны подключаться сервисные компании, которые должны обеспечивать гарантированное восстановление работоспособности тех или иных компонентов ЦОД за определенное время (несколько часов) согласно SLA. Когда это сделано, можно включать IT-системы и заниматься восстановлениями IT-сервисов», — описал схему действий Руслан Заединов.