Как сократить до минимума число отказов

Ульрих Бекер

 

Отказ энергосети 4 ноября 2006 г., затронувший Германию, Францию, Австрию, Бельгию, Италию и Испанию, оказался для многих предприятий неожиданным и весьма болезненным напоминанием об их зависимости от электропитания. По данным последних исследований Союза операторов распределительных сетей, в2005 г. время простоя на одного клиента из-за прерывания питания составило в среднем 30 мин, если учитывать только форс-мажорные случаи. Однако непрерывное энергоснабжение остается лишь одним из многочисленных аспектов создания надежного вычислительного центра.

В зависимости от принадлежности к определенной отрасли предприятия придерживаются совершенно разных критериев и оценок защищенности от сбоев вычислительного центра. К примеру, для Internet-аукциона отказ информационных систем длительностью в несколько минут означает огромные убытки и потери, в то время как для автономного предприятия последствия, возможно, будут весьма незначительными. Чем больше основных производственных процессов выполняется на базе ИТ, тем критичнее эта область для успешной работы предприятия.

АНАЛИЗ ИСТОЧНИКОВ УГРОЗ

Тот, кто заботится о защите информационных технологий от отказов, должен существенно минимизировать риски от неправильной организации работы или форс-мажорных обстоятельств. Заранее следует позаботиться о том, как избежать возможного дефицита персонала из-за болезни сотрудников, неудовлетворительного обслуживания, неполного тестирования или недостаточного контроля действий, направленных на обеспечение безопасности ИТ и приемлемого уровня производительности. Кроме того, следует продумать меры предосторожности от некорректного поведения людей, к примеру поломки устройств, краж или актов саботажа, и от технических отказов системы энергоснабжения или сетевых компонентов. Поскольку для разных предприятий составляется свой список угроз, для каждого придется разработать свои нормы защиты. В первую очередь рекомендуется провести анализ возможных угроз и одновременно установить, насколько длительным может быть время отказа.

Очень важно выяснить, каков допустимый уровень потерь данных, сколько времени займет их восстановление, как быстро должны стать доступными сетевые приложения и какова максимально приемлемая продолжительность работы предприятия в ограниченных условиях. Ответы на эти и другие вопросы содержатся в рекомендациях инфраструктурной библиотеки ИТ (IT Infrastructure Library, ITIL), в которых аспекты обеспечения эксплуатационной безопасности ИТ играют значительную роль. ITIL обобщает практический опыт, фокусируя функционал информационных технологий на процессах, услугах и нуждах клиентов. ITIL демонстрирует эффект синергии и указывает на зависимости между отдельными областями ИТ, тем самым позволяя добиться эффективного управления обеспечением безопасности.

После оценки длительности потенциального отказа ее можно соотнести с возможным финансовым ущербом, для чего необходимо учесть все факторы затрат, связанные с отказом. И наконец, на основе полученных результатов можно определить адекватные технические меры.

РАЗМЕЩЕНИЕ КОМПОНЕНТОВ ИТ

Для надежного размещения компонентов ИТ необходимо учитывать множество факторов. Существуют три основных альтернативных варианта: офисные помещения полностью оснащаются необходимыми компонентами ИТ, предприятие эксплуатирует собственный вычислительный центр или обращается к внешнему профессиональному поставщику услуг, располагающему необходимыми мощностями для размещения ВЦ. Какой вариант окажется наилучшим для предприятия, зависит, во-первых, от издержек и, во-вторых, от предъявляемых к ВЦ требований. Чем более важны информационные технологии для предприятия, тем выше требования к энергоснабжению и уровню оснащенности вычислительного центра. Однако перестройка офисного здания в соответствии с потребностями ИТ, строительство или покупка специального помещения обходятся очень дорого.

80 ВТ НА КВАДРАТНЫЙ МЕТР

Сегодня большинство предприятий среднего размера размещают компоненты ИТ в собственных помещениях. Однако проблема в том, что офисное здание располагает мощностью подключения около 80 Вт на 1 м2, в то время как для шкафа, полностью укомплектованного мо-дульными серверами, потребуется
10 кВт и более. К этому следует добавить потребность в электроэнергии для охлаждения оборудования. Следовательно, чтобы обеспечить такое энергопотребление стойки, предприятие должно обладать площадью около 125 м2. Если принять за основу, что средняя стоимость аренды равняется 18 евро за 1 м2, оплата соответствующей площади составит 2250 евро в месяц без учета эксплуатационных расходов (энергоснабжение, обслуживание и т. д.) и затрат на перестройку офиса для размещения необходимых компонентов ИТ.

Таблица 1. Четыре категории вычислительных центров по классификации компании Uptime Institute.
Установить стойку с серверами в вычислительном центре внешнего провайдера услуг можно и за две трети указанной суммы, включающей к тому же непрерывное техническое обслуживание устройств и круглосуточный мониторинг всех систем. Кроме того, внешние провайдеры услуг располагают дежурным персоналом и механизмами обеспечения безопасности, которые защищают информационные технологии от вторжения, кражи, вандализма и недобросовестных манипуляций. Предприятию нужно лишь позаботиться об отказоустойчивой инсталляции своих устройств и о выборе соответствующей его потребностям категории оснащения вычислительного центра.

ПРИМЕРЫ ОСНАЩЕНИЯ: ЧЕТЫРЕ УРОВНЯ

Компания Uptime Institute различает четыре уровня оснащения вычислительных центров в зависимости от допустимого времени простоя (см. Таблицу 1). Если предприятие определяет допустимый период простоя в 72 ч, центр относится к первой категории (см. Рисунок 1) и оснащается стандартной системой ввода и распределения электроэнергии, а также источниками бесперебойного питания (ИБП), время автономной работы которых зависит от количества и размера устройств. Если речь идет о серверном шкафе с потребляемой мощностью установленного оборудования до 24 кВт, ИБП должен поддерживать его функционирование по меньшей мере в течение 10 мин.

Рисунок 1. Вычислительный центр первой категории.
В случае серверной комнаты автономное время работы увеличивается как минимум до 1 ч. Опционально вычислительный центр данной категории оснащается системой аварийного питания. Что касается охлаждения, спектр предлагаемых решений весьма широк: на рынке представлены прецизионные системы охлаждения, высокопроизводительные и жидкостные. Для защиты от пожара потребуются огнеупорные двери, жаропрочные стены, полы и потолки, а также система мониторинга с функцией распознавания возгораний.

Если предприятие не может позволить себе простоев, вычислительный центр попадает в четвертую категорию (см. Рисунок 2). В этом случае энергоснабжение осуществляется через избыточные распределительные устройства, а питание на них подается от разных трансформаторных подстанций. Необходимо зарезервировать и ИБП, который обязан поддерживать автономную работу в промежутке от 10 до 30 мин. Не позже чем через 15 мин после нарушения энергоснабжения должна включаться подсоединенная система аварийного питания, располагающая достаточным запасом горючего для подачи электроэнергии в течение 72 ч. Прецизионные, высокопроизводительные или жидкостные системы охлаждения для этой категории также реализуются избыточно. Для защиты от пожара следует позаботиться о системе мониторинга с функцией раннего распознавания возгорания, а также о дополнительной газовой системе тушения или устройстве для уменьшения содержания кислорода в помещении.

Рисунок 2. Вычислительный центр четвертой категории.
При этом стены, полы, потолки и двери должны отвечать стандарту EN 1047-2 и быть способны противостоять пожару в течение 90 мин, необходимых, чтобы локализовать возгорание и потушить огонь.

К тому же качественно оснащенный вычислительный центр предлагает возможность обслуживания работающих серверов без ограничений (см. Таблицу 2). Для максимального снижения времени простоя должны быть зарезервированы все критически важные компоненты, в особенности блоки питания отдельных устройств. Важно, чтобы для последних обеспечивалось энергоснабжение от разных электрических цепей: иными словами, надо подключить их к двум отдельным распределительным щитам. Дополнительного повышения готовности можно добиться путем подключения электрических цепей к двум не зависящим друг от друга ИБП и их энергоснабжения от разных трансформаторов и генераторов.

Таблица 2. Высококачественное оснащение обеспечивает высокую отказоустойчивость.
ОТКАЗОУСТОЙЧИВОСТЬ ИНФРАСТРУКТУРЫ ЗАЧАСТУЮ НЕДООЦЕНИВАЕТСЯ

На многих предприятиях к проблеме размещения компонентов информационных технологий и их отказоустойчивой компоновке подходят недостаточно ответственно. С одной стороны, причина заключается в том, что нередко данная тема лежит за пределами технической компетенции экспертов в области ИТ (см. Рисунок 3). С другой стороны, задача оказывается слишком сложной, поскольку охватывает не только энергоснабжение и охлаждение, но и, к примеру, безопасность здания или мониторинг отказов.

Что касается энергоснабжения, то в конечном счете защитой компонентов ИТ от рисков обязаны заниматься члены правления, руководство компании и лица, ответственные за ИТ. Чтобы занять правильную позицию, они должны разобраться в следующих вопросах.
Рисунок 3. Компоненты резервного вычислительного центра.
Является ли энергоснабжение достаточным? Стойке, полностью укомплектованной современными модульными серверами, требуется от 10 до 20 кВт потребляемой мощности, к этой величине стоит добавить расход электроэнергии для охлаждения и энергоснабжения прочей инфраструктуры (свет, телефон, система наблюдения). Однако большая часть офисных зданий обеспечивается мощностью лишь в 80-90Вт на 1 м2, что ограничивает суммарную доступную мощность подключаемых устройств.

Как выглядит система аварийного питания? Хотя многие предприятия и предпринимают меры предосторожности на случай аварийной ситуации, однако зачастую не тестируют приобретенные ими устройства или неправильно их конфигурируют. При сбое мало пригодны неправильно рассчитанные или плохо обслуживаемые ИБП, бесполезны и устройства с избыточными блоками питания, которые не были соответствующим образом подключены или сконфигурированы.

Насколько надежно работает ИБП? Надежность ИБП не стоит переоценивать, необходимо регулярно проводить работы по его обслуживанию и тестированию. Если устройство не в состоянии отреагировать на сбой в течение 9 мс, блоки питания отказывают и сервер отключается. В случае более длительной потери энергоснабжения температура внутри серверного шкафа каждые 3 мин поднимается на 120C. Поэтому статический ИБП с рекомендуемым периодом автономной работы в 20 мин при полной нагрузке может быстро привести к появлению проблем.

Функционирует ли система аварийного питания? В момент реальной опасности все системы должны быть своевременно переключены. Владельцы динамических ИБП, оснащенных системой аварийного питания, должны быть уверены, что дизельный агрегат запустится в течение 15-20 с, чтобы предотвратить отказ энергоснабжения. Операторы, предоставляющие услуги вычислительных центров, обязаны ежемесячно тестировать свои ИБП и системы аварийного питания в течение 1 ч с половинной нагрузкой.

Однако при обсуждении вопросов, связанных с отказоустойчивой работой вычислительных центров, речь может идти не только о технических аспектах. На высокую значимость надежного размещения компонентов ИТ указывает и директива Европейского Союза Basel II, содержащая критерии для оценки кредитоспособности предприятия. Краткий вывод таков: в любом случае организации должны регулярно проверять качество работы своих вычислительных центров.

Ульрих Бекер — директор по продажам компании Global Switch, предоставляющей услуги вычислительных центров.


© AWi Verlag


Источники

Германская ассоциация ин-формационных технологий, телекоммуникаций и медиа-технологий (Bundesverband Informationswirtschaft, Telekommunikation und neue Medien e.V., BITKOM):

«Руководство по проектированию, сооружению и эксплуатации вычислительных центров» (Leitfaden zu Planung, Aufbau und Betrieb von Rechenzentren; Web: http://www.bitkom.org/files/documents/BITKOM-Leitfaden_FA_Betriebssicheres_9-11-2006.pdf);

«Пособие в таблицах по планированию надежных в эксплуатации вычислительных центров» (Matrix «Planungshilfe betriebssicheres Rechenzentrum»; Web: http://www.bitkom.org/files/documents/BITKOM_Matrix_Ausfallzeit_RZ_V2.0_final.pdf).