Связаться с нами

Эксплуатация ЦОД. Состав персонала. Сервисное обслуживание ЦОД.

Visits: 805

Эксплуатация ЦОД. Правила эксплуатации инженерной инфраструктуры ЦОД

Инженерная инфраструктура ЦОД – система обеспечивающая работоспособность всех сегментов и служб ЦОД. Функцией инженерных систем является стабильная работа  серверных ресурсов и хранилищ данных вычислительного комплекса.

Сама инженерная инфраструктура ЦОД также нуждается в  проведении профилактики и диагностики. Это жизненно необходимо для поддержания в рабочем состоянии собственных подсистем и подразделений дата-центра. Проведение диагностики подразумевают правила эксплуатации инженерных подсистем.

ТОП-10 самых частых инцидентов в зоне ответственности дежурного инженера
Работа с оборудованием (замена аппаратных узлов, установка ОС)
Подключение и/или настройка КВМ для клиента
Перезагрузка оборудования
Коммутация оборудования
Монтаж/демонтаж оборудования
Работы по СКС
Маркировка оборудования
Визуальный мониторинг (проверка работ оборудования по запросу)
Представление информации по запросу клиентов

Эксплуатация ЦОД. Задачи сервисного обслуживания инженерной инфраструктуры среднестатистического ЦОДа

Обслуживаемая система Сервисные задачи
Система бесперебойного снабжения электроэнергией (ДГУ, ИБП) Время реакции на аварию не более четырех часов в режиме 24 х 7
Система кондиционирования Достижение отказоустойчиво и (длительность простоя ЦОД не более 20 мин в год)
Система автоматического газового пожаротушения Восстановление работоспособности обслуживаемого оборудования производится не более чем за четыре часа
Система контроля и управления доступом и система
видеонаблюдения
Замена вышедшего из строя ЗИП
Система кабелей связи и коммутационного оборудования Регламентное ежемесячное обслуживание подсистем
Выделенная электросеть Создание, поддержание в требуемом состоянии комплекта документов, описывающих обслуживаемую подсистему
Система мониторинга окружающей среды и параметров, описывающих расходование электроэнергии серверными помещениями Наличие «горячей» линии в режиме 24 х 7
Система фальшпола серверного помещения Обеспечение доступа к системе регистрации запросов
Серверное помещение Работы от замены лампочки до настройки систем
мониторинга
Вспомогательные работы Гарантия доступности любых требуемых ресурсов в любое
время
Заправка ДГУ топливом Проведение экспертизы
эффективности
инженерных систем

В Эксплуатации для ЦОД Составлено такое понятие как «процент гарантированной доступности инженерной инфраструктуры ЦОД в год». В том случае, если требуется гарантированный доступ сервисов ЦОД в год не менее 99,95 %. Данное требование диктуется размером ущерба от остановки предоставления ЦОДом предлагаемых сервисов. В этом случае необходимо создание 2-х дежурных смен, одна – непосредственно на площадке, вторая – состав из инженеров, отправляемых на объект не позднее чем через час.

Состав персонала МИНИМАЛЬНЫЙ:
• Системный администратор (IT инфраструктура – серверы,СХД,СКС,ПО)
• инженер-механик (кондиционирование, вентиляция, отопление, водоснабжение, канализация)
• инженер-электрик (электрощитовое оборудование, освещение, гарантированное электроснабжение – ИБУ, ДГУ)

эксплуатация

В обязанность дежурной смены, находящейся непосредственно на объекте, входит:

• по показаниям систем мониторинга следить за состоянием ЦОД и состоянием окружающей среды;

• обход и осмотры всей обслуживаемой инженерной инфраструктуры ЦОД один раз в два часа;

• при возникновении отказа оборудования не позже чем через пять минут проверять выполнение автоматического ввода резерва или производить ввод в работу резервного оборудования вручную;

• не позже чем через 30 минут с момента регистрации аварии инженерного оборудования ЦОДа выявить устройство, в котором произошел сбой, и причину отказа и при необходимости вызвать вторую дежурную смену;

• записать все свои действия и состояние оборудования в реальном времени.

В этом случае ЗИП закупается под проект, и регулярно осуществляется регламентное обслуживание оборудования.

Уровень сервисных услуг по обслуживанию инженерной инфраструктуры эксплуатации ЦОД может быть различным. При невысокой критичности простоя или наличии резервирования элементов инфраструктуры (N + 1, 2(N + 1)), сервисные организации могут привлекаться для проведения регламентных работ или после выхода оборудования из строя.

Если же критичность простоя высока, то сервисное обслуживание инженерной инфраструктуры ЦОД должно проводиться постоянно высококвалифицированными специалистами, имеющими опыт эксплуатации таких объектов.

Для проведения профилактических работ отдельных инженерных подсистем может быть задан свой режим периодичности. Частота диагностики напрямую связана с функциональной важностью и интенсивностью рабочего использования отдельных сегментов.

Так, система кондиционирования и охлаждения нуждается в регулярной профилактической чистке и осмотре основных рабочих блоков. Помимо визуального осмотра отдельных сегментов систем охлаждения: внешних и внутренних блоков, линий трассы, ремней приводов вентиляторов проводится контроль уровня давления охлаждающего компонента.

Ежегодные процедуры эксплуатации инженерных систем ЦОД

Профилактический осмотр и диагностика инженерных систем проводится по определенному графику, совпадающему с ежегодным расписанием. Данный документ, утверждается руководством ЦОД и в нем расписаны процедуры выполнения работ по месяцам и продолжительности проведения работ.

Диагностика проводится на любом объекте, независимо от уровня ЦОД. Для ЦОД высоких уровней отказоустойчивости и крупных дата-центров распределенной инфраструктуры важно проводить ремонтные работы и диагностику без остановки рдействующего оборудования. Останов серверов и СХД может привести к сбоям вычислительных операций и ошибкам при обработке запросов пользователей.

Для такого комплекса даже минутная остановка в работе вычислительных ресурсов может привести к невосполнимым потерям. Поэтому для ЦОД старших уровней действуют более жесткие нормативы при проведении диагностических плановых работ. Но данные работы проводить необходимо в дата- центре любого уровня. Соблюдение правил эксплуатации продлевает срок рабочей пригодности оборудования и срок службы инженерных подсистем.

Хорошая диагностика исключает провокационные ситуации для возникновения сбоев и аварий в сети, а также временных «зависаний» компьютеров и серверов.

Для ЦОД всех 4-х уровней надежности создается свое уникальное расписание. Данный график совмещается с типовой схемой регламентных профилактических работ. В соответствии с этим документом специалисты проводят диагностику на объекте.

Список регламентных и профилактических работ инженерной инфраструктуры ЦОД

Каждый месяц сервисные инженеры ЦОД проводят следующие регламентные процедуры:

• визуальные осмотры, очистка механических систем от пыли и грязи, смазка металлических доводчиков дверей, замков и петель, клапанов и приводов дымоудаления, компонентов СКУД

• осмотр и очистка от пыли и грязи электронных компонентов, к которым относятся датчики систем охранной и пожарной сигнализации, видеорегистраторы СКУД

• тестирование электронных компонентов для проверки их работоспособности

• проверку розеточных блоков

• осмотр и сверку штатных манометров баллонов системы газового пожаротушения

• по правилам пожарной безопасности кроме осмотра и замера показаний манометра необходимо провести обязательную сверку показаний прибора с эталонным значением, указанным в его техническом паспорте

• кратковременный пуск дизеля с проверкой на внешнюю тестовую нагрузку.

• раз в два месяца каждый год проводится обязательная процедура осмотра системы защиты от протечек. Выполняется очистка датчиков и проводится тестирование системы путем искусственной имитации ситуации утечки воды.

Раз в 4-е месяца в помещениях дата-центра проводятся следующие виды профилактических работ:

• визуальный осмотр электрических схем люков забора воздуха и дымоудаления

• тестирование системы пожарной сигнализации и газового пожаротушения

• контроль состояния пожарных датчиков

• осмотр фальшпола и напольных перекрытий по отдельным зонам. Это делается для выявления мест возможной расстыковки плит, расшатанных опор и прочих ненужных отклонений

• диагностика основной и резервной систем энергоснабжения: поиск возможных механических повреждений электрощитового оборудования, диагностика системы вентиляции ИБП и контроллера, контроль уровня заряда батарей

• диагностика элементов СКУД, чистка считывающих устройств и экранов камер и от загрязнений и пыли

• диагностика рабочей станции оператора

• осмотр систем видеонаблюдения

• архивирование данных системы видеонаблюдения.

Два раз в год для выявления предполагаемых сбоев в работе инженерных подсистем требуется проводить следующие процедуры:

• проверка состояния электрической сети

• сверка показаний датчиков температуры и влажности систем кондиционирования с базовыми настройками

• протяжка болтовых соединений заземляющей шины

• ведутся замеры величин сопротивления

Ежегодно проводят профилактическое тестирование и проверку выборочных инженерных подсистем. Среди проверяемых компонентов:

• аккумуляторные батареи и автономные источники электропитания. Запланированная проверка исключает отключение оборудования по причине разрядки батарей

• энергосистемы

• автоматика ДГУ: основной и резервной установки

• cитемы пожарной сигнализации. Процедура включает замену неисправных противогазов и других индивидуальных средств защиты с истекшим сроком службы.

Работоспособность и производительность вычислительного комплекса во многом зависит от состояния внутренней ИТ-инфраструктуры и состояния серверов, хранилищ данных, телекоммуникационных ресурсов и коммуникационных каналов.

Поддержание в хорошем рабочем состоянии основных и резервных вычислительных мощностей ЦОД – задача квалифицированных ИТ-специалистов. Качественная работа оборудования во многом также зависит от качества подсистем жизнеобеспечения ЦОД.

Пример на затраты по эксплуатации ЦОД и ВЫВОД.

Центр обработки данных на 20 стоек.

Как пример, давайте разберем.

Это совсем “небольшой” ЦОД, но установленные задачи, предполагают высокий уровень отказоустойчивости и, соответственно, круглосуточной дежурной смены и регулярного сервисного обслуживания, а за это придется заплатить. Получается случае основные затраты – фонд оплаты труда (ФОТ) службы эксплуатации и услуги специализированных подрядных организаций. Заработная плата дежурной смены будет это фин.затраты либо заказчик – владелец ЦОДа, либо обслуживающей его сервисной компанией, но избежать этих расходов не удастся.

Под сервисным обслуживанием специализированными подрядными организациями понимается набор операций, которые прописаны в регламенте производителя оборудования и для выполнения, которых у местной службы эксплуатации ЦОД нет требуемых компетенций и сертификации. В их число входят, например, работы по системе ДГУ: замена отработанного масла, фильтров, проверка работы стартера, генератора, натяжения приводного ремня. Для выполнения сервисных операций по ИБП или кондиционерам нужны сервисные пароли, которые многие производители оборудования конечному потребителю не сообщают.

Как показывает наша практика, суммарная стоимость обслуживания ЦОДа на 10–20 стоек может превысить 3 млн руб. в год. К этому необходимо добавить расходы на обучение, сертификацию сотрудников и закупку необходимых инструментов. Стоимость же услуг аутсорсинга для такого дата-центра, по нашему опыту, начинается с 2,8 млн руб. и растет в зависимости от уровня сервиса, заложенного в SLA.

Самостоятельные эксплуатация и сервисное обслуживание маленького ЦОДа (на 10–20 стоек) с финансовой точки зрения также нецелесообразны. Гораздо выгоднее переложить все затраты на обслуживание инфраструктуры и содержание круглосуточной дежурной смены на его оператора (системного интегратора).

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Звоните сейчас!!!