Техническое обслуживание ЦОД.
Техническое обслуживание ЦОД (центра обработки данных, серверной) – это поддержание всех компонентов и систем ЦОД в рабочем состоянии, своевременное устранение неисправностей и предупреждение сбоев.
Обслуживание ЦОД (серверной) осуществляется в соответствии с разработанным и принятым Заказчиком регламентом технического обслуживания.
В состав работ по сервисному обслуживанию ЦОД входят контроль и техническое обслуживание оборудования инженерных систем ЦОД, а именно:
Системы безопасности: пожарная сигнализация, система пожаротушения, охранная сигнализация, система контроля доступа, видеонаблюдение (СБ).
Система вентиляции и кондиционирование технологических помещений (СКТП).
Система электроснабжения в составе систем гарантированного и бесперебойного электропитания (СЭ).
Структурированная кабельная система (СКС).
Система мониторинга оборудования и параметров среды (СМ).
Надо заметить, что способность организовать профилактический ремонт – т.е. выполнить ремонт до возникновения неисправности – занятие сродни искусству. В это деле серьезную помощь техническому персоналу оказывает грамотно организованный мониторинг технических параметров всех систем. Возможность удаленно контролировать основные параметры работы ЦОД в режиме реального времени позволяет оперативно реагировать на возникающие сбои и предугадать их.
Работы по техническому обслуживанию ЦОД:
техническое обслуживание;
плановый текущий ремонт;
плановый капитальный ремонт;
внеплановый ремонт;
наблюдение за правильной работой оборудования;
периодический осмотр и контроль за техническим состоянием оборудования;
устранение обнаруженных дефектов;
регулировка;
настройка;
опробование и поверка.
Как организовать эффективное выполнение этих объемов работ?
Система управления эксплуатацией центра обработки данных состоит из нескольких связанных друг с другом больших разделов:
управление персоналом;
поддержание документации в актуальном состоянии;
управление договорами;
техническое обслуживание и ремонт;
управление движением расходных материалов и запасных частей;
мониторинг состояния систем и организация оперативного управления.
Персонал. Служба эксплуатации может комплектоваться как собственным персоналом, так и привлеченным из сторонних компаний, которые на аутсорсинговой основе выполняют какие-либо работы. Наем собственного персонала – непростая задача для HR-служб, так как для большинства позиций требуется достаточно высокая квалификация. Если в крупных городах среди соискателей приходится проводить конкурс, то в удаленных регионах, где в последнее время стали появляться ЦОДы, отделу кадров бывает нелегко найти хотя бы одного кандидата, отвечающего всем требованиям.
Документация. Перечислим типы документации, без которых невозможна правильная эксплуатация дата-центра:
• проектная и исполнительная документация по всем разделам, начиная с генплана и заканчивая специальными разделами проектов;
• инструкции по эксплуатации каждой инженерной системы;
• инструкции по эксплуатации оборудования в инженерных системах;
• паспорта на системы, оборудование;
• сертификаты;
• гарантийная документация;
• акты испытаний, поверки и т.д.;
• карты технического обслуживания оборудования, регламенты проведения работ;
• список запасных частей и расходных материалов для каждой инженерной системы;
• журналы проведения инструктажей по технике безопасности и пожарной безопасности;
• карточки учета средств индивидуальной защиты и спецодежды;
• должностные инструкции;
• инструкции по действиям в нештатных ситуациях;
• инструкции по правилам поведения в дата-центре для посетителей;
• договоры с внешними организациями (поставки топлива, аренды, уборки и т.п.).
ЦОД – «живая» система, в которой постоянно что-то модернизируется, налаживается или демонтируется. Все эти изменения должны надлежащим образом отображаться в исполнительной документации и соответствующих инструкциях.
Техническое обслуживание и ремонт. Важнейшая часть эксплуатации ЦОД – поддержание всех инженерных систем в работоспособном состоянии. Эта задача решается путем проведения планового технического обслуживания оборудования и систем на основании регламентов, а также ремонта или замены оборудования, вышедшего из строя. Служба эксплуатации дата-центра своими силами или с помощью подрядчиков должна разработать регламенты технического обслуживания всех систем. В регламенты включаются сведения об оборудовании, периодичности или сроках проведения ТО, описание операций по обслуживанию, информация о необходимом инструменте, расходных материалах и запасных частях. На основании регламентов составляются перечни материалов и запчастей, которые передаются в службы закупки. Поставки комплектов расходников должны осуществляться в строго оговоренные сроки. Для быстрого восстановления работоспособности оборудования в дата-центре должен храниться комплект запчастей. Перечень ЗИП для ремонта инженерных систем обычно разрабатывается с участием поставщиков (вендоров), а также исходя из практического опыта эксплуатации и статистики выхода из строя элементов систем. Актуальная информация о ЗИП должна быть доступна ремонтным службам. Система хранения должна обеспечивать быстрый поиск необходимой детали и ее выдачу. По мере расходования комплекта ЗИП его необходимо пополнять, обеспечивая некий неснижаемый остаток (запас).
Существуют три основных подхода к техническому обслуживанию и ремонту:
• выполнение работ собственными силами;
• выполнение работ сотрудниками сторонних организаций;
• выполнение работ как собственными силами, так и сотрудниками сторонних организаций.
В большинстве российских дата-центров практикуется смешанный вариант. Это позволяет минимизировать затраты и гарантировать качество работ. Как правило, на аутсорсинг отдаются сложные работы, требующие высокой квалификации работников и специализированного инструмента.
Контракты со сторонними организациями.[12] Сторонние организации привлекаются не только для технического обслуживания оборудования. Поставка электроэнергии и дизельного топлива, вывоз мусора, утилизация отработанных масел и технических жидкостей, уборка помещений – полный список всех договоров крупного дата-центра может содержать несколько десятков пунктов. Они имеют разную значимость для функционирования ЦОД, но ни об одном из них не следует забывать.
Мониторинг инженерных систем дата-центра. Постоянный мониторинг существенно облегчает контроль состояния систем, позволяет быстро выявлять различные неисправности или прогнозировать их развитие. Система мониторинга – это сложная инженерная система, поэтому для нормального функционирования она требует технического обслуживания, замены неисправных элементов, обновления ПО.
Учет инцидентов. Важную информацию о реальном состоянии инженерных систем дата-центра можно получить при скрупулезном учете всех происходящих в нем инцидентов. Должна быть описана причина возникновения инцидента. Если же назвать точную причину возникновения сбоя сразу невозможно, то в графе «причина» записывается «выход из строя по неизвестной причине», и такие случаи рассматриваются с особой тщательностью. Следующий важный параметр, который должен фиксироваться, – это степень влияния инцидента на работу ЦОД.
Все события можно разбить на три группы:
• практически не влияющие на работу;
• снижающие проектную избыточность инженерных систем;
• влияющие на работу серверных, вплоть до полной остановки дата-центра.
Анализируя данные об инцидентах, можно выявить некоторые тенденции в состоянии инженерных систем и получить статистические данные. Всё это служит материалом для дальнейшего улучшения системы эксплуатации ЦОД.
Помимо этих технических аспектов на службах и отделах эксплуатации инженерных систем лежит ответственность за обеспечение соблюдения организационных и технических способов обеспечения безопасности труда, а это и создание система распределения ответственности, и назначение ответственного за электрохозяйство, и организация работ и допуска к работам.
Организация системы эксплуатации инженерных систем ЦОД процесс сложный и многогранный и только внимательный, комплексный подход ко всем вопросам, внимание к мелочам, может обеспечить достижение приемлемого результата.
Итак, Вы решаете все делать сами.
Где взять стандарты, на что опереться?
Вот список некоторых действующих и будущих стандартов и технических документов, связанных с отказоустойчивостью дата-центров. Они актуальны для проектирования, строительства и эксплуатации ЦОД.
Серия стандартов компании «CENELEC» EN 50600 определяет минимальные требования для инфраструктуры дата-центров всех форм и размеров. Они включают в себя защиту от природных катаклизмов, падений и несанкционированного доступа, включая внутренние и внешние экологические события. В стандарте EN 50600-3-1 рассматриваются измерения, контроль и учет энергопотребления в определенных локациях. При правильном применении этого стандарта он может помочь оценить работу дата-центра, используя разделы из серии стандартов EN 50600-4 и его KPI (Key Performance Indicators, ключевые показатели эффективности). Стандарт EN 50600-4 напрямую управляет факторами эффективности, такими как PUE и REF.
ETSI ES 205 200 определяет так называемые Global KPIs (Глобальные ключевые показатели эффективности), обеспечивая контроль энергоуправления информационно коммуникационных технологий (ИКТ). Этот стандарт предлагает единый глобальный KPI – энергетическое управление обработки данных и коммуникаций –, который определяет четыре целевых KPI: потребление энергии, эффективность выполнения задач, использование возобновляемых источников энергии и повторное использование энергии. Это позволяет определять энергетическую эффективность ИКТ всего предприятия.
ITU-TL.1300 от «ITU-T Study Group 5» в значительной степени основан на инициативе ЕС по уменьшению воздействия на ЦОДы (EU CoC Best Practices V4.0.5) и включает 23 дополнительных пункта. Различия касаются, в частности, предпочтением «ITU-T» ссылаться на диапазон изменения окружающей среды, поддержанный серией стандартов ETSI EN 300 019, нежели на диапазон, указанный в документе Евросоюза.
DIS ISO/IEC 30134, описывающие KPI дата-центра, уже находятся в открытом доступе, но они отражают стандарты JTC 1/SC 39 WG 1 – новая работа от CENELEC. Во избежание дублирования документов рассматривается их включение в Европейский набор стандартов. Международная электротехническая комиссия IEC также рассматривает разработку технического отчета, который бы содержал рекомендации по проектированию дата-центров применительно к управлению ресурсами.
Согласно стандарту энергоэффективного EthernetIEEE802.3az от «IEEE 802.3 Working Group», сетевые устройства и интерфейсы представляют более 10% всего годового потребления энергии, достигая десятков Тераватт. Если смотреть далеко в будущее и предположить, насколько поднимется планка потребностей общества, все лишь усложняется. Пропускная способность увеличивается, количество сетевых соединений увеличивается, количество устройств с возможностью подключения к Wi-Fi увеличивается, спрос на более гибкую инфраструктуру для удовлетворения этих потребностей также увеличивается. В 2010 была представления технология Energy Efficient Ethernet (EEE, энергоэффективный Ethernet) с целью создания механизма и стандарта для уменьшения энергопотребления сетевых интерфейсов без ущерба для их функционала. Несмотря на то что эта технология – новая и есть еще много моментов, которые нужно проработать, лабораторные исследования Cisco и Intel показали, что она может предложить, к примеру, 15% экономии на Cisco 4500 Switch. Сочетая EEE с Wake-on-LAN (WoL) можно добиться экономии до 50%.
Стандарт энергетического управления ISO 50001:2011 предоставляет организациям концепцию для интеграции энергоэффективности в процесс управления. Среди прочего, он включает в себя установку базовых линий, которые измеряются, контролируются и корректируются для обеспечения контроля управления, используя эти данные в качестве базы для текущего прогнозирования, улучшения операций по энергоэффективности, приобретения и повсеместного размещения эффективного низкоэнергетического оборудования.
Стандарт экологического управления ISO 14001:2015 предлагает концепцию обеспечения тщательного контроля интерфейса, чтобы избежать или минимизировать какой-либо негативный экологический эффект. По стандарту ISO 14001 требуется инициативное управление экологическими рисками для поддержки долгосрочных экологических и экономических целей.
Как все организовать?
В статье от 21 января 2014 г. «Классификация подходов к организации эксплуатации инженерной инфраструктуры ЦОД» Заурбек Алехин, Дмитрий Басистый обрисовали идеальную модель организации технического сопровождения, назвав её Тип A «Усовершенствованный». [13]
Это некий идеальный вариант, и в настоящее время ему не соответствует ни один реальный российский ЦОД. Требования к могут быть определены следующим образом:
«ОРГАНИЗАЦИОННАЯ СТРУКТУРА
Выделенное подразделение существует, его задачи определены и формализованы (главная задача – обеспечение надежного и устойчивого функционирования инженерной инфраструктуры ЦОД в краткосрочной и долгосрочной перспективе). Назначены ответственные за реализацию отдельных групп эксплуатационных мероприятий (по всем имеющимся группам мероприятий). Осуществляется мониторинг соответствия процедур взаимодействия организационной структуре, предпринимаются меры по устранению конфликтов и несоответствий.
БИЗНЕС-ПРОЦЕССЫ
– Процессы управления и взаимодействия. Управление инцидентами демонстрирует высокий уровень зрелости, работает эффективно. Осуществляется мониторинг тенденций и проактивное совершенствование процесса. Диспетчерская служба построена в соответствии с передовыми практиками, функционирует исправно и эффективно, мотивирована на самосовершенствование. Соглашения об уровне услуг (SLA) разработаны и применяются для всех систем, параметры соглашений соответствуют реальным требованиям, обеспечен контроль их соблюдения. Организован регулярный пересмотр SLA с учетом прогноза потребностей и изменения эффективности процедур обслуживания. Процедуры взаимодействия документированы и реализованы, функционируют эффективно, организована периодическая их актуализация. Управление проблемами реализовано в полном объеме, включая как обеспечение эффективного реагирования на возникающие инциденты, так и упреждающее выявление потенциальных инцидентов и принятие мер по противодействию им. Качество реализации процессов управления и взаимодействия и их полнота подтверждены независимой сертификацией.
– Процессы обслуживания. Существует качественно реализованный процесс управления обслуживанием, охватывающий все системы инженерной инфраструктуры. Ремонт и обслуживание систем осуществляется в соответствии с рекомендациями производителей. Осуществляется плановая замена оборудования по всем системам в соответствии с рекомендациями производителей и текущим состоянием. Построен и функционирует процесс управления жизненным циклом систем. Осуществляется управление эффективностью обслуживания на основании мониторинга текущего технического состояния систем и отдельных единиц оборудования. Качество реализации процессов обслуживания и их полнота подтверждены независимой сертификацией.
– Обеспечивающие процессы. Осуществляется полномасштабный контроль качества реализации всех эксплуатационных процессов. Своевременно планируются мощностные потребности по критичным системам. Осуществляется планирование и прогнозирование загрузки площадей ЦОД.
РЕСУРСЫ
– Персонал. Наличие квалифицированного персонала по всем системам в достаточном количестве. Достаточный уровень квалификации для устранения аварий и обслуживания систем собственными силами и/или путем привлечения заранее согласованных ресурсов внешних подрядчиков. Осуществляется поддержание квалификации персонала путем регулярного обучения всех сотрудников исполнению процедур обслуживания, регламентов и инструкций. Подготовка и развитие персонала осуществляется планомерно, в рамках единой программы, с учетом текущих и перспективных потребностей, действующих и перспективных технологий. Осуществляется планирование и подготовка кадрового резерва. Квалификация персонала и достаточность его численности подтверждены независимой сертификацией объекта.
– Технологии и инструменты. Обеспечение ЗИП осуществляется в полном объеме в соответствии с требованиями и рекомендациями производителей систем и оборудования. Существует и эффективно функционирует электронная система доступа к документации по оборудованию, включая описание конфигураций, порядка обслуживания и иных регламентных и типовых процедур. Построена и функционирует единая централизованная система управления обслуживанием, реализующая функционал следующих автоматизированных систем:
мониторинг параметров систем и оборудования;
управление системами и оборудованием;
управление инцидентами;
управление проблемами;
управление обслуживанием;
учет оборудования и систем, их текущего состояния и иных эксплуатационных параметров.
Внедрена и используется в повседневной деятельности электронная база данных, обеспечивающая ведение и доступ к нормативной и иной документации по инженерным системам, исполняемым процессам и процедурам и др. Анализ текущего и перспективного состояния инженерных систем ЦОД осуществляется с применением системы моделирования.
– Информация. Имеется и в любое время доступна персоналу эксплуатации документация по всем системам и оборудованию.
– Финансы. Финансирование осуществляется в необходимых объемах в форме выделенного бюджета на эксплуатацию ЦОД, с учетом текущих и перспективных задач и потребностей.
Обслуживание данного типа (по состоянию отрасли на текущий момент) – некоторый идеальный, эталонный вариант, учитывающий в том числе, и перспективные задачи и потребности. Недостатков, как и полагается идеалу, у этого типа нет.
ЦОД воспринимается руководством как важный и критичный элемент функционирования компании в настоящее время и на перспективу. Подход обеспечивает абсолютные гарантии надежности функционирования и доступности инженерной инфраструктуры ЦОД с учетом нынешних и будущих потребностей.»
Вы видите, что организовать подобное содержание оборудования и отношение к нему очень сложно и затратно. Кроме того, инженерное оборудование ЦОД , как правило, очень надежно. И, как следствие, ваш высокопрофессиональный персонал большую часть времени загружен работой не будет.
Для обеспечения требуемой надёжности в составе ЦОД требуется структура обеспечения эксплуатации инженерных систем. Сколько это стоит? Проиллюстрируем на примере [14]:
Функции структуры:
осуществляет контроль за работой инженерных систем;
восстанавливает работоспособности инженерных систем при сбоях и выходах из строя;
проводит работы по техническому обслуживанию инженерных систем;
ведёт техническую документацию;
разрабатывает технические задания (далее – ТЗ) по созданию и развитию инженерных систем;
организует взаимодействие с ресурсоснабжающими организациями по эксплуатации инженерных систем здания.
Можно обеспечить надёжность функционирования систем обеспечивается путём организации круглосуточного дежурства диспетчерского и технического персонала на объекте.
Сложность эксплуатируемых систем и высокие требования к обеспечению надёжности определяют узкую специализацию работников, предъявляя повышенные требования к слаженности при выполнении работ по техническому обслуживанию и при устранении неисправностей.
Диктуемая рынком труда величина оплаты услуг технических специалистов составляет (по данным одной из уважаемых компаний). Единица инженер (инженер-механик, инженер-электрик). Сумма затрат предприятия составляет 908 856.00 руб./год (75 738,00 руб./мес.) из расчёта:
оклад 39 600,00 руб.;
премия 50% 19 800,00 руб.;
ПФ 20% 11 880,00 руб.;
Соц. стр. 2,9% 1722,60 руб.;
Мед.стр. 2%+1,1% 1 841,40 руб.;
Стр. от несч. сл. 1,5% 594,00 руб.
Инженерные системы ЦОД, как устройства, находящийся под электрическим напряжением, могут обслуживаться только двумя работниками с группами допуска по электробезопасности IV и III (п.п. 4.2.4., 4.2.5.). Следовательно, количество дежурных специалистов, обслуживающих любую установку не может быть меньше двух. При уходе на больничный или в отпуск одного из работников – работы останавливаются, следовательно, необходим резерв персонала.
|