Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)?


Скачать 464 Kb.
Название Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)?
страница 1/4
Тип Документы
rykovodstvo.ru > Руководство эксплуатация > Документы
  1   2   3   4
Организация системы управления эксплуатацией

центра обработки данных.

Когда нужно начинать думать об эксплуатации ЦОД (дата центра)?

С технического задания на создание ЦОД.

Именно заказчик, он же пользователь, первым должен задумываться об эксплуатации и закладывать соответствующие требования в техническое задание. Для этого обычно привлекаются либо собственная служба эксплуатации, если объект данного типа у заказчика не первый и есть реальный опыт эксплуатации, либо внешние консультанты. Можно пойти и третьим путем, довериться генподрядчику, который, основываясь на своем опыте, разработает технические и эксплуатационные решения и воплотит их в жизнь, после чего примет объект в эксплуатацию. К сожалению, в России еще мало организаций, обладающих таким опытом, чтобы наряду с проектной документацией разработать алгоритмы и регламенты системы эксплуатации.

Какие причины могут привести к падению дата-центра?

Есть анекдот: «существует только две неисправности в электронике и электротехнике: «ТОК ТЕЧЕТ ТАМ, ГДЕ НЕ ДОЛЖЕН И ТОК НЕ ТЕЧЕТ ТАМ, ГДЕ ДОЛЖЕН». По аналогии - когда ЦОД «падает», может быть только три виновника: люди, оборудование и природа.

Выход из строя системы электроснабжения.

Стоял жаркий летний день. Произошло отключение магистральной энергии. Дата-центр работал при полной нагрузке 7,2 МВт. Площадка была оборудована четырьмя генераторами по 2,5 МВт с резервированием N+1. Один из генераторов не завелся, но площадка продолжила работать на трех генераторах. Спустя 30 минут вышел из строя еще один генератор.[1]c:\users\филин\desktop\статья организация эксплуатации ис цод\фото то 3-кв.2016 г\img_20160919_144824.jpg

Дата-центр работал на источнике 5 МВт с нагрузкой 7,2 МВт. Два оставшихся генератора не справились, и система охлаждения оказалась обесточенной. ИТ-оборудование из-за перегрева начало отключаться. Дата-центр работал еще 30 минут на ИБП (2N по 15 минут каждый). Общее отключение дата-центра произошло еще через полчаса.[2]

На восстановление магистрального энергоснабжения ушло шесть часов, но дата-центр полностью вернулся к работе лишь спустя восемь часов.

Переключения.

Неправильно номинированные или несогласованные автоматы могут привести к существенным повреждениям систем, длительному простою и даже вызвать травмы персонала. Несогласованная защита цепи ― это, прежде всего, проблема проектирования и сдачи в эксплуатацию.

Обычно ошибки при переключении вызваны человеческим фактором. Они являются третьими по частоте среди причин аварий в дата-центрах (51 %).

Ослабление контактов на устройствах переключения могут также стать причиной ухода дата-центра в офлайн.c:\users\филин\desktop\dsc_0094.jpg

Отказ аккумуляторов ИБП.

Исследования показывают, что отказ аккумуляторов бесперебойников ― самая частая причина отключения энергии (с этим столкнулись 55% опрошенных).

ИБП обеспечивают непрерывную и регулируемую подачу чистой энергии на ИТ-оборудование: с помощью аккумуляторов закрывается брешь между прекращением подачи магистральной энергии и началом подачи энергии от генераторов. [3] [4]

Утечки воды.

Вода и ИТ остаются несовместимыми вещами, но при этом именно вода становится причиной немалой доли ухода дата-центров в офлайн. Утечка воды и повышение влажности могут быть вызваны разными причинами: погодными условиями, прохудившимися трубами, протечками кондиционеров и так далее. Такого рода происшествия можно предотвратить, если обеспечить герметизацию критических частей ИТ-систем и установить системы мониторинга, позволяющие обнаружить утечку воды.

Ненадлежащая эксплуатация.

Неправильная эксплуатация дата-центра (на примере ошибок в эксплуатации таких простых вещей, как аккумуляторные батареи  или система ИБП) может иметь и более серьезные последствия.

Природные катаклизмы.

Стихийные бедствия случаются вне зависимости от человека. «Это действие высших сил».

Как же если не устранить возможность аварии, то хотя бы снизить вероятность её возникновения. Начнем по порядку. Итак, ЦОД зачат – есть инвестор, выделены деньги… Начинается проектирование…

Как исключить аварии?

Первое, и пожалуй, самое эффективное - это резервирование оборудования, закладываемое еще на стадии проектирования. [5]

Этой проблемой, в свое время, озаботился Uptime Institute. [6]

В 96-м году появился первый документ, описывающий требования к инженерной инфраструктуре вычислительных центров по методологии Uptime Institute. Основные четыре уровня были введены на основе статистики отказов и опыта организации. Уровень отказоустойчивости указывал возможный аптайм.

Уровни выглядят так: первый работает и может отказать, второй в целом нормально работает и выдерживает часть самых распространённых отказов, третий выживает в любых некритичных условиях, четвёртый пригоден для работы в военных условиях.

Вот классификация по их стандарту:

Tier I — без резервирования.

Tier II — резервирование критических узлов.

Tier III — резервирование критических узлов, путей получения электроэнергии и трасс доставки топлива, холодоносителя и т,п. При этом есть возможность вывода любого узла из эксплуатации для его обслуживания с сохранением полной функциональности объекта в целом.

Как пример: если мы делаем систему с доставкой жидкого теплоносителя по трубам, в Tier III надо делать двойное кольцо, а в Tier II можно обойтись одним. При этом уровень резервирования чиллеров и фанкойлов может быть одинаковым. То же самое касается электропитания и других систем. На уровне IV ИБП и трассы питания должны быть не просто задублированы, но ещё и разнесены в разные помещения: если первый блок взорвётся (аварийный случай, а не плановая остановка), то второй не должен пострадать. Если прорывает трубопровод в каком-то месте, это никак не влияет на дублирующую электронику — есть физическое разделение систем.

Ошибки проектирования

При проектировании ЦОД следует руководствоваться принципами эргономичности: простотой, удобством и безопасностью, а также ориентированностью на человека.

Простота. В данном случае простота – это понимание системы обслуживающим персоналом, исключающее допущение ошибок.

Удобство и безопасность. Речь идет о возможности для человека любой комплекции и физической формы обслуживать систему без травм и других критических последствий.

Ориентированность на человека. На всех этапах создания ЦОД необходимо помнить, что человек – его неотъемлемая часть.c:\users\филин\desktop\статья организация эксплуатации ис цод\фото то 3-кв.2016 г\img_20160917_102718.jpg

Приведем несколько примеров того, на что необходимо обращать внимание при разработке инженерной системы дата-центра.

Цветовая маркировка.

Сквозная маркировка оборудования. Этот подход упрощает идентификацию оборудования, как на стадии проектирования, так и при эксплуатации. Также он значительно сокращает время поиска необходимого элемента и снижает риск ошибочного выбора другого элемента. При создании единой системы маркировки в нее заносится каждый предварительно промаркированный элемент. Указывается его положение в системе, модель и производитель, наличие на складе ЗИП, а также аналоги для замены. Это позволит значительно уменьшить время локализации и устранения проблем. [7]

Унификация оборудования. Применение типового оборудования и типовых узлов также позволяет упростить обслуживание систем ЦОД.

Во-первых, чем больше однотипного оборудования в системе, тем меньше оборудования на складе ЗИП.

Во-вторых, при использовании типового оборудования проще обучить персонал качественно его обслуживать.

Ограничение размера компонентов. Следует еще на этапе проектирования ограничивать габариты оборудования. Не говоря уже о логистических преимуществах, смонтировать, обслужить и демонтировать такое оборудование смогут один-два человека за короткий промежуток времени без применения специальных механизмов.c:\users\филин\desktop\dscn0025.jpg

Зонирование технологических помещений. Маркировка сильно упрощает поиск необходимого элемента, но риск ошибки все же остается. Для его минимизации применяют метод зонирования. Обеспечение беспрепятственной транспортировки ЗИП. Ко всем элементам ЦОД необходим свободный доступ.

Но все-таки конечная оценка проектных решений будет сделана на стадии эксплуатации. Уже при монтаже инженерных систем необходимо начинать выстраивать систему управления эксплуатацией. А к моменту перехода от опытной эксплуатации к производственной она должна быть окончательно сформирована.

Проектирование… Как оно ведется? ... [8]

Формирование требований.

Цель этого этапа заключается в формировании требований к инженерным системам со стороны будущей IT-инфраструктуры ЦОД. Проводится сбор данных о характеристиках комплексов технических средств ИТ-инфраструктуры, планируемых к размещению в проектируемом центре обработки данных, сбор данных о потребностях комплексов технических средств.

Разработка технической концепции.

На этом этапе проводятся обследования зданий, сооружений и площадок, на которых предполагается создание ЦОД. На этом этапе проводят сбор и изучение документов и информации о площадке (площадках), необходимых для подготовки заключения о пригодности исследуемых площадок для размещения ЦОД с заданными параметрами.

При необходимости в состав работ по этапу могут быть включены и другие виды обследований и изысканий, включая инженерные изыскания, результаты которых используются при подготовке отчета об обследовании и заключения по площадке. Также результаты проведенных на этапе инженерных изысканий могут быть использованы при разработке проектных решений.

Цель этого этапа заключается в подготовке предварительных технических решений, должны быть определены состав ИС ЦОД, их функции. Разрабатывается укрупненная структура ИС ЦОД, основные принципы взаимодействия между их частями и системами, делается предварительные оценка стоимости оборудования, материалов и работ по созданию ИС ЦОД. На этом этапе формируется разработке техническое задание.

Разработка проектных решений.

Ведется уточнение технического задания на создание ИС ЦОД в части требований к инженерному оборудованию ЦОД в целом, ее частям и системам, разработка общих решений по размещению оборудования. Разрабатываются решения по взаимодействию смежных систем, проводится согласование проектных решений (при необходимости - разработка, оформление, согласование и утверждение частных технических заданий на части (системы) инженерных систем ЦОД.

Разработка проектной документации.

Цель этого этапа заключается в документировании проектных решений. На этом этапе проводят разработку документации на отдельные части и системы инженерных систем ЦОД, согласование документации, утверждение документации, экспертизу проектной документации (Проектная документация на инженерные системы ЦОД, ее части и системы в общем случае разрабатывается в составе проектной документации на строительство или реконструкцию объекта капитального строительства. В ходе разработки проектной документации должны быть выданы задания для разработчиков смежных разделов.)

Разработка рабочей документации.

Разрабатываемая на этом этапе рабочая документация должна содержать все необходимые и достаточные сведения для обеспечения выполнения работ по выполнению строительно-монтажных работ, испытаниям и вводу систем в эксплуатацию.

И, на всех стадиях и этапах – борьба с «заинтересованными лицами». [9]

Первая крупная ошибка создания ЦОД ― то, что команду эксплуатационников не вовлекают в процесс проектирования. Вторая ошибка состоит в том, что они слишком слепо полагаются на проект дата-центра. Проектировщики должны полностью подготовить людей, которые будут заниматься эксплуатацией дата-центра с первого дня его работы. В этом вопросе человеческий фактор выходит на первый план.

Другие ошибки состоят в неспособности правильно подобрать специалистов, системно обучить людей и тестировать их уровень подготовки, организовать документирование процессов и процедур в дополнение к операционным программам.

Сюда же можно добавить и неспособность:

  • выполнить соответствующие процедуры и процессы в проектируемом пространстве;

  • разработать и внедрить системы проверки качества;

  • использовать инструменты программ управления ― такие как системы контроля, помогающие отслеживать работу устройств через интеллектуальные измерительные устройства на постоянной основе.

Строительно-монтажные работы.

Поставка. [10]

Цель этапа - обеспечение получения комплектующих изделий серийного и единичного производства, материалов и монтажных изделий в соответствии с установленными сроками и надлежащего качества, организуется входной контроль качества поставляемых изделий и материалов.

Монтаж.

Выполняются работы по монтажу оборудования инженерных систем ЦОД, испытания смонтированного оборудования, сдачу оборудования для проведения пусконаладочных работ, наладка средств автоматизации отдельных систем ИИ ЦОД и всей инженерной инфраструктуры ЦОД.

c:\users\филин\desktop\dscn0118.jpg

Предварительные испытания.[11]

Проводятся испытания частей и систем на работоспособность и соответствие техническому заданию в соответствии с программой и методикой предварительных испытаний, устраняются замечания (При необходимости вносятся изменения в техническую документацию, в том числе эксплуатационную, в соответствии с протоколами испытаний).

Цель этапа заключается в определении соответствия реализованных технических решений как комплекса систем требованиям технического задания.

Итог: оформление акта о приемки в эксплуатацию.

Это обеспечение надежности на стадии проектирования и строительства. Вторая часть процесса – организация эксплуатации оборудования.

c:\users\филин\desktop\статья организация эксплуатации ис цод\фото то 3-кв.2016 г\img_20160916_193659_hdr.jpg

И вот, все ушли и Вы остались с этой грудой оборудования «один на один».

Типичный дата-центр состоит из:

• информационной инфраструктуры, включающей в себя серверное оборудование и обеспечивающей основные функции дата-центра — обработку и хранение информации;

• телекоммуникационной инфраструктуры, обеспечивающей взаимосвязь элементов дата-центра, а также передачу данных между дата-центром и пользователями;c:\users\филин\desktop\dscn4046.jpg

• инженерной инфраструктуры, обеспечивающей нормальное функционирование основных систем дата-центра.

Команды квалифицированных специалистов круглосуточно производят мониторинг всех систем.

Нельзя построить ЦОД, запустить в работу инженерные системы и думать, что дальнейшая эксплуатация наладится сама собой. Если к этому моменту у вас не будет стройной системы управления эксплуатацией, велика вероятность, что негативные явления не заставят себя ждать.
  1   2   3   4

Похожие:

Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Техническое задание на оказание услуг по организации сервисного обслуживания...
Организация сервисного обслуживания центра обработки данных ао «согаз», обеспечивающего его бесперебойное функционирование
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Техническое задание на выполнение работ по техническому обслуживанию...
...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Техническое задание на выполнение работ по техническому обслуживанию...
...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Бюллетень Подсистемы сбора данных псагп
Центра сбора, обработки информации и управления (цсоу) Системы высокоточного определения эфемерид и временных поправок глонасс (своэвп)...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Начальник Управления материально-технического обеспечения и логистики
Открытый запрос предложений на право заключения договора на выполнение проектно-изыскательских работ по объекту: «Реконструкция действующего...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Технические требования к подключению рабочих мест пользователей медицинских...
Технические требования к подключению рабочих мест пользователей медицинских учреждений Нижегородской области к защищенной сети центра...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Регламентирующими процессы обработки и обеспечения безопасности персональных данных
Ответственный за обеспечение безопасности персональных данных подчиняется Руководителю центра занятости населения
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Документация о проведении запроса предложений на модернизацию (подготовку)...
На модернизацию (подготовку) технологического помещения для размещения оборудования коммерческого центра обработки данных в 2-ух...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Закон о закупках Федеральный закон от 18. 07. 2011 n 223-фз «О закупках...
Поставка оборудования и выполнение работ по развертыванию центра обработки вызовов (Call-центра)
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Техническое задание На проведение работ по поставке серверного оборудования...
Проведение работы по поставке оборудования Dell emc согласно спецификации (Приложение №1 к техническому заданию)
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Описание объекта закупки оказание услуг по расширению системы энергоснабжения...
Сроки оказания услуг: Исполнитель оказывает услуги в течение 120 календарных дней с момента заключения контракта в соответствии с...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Требования к электрооборудованию центров обработки данных (цод)
На каждом уровне электрораспределительной системы должны быть установлены устройства подавления переходных помех (tvss – Transient...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Расшифровка -1-2-3
Техническое задание на услуги по предоставлению технологической площадки цод, обеспечивающей предоставление сервисапредоставления...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Инструкция по работе пользователя Удостоверяющего центра согласно...
Инструкция по работе пользователя Удостоверяющего центра согласно регламента предоставления услуг Удостоверяющего центра электронной...
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon Согласовано
Цод, сетевой инфраструктуры цод (си цод) и локальной вычислительной сети в строении №2 зао «электролуч»
Организация системы управления эксплуатацией центра обработки данных. Когда нужно начинать думать об эксплуатации цод (дата центра)? icon 4. Вопросы безопасности и санкционирования доступа к базам данных
База данных Информационно-методического центра "Сведения об образовательных учреждениях"

Руководство, инструкция по применению




При копировании материала укажите ссылку © 2024
контакты
rykovodstvo.ru
Поиск