Отказоустойчивый кластер — идеальное решение для обеспечения непрерывности бизнеса в сегменте СМБ
Один из наших клиентов нашего партнера X-com — дочернее предприятие российской нефтяной компании, специализирующееся на экологической переработке отходов нефтепереработки с содержанием металлов платиновой группы и занимающееся реализацией задач в области импортозамещения высокотехнологичной катализаторной продукции.

Поступательная коммерческая политика предприятия неизменно из года в год приводила к увеличению долевого присутствия на рынке и повышению его узнаваемости
на целевых рынках. Эффективная деятельность сотрудников и руководства обратила
на себя внимание новых партнеров. В результате объемы обрабатываемой информации стали расти столь интенсивно, что плановых мер наращивания производительности имеющихся ИТ-решений оказалось недостаточно. Возникла необходимость обеспечить целостность данных одновременно с бесперебойной подачей ее в режиме 24/7
с минимизацией отказов в обслуживании.


HPE ProLiant DL360 Gen10
Издержки роста
Предприятие уже собрало и обрабатывало значительные объемы данных, причем они росли в геометрической прогрессии. Продажи и поставки увеличивались, одновременно повышались расходы на обслуживание и сопровождение информационной инфраструктуры. Риски отказа в обслуживании провоцировали финансовые потери, негативно сказывались на доверии клиентов и партнеров, оказывали влияние на репутацию предприятия, увеличивали совокупную стоимость владения (ТСО), в первую очередь связанные с ИТ операционные расходы, а также избыточность активов (капитальные расходы). Кроме этого, возникали побочные эффекты: расширение штатов ИТ-подразделений, увеличение потребления электроэнергии, нехватка помещений
для размещения оборудования для хранения и обработки информации и пр.

Для обслуживания всех узлов информационной системы неизбежно пришлось бы организовывать круглосуточные дежурства персонала и формировать «аварийные» подразделения, чтобы быстро обнаружить и устранить возникший сбой или отказ оборудования, а эти меры достаточно трудоемки. Предприятию потребовалось
ИТ-решение, способное обеспечить контроль за работоспособностью инфраструктуры
и принятию решений по устранению проблемных зон. Наиболее узким местом была контрпродуктивная инфраструктура информационной подсистемы, состоящая
из разрозненных серверов обработки информации, и децентрализованная система хранения данных с ненадежной системой синхронизации актуальной информации.

Единственным выходом при таком положении вещей была незамедлительная консолидация имеющихся ресурсов в едином (вожможно, территориально распределенном) центре обработки данных и построение отказоустойчивой системы контроля, обработки и хранения накопленной и новой информации. При этом простои инфраструктуры в ходе модернизации допускать было нельзя, рабочая документация, прием и выдача документов и сопроводительной информации должны обрабатываться непрерывно.
Новое инфраструктурное решение
Своими силами решить проблему не представлялось возможным, поэтому было принято решение делегировать полномочия по анализу ситуации и выработке решения специальной комиссии, состоящей из представителей заказчика, консультантов из HPE
и третьей стороны — компании-интегратора X-Com. Совместными усилиями были определены направления исследований и составлено техническое задание на разработку проекта, способного обеспечить трансформацию инфраструктуры, не приводящую
к нарушениям в деятельности предприятия.

В первую очередь было найдено решение, позволяющее реализовать комплексную защиту от сбоев программного и аппаратного обеспечения, виртуализации, сети и хранилищ данных — его построили на основе платформы HPE Serviceguard for Linux, основной задачей которой стало обеспечение защиты критических компонентов, в том числе клиентских и бэк-офисных приложений, сопряженных баз данных и связанных ресурсов.

Развернуть новую систему предполагалось на новом кластере, способном существенно увеличить отказоустойчивость системы в целом и отдельных компонентов в частности.
С его помощью предполагалось обнаруживать любые сбои, связанные с нарушением функционирования аппаратного и программного обеспечения, операционных систем, слоев виртуализации, сетью и хранилища: при возникновении сбоя Serviceguard
с соблюдением всех мер предосторожности останавливает приложение, перезапускает его на доступном сервере кластера и подключает к соответствующему устройству хранения данных. На восстановление нормальной работы уходит всего несколько секунд, что вполне допустимо в условиях нормальной деятельности. Дальнейшие работы по ликвидации неисправности могут быть выполнены сотрудниками ИТ-подразделения компании или представителями сервисного центра НPE.

Для построения решения были выбраны сервер HPE ProLiant DL360 Gen10 (P19774-B21)
и система хранения данных HPE MSA 2062 (R0Q80A). Согласно замыслу, решение должно было обязательно включать выделенный сервер резервного копирования с независимой системой защиты информации. Настройки подсистемы резервирования данных предполагали также оперативное восстановление утраченной информации
в автоматическом, ручном или полуавтоматическом режимах вне зависимости
от количества элементов кластера.

Также, согласно ТЗ, была предусмотрена возможность дальнейшего масштабирования системы для наращивания производительности — посредством добавления
в инфраструктуру узлов кластера и дополнительных хранилищ в совокупности
со средствами обеспечения защиты и бесперебойного электропитания. В рамках проведенного комплекса работ по тестовому внедрению был проведен расчет (который затем подтвердился на практике), показавший, что эффективность решения позволит
на треть сократить парк серверного оборудования и на 41% снизить потребление электроэнергии. Также ожидаемо снизилась величина ТСО — на 27%, а эффективность использования оборудования выросла до 81% (без учета заложенного запаса
на расширение).
Риски сбоев теперь сведены к минимуму
Успешность выбранной стратегии была подтверждена достаточно быстро: во время пандемии и вызванного ею локдауна решение позволило предотвратить возможные риски, связанные с возникновением критических сбоев, за счет купирования одного
из проблемных звеньев информационной системы и передачи управления другому узлу
в рамках кластера без участия ИТ-персонала. Таким образом, вынужденный отказ
в обслуживании практически отсутствовал — в противном случае восстановление работоспособности систем составило бы несколько часов.

Результатом внедрения стал проект дополнительного долговременного сотрудничества, направленный на детальное исследование внутренней информационной инфраструктуры предприятия с последующей разработкой стратегии повышения эффективности
и улучшения имеющейся топологии системы обработки и хранения данных в условиях постоянного расширения информационной составляющей бизнеса предприятия.
ПЛАТФОРМЫ ДЛЯ БОЛЬШИХ ДАННЫХ И ИИ
Тезис о том, что технологии больших данных и ИИ доступны исключительно крупным корпорациям, можно оспорить. Для экспериментов или небольших инсталляций подойдут распространенные в СМБ-сегменте классические стоечные серверы, такие как HPE ProLiant DL380 Gen10 Plus. Они могут оснащаться LFF-дисками и выполнять роль узлов для инфраструктуры больших данных. Если же в такой сервер установить пару графических карт, то он превращается в платформу для машинного обучения.

Для предприятий, которым требуется более высокая плотность размещения графических карт, подойдут специализированные серверы — например, HPE Apollo 6500 Gen10 и HPE Apollo 6500 Gen10 Plus, в которые можно установить до 16 графических ускорителей.
Эти серверы предназначены для машинного обучения, централизованного инференса
и построения VDI-инфраструктуры для сложных графических задач. Сегодня число проектов с такими конфигурациями у СМБ-заказчиков исчисляется единицами.
Тем не менее мы рассчитываем на то, что использование инфраструктуры «как сервис» (HPE Greenlake) расширит их применение на небольших предприятиях.

Еще одним хорошим промежуточным вариантом между лабораторными стендами
и специализированными платформами обещает стать недавно анонсированная компанией Nvidia технология виртуализации задач ИИ. Ожидается, что при ее применении заказчик может получить производительность, сравнимую с той, что обеспечивает инсталляция Bare Metal.

Тем, кто решает задачу эффективного хранения редко изменяемых данных или строит свой бизнес на обработке больших объемов данных, стоит обратить внимание на HPE Apollo 4200 Gen10 с суммарной дисковой емкостью 448 Тбайт в компактном шасси 2U
c 28 дисками LFF SATA по 16 Тбайт. Этот двухпроцессорный сервер популярен в проектах, предусматривающих построение программно-определяемых СХД и Hadoop-кластеров. Кроме того, он хорошо подходит для хранения записей с камер видеонаблюдения, резервных копий и архивов.

КЛАССИЧЕСКИЕ АРХИТЕКТУРЫ
У заказчиков HPE постоянно растут потребности в вычислительных ресурсах, при этом запросам представителей СМБ свойственна «сезонность»: потребности в дополнительных мощностях носят эпизодический характер. Среди критериев выбора оборудования заказчиками из СМБ очень часто встречаются одновременные сочетания низкой цены, способности сервера справляться с новыми задачами и возросшими потребностями бизнеса, надежность на уровне «старших» моделей, а также возможность локального и удаленного администрирования. Нередко возникают и дополнительные требования к производителю — например, возможность строить и предоставлять прогнозы потребления ИТ-ресурсов на имеющемся оборудовании.

Всем этим требованиям соответствует нынешнее, десятое по счету поколение легендарных серверных систем HPE ProLiant. Это семейство представляет собой интеллектуальную вычислительную платформу для создания гибридных облачных сред. Серверы HPE ProLiant могут быть оптимизированы под конкретные рабочие задачи и оснащены самой совершенной в отрасли системой обеспечения безопасности ИТ-инфраструктуры и системой интеллектуальной автоматизации.

Преодолеть проблему сложности инфраструктур хранения данных поможет использование СХД начального уровня HPE MSA: эти массивы достаточно просты
в управлении и настройке. Более того, для этой СХД реализованы подсказки для корректной настройки массивов, которые помогают предотвращать возможные простои.

Массивы HPE MSA широко применяются в компаниях малого и среднего бизнеса, поскольку их можно подстроить под растущие объемы данных и при этом снизить расходы на их хранение. Такие массивы часто используют для предоставления различных популярных ИТ-сервисов: поддержки систем электронной почты, бухгалтерских систем, работы с файлами и популярными приложениями (например, Microsoft Exchange, различных СУБД, а также ERP, CRM) и др.

Продукты семейства HPE MSA отличаются простотой освоения, развертывания
и конфигурирования, доступностью и экономичностью, высокой производительностью, достигаемой благодаря новому чипу ASIC для ускорения операций ввода-вывода,
и удвоенным объемом кэш-памяти. Кроме того, их можно расширять и модернизировать в соответствии с потребностями компании-заказчика.