Общие сведения
Высокая доступность — это набор механизмов управления, позволяющий восстанавливать работоспособность ВМ без риска повреждения данных при прекращении работы узла кластера.
Механизмы ВД для платформы виртуализации ECP VeiL позволяют повысить отказоустойчивость вычислительной инфраструктуры за счет возможности автоматического восстановления ВМ на резервном физическом сервере в случае сбоя или отказа сервера, на которой она выполнялась. Механизмы ВД возможно активировать на кластере до 96 физических серверов.
ВД ECP VeiL отличается от аналогичных решений тем, что позволяет организовывать инфраструктуру автоматизированного восстановления ВМ на кластере из двух серверов и более (до 96), а также позволяет сохранять работоспособность при отказе более половины серверов виртуализации.
Это достигается тем, что ВД ECP VeiL имеет централизованную архитектуру, встроенную в программный контроллер ECP VeiL. Вследствие чего кворум (согласованность) поддерживается централизованно арбитром контроллера, а не распределенными равнозначными между собой физическими серверами. Только на тех узлах, которые находятся в состоянии кворума, возможна попытка восстановления ВМ на своих вычислительных ресурсах.
Механизм поддержания состояния кворума необходим для предотвращения проблемы с запуском нескольких
экземпляров ВМ при потере связности между работоспособными узлами, так как это может повлечь за собой,
например, повреждение данных в следствие одновременного выполнения операции записи двух экземпляров ВМ
в один участок дисковой памяти. Данная проблема известна под названием «Расщепление» или «Split Brain».
Например, достаточность количества работоспособных узлов при распределенном поддержании кворума определяется
по формуле n > N/2
, где n – количество работоспособных узлов, N – общее количество узлов в кластере.
То есть узлы считают, что находятся в состоянии кворума, если количество «видимых» узлов превышает
половину от общего количества. Таким образом, в случае отказа более половины серверов, кластер теряет кворум
и не предпринимает попыток восстановить на работоспособных серверах отказавшие ВМ.
В ECP VeiL по причине поддержания кворума контроллером кластер может сохранять работоспособность, если отказало больше половины серверов. В таком случае контроллер продолжит восстановление отказавших ВМ на работоспособных серверах. В случае отказа сервера с контроллером возможно активировать резервный контроллер и механизмы ВД ECP VeiL продолжат работу.