Bug 357 - Кратковременные потери связи с FC хранилищами приводят к их недоступности.
Кратковременные потери связи с FC хранилищами приводят к их недоступности.
Status: Новая
Product: ECP VeiL
Classification: Unclassified
Component: Общие ошибки
5.1.9
: Normal Высокая
Assigned To: Дмитрий Смирнов
Depends on:
Blocks:
  Show dependency tree
 
Reported: 2022-12-27 13:54 MSK by Илья
Modified: 2022-12-27 13:54 MSK (History)
1 user (show)

Тип тикета: Пожелание
Решено в версии продукта::
Версия Veil-Connect: ---


Attachments

Note You need to log in before you can comment on or make changes to this bug.
Description Илья 2022-12-27 13:54:32 MSK
Работа с FC хранилищами. Gluster использовать в крупных кластерах затруднительно, беглые тесты показали не очень хорошую производительность даже в системах Full Flash. Кратковременные потери связи с FC хранилищами приводят к их недоступности. Рекомендации по размонтированию довольно странные, отмонтировать в штатном режиме нельзя, если там расположены диски виртуалок, править fstab можно не только лишь всем, этого не стоит делать многим инженерам. Если мы говорим о кластере скажем в 10 серверов восстановить связь становится нетривиальной задачей. Простой сценарий отвалилось единственное хранилище на 5 серверов. Имеем недоступность сервисов 10 минут на размонтирование, 15 минут на перезагрузку 5-7 минут на переподключение на один сервер, т.е. полтора часа на запуск в работу + время сканирования на ошибки при идеальном для нас стечении обстоятельств. Но хранилище точно будет не одно и человеческий фактор может подкинуть проблем. В автоматическом режиме доступ к хранилищам не восстанавливается.
Провели еще ряд тестов, расширили «игровой» стенд, есть подозрения что «виновник» основной проблемы не FC. Проблема немного глубже и шире, это относится ко всем сетевым блочным устройствам с распределенной файловой системой GFS2. Поведение тома одинаковое вне зависимости от транспорта(FC, iSCSI). При потери связи кластера с хранилищем, доступ восстанавливается только до уровня раздела(LUN`а), расположенный на нем том GFS2, не монтируется до перезагрузки всех серверов кластера. Размещенные на томе ресурсы(виртуальные диски,  CDобразы, файлы) усугубляют ситуацию.