Bug 357

Summary: Кратковременные потери связи с FC хранилищами приводят к их недоступности.
Product: ECP VeiL Reporter: Илья <ii>
Component: Общие ошибкиAssignee: Дмитрий Смирнов <d.smirnov>
Status: Новая ---    
Severity: Высокая CC: s.aleksankov
Priority: Normal    
Version: 5.1.9   
Hardware: сервер   
OS: Other   
Тип тикета: Пожелание Решено в версии продукта::
Версия Veil-Connect: ---

Description Илья 2022-12-27 13:54:32 MSK
Работа с FC хранилищами. Gluster использовать в крупных кластерах затруднительно, беглые тесты показали не очень хорошую производительность даже в системах Full Flash. Кратковременные потери связи с FC хранилищами приводят к их недоступности. Рекомендации по размонтированию довольно странные, отмонтировать в штатном режиме нельзя, если там расположены диски виртуалок, править fstab можно не только лишь всем, этого не стоит делать многим инженерам. Если мы говорим о кластере скажем в 10 серверов восстановить связь становится нетривиальной задачей. Простой сценарий отвалилось единственное хранилище на 5 серверов. Имеем недоступность сервисов 10 минут на размонтирование, 15 минут на перезагрузку 5-7 минут на переподключение на один сервер, т.е. полтора часа на запуск в работу + время сканирования на ошибки при идеальном для нас стечении обстоятельств. Но хранилище точно будет не одно и человеческий фактор может подкинуть проблем. В автоматическом режиме доступ к хранилищам не восстанавливается.
Провели еще ряд тестов, расширили «игровой» стенд, есть подозрения что «виновник» основной проблемы не FC. Проблема немного глубже и шире, это относится ко всем сетевым блочным устройствам с распределенной файловой системой GFS2. Поведение тома одинаковое вне зависимости от транспорта(FC, iSCSI). При потери связи кластера с хранилищем, доступ восстанавливается только до уровня раздела(LUN`а), расположенный на нем том GFS2, не монтируется до перезагрузки всех серверов кластера. Размещенные на томе ресурсы(виртуальные диски,  CDобразы, файлы) усугубляют ситуацию.