Столкнулся с триггером "adaptec.disk_failed".

 

Смотрим количество RAID-контроллеров:

lspci | grep -i raid

Смотрим состояние контроллера:

# sudo arcconf getconfig 1

Если контроллер не видит жесткий диск, то выполняем:

# sudo arcconf rescan 1

 

Диск в системе Online (работает), что-то случилось с сегментами логического устройства, также видим, что состояние данного диска в массиве Inconsistent:

Group 0, Segment 1  : Inconsistent (Controller:1,Enclosure:0,Slot:2) WD-WMC1T1105918

 

Device #2

        Device is a Hard drive

        State                              : Online

        Block Size                         : 512 Bytes

        Failed logical device segments     : True

        Supported                          : Yes

        Transfer Speed                     : SATA 3.0 Gb/s

        Reported Channel,Device(T:L)       : 0,22(22:0)

        Reported Location                  : Enclosure 0, Slot 2

        Reported ESD(T:L)                  : 2,0(0:0)

        Vendor                             : WDC

        Model                              : WD30EFRX-68A

        Firmware                           : 80.00A80

        Serial number                      : WD-WMC1T1105918

 

Перед дальнейшими действиями в arcconf проверяем диск с помощью smartctl. При использовании аппаратного RAID-контроллера физические жесткие диски отображаются как /dev/sgX, поэтому находим жесткий диск по серийному номеру: WD-WMC1T1105918

В данном случае он назван /dev/sg4, смотрим его SMART:

# sudo smartctl -d sat --all /dev/sg4 -H

Если SMART OK, то обращаем внимание на следующие параметры:

# sudo smartctl -d sat --all /dev/sg4 -H |egrep 'Reallocated_Sector_Ct|Reported_UNC_Errors|Current_Pending_Sector|Offline_Uncorrectable|UDMA_CRC_Error_Count'

Подробнее про smartctl доступно по ссылке: http://8.tw1.ru/index.php/po/28-smartctl

В данном случае SMART OK и все параметры в норме, поэтому стоит попробовать программно передернуть диск и инициировать переборку (rebuild) массива.

 

Смотрим номер канала и девайса:

Reported Channel,Device(T:L)       : 0,22(22:0)

 

Запускаем сканирование дисков (на всякий случай):

# sudo arcconf rescan 1

Отключаю диск (arcconf SETSTATE <Controller#> DEVICE <Channel#> <Device#> <State>):

Controller# is the controller number.
Channel# is the channel number for the drive.
Device# is the device number for the device.

 

DDD—Force a drive offline (to Failed)

 

# sudo arcconf setstate 1 device 0 22 ddd

 

Диск отключен — State: Failed. Подключаю его же снова:

# sudo arcconf setstate 1 device 0 22 rdy

 

Через 2-3 минуты начинается автоматическая пересборка массива (State: Rebuilding). Следить за процессом можно командой arcconf getstatus 1:

# sudo arcconf getstatus 1



Логи Adaptec:

less /var/log/UcliEvt.log

 

Материалы:

https://ivanov.work/160