Linux下比较灵异阵列硬盘丢失问题

昨天发现一个非常诡异的问题

监控报警提示Raid阵列性能降低
Adapter 0 VirtualDrive 0 state is Degraded

这台服务器是24块10T的硬盘 + LSI Hardware Raid 阵列卡构建的Raid 6
最大允许2块硬盘损坏

提示报警以后开始检查服务器，
系统日志里没任何错误
没不提示硬盘错误硬盘故障硬盘离线
先检查所有硬盘都是 Online 无问题
折腾了很久
最后检查日志发现 “MegaCli64 -FwTermLog -Dsply -aALL”


02/06/25  9:00:12: C0:iopiEvent: EVENT_SAS_DISCOVERY
02/06/25  9:00:12: C0:DM_HandleDiscEvent: Discovery started on Port 0
02/06/25  9:00:12: C0:DevId [110] Reduce Queue Depth recursive retry: maxQDepth 1 : maxDepthChanged 0 : curQDepth 0 

02/06/25  9:00:12: C0:iopiEvent: EVENT_SAS_DEVICE_STATUS_CHANGE 
02/06/25  9:00:12: C0: DM_HandleDevStatusChgEvent: devHandle=x0014 SASAdd=5000cca2663da381 TaskTag=xffff ASC=x00 ASCQ=x00 IOCLogInfo x00000000 IOCStatus x0000 ReasonCode x0e - INTERNAL_DEVICE_RESET complete

02/06/25  9:00:12: C0:iopiEvent: MPI2_EVENT_SAS_TOPOLOGY_CHANGE_LIST 
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt: PhysicalPort=0 NumberOfPhys=x33 NumEntries=x29 StartPhy=xa 
02/06/25  9:00:12: C0:ExpStatus=x03 PhysicalPort=0 EnclosureHandle=x0002 Expander devHandle=x0009 - Exp RESPONDING
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 14 has no matching devId 
02/06/25  9:00:12: C0:Phy changed - phy 0a devHandle 0014 linkRate bb curLinkRate b
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt: curr_lr=0xb, prev_lr=0xb, DM_DevMgrIsReady=1 devId=0xffff
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 0 has no matching devId 
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 0 has no matching devId 
...
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 1 has no matching devId 
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 1 has no matching devId 
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 1 has no matching devId 
...
02/06/25  9:00:12: C0:Phy changed - phy 2b devHandle 0000 linkRate 00 curLinkRate 0
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt: curr_lr=0x0, prev_lr=0x0, DM_DevMgrIsReady=1 devId=0xffff
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 0 has no matching devId 
02/06/25  9:00:12: C0:Phy changed - phy 2c devHandle 0000 linkRate 00 curLinkRate 0
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt: curr_lr=0x0, prev_lr=0x0, DM_DevMgrIsReady=1 devId=0xffff
02/06/25  9:00:12: C0:DM_HandleTopologyChgEvnt devH 0 has no matching devId 
02/06/25  9:00:12: C0:Phy changed - phy 2d devHandle 0000 linkRate 00 curLinkRate 0

日志一直在循环显示 SASAdd=5000cca2663da381 物理链接异常一会有一会没的
然后尝试搜索这块SAS硬盘地址发现 not found，找不到
意思就是这块硬盘在服务器上消失了
这个时候才知道是硬盘烧了, 正常情况无论硬盘故障还是残废应该有 miss 或者 offline 这类状态返回的
但是这个硬盘比较灵异是直接消失了没任何信息

然后开始检查硬盘数量，果然

MegaCLI -AdpAllInfo -aAll print info

                Device Present
                ================
Virtual Drives    : 1 
  Degraded        : 1 
  Offline         : 0 
Physical Devices  : 26 
  Disks           : 23 
  Critical Disks  : 0 
  Failed Disks    : 0

返回DISK数量就剩下23块了
算是终于找到原因了
通知值班的找到停转的硬盘更换新盘
阵列会自动 rebuild ，等待10多个小时才重建完成
算满血复活了

这种情况真第一次遇到，正常来说
构建阵列的时候多少硬盘有个总数
硬盘快坏了阵列会报警提示更换
硬盘坏了阵列也会报警提示硬盘故障已offline状态标记 failed
这个直接少了一块没任何信息是真第一次遇见

发表回复