自宅の方の鯖のHDDがお亡くなりに。
ネットワークディスクがなんだか引っかかることが多くて,ふとログを見てみたらATAのリードエラーが大量に…。
+(ada3:ahcich3:0:0:0): Retrying command +(ada3:ahcich3:0:0:0): READ_FPDMA_QUEUED. ACB: 60 00 80 10 d7 40 cb 00 00 01 00 00 +(ada3:ahcich3:0:0:0): CAM status: ATA Status Error +(ada3:ahcich3:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC ) +(ada3:ahcich3:0:0:0): RES: 41 40 20 11 d7 00 cb 00 00 00 01 +(ada3:ahcich3:0:0:0): Retrying command +(ada3:ahcich3:0:0:0): READ_FPDMA_QUEUED. ACB: 60 00 80 10 d7 40 cb 00 00 01 00 00 +(ada3:ahcich3:0:0:0): CAM status: ATA Status Error +(ada3:ahcich3:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC ) +(ada3:ahcich3:0:0:0): RES: 41 40 20 11 d7 00 cb 00 00 00 01 +(ada3:ahcich3:0:0:0): Error 5, Retries exhausted +GEOM_ELI: g_eli_read_done() failed (error=5) ada3p1.eli[READ(offset=1750973054976, length=131072)]
ありがちなzfs+geliでの運用でしたが,危惧していたとおり,ハードエラーが起こってもgeli層を越えてzfs層に上手く伝わらない模様。リトライを繰り返すばかりでzfsからは異常ディスクを自動的にパージしてくれませんでした。ログみるとgeliとしてもエラー出してるんですけどねぇ。
=== START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 088 088 006 Pre-fail Always - 71978618 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1426 5 Reallocated_Sector_Ct 0x0033 099 099 010 Pre-fail Always - 576 7 Seek_Error_Rate 0x000f 084 060 030 Pre-fail Always - 245397097 9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 26426 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 13 183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 066 066 000 Old_age Always - 34 188 Command_Timeout 0x0032 099 098 000 Old_age Always - 1 1 27 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 058 053 045 Old_age Always - 42 (Min/Max 19/47) 191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0 192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 8 193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 595286 194 Temperature_Celsius 0x0022 042 047 000 Old_age Always - 42 (0 9 0 0 0) 197 Current_Pending_Sector 0x0012 089 089 000 Old_age Always - 1832 198 Offline_Uncorrectable 0x0010 089 089 000 Old_age Offline - 1832 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 12928h+44m+50.747s 241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 36186183133 242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 119777687869
ダメになったディスクは悪名高い?Seagate ST2000DM001。Reported_Uncorrectが34もあるわ…。Raid-zの構成ディスクの一つなので,Raidから分離してさっさと捨て捨て。
Power_On_Hoursが26,426だから3年は持ってる。代理店保証1年+RMA1年だから保証交換もタイムアウト。さっさとAmazonでWDの新しいの購入したけれど,今は故障率がHGST<SG<WDだとか?早まったか…。