ST2000DM001故障

自宅の方の鯖のHDDがお亡くなりに。

ネットワークディスクがなんだか引っかかることが多くて,ふとログを見てみたらATAのリードエラーが大量に…。

+(ada3:ahcich3:0:0:0): Retrying command
+(ada3:ahcich3:0:0:0): READ_FPDMA_QUEUED. ACB: 60 00 80 10 d7 40 cb 00 00 01 00 00
+(ada3:ahcich3:0:0:0): CAM status: ATA Status Error
+(ada3:ahcich3:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC )
+(ada3:ahcich3:0:0:0): RES: 41 40 20 11 d7 00 cb 00 00 00 01
+(ada3:ahcich3:0:0:0): Retrying command
+(ada3:ahcich3:0:0:0): READ_FPDMA_QUEUED. ACB: 60 00 80 10 d7 40 cb 00 00 01 00 00
+(ada3:ahcich3:0:0:0): CAM status: ATA Status Error
+(ada3:ahcich3:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC )
+(ada3:ahcich3:0:0:0): RES: 41 40 20 11 d7 00 cb 00 00 00 01
+(ada3:ahcich3:0:0:0): Error 5, Retries exhausted
+GEOM_ELI: g_eli_read_done() failed (error=5) ada3p1.eli[READ(offset=1750973054976, length=131072)]

ありがちなzfs+geliでの運用でしたが,危惧していたとおり,ハードエラーが起こってもgeli層を越えてzfs層に上手く伝わらない模様。リトライを繰り返すばかりでzfsからは異常ディスクを自動的にパージしてくれませんでした。ログみるとgeliとしてもエラー出してるんですけどねぇ。

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate     0x000f   088   088   006    Pre-fail  Always       -       71978618
3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1426
5 Reallocated_Sector_Ct   0x0033   099   099   010    Pre-fail  Always       -       576
7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       245397097
9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       26426
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       13
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   066   066   000    Old_age   Always       -       34
188 Command_Timeout         0x0032   099   098   000    Old_age   Always       -       1 1 27
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   058   053   045    Old_age   Always       -       42 (Min/Max 19/47)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       8
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       595286
194 Temperature_Celsius     0x0022   042   047   000    Old_age   Always       -       42 (0 9 0 0 0)
197 Current_Pending_Sector  0x0012   089   089   000    Old_age   Always       -       1832
198 Offline_Uncorrectable   0x0010   089   089   000    Old_age   Offline      -       1832
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       12928h+44m+50.747s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       36186183133
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       119777687869

ダメになったディスクは悪名高い?Seagate ST2000DM001。Reported_Uncorrectが34もあるわ…。Raid-zの構成ディスクの一つなので,Raidから分離してさっさと捨て捨て。

Power_On_Hoursが26,426だから3年は持ってる。代理店保証1年+RMA1年だから保証交換もタイムアウト。さっさとAmazonでWDの新しいの購入したけれど,今は故障率がHGST<SG<WDだとか?早まったか…。

カテゴリー: 未分類 タグ: パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です