BackblazeがHDD故障の予測に使う5つのSMART情報 21
ストーリー by headless
予測 部門より
予測 部門より
オンラインバックアップサービスのBackblazeがデータセンターで使用する約4万台のHDDについて、収集した全S.M.A.R.T.情報の集計を公開した。Backblazeでは、これまでにもデータセンターで使用するHDDの故障率に関するデータなどを公開している(SMART Drive and Failure Rates、
Backblaze Blogの記事、
Computerworldの記事、
本家/.)。
実際にどのSMART属性の値を見れば故障を予測できるのかが気になるところだが、Backblazeでは経験則からSMART 5、187、188、197、198の値を故障の予測に使用しているという。たとえばSMART 187はハードウェアECCにより修復できなかったエラーの数を示すが、生の値が0である限りはほぼ故障することはなく、0よりも大きな値を示すと急激に故障率が高くなる。そのため、この値が0よりも大きくなったらドライブの交換をスケジュールするとのこと。
この他の属性についても分析しているが、ベンダー独自の値を使用する属性については分析が困難だという。たとえば、SMART 1は読み取りエラーの発生率を示すものとされているが、ベンダー独自の値が使われているため、SeagateとWestern Digitalの値を比較してもあまり意味がない。そのため、ベンダーから各属性の具体的な内容に関する情報が提供されれば理想的だとしている。
実際にどのSMART属性の値を見れば故障を予測できるのかが気になるところだが、Backblazeでは経験則からSMART 5、187、188、197、198の値を故障の予測に使用しているという。たとえばSMART 187はハードウェアECCにより修復できなかったエラーの数を示すが、生の値が0である限りはほぼ故障することはなく、0よりも大きな値を示すと急激に故障率が高くなる。そのため、この値が0よりも大きくなったらドライブの交換をスケジュールするとのこと。
この他の属性についても分析しているが、ベンダー独自の値を使用する属性については分析が困難だという。たとえば、SMART 1は読み取りエラーの発生率を示すものとされているが、ベンダー独自の値が使われているため、SeagateとWestern Digitalの値を比較してもあまり意味がない。そのため、ベンダーから各属性の具体的な内容に関する情報が提供されれば理想的だとしている。
なんで10進数 (スコア:5, 参考になる)
Crystal DiskInfoなんかだと
IDは16進数なんですよね
括弧書きでいいから添えといてほしかった
● 05 (05):代替処理済のセクタ数
●187 (BB):訂正不可能エラー数
●188 (BC):コマンドタイムアウト回数
●197 (C5):代替処理保留中のセクタ数
●198 (C6):回復不可能セクタ総数
# やっぱそうだよね程度で意外性はなかった
経験則 (スコア:4, 参考になる)
値が0以外になっていたら既に故障している事が多かった。
データサルベージ中にHDDが無応答になり、その影響で
当該ディスクがSATA接続の場合、システムディスクで無い場合においてもWindowsがフリーズしてしまうという現象
になることが多かったのでサルベージは専用PCで行い、フリーズが頻発するようならSATA-USB変換機を間に入れて試す。
Re:経験則 (スコア:4, 参考になる)
C4,C5(=197),C6(=198)は大抵いわゆる不良セクタが発生しているので故障ですね。
代替処理が完了していないだけで、ほっとくとすぐ05が出るか、
場所によってはそのままアクセス不能(「フォーマットされていません」と言われたり)になると思います。
これはどこのHDDでも同じです。
ちょくちょく不良セクタはローレベルフォーマットで消えるという話をされますが、経験上すぐ別の箇所に出ます。
ひどいときはHDD Tuneのようなソフトでフルセクタスキャンをかけると、一定間隔で発生してます。
程度にもよりますがSATA-USB変換機を間に入れてもエクスプローラが応答しなくなったりしますね。
システムログを見るとdiskのエラー(「まだアクセス可能でない」とか)がずらーっと並んでいます。
SATA直付けの場合はSATAコントローラのドライバのエラー(「時間内に応答しませんでした」とか)になっていたりします。
187は単独ではなんともいえないですが、一度だけここ以外S.M.A.R.T.値に問題がないのに、
リカバリーデータのコピー自体は上手くいく(CRCエラーもなし)がその後OSが起動しない、何度やってもHDD以外を交換してもダメ、
という症状を見たことがあります。そのときはキャッシュがダメなのかなあと思いましたが。
188が単独で多いHDDは、スリープ後や省電力設定でHDDの電源が切れたあと復帰しない、
あるいは異常に時間がかかるようになっているのをちょくちょく見ます。
ローレベルフォーマット (スコア:1, 興味深い)
真のローレベルフォーマットは、工場内でしか出来ない。(専用の計測器が必須の為)
通称「ローレベルフォーマット」と呼ばれているのは、単に今までの不良情報を消すだけだから、再発して当然。
意外に使えるのは、全データを別HDDに読み出して、フルスキャン後に再度書き込む技。
書いた時点と読み込む時点では微妙にメディアの状態が違うから、最近書いたデータほど読み出せる確率が高い。
代替セクタが出たら、ローレベルじゃないフォーマット(クイックでも無い方)を掛ける(当然データが消えるから事前にバックアップが必須)と吉。
ファイルシステムのメタファイル内に不良セクタが出たら、大抵のシステムはアクセス不能になるね。
メタファイルが何処に有るかは状況次第だし、ファイルデータを抱えたメタファイルは更新されない事が多いんで、(物理的)書き込み時期が古いままだったりするし。
-- Buy It When You Found It --
Re: (スコア:0)
HDDも業務用と民生用とじゃ故障の方向が違う。
業務用は「データが化ける方が故障より怖い」から、見える不良が出易く、出たらすぐに使用不能になる。
民生用は、見える故障よりも「故障に見せない」方向だから、エラーが出ても意外に動き続ける。
尤も、データはどんどん化けて消えていく訳なのだが、その方がユーザ受けするんじゃ仕方ない。
>システムディスクで無い場合においてもWindowsがフリーズしてしまう
Windozeは、下らない事で固まってくれるからねぇ。
まじめに追求すると、動作に必須のテンポラリやスワップがデータドライブに置かれてたりする。
しかも、余計な設定ほど覚える能力が高かったりするし。
//ま、RTOSじゃなんだから仕方ないか...
-- Buy It When You Found It --
Re: (スコア:0)
>テンポラリやスワップがデータドライブに
お前がそう設定したんだろ馬鹿
Re:経験則 (スコア:1)
Windowsインストーラの機能として、「空き容量最大のドライブのルートにテンポラリファイルを展開する」って機能がある。
アプリがその機能を使うと設定されたら、ユーザに阻止する手段が無い。
しかも、Windowsインストーラは何処からインストールしたかを覚えてる。例えそこがテンポラリのルートでもその場所を記憶する。
これと「アドバタイズショートカット」が組み合わされると、勝手に何処のかドライブに自動的にアクセスしようとする。
そのアプリのアンインストール以外にユーザが止める手段は用意されていない。
スワップも、明示的に「無し」に設定しないと勝手に作られる。
しかも、PnPで認識した新規ドライブに作ろうとしたりする。
ドライブを入れ替えると、新規にドライブレターの自動割り当てが発動して、ドライブレターが入れ替わる事が在る。スワップの設定は「ドライブレター」に対して行うから、ドライブが入れ替わると入れ替わった側に作られてしまう。
これも、ユーザが操作可能になる前に行われるので阻止する手段が無い。
上記は、Windowsが勝手にやることなので、自分の設定じゃないんだよ。
-- Buy It When You Found It --
今更そんな当たり前のことをドヤ顔で言われても・・・・・ (スコア:1)
つーか
5 → Reallocated_Sector_Ct
187 → Reported_Uncorrect
188 → Command_Timeout
197 → Current_Pending_Sector
198 → Offline_Uncorrectable
でっせ?
経験則もクソも、そりゃそうだろとしか言えんでしょ(笑)。
年に十台程度のHDDしか購入しない俺ですら、そこら辺の値が増えたら即交換を厳守してるレベル。
ここら辺の値がおかしくなると、週一でやってるsmartmontoolsによるオフラインセルフテストで異常がでるから、サーバから物凄い勢いでエラーメールが飛んでくるでしょ。
むしろ今時、SMART 1のRaw_Read_Error_Rateとか、SMART 7のSeek_Error_Rateを重視してるのはHGST信者くらいのもん。
# つーか温度は良いのかと?
# SMARTのSCT Temperature Status取った時に、Under/Over Temperature Limit Countが両方共 「0/0」になってないHDDも怖いと思うけどね。
# HDDってイカレ気味になってくると、どういうわけだか温度上がりやすくなるもんだしさ。
Re:今更そんな当たり前のことをドヤ顔で言われても・・・・・ (スコア:2)
経験則という程、HDDを壊していないけど、その辺りの値は
・増加しても長期的に変化が無いなら、特に問題無し
・じわじわ増えるようなら、危険な状態
だという事くらいは、ナントナク見当が付く。
より高い信頼性を確保したい場合、0以外の値なら即交換だろうけど、ソレはソレでそれなりに。
Re:今更そんな当たり前のことをドヤ顔で言われても・・・・・ (スコア:2)
使用開始後1年未満くらいだと 5 → Reallocated_Sector_Ct が2桁くらいに増えてそのまま数年間安定ってケースも結構見られるので判断に困るんだ。
もちろん万全を期すなら0に越したことはないんだけど。
uxi
Re: (スコア:0)
> を重視してるのはHGST信者くらいのもん。
HGST Ultrastar信者だけど、そんなん重視してる奴って本当に居るの?
まあHDDは何にしろ分かりやすいけど、SSDは正直ちょっと悩ましい。カタログスペックの数値だけ信用して判断していいものやら。
Re: (スコア:0)
シークエラーで再試行すれば稼働時間増えるし
熱量上がるのもうなずけるかと
# ガリガリって摩擦熱で増えてたりして
Re:今更そんな当たり前のことをドヤ顔で言われても・・・・・ (スコア:2, すばらしい洞察)
経験則等じゃなくても理屈として当たり前じゃないか、って話だと思うが。
「回復不可能セクタ総数増える」てのは既に故障な訳で、
その数値が上がれば故障と判断されるのは当然な気がする。
なんていうか、「窃盗犯の特徴は、多くの場合、空き巣、もしくは店で万引きをしてることです!」って言われてるような感じ。
Re: (スコア:0)
さてさて,貴殿が「理屈として当たり前」「当然な気がする」ことについて,根拠・確証はあるんですかね.
その当然に見えるが,メーカー側の宣伝とか出なく第三社が大規模に客観的に確認したデータというのが貴重だというのが分からない人は,ゲン担ぎとか宗教のほうがデータより重要なんでしょうかね
ちなみにその当たり前,の他にもデータはあるが,それらについては分析も難しいよ,というのもこれまた貴重なデータなわけです
壊れるまで使う! (スコア:0)
分散型ストレージとか冗長化の仕組みを使っているのなら、この方針でもいいんじゃないかと思ったりもする。
そもそも、保守使うとしても、壊れなきゃ交換してもらえないという可能性もある。
交換用の予備のディスクを用意していおいて、壊れそうになったら自分で交換するとか、やってるところはやってるんだろうけど。
Re: (スコア:0)
そうですね、データセンターも容量無制限のオンラインストレージにバックアップしておけば、壊れるまでHDDを使っても安心ですね!
Re: (スコア:0)
そゆ用途はホットスペアとして余分にドライブを積んでますね。
RAID の再構築は自動で行われるから壊れたドライブは次の日にでも引っこ抜いて差し替えればいい…はずなんだけど。
リビルド中のパフォーマンスがーとか、同時期に買ったドライブがーとかなりがち。
予定されたメンテナンスとしてシステムを落とせるなら予防交換もありなのかな。
見てみた (スコア:0)
「代替処理済のセクタ数」の生の値が07D000000000だった
こいつゾンビか?
むしろもう死なないのか?
Re: (スコア:0)
> 「代替処理済のセクタ数」の生の値が07D000000000だった
まるで猿のようだ
# それは072
Re: (スコア:0)
RAW BYTEは6バイトあります。そのまま表示しているだけで、恐らくは値として0xd07なのではないかと。
どのSMART attributeも値の意味とフォーマットの規格がないので、個々のベンダの資料をみないと正確には分かりません。
「代替処理済のセクタ数」も多くのベンダがそのアトリビュート番号をその意味に使っているというだけで、
そのディスクは実は違う意味で使っているかもしれません。