![ストレージ ストレージ](https://srad.jp/static/topics/storage_64.png)
東芝、HDD故障を最大3カ月前に予知する技術を開発 47
ストーリー by reo
そして三ヶ月放置する管理者 部門より
そして三ヶ月放置する管理者 部門より
ある Anonymous Coward 曰く、
朝日新聞デジタルの記事によると、東芝は HDD の故障を最大 3 カ月前に予知する技術を開発したそうだ。
東芝は 2008 年から自社製ノートパソコンに HDD の動作状況を記録するソフトを入れ、読み込み速度の変化やエラーの回数等、約 40 項目を調査したそうだ。今後、企業と個人向けそれぞれに予知サービスを始める。HDD の故障に関する技術というと S.M.A.R.T. が知られているが、実際の故障状況を統計的に明らかにして、応用したというのは実際的なのではないだろうか。
個人の HDD 故障対策としては、S.M.A.R.T. を使ったソフトや、動作音やファンの音等の体感で予知するといったものから、バックアップ体制を取った上で故障そのものに対策はしないなど、千差万別ではないだろうか。皆さんはどのような HDD 故障対策を取っておられるだろうか。
予知に関係なく (スコア:3)
バックアップとっとけ
# すべてデスクトップにおいておいた上司なんてHDDが昇天したとき茫然としてたしな
# そもそもデスクトップをファイルとフォルダだらけにするなとは言いたいが…
Re:予知に関係なく (スコア:3, おもしろおかしい)
初心者: デスクトップにファイルとフォルダだらけ
中級者: 細かく整理 + 細かくバックアップ
上級者: デスクトップにファイルとフォルダだらけ
Re: (スコア:0)
初心者と上級者の使い方が近くなると言うのは何となく賛同します。
デスクトップの使い方もそうですが、
基本、カスタマイズ主義からデフォルト主義になるし。
自分一人の世界・環境としてPCを触れる機会なんてほとんどなくなるので、
まぁ、自然の帰結かなとは思う。スピード感と誰にでも感が大切だし。
Re:予知に関係なく (スコア:1)
「3ヶ月後に99%の確率で壊れます」って出たとしても、
その日のうちに壊れるかもしれない。
まして、警告でたんでHDDコピーして新しいHDDにしたから安心!と思ったら、新しいHDDが翌日壊れないとも言い切れない。
けっきょくバックアップに越したことはないよね。
Re:予知に関係なく (スコア:2)
バックアップ用HDDも予知できるように動かしておこう!
Re: (スコア:0)
それ言ったら、Cドライブの Windows 丸ごとバックアップするお馬鹿さんが
沢山出てきてファイルサーバーをパンクさせてしまいましたとさ。
Re:予知に関係なく (スコア:2)
ヒント: dedup
Re: (スコア:0)
それでもバックアップしてないよりはいいと思うよ
容量は管理者と相談しないといけないけど。
まぁ、このシステムと似たようなもんでしょうが… (スコア:3, 参考になる)
私が面倒を見ているHDDについては、S.M.A.R.Tの結果を毎日取って、
- Reallocated_Sector_Ct (5)
- Offline_Uncorrectable (198)
が変化していないのを確認する…ぐらいでしょうか。
# 一部の機種は、それぞれ何セクタ対処したのか数字を見せてくれるので、その数字が10以上初期値から変動したら
# ヤバい、とかも見てます。
変化するようになったら、どれぐらいでどれぐらいの値になるか線形予測できるようになる。
ほんとうにアクセス異常が起こるタイミングは予測できないかもしれませんが、「とっとと交換するべきタイミング」ぐらいは判ります。
fjの教祖様
自宅のWindowsPCですが、 (スコア:0)
同様に、S.M.A.R.Tでチェックしてます。
素人なので CrystalDiskInfo [crystalmark.info]様様ですが。
「代替処理済みのセクタ数」を見て、というか黄色(注意)が出たら交換ディスクを
準備しておいて増え始めたら交換する、というようにしています。
以前、1個の代替処理済みセクタがあるのを放置していたら、その一年くらい後に、
起動時にやたらもっさりして、CrystalDiskInfoで見たら盛大に代替処理祭りでした。
# セクタエラーに浸食されていくのを「ここは俺に任せてお前は早く
Re:自宅のWindowsPCですが、 (スコア:2)
Re: (スコア:0)
最近のバージョンなら変化があったらメールで通知してくれますよ>CrystalDiskInfo
普段見ないサーバ機でも安心。
参りました (スコア:2)
部門名ww
でも統計とか確率とかでやって「コンゲツハ 99% セーフデス ユウキュウヲ ドウゾ」でも、当たったらアウトだしなー。
バックアップとか多重化とかは重要ですってか。
Re:参りました (スコア:3)
多重化と言っても, 用途が完全に違いますが, HDFSでコケて惨事になることが結構ありますよ.
(アプリケーションレベルで)ブラウザIFで結果が見れない
→Jobがコケてる
→複製エラーらしい
→JavaのFile操作エラー
→ディスク書き込みエラー
原因特定の階層がそれなりに深くなってしまう.
特にHDFSのノードが仮想してあって,
それらが同一ディスクだと目も当てられない.
Re:参りました (スコア:1)
「予知ができるんなら、バックアップとか要らないな。
今後はRAIDで使ってる不要なHDDは撤去して、有効活用するように。」
じょ、冗談ですよ?
そうそう。
マジレスするなら「予知」ではなくて「予測」じゃないだろうか。
#「地震予知は不可能」は常識です。地震予報くらいがせいぜい。
Re: (スコア:0)
予知と予測の意味が違うのは確かだけど,予報と予知は同じでしょう.
Re:参りました (スコア:1)
とりあえず明鏡国語辞典より
予知:事前に知ること
予測:将来どうなるかを得られた情報などに基づいて推し量ること
予報:予測した事柄を知らせること
地震が起こることを、それこそ何月何時何分何秒に震度XXの地震が起こることを、前もって知ることができれば予知。
今のデータからするといつ頃地震が起きるんじゃね?起きるかもしれないなあ、と推測するのが予測。
予測を知らせるのが予報。
天気予報は予測を知らせてるだけなので、当たることもあれば外れることもある。
Re:参りました (スコア:1)
NHKはそれを嫌って、天気予報の番組を気象情報と改名しました。
気象庁は気象情報と天気予報を両方使っているな。
Re:参りました (スコア:1)
本当にヤバくなるまえにデータを守って自ら壊れるヒューズみたいなもんがあれば部門名は防げるのかも。
そして儲かる修理業
Re: (スコア:0)
> 東芝は13年度中に、有料で故障を予知する企業向けサービスを始める。
> 将来は個人向けにもサービスを提供するという。
企業向けに、故障予知が出たらHDDを予防交換してくれるサービスを提供するつもりなのでは。
予知だけしといて「自分でHDD交換してね☆」は、多分ないんじゃないかと……。
Re: (スコア:0)
リモート監視つきの保守サービスを契約していたら、今でもエラーが出始めたので交換しますとか言って予防保全の予告電話がかかってこないか?
予想・予知ソフトは信用しない (スコア:2, おもしろおかしい)
経験的にHDDの診断ソフトがエラーを通知しだすとHDDが不調になって壊れるので
このテのソフトは入れない。
Re: (スコア:0)
HDD診断でエラーを通知して、そのあとHDDが不調になるなら、それは正常な動作だと思うw
当てにせず何時壊れてもいいよう準備するのが一番なのは同意するけど。
Re: (スコア:0)
あってるじゃないですか。これ以外に何を望むんですか?
Re:予想・予知ソフトは信用しない (スコア:1)
通知されないと壊れないんですよ、多分
Re: (スコア:0)
言霊ですか!
# 縁起でも無いけど
Re:予想・予知ソフトは信用しない (スコア:1)
体調悪くてどう考えても病気なんだけど、診断下されるのがいやで病院に行きたがらないという人が世間にはいっぱいいるそうですよ。
# 個人的には全く理解できない考え方ですが。
Re: (スコア:0)
むしろ、HDD診断ソフトの性能を知らしめるために、ランダムにエラー通知と共にHDDを破壊するとか。
個人用だと (スコア:1)
基本ずーっと電源付けっぱなしで温度は50℃以下になるようには気をつけてるけどね。
今までに壊れたのはMaxtorとFireballとBarracuda11くらいだ。
Re: (スコア:0)
あれおかしいな、WDがない
Googleが (スコア:1)
もっと大量サンプルを取れる優位性を活用して、s.m.a.r.tがあんまりアテにならない事を論文にしてましたよね。
一部に相関関係を認められるパラメータもありそうだ、的な結論ではありましたが。
多くはs.m.a.r.tの予兆が無い突然死だったね、という感じ。
東芝の発見がなにか新しい着眼点だとすると面白そう。
Re:Googleが (スコア:3)
Googleのはサーバ用に使用したHDDの話であって、東芝が持っているデータは大きく異なるんじゃないですかね。
東芝のはノートパソコン用なので、2.5インチ。
ノート用ならスピンアップ、停止を繰り返すような動作での故障のデータでしょう。
サーバ用のHDDなら、Googleのデータが参考になるかもしれませんが、普通のPC用には東芝のデータの方が参考になりそうです。
分析した台数も166万台と、Googleの論文より一桁多いです。
Re: (スコア:0)
統計的には10万台と100万台と200万台の間に、精度の差がそれ程出ないような気がしますね。
Googleの場合は「温度や利用率がHDDの寿命と大きな相関がないことを示した」との事なので、少しアプローチが異なる感じもします。
東芝もS.M.A.R.Tは参照してるはずですが、ログ取りがそれ以外の意外な数値に着目していたりすると面白そうですね。
Re:Googleが (スコア:1)
仕事上見てると、S.M.A.R.Tが出始めるとやばいなぁとは思うけど。
S.M.A.R.T連発して一年経っても大丈夫な時もあるし、なんの予兆もなくて一発アウトってのももちろんあるし。
ちょっとしたオオカミが来た状態です。
Disk品種に限るのかもしれないけど、故障予知制度が向上してるのなら、保守を必要とする立場からはありがたいです。
Re:Googleが (スコア:1)
論文の解説記事のリンク。
http://d.hatena.ne.jp/LM-7/20070219/1171899987 [hatena.ne.jp]
S.M.A.R.T.については、項目の幾つかについては相関関係があったので予測する要素として使えるけれどS.M.A.R.T.の予兆なく故障するパターンも結構あったので、S.M.A.R.T.の数値を監視しているから安心とはとても言えない、という内容。
「36%のHDDは故障するまですべてのS.M.A.R.T値は完璧だった。」と言うのは、「64%のHDDは故障するまでにS.M.A.R.T値に何らかの異常が現れた」とも言えるので、別の方法で保護するにしても内容を絞って値を監視しておく価値はあるかなと思っている。
# ただ、もう発表自体6年前の話なので、今のHDDはもしかすると傾向が違うかも
ガガガガガガガッー! (スコア:0)
貴様の命はあと3カ月
#音が出る時点ですでに死んでいる
予知するより (スコア:0)
「予知」を出した時期に合わせて使用不能にする方が簡単だよな。
まず、最初のスピンアップから2〜3年くらい経ったら壊れようと壊れてなかろうと「警告! あと n週間以内に故障する確率が高いです」(nは2〜6くらい)という表示を出す。
そして、その後に徐々に表示されるバッドセクタ数を増やして、適当な時期に起動不能にすれば、かなり信憑性のある故障を演出できるのでは。
Re: (スコア:0)
つ ソニータイマー
Re: (スコア:0)
残り3ヶ月の時点でSMARTの何かの値を閾値以下にすれば大抵のパソコンは
起動時に毎回異常を警告するようになる
Re: (スコア:0)
予知するよりも簡単だが、従来よりも寿命が短くならないか。
それも製品全体で。
故障予知 (スコア:0)
>>ファンの音等の体感で予知
HDDの故障をファンの音で予知できればすごいなぁ・・・
Re: (スコア:0)
Re: (スコア:0)
バッドセクタの処理なんかでHDDのアクセスに変化が出るとは思うんだけど、
HDDの微小振動がケースを伝わってケースファンの回転に影響を及ぼしたり、
風切り音とハモったりするのかな?
後はHDDの消費電力が増えて、ケースファンの回転数にびみょーな影響が出るとか。
HAL9000乙 (スコア:0)
3ヶ月後に故障にならないと、あなたが証拠隠滅に消されます。
本当に機能追加が必要なのはHDDではない (スコア:0)
HDDなんて壊れるときには壊れるし、今回の記事にも「最大3か月」と書かれているように、
あくまでも「最大」であり、予告なしに壊れることもある。
昔から稼働時間○○時間で交換した方がいいといった、経験(?)を基にした基準はあったのに、
実際交換を認めるか認めないかは会社の、いや上司の方針にかかっているのだ。(特に小さい会社。)
だから本当に機能追加が必要なのはHDDではない。本当に機能追加が必要なのは
「○年使ってるけど、壊れたことないから大丈夫!(キリッ」などと言ってしまうダメ上司なのだ。
つまり警告機能がついても上司が正しく機能しないと意味がない。
Re: (スコア:0)
メテオラにあるメガロメテオロン修道院の話でもしてやれ。
人や荷物を引き上げるロープを、切れるまで交換しなかったらしい。
転ばぬ先のバックアップ (スコア:0)
転ばぬ先のバックアップ
今日もバックアップ、明日もバックアップ
いつでもバックアップ
バックアップバックアップ
バックアップ最高!
…てな勢いでバックアップすると幸せになれるよ。