Backblaze、初のSSDに関する故障率統計データを発表 43
ストーリー by nagazou
とりあえず発表 部門より
とりあえず発表 部門より
HDD故障率統計の公表で知られるオンラインバックアップサービスの「Backblaze」が3日、SSDに関する統計データを初めて発表した。同社は今後、年2回のペースでSSDに関する故障率データに関しても発表していく考えであるという。今回発表された「The SSD Edition: 2021 Drive Stats Review」によると、同社は2021年12月31日現在で2200台のSSDを使用しているという。運用中のドライブの母数が少なくデータとしては十分とはいえないことから、今後もSSDの追加を行いデータの信頼性を高めていくという。今回の発表は故障率うんぬんよりも、今後のデータ蓄積の意味合いが強いようだ(The SSD Edition: 2021 Drive Stats Review、TECH+)。
こうした追記があるのは、一部の製品で異常な故障率を示した製品が出ていることもあるようだ。crucial「MX500 CT250MX500SSD1」では、年間故障率(AFR)は、43.22%と非常に高いものとなった。またSeagate ZA2000CM10002も28.81%とかなり高い数値が出てしまっている。crucialに関しては2021年12月に導入されたドライブは20台で、Seagate ZA2000CM10002も同時期では4台しかなく、そのうち1台が2021年頭に故障したことからこのような悪い数値が出てしまっているという。
同社では年間故障率は1.0%以下が妥当であり、0.6%以下が好ましいと考えている。今回のデータ中でSSDの台数が十分揃っており、かつ先の年間故障率内に収まっているのはSeagate ZA250CM10002の0.36%のみとなっているとのこと。
こうした追記があるのは、一部の製品で異常な故障率を示した製品が出ていることもあるようだ。crucial「MX500 CT250MX500SSD1」では、年間故障率(AFR)は、43.22%と非常に高いものとなった。またSeagate ZA2000CM10002も28.81%とかなり高い数値が出てしまっている。crucialに関しては2021年12月に導入されたドライブは20台で、Seagate ZA2000CM10002も同時期では4台しかなく、そのうち1台が2021年頭に故障したことからこのような悪い数値が出てしまっているという。
同社では年間故障率は1.0%以下が妥当であり、0.6%以下が好ましいと考えている。今回のデータ中でSSDの台数が十分揃っており、かつ先の年間故障率内に収まっているのはSeagate ZA250CM10002の0.36%のみとなっているとのこと。
SSDは突然死する (スコア:1)
私の職場だと、この2年くらいで crucial が 1台、 adataが1台壊れました。intelなどの他メーカーは無事。
実際に壊れて分かったことは、SSDは突然壊れる点です。
HDDはSMARTなどで警告が出始めたりで故障の予兆が見えますが、SDDは突然死にます。SMARTがあてにならない。
そしてSSDはデータのリカバリもできない。HDDなら不良セクタを無視しながらデータをddで吸い出すとかできるけど
SSDはそもそもディスクとして認識しないとか、通電すると恐ろしく発熱するなど、絶望的な壊れ方をします。
と言うわけで私の職場では、SSDは常に予備を用意しておくと言う運用になりました。
数TBのSSDならたいした値段しないから予備買っておけ、必要なら予備SSDに定期的にデータ複製しておけ(cron + rsyncとかで)、って方針です。
Re:SSDは突然死する (スコア:1)
ほんと突然死にますね。
高負荷用途じゃないからと無名メーカーのSSDを排熱の厳しいケースで使ってたら突然死しました。
リブートしたらBIOSでも認識しないんでその時は何が起こったかプチパニックになりましたよ。
Re: (スコア:0)
RAID1にすればいいんじゃまいか
# バックアップしとくのは基本
Re:SSDは突然死する (スコア:1)
RAID1にすればいいんじゃまいか
# バックアップしとくのは基本
RAIDをバックアップとは呼ばないがな
/*
消しちゃったあれも
上書いちゃったあれも
バックアップあれば大丈夫(キリッ
え?RAID!?それじゃあのデータはorz
*/
Re:SSDは突然死する (スコア:1)
RAID1にすればいいんじゃまいか(突然死に一応対応できる)
# (それとは別の手段で)バックアップしとくのは基本
RAIDをバックアップとは呼んでない。
Re: (スコア:0)
SSD突然死への対策だから、この場合バックアップで合ってるかと。
# 使用環境の問題だったりすると同時に死にそうだけど
Re:SSDは突然死する (スコア:2)
同種の装置を複数並べるのは冗長化で、バックアップは同目的で異種の実装を複数切り替えることだと思います。どちらも機能の継続性が目的ですが、手法としては異なるかと。
# 従って仕様の揃わないドライブで組んだRAIDアレイは勝手流バックアップと言えm(ry
Re: (スコア:0)
こちらの業界では本番系と同一機器の予備系を動かしておくことをバックアップとは呼ばないんですね。
うっかり言って突っ込まれないように注意します。
Re:SSDは突然死する (スコア:1)
待機系、英語ならstandby deviceですかね。
バックアップシステムという語句は、外部記憶装置へのデータ保管を指して使われてきたので、
間違えて伝わることのないように使わない。
構成全体はデュープレックスシステム、もしくはアクティブ/スタンバイ構成。
ただ、通信回線に関してはバックアップ回線(Backup routeもしくはline)という。
デュープレックスと言う語は、全二重/半二重(Full-duplex/Half-duplex)を指して用いるので使わない。
検索してみたが、待機回線とかスタンバイ回線…という言い方もしない様子。
通信回線は1本でも、通信していなければ待機状態(スタンバイ状態)だからだろう。
Re: (スコア:0)
結局このあたりは業界次第、用途次第で用語や表現は変わるのです。
IT分野の人とだけ関わってると、言葉の視野が狭くなりがちなので気を付けないといけない。
そうしないと、他業界の人から「日本語は通じてるが会話が通じてない人」認定されてしまいます。
Re: (スコア:0)
バックアップの意味論まで踏み込むと話が拡散するので
方法論くらいで止めときましょうw
といいつつ
RAID1はメディアハード突然死対策に有効です。
(別ロット、可能なら別メーカ等で組むのがいいかな?)
操作ミスには無力ですけどね。
# こうですかw
Re: (スコア:0)
なんかスラドって「RAID1」の単語を出すと文脈無視して「RAIDはバックアップじゃない」と脊髄反射コメント付くよね
Re: (スコア:0)
だからbotが書いてるんだよ。この場合「RAID1」がキーワード
Re: (スコア:0)
RAIDはバックアップじゃない
Re: (スコア:0)
私の職場だと、この2年くらいで crucial が 1台、 adataが1台壊れました。intelなどの他メーカーは無事。
自宅用ですがcrucialとintelは頑丈ですね
10年くらい日々GB単位書いては消してをしていますが
未だにCristal Disk Infoで寿命90%
初期の数年はOS用として、以後はRAID0で一時領域用の余生で活躍中
未使用領域をウェアレベリングように1割以上取っていれば結構持つもんですよ
# 一番若いのは数年のSamsung
Re: (スコア:0)
未使用領域というのは、ファイルを削除した後のゴミが残っている領域も、SSD側から未使用領域と認識できるものなんですか?
Re:SSDは突然死する (スコア:1)
// ディスクレベルでは Trim (SATA) / Unmap (SAS)コマンドが相当
Re: (スコア:0)
ソフトウェアミラーじゃダメなの?
LinuxもWindowsも対応してるでしょ?
Re: (スコア:0)
前兆は無いけど総書き込み量で機械的に交換していけばいいからある意味楽という話も
Re: (スコア:0)
今回問題になってるのは寿命じゃなくて偶発障害でしょ?コントローラが死んだとかの。
Re: (スコア:0)
コントローラが寿命で死にましたとさ
Re: (スコア:0)
>HDDはSMARTなどで警告が出始めたりで故障の予兆が見えますが
Googleが大量に使用しているHDDの故障率の分析 [srad.jp]
大半の故障は徴候を示さない突然死であり、S.M.A.R.T.値による故障予測日数は殆ど参考にならなかった。
Re: (スコア:0)
リンク先読んでないけど大方gigazineあたりの誤訳ゴミ記事だろう
HDDは突然死といっても本当に突然死することはそんなになくて
リードエラーが出だしてから完全に読めなくなるまでの間にデータを吸い出す猶予がたいていあるんだよ
数時間程度だけどな、常にSMARTを監視して即座にアクションをとれるなら結構助けられる
Re:SSDは突然死する (スコア:1)
数年前までストレージを運用していたときの経験だと、HDDメーカーによってSMART異常が出てからもしばらく動作するものと前兆無く即死するものに割と分かれていたように記憶しています。
HGSTが前者、Seagateが後者だったかな?
# 何百本もディスクが載ってると安定期でも週一以上のペースで壊れるんだな……とか思っていました。
Re: (スコア:0)
Quantum製がカッコンカッコン鳴り始めるのは聞いたことがある。
そいつ自体はSMARTなんてなかった時代の代物だが、
東芝系のHDDがそんな感じの音を出して異常動作し始めて、
SMARTにリードエラーやらが出るようだ。
Re: (スコア:0)
故障予測日数は殆ど参考にならなかった。
個体的な兆候の話ではなく統計による目安の話だよね。
誤訳ではないだろうけど内容はズレてる。
故障予測日数より長く使えることがあるのもおかしいとでも言うのだろうか。
母数… (スコア:0)
対象数(サンプルサイズ)のことを母数(パラメータ)って言うのが気になる…。
Re: (スコア:0)
ポリコレの話ですか?(真顔
# 親数でどうかと...
Re: (スコア:0)
母数は、分母でも母集団でもない。 [note.com] って話のことじゃないですか?(驚愕
# 理工系出身の方が間違えている人多い印象だけど…
Re: (スコア:0)
理系って言っても統計の文脈以外も含めていいのなら母数って名前がついてる数学的概念は複数あるからなぁ
Re: (スコア:0)
理工系なのに定義を確かめないで他分野の用語からの類推で意味を想像するってヤバくね?
ちなみに統計以外だとどんな分野で使われててどういう定義なの?
自宅だと (スコア:0)
最初にSSD買ったのは8年前かなあ
いまだに壊れたことはない
その間にHDDは3台壊れた
Re: (スコア:0)
俺は初めて買ったインテルのSSDが、使いだして3日後に飛びましたね。
目が点になった。
フォーマットしたら何食わぬ顔してまた動き出して、それからもう8年ぐらい使えてます。
書込み量 (スコア:0)
メーカーが示してるTBW範囲内だとは思いますが。
普通のPCのブートデバイスとして使ってる程度なら気にする必要が無いと見て良いのかな?
初期故障乗り切れば安定しますよね。その後は一ヶ月数TBぐらいでしょうか。
倉庫的に書込みが少なくて読込みばかり、という使い方だと故障しにくいはずですよね。
なんとなく可動部品が無いだけHDDより保ちそうな気がします。まぁ気がするだけですが。
Re: (スコア:0)
こういう使い方ってどのくらい書き込むんでしょ?
メーカーが示してるTBW範囲内だとは思いますが。
ぶっちゃけ運ですねぇ
強いて言えば1割を未使用領域にしておくのと温度管理ですかね
日々GB単位で書き消しする程度で10年もってます
未使用領域なし温度管理なしで運が悪いと1年持たないとかも有る
WD/Sandiskが載ってない (スコア:0)
コンシューマー向けでは一番の売れ筋だと思うんだけど事情が違うのかな。
迷ったらとりあえずSandisk買っとけって時代もあったはずなのだけど。
Re: (スコア:0)
なぜにSeagateとは思う。
取引業者がSeagateを扱っているのかな。
Re: (スコア:0)
業務用のストレージ向けSSDなら、Seagateはメジャーでは?
逆にWDはいいとして、Sandiskが出てくることはないような。
もっとも、今回リストに上がってるのはほとんどコンシューマ向けのSSD製品だけど。
Re: (スコア:0)
WDのSSDって中身は買収したSandiskだよ。
どうもブランドの使い分けがイマイチ分からんけど。
Seagateの中身は・・・・・まぁ、知ってたら買う気にならんわなw
Re: (スコア:0)
ストレージ向けだと中身がどうとかより、サポートとか調達の都合があるので、中身同じだとしてもSandiskブランドを買うことはないですね。
ストレージなんて壊れる前提で、壊れたときにどう対応できるかの方が重要。
同様の理由で、中身がどうだろうとSeagateは調達候補の上位に来ます。
性能にしたって、RAID組んでストレージ製品として運用するなら、単体の性能は最低限満たしてればいい。
単体性能に頼った設計にするとドライブメーカーの入れ替えができなくなる。
Re: (スコア:0)
多分ハードウェアの選定基準はなんとなく。
個人向けのやすかろう悪かろうを大量に使い壊れたら交換のほうが事業者向けの高価高品質品よりもトータルで安くなるという方針の会社です。
なのでなぜか個人向けの装置を使っているわけです。しかし運用方法や設備の環境は家庭と異なり安定しています。
個人・法人のどちらから見ても特殊な運用なのであまり当てにならない数字を出してきます。
MX500 CT250MX500SSD1 (スコア:0)
>For the Crucial, there are only 20 drives which were installed in December 2021.
20台導入して約85日で約2台故障なので、43.22%って数字以上にやばい数字に思えてくる。
Re: (スコア:0)
初期不良とか、ロット不良でもあったのかね。
# 通電テスト済みのHDD郡が翌月死ぬこともあるしな。