2017年末のNICOSカードのシステム障害、15台のHDDで構成されたシステムで3台が同時故障 94
ストーリー by hylom
話は分かるが不思議ではある 部門より
話は分かるが不思議ではある 部門より
2017年末、三菱UFJニコスのシステムに障害が発生した。これによって一部の会員に対する請求が遅延すると言ったトラブルが発生しているが、この障害の原因がHDD3台の同時故障だったことが明らかになった(日経ITpro、三菱UFJニコスの発表PDF)。
使用されていたシステムでは15台のHDDを搭載しており、同時に2台までの故障に対しては自動復旧できるが、3台以上が同時に故障した場合は復旧が難しいという。この故障の影響でデータ処理が大幅に滞留して遅延が発生、この問題の解消の過程で二重請求などのトラブルも発生していたという。
予算あれば (スコア:5, 参考になる)
某金融関係だったけど壊れてなくても定期的に交換してたところあったが、ストレージの価格次第では安価なものを使い捨て交換したほうがいいのかもね
Re:予算あれば (スコア:5, 参考になる)
メインフレーム級になると, 統計的な故障発生情報を使って, 予防保守として交換を行うってのはよくあるんですけどね.
要は予防保守による追加コスト, 冗長化による追加コスト, そしてシステムダウンによる業務停止での機会損失コストのどれが最も小さくなるかを評価して, 取るべき措置を選ぶべきなんですけどね. その評価自体にもコストがかかるから, いいかげんに決めちゃうんですけど.
同時故障は怪しい (スコア:5, 興味深い)
システムを納入したメーカーが書かれていないのでなんとも言えないが...
某社の保守作業者がMirrorの二重障害を「起こした」例を知っている
再現手順:
1.自然故障でHDD障害発生(たまにあるよね)
2.正常な方のHDDを交換(???)
3.急激にエラーレートが上がる(そりゃそうだ)
4.二重障害でしたと報告(嘘つき)
その後、日中のHDD交換とrebuildが禁止になったとさ
# ACでなきゃ書けないんだよ!
Re:同時故障は怪しい (スコア:2)
Disk二台逝くのってわりとあるから基幹業務にミラーは怖いね。
予算が無いからといって、ひたすら大量の中古格安サーバーをストライプだけで構成して、壊れたら諦めるという運用してた部署もあった。
保守も入れず、壊れたサーバーが溜まったら使える部品で組み直して再生。
部長さんが京都の始末屋さんでした。
Re:同時故障は怪しい (スコア:1)
同時故障って計算上の確率は低いですが実際の構築と運用次第では頻繁に起こりますからね。
例えば同じ型番の同じロットのHDDを使い、同じように読み書きが発生するような(単純なミラーとか)場合大体同時期に壊れます
Re:同時故障は怪しい (スコア:2)
さらに故障によるrebuild時には通常よりもアクセスが集中するので, rebuild中に残っていたディスクも逝くってのは, ある程度常識的なものですよね.
ですから, あらかじめ余分なディスクを用意しておいて, 数カ月感覚で交換してディスクごとの稼働時間を明確にずらすなんてのも運用上の定石ですよね.
Re:同時故障は怪しい (スコア:1)
1台故障して交換中のリビルド負荷により弱っていたもう1台が故障、っていうか全部に読み出しがかかるので、以前に読めなくなっていた箇所があったことが発覚、じゃないの?別に同時故障は怪しいわけじゃないと思うけど。
Re:同時故障は怪しい (スコア:3)
NICOSの同時故障は、rebuild負荷による障害かもね
N港の荒神2で、上記の再現手順をやった保守会社がある
SEには保守会社の嘘を見抜く能力はあったけど、お客さんに「騙されてるよ」と言える発言力はなかった
# 力ではなく倫理の問題だ
星乃事務所といえば、関係者にはわかるだろうか?
10年以上前のlogも残っていない話で告発するのは無理なので、ACで失礼
Re:同時故障は怪しい (スコア:1)
Re:同時故障は怪しい (スコア:1)
リビルド中に以前の故障が発覚したって、
それ同時故障じゃなく運用が見逃してただけ。
定期的に全面舐めてなかった時点で運用がヘボ。
Re:同時故障は怪しい (スコア:1)
てか、それなりのRAIDコントローラなら、自動で定期的にパトロールリードを実行するよね。
運用もヘボなんだろうけど、ヘボなRAIDコントローラを入れた設計もヘボ。
ニコスだけに (スコア:3, おもしろおかしい)
二個までの故障にしか対応してなかったんですね。
Re: (スコア:0)
なんだろう、このマイナスモデしたくなる衝動は・・・
Re: (スコア:0)
(*^^*)ニコッ
Re:ニコスだけに (スコア:2, おもしろおかしい)
それは、ブレード・サーバー!
Re:ニコスだけに (スコア:1)
いるじゃん。君が。
全然不思議じゃないよ (スコア:3, すばらしい洞察)
どうせ、同じ種類、同じ製造時期のHDDだろ
双子みたいなもんだ
大体似たような時期に壊れる
Re:全然不思議じゃないよ (スコア:2)
なるほど
こういうケースだとメーカー、型番、ロットの多様性は冗長性として機能するんだな
天然痘とか黒死病でも死なない人がいたのと似てるね
Re:全然不思議じゃないよ (スコア:1)
一つ壊れたら、同世代のいちばん寿命の短いやつが逝ったということだろう。
残りも同じ時間酷使していたわけで、遠からず同じ運命に決まってる。
Re: (スコア:0)
3台の双子…
Re:全然不思議じゃないよ (スコア:1)
3台の双子…
さんにがろくでお粗末なツッコミってことだったんだよ
Re:全然不思議じゃないよ (スコア:4, 興味深い)
何かの広告で「RAIDで性能を上げるために特性の揃った同一ロットにしてあります」なんて書いてあるのを見て, 馬鹿じゃないかと思ったことがあります.
Re:全然不思議じゃないよ (スコア:1)
え、それやってたのって大昔じゃないの...? 昨今ばらしませんよね?
Re:全然不思議じゃないよ (スコア:2, 興味深い)
俺がミラーリングについて調べていた時は、両方の意見を見たな。
同じHDDにすべきというのは、細かな違いで問題が発生しないように、というのが理由。
ロットやメーカーを分けるべきという理由は、ファームウェアや設計上の問題を引いた場合、同じ時期に同時に壊れる可能性が高いから。
どちらもそれなりに説得力があるけど、個人的にはメーカーを分けるべきだと思う。
故障率が上がるのは交換すればいいけど、同時に壊れるのはどうしようもない。
ミラーリングをするというのはバックアップでも救えないデータ損失が怖いか、可用性を高めたいからで、最悪の事態を考えるべきだ。
まあ、メーカーの違いで、同時故障する可能性もないわけではないのだが。
Re:全然不思議じゃないよ (スコア:1)
私もばらすべきと考えていた方なんですが、おっしゃる通り、問題が発生しないように揃えると言うことをハードベンダーからは聞いていました。
ばらして避けるなんて偶然に頼らず、しっかり多重化しろよって商売なのか忠告なのかと思いつつ...。
Re:全然不思議じゃないよ (スコア:4, 興味深い)
HDDスピンダウン~アップタイミングの時間差が大きくてミラー構成壊れる→修復繰り返すなんてのが有ります。
なのでミラーは揃えた上でバックアップちゃんと取れ派です。
でも大抵嫌がりますね。まあそういうとこほどトラブル出るし出たら責任取れ!言うて来るし権力ごり押しなのもお決まり。
Re:全然不思議じゃないよ (スコア:1)
> なのでミラーは揃えた上でバックアップちゃんと取れ派です。
同じく。特に 40 台以上の RAID で顕著だと思うんだけど、HDDの特性を揃えておかないと、
アナログ的な特性の差で何だか分からない微妙な不具合というか不安定が起きやすいと感じる。
可用性のために平常時の安定性を捨てるのは本末転倒だというか。
復旧が難しい (スコア:0)
復旧が出来ないのではなく、難しいのですね。
Re:復旧が難しい (スコア:1)
「壊れた」と称されたHDDの状態によりけりで、結構復旧できることはある。
「リビルドしてたけど不良セクタがあったんで復旧だめですね、あ、ついでに論理ディスクも使えなくしておきます(^^)」みたいなことをいうコントローラはおおい。
うんともすんとも言わないレベルで同時に3台壊れるって事はあんましないし、ディスク単体としてはそれなりのエリアが読たりするので。
あとは、ディスクを開腹してどうこう、みたいな話で、そういうことができる業者もあるんじゃないのかな。
Re: (スコア:0)
基本的にこの手の不具合はコストをかけることで復帰できる場合がおおい
(無理ではないが多額の費用がかかる(経験髄ずみ)
Re: (スコア:0)
骨の髄までしみたのですね。
Re: (スコア:0)
できません、というと開き直るな、って怒られたことあるな。
ようは直球で言うのではなく、回りくどく言うことで、相手が条件反射しにくくなることを狙っているのでは。
世の中、右に倣えなので。
RAID6で運用? (スコア:0)
ってことですかね。
Re: (スコア:0)
15台をRAID6にするような構成はちょっと考えられないのでなんか別じゃないですかねー
EMCとかだと予想します
Re: (スコア:0)
NetuppとEMC適当に混ぜて全部一気にタヒなないようにしてた。
15台のdiskだけで運用ってパソコン?
Re: (スコア:0)
ケチくさい構成だな。今まで関わったシステムでRAID5や6とか一つもないわ。全部ミラー。
Re: (スコア:0)
念のため解説しておくと、RAID上級者向けのジョークだから真に受けちゃダメよ。
よくある4台で2台分の容量になる構成で、ミラー+ストライピングとRAID6を比べるとRAID6の方が安全。2台が壊れた時、ミラーの方は壊れたのがペアになってる2台だと死ぬので、1/2の確率でアウト。RAID6の方はどの組み合わせの2台が壊れても大丈夫。
Re:RAID6で運用? (スコア:1)
そんなケチくさいことせず、3台以上でもミラーリングってことでしょ。RAID1で4台なら3台壊れても大丈夫。信頼性向上だけを目指して、容量増加は狙わない。
ちょうど、昨晩から自宅サーバ(RAID1で2台体制)の1台が死にかけてた(S.M.A.R.T見たらぼろぼろだった)ので、代わりののHDDを今さっき買ってきたとこなのですが、帰宅して交換するまでに残る1台も死んだらどうしようとドキドキです。できれば3台にしたいところですがケースに余裕がないので、とりあえずUSB接続でもう1台増やそうかと悩んでるところ。
#と、これ書いてて、2.5インチHDDなら内蔵台数増やせるぞと思いついた…しくったなぁ。
Re:RAID6で運用? (スコア:1)
バックアップも考えたら3重ミラーが最低限で, 冗長性を考慮すると4重ミラーが欲しいってとこでしょうか.
RAID5や6ではなくミラーを使う理由としては, ミラーではクローンを作ることができるのでバックアップに長時間をかけることが可能というのが決定的かな. もう一つ, RAID5/6に比べて処理コストが小さいので, IO性能を求めるならミラーというのが昔は常識だったのですが, 最近はどうなんだろ.
Re:RAID6で運用? (スコア:1)
シーケンシャルな速度だと、HDDの有効台数が多い方が高速なのは確か。
ランダムだなIOPSだと、RAID5/6は、パリティを直すのにRead-Modify-Writeでアクセスする必要がある分、遅くなるよ。
Re:RAID6で運用? (スコア:1)
15本もあったら、ホットスペアくらいあるんじゃなかろうか。
いや、無かったからこんな風に壊れたのか…?
AI使って予防保守しかないだろ (スコア:0)
人生は運のみだよね
Re:AI使って予防保守しかないだろ (スコア:1)
今後、仕様を決めるときは、3台のHDDが同時故障しても稼働できることを入れればいい。
ニコスの例が表に出たことで、説得力があるだろうし。
そして4台同時に壊れたら・・・
Re: (スコア:0)
そのAI用のHDDが3台同時に故障するんですね
「同時に」 (スコア:0)
本当に同時にHDDが壊れたんですかねえ・・・
Re:「同時に」 (スコア:1)
報告書の対応策に「監視強化」がうたわれているのが気になりますね。
本当にアレイを構成するディスクが3台同時に障害を起こしてしまっていたのなら、
監視を強化したところで何の解決策にもならないわけで、
「センター設置のシステム機器を毎日遠隔監視する態勢を整備済み」と書かれている
ところからすると、全く監視していなかったのではないかとさえ思ってしまいます。
RAID1で安心しているのは甘いのか (スコア:0)
大した物は入ってないけどさ。
Re: (スコア:0)
1本のディスクの容量で足りるデータ量のボリュームしか無いときにはそれでいいんじゃないか。
問題はそれで収まらなくなったときにどうするか。
Re:RAID1で安心しているのは甘いのか (スコア:1)
今時、論理ボリューム管理になってるだろ。
2本1セットで足りなくなったら、もう2本買い足してRAID1組んで、論理ボリュームに突っ込めばいいんじゃね?
Re:RAID1で安心しているのは甘いのか (スコア:1)
足りなくなったら2つめのボリュームを作ったっていいんだし。
普通に考えれば、それでいいと思うよ。
ただ、どう言った事情か分からないけど、
1本のディスクの容量で足りるデータ量のボリュームしか無いときにはそれでいいんじゃないか。
問題はそれで収まらなくなったときにどうするか。
と心配していたので、一本の大きな論理ボリュームが欲しいんだろうな、と。
まあ論理ボリュームをどんどん肥大化させてもいいがあまりにも大きいボリュームはバックアップが面倒だからなー。
バックアップまで考えるとすると、可能性としてはボリューム全体で整合性を保つ必要があるデータを保持しているとか。
そーゆーのだと、静止点を作って、スナップショットを撮って、(差分)バックアップをしたりするんじゃないかな。