
みずほ銀行の8月システム障害、特定型番のHDDで不調などが要因との報告 106
ストーリー by nagazou
報告 部門より
報告 部門より
みずほ銀行と持ち株会社のみずほFGは8日、金融庁にシステム障害の調査結果を報告した。これに合わせて記者会見を行い、8月から9月に発生した4件の障害に関しての原因説明を行っている。8月20日に発生した大規模障害は、データセンターのHDDが一因で故障率が上がっていたのに見落としたことが影響したという。またバックアップシステムへの切り替えに関しても、障害対応時のマニュアルの内容が不十分でバックアップ体制が適切に機能しなかった。こうした影響により復旧に15時間を要したとしている(日経新聞、産経新聞、読売新聞、テレ朝NEWS)。
故障したHDDに関しては、同一製品で読み取り不良などが今年は昨年に比べて2倍くらいのペースで起きていた。この製品は2015年に導入していたが、一定の年月が過ぎた段階でこの型番に偏った形で故障率が高くなっていた。この会見の中で、同行の石井哲執行役が、ディスク装置が2重に故障することは極めてまれ。「ITベンダーからは4000年に1回と言われた」という発言があったことが話題となっている。いくらなんでも4000年持つものは存在しないだろうとするもので、SNSなどでは単体のHDDのMTBF(平均故障間隔)を、ミラーリングしているため自乗したものではないかなどといった憶測が出ている(日経クロステック、Twitter)。
なお9月8日に100台以上のATMが一時停止した件では、ネットワーク機器に静電気などが生じエラーが発生したと見ているとのこと。
故障したHDDに関しては、同一製品で読み取り不良などが今年は昨年に比べて2倍くらいのペースで起きていた。この製品は2015年に導入していたが、一定の年月が過ぎた段階でこの型番に偏った形で故障率が高くなっていた。この会見の中で、同行の石井哲執行役が、ディスク装置が2重に故障することは極めてまれ。「ITベンダーからは4000年に1回と言われた」という発言があったことが話題となっている。いくらなんでも4000年持つものは存在しないだろうとするもので、SNSなどでは単体のHDDのMTBF(平均故障間隔)を、ミラーリングしているため自乗したものではないかなどといった憶測が出ている(日経クロステック、Twitter)。
なお9月8日に100台以上のATMが一時停止した件では、ネットワーク機器に静電気などが生じエラーが発生したと見ているとのこと。
稼働中の不具合機器交換テスト (スコア:2)
それで故障が発生してみるとマニュアルの欠陥が露呈すると
MINORIはシステムの変更容易性や故障原因の確定のために
SOA志向で開発したと言われているが、それは建前で
複数ベンダーに発注せざるを得なかったからということなんだね
○国4000年の歴史 (スコア:1)
4000年に一度だとしても1年に8度だとしても、対応マニュアルに間違いがあったらダメだよねー。
# 再発防止として、5chとかでは担当者とのコミュニケーションを強化するとかなんとか書いてあったけどソース読んでないので不明。担当者は手順の誤りに気づいてたけど言ったら"手順書を直してテスト全部やり直す"のが怖くて言い出せなかったとかそんな感じ?
で、特定型の故障率が上がってきたなーと分かった時点でガチガチ銀行システムの、しかも想定年数を超えない装置の置換とかやったりするものなんだろうか。
予算とか確保してあるものなの?
Re:○国4000年の歴史 (スコア:1)
「ピラミッド保守マニュアル:構造編第一版」みたいな石碑ってあるのかな?
Re:○国4000年の歴史 (スコア:1)
4000年に一度故障する機器が4000個(予備・バックアップを含む)あれば、毎年故障するんだよ。
Re:○国4000年の歴史 (スコア:1)
今日壊れたんで、あと4000年は大丈夫ですよ。
ラッキーでしたね。
Re: (スコア:0)
chinaの歴史は10月1日で73周年じゃなかったか。
大陸に4000年くらい住んでる民族は居るかも知れん。
https://www.google.com/search?q=china+%E5% [google.com]
Re: (スコア:0)
統一王朝をたてたのが約2240年前、その前の列国時代を含めると2900年以上前とかになるそうですよ?
// 秦 -> china
Re: (スコア:0)
> 担当者は手順の誤りに気づいてたけど言ったら"手順書を直してテスト全部やり直す"のが怖くて言い出せなかったとかそんな感じ?
ありえますね。
もしくは、手順書を作成した本人には常識すぎて書くまでも無かった内容が、後任の人には常識でなかったことも。
> 想定年数を超えない装置の置換
リコール対象ならありえます。
リコール対象外であっても故障が頻発するならメーカー保証の範囲内で交換されることもあります。
ただ、システム停止を伴う交換はだれもやりたがりません。
特に銀行システムは無停止が基本なのでフェイ
Re:○国4000年の歴史 (スコア:2)
その後別の人と大喧嘩になるけど。
2015年に導入していた (スコア:1)
6年365日24hで52,560h稼働してたDiskお疲れさまです。
この手のDiskってどれくらいの時間経過で入れ替えるもんなんだろう、壊れるまで?
WSやファイルサーバーのDisk管理システムから故障予兆アラートが上がってくることはよくありますが。
2・3年経過したハードだとアラートも実際の故障も結構増えますね。
リースだとその辺で入れ替えが始まるし。
>ディスク装置が2重に故障することは極めてまれ
Diskの数が多い環境だと、多重に故障する確率も上がりそうですね。
何にせよ管理体制整え直すんだろうなぁ。
Re:2015年に導入していた (スコア:1)
> この手のDiskってどれくらいの時間経過で入れ替えるもんなんだろう、壊れるまで?
金融は知らないけど、うちが入れてるシステムだと4年から長くても6年ですね。
たいていは納入機器のベンダーがもう修理や交換はできなくなると言ってくるので
最悪でもそのタイミングで交換します。
必要となる追加コマンドを復旧手順に含めていなかった (スコア:1)
日経×テックにある、以下の内容が全ての障害の原因を表している
「2号機(編集部注:待機系DBサーバー)の再起動に当たり、
今回のような極めてまれなディスク2重障害において
必要となる追加コマンドを復旧手順に含めていなかった」(みずほFG)ことが理由だ。
待機系単独での立ち上げも試したが、復旧手順をその場でつくれず、断念した。
Re:必要となる追加コマンドを復旧手順に含めていなかった (スコア:1)
「2号機(編集部注:待機系DBサーバー)の再起動」と「ディスク2重障害」とあるので、タイブレーカーとして使うはずのディスクが使えなかったので起動できなかった、という落ちじゃないでしょうかね。
単純に本番系が壊れただけなら、問題なく待機系が起動できていたと思います。
ディスク2重障害いつ起きたんだ?ってのは気になりますが・・・
クラスタ組んでて一番やっちゃいけないのはスプリットブレインシンドロームなので、
本当の最悪の事態は回避できてるっちゃできてる。
稀によくある (スコア:1)
ディスク装置が2重に故障することは極めてまれ
リカバリ中にもう片方が壊れたなんて話はよく聞きますし、銀行とかだと3重構成になっているもんだと思ってたんですが違うんですね…
配置転換 (スコア:1)
「使いこなせていない」でなくて「満足に使えていない」の間違いだろとツッコミを入れていた。
同記事ではシステムに精通した人材を営業等に配置転換したとのことですが、
障害が連続発生する前なら、理解ある企業の情報システム担当として三顧の礼で迎えてくれたかもしれない(今なら願い下げ)。
結局我々は (スコア:0)
どこのHDDを買うと正義なの?
WDは定番の駄目っこだし、Seagateは壊れやすいと聞くし、東芝はよくわからん。
Re:結局我々は (スコア:3)
> どこのHDDを買うと正義なの?
壊れないHDDなど存在しません.HDDは故障前提で購入・運用すべきです.
購入時は,異なるメーカ,異なるロットで複数台購入が基本
運用時は,冗長化(RAIDとかミラーリング)監視(SMARTなど)すべきでしょう.
私の職場では先日バックアップのHDD逹が空調の水漏れで危うく水没するという事件がありました.
故障以外の理由でデータが消えることもありえます.重要なバックアップは保管場所も二重化したほうがいいですね.
Re:結局我々は (スコア:1)
Re:結局我々は (スコア:2, 参考になる)
HDD故障率のメーカー・モデル別統計データ2020年版、故障率が最も高かったのは?
https://gigazine.net/news/20210129-backblaze-hard-drive-stats-2020/ [gigazine.net]
Re:結局我々は (スコア:1)
Backblazeは「コンシューマー用の安いハードディスクを敢えて大量に購入し、信頼性が落ちる分を圧倒的な物量でカバー」という非常に特異なモデルなので、個人がHDDを選ぶ際の参考情報にはなるけど仕事のサーバーの購入指南にはあまり役に立たないのでは。
Re:結局我々は (スコア:2)
東芝の型番がMで始まるやつ、またはHGST。Mで始まる3.5"は富士通からの引継ぎとかなんとか。DT系列はHGSTのOEMで、東芝を通して買う意味がないのでNG。安くHGSTを買うにはAmazonでWD Essentialの8TB以上を買うのがそれぞれ一番早く、殻を割ると5400rpmクラスを自称するWD白ラベルのHGST製7K2が出るという話です。ただしAmazonの倉庫は産業用ルンバが揺らしまくるワイヤーラックから作業員が個包装を掴んで通い箱にぶん投げるシステムという噂なのでAmazonから精密メカトロニクス製品を買う行為が賢明かどうかは知らん。
寿命が長いとされるHDDは異音や発熱があって困るという苦情や低評価レビューが多い傾向もある気がします(だいたい7K2だし)。環境の方がどこまで耐えられるかみたいな面もあるかもしれない。
Re:結局我々は (スコア:2)
MDで何か問題ありましたっけ……
Re: (スコア:0)
1本で使うならSeagateがいいよ。SMARTエラーが正しく報告されないから限界までなんとなく動作する。OSの動作が不審になったら交換時期。RAIDで使ったら故障を検出できないことが多いからダブルディスクフェイルの原因になる。
2本以上で使うならToshiba、HGST。ソフトウェアRAIDでも故障を検出できるから、安全に交換できる。
Re: (スコア:0)
それっていいことなのか?
# 動けば正義?
Re:結局我々は (スコア:1)
言うに事を欠いてこれか (スコア:0)
もう少しマシなエクスキューズ出せないのかねえ
機器の故障による危機ってか
さて、監督官庁は何というのか聞いてみたいですね
Re:言うに事を欠いてこれか (スコア:2, すばらしい洞察)
しょうもない原因が出てきた場合は大体事実ですよ。
Re: (スコア:0)
Re: (スコア:0)
MINORI開発開始からそろそろ15年、初期に出来た部分は3回ぐらい更新されてるのでは?
Re: (スコア:0)
メインフレームならメーカーに金積めばかなり長期間使えるよ
ただしメインフレーム以外の機器は何度も更新が必要だろうけど
Re: (スコア:0)
クレーマーに多いかどうかは分からないけど、HDDの故障程度でシステム全体に影響する設計はしないよ
すくなくとも、私はしたことないよ
PCサーバを利用するよう言われても、なるべくホットスワップできるようにするよ
銀行の基幹システムをHDDの故障に帰さしむみずほ銀行さんのこの言い訳は、はたして「自分が納得できる理由」となる人がいるのかしら
あなたはこの理由で納得なの?
Re: (スコア:0)
納得しなかったらなにか変わるの?
Re: (スコア:0)
納得しないというならそれはそれでいいんじゃない?
何も論破大会してるんじゃないんだしさ
ところで、[する/しない]で何か変わるの?
Re: (スコア:0)
だったらこんなこと訊くなよ
>あなたはこの理由で納得なの?
Re: (スコア:0)
あらいやん、あなたとマンツーマンな世界に浸ってしまったのね
いいわ、あたくし、どこまでもお相手してしてあげてよ?
でもあたくし、飽きっぽいの。心得ておいてね
で、なにをきいてほ・し・い・の?
Re:言うに事を欠いてこれか (スコア:1)
// かびてますがな
静電気への風評被害 (スコア:0)
> ネットワーク機器に静電気などが生じエラーが発生したと見ている
なんでもワイのせいにするのやめろ。
宇宙線とか虫とかの可能性もあるやろ
Re: (スコア:0)
静電気よりも漏電とかアースが浮いてるとか、深く挿入されていないとかの可能性の方が高そう
まあ今後、重要なNW機器は光収容にする提案が普通に通りそうですね
同一ロットは同時期に逝きやすい (スコア:0)
同一ロットかつ同一環境で使ってれば
僅かな猶予はあれど同時期に逝くもんですので
アラート出たら即まとめて交換できるようにしないとね
# 同一ロットでそのリスクを負うか別ロットで個体差のリスクを負うかそれが問題だ
Re: (スコア:0)
ベンダーによっては在庫の中から別ロットで出してくれる事もありますね。
ただ、こうしたベンダー経由で購入するHDDって定価が基本だから、
変な知識を持っている偉い人に「高い」って文句を言われがち
あほなん? (スコア:0)
ディスク装置が2重に故障することは極めてまれ。「ITベンダーからは4000年に1回と言われた」という発言があったことが話題となっている。いくらなんでも4000年持つものは存在しないだろうとするもので...
適宜故障をしたら取り替えてという運用を続けていくなかで、同時に故障が起きる確率は4000年に一度と言う話なのに、
なんでそこから「寿命が4000年ある装置」という考えが出てくるんだw
Re:あほなん? (スコア:1)
これ、交換にかかる時間(MTTR)がパラメータに必要なわけだけど、
どれくらいで計算しているんだろう。
みずほクラスになると、センター内に予備機が在庫してあって、
富士通のエンジニアも常駐しているから1時間とかそんな感じなんだろうか。
#なお某システムの場合は48時間くらいで置いてます。
Re: (スコア:0)
てか4000年に一度って、確率的に一度起きてから再度起きるまでの間隔を示したものでしかないよね。
一回目が4000年後であることを保証するもんじゃない。
推測 (スコア:0)
二重化してるディスク装置の片方が壊れたけど交換するには3連休のタイミングじゃないと時間が取れないので片肺運用になるけどまぁ大丈夫だろうと高をくくっていたらもう片方も壊れた・・・というところじゃなかろうか。
むかーしやってた地銀系のシステムが機械壊れたときの交換対応のタイミングがそんな感じだった気がする。
しらんけど。
Re:推測 (スコア:2)
そのために普通はホットスワップとかついてるものでは?
# 今日の夕方UPSのバッテリ交換する。
# ホットスワップ対応のはずなのでサーバの電源とかいれたまま、つないだまま。
Re:推測 (スコア:1)
// UPSだと電池交換中にACが落ちた、みたいなケース
Re:推測 (スコア:2)
なるほど。それは稀によくあるかわいそうなパターンですね。
#UPSの電池交換は何事もなくすんだ。良かった。
Re:推測 (スコア:1)
違います。
1台目の故障は8月19日午後7時40分。
新しいミラーディスクを作るため、スペアディスクへデータコピー中の同日午後8時52分に、2台目が故障です。
みずほ銀行窓口業務ストップの真相、DC切り替えをためらい障害が長期化 2021.09.24
https://xtech.nikkei.com/atcl/nxt/column/18/01157/092200045/ [nikkei.com]
Re: (スコア:0)
あー。よくあるRAIDOの状態を復旧させるときの高負荷化による故障誘発か。。。
ソースさんきゅーです。
Re:RAIDは2台目以降は簡単に壊れる。 (スコア:1)
富士通のストレージも OEM なんだから NetApp ご自慢の RAID4 だったりして。
# 教科書的には、RAID4 はほとんど使われていないことになっているので、実際に見たのは初めてだった。