パスワードを忘れた? アカウント作成
15445841 story
ストレージ

みずほ銀行の8月システム障害、特定型番のHDDで不調などが要因との報告 105

ストーリー by nagazou
報告 部門より
みずほ銀行と持ち株会社のみずほFGは8日、金融庁にシステム障害の調査結果を報告した。これに合わせて記者会見を行い、8月から9月に発生した4件の障害に関しての原因説明を行っている。8月20日に発生した大規模障害は、データセンターのHDDが一因で故障率が上がっていたのに見落としたことが影響したという。またバックアップシステムへの切り替えに関しても、障害対応時のマニュアルの内容が不十分でバックアップ体制が適切に機能しなかった。こうした影響により復旧に15時間を要したとしている(日経新聞産経新聞読売新聞テレ朝NEWS)。

故障したHDDに関しては、同一製品で読み取り不良などが今年は昨年に比べて2倍くらいのペースで起きていた。この製品は2015年に導入していたが、一定の年月が過ぎた段階でこの型番に偏った形で故障率が高くなっていた。この会見の中で、同行の石井哲執行役が、ディスク装置が2重に故障することは極めてまれ。「ITベンダーからは4000年に1回と言われた」という発言があったことが話題となっている。いくらなんでも4000年持つものは存在しないだろうとするもので、SNSなどでは単体のHDDのMTBF(平均故障間隔)を、ミラーリングしているため自乗したものではないかなどといった憶測が出ている(日経クロステックTwitter)。

なお9月8日に100台以上のATMが一時停止した件では、ネットワーク機器に静電気などが生じエラーが発生したと見ているとのこと。
  • 怖いからマニュアルに書いておくだけで実際にはやらないよね
    それで故障が発生してみるとマニュアルの欠陥が露呈すると

    MINORIはシステムの変更容易性や故障原因の確定のために
    SOA志向で開発したと言われているが、それは建前で
    複数ベンダーに発注せざるを得なかったからということなんだね
    ここに返信
  • by kei0 (48634) on 2021年10月11日 13時12分 (#4129730)

    4000年に一度だとしても1年に8度だとしても、対応マニュアルに間違いがあったらダメだよねー。
    # 再発防止として、5chとかでは担当者とのコミュニケーションを強化するとかなんとか書いてあったけどソース読んでないので不明。担当者は手順の誤りに気づいてたけど言ったら"手順書を直してテスト全部やり直す"のが怖くて言い出せなかったとかそんな感じ?

    で、特定型の故障率が上がってきたなーと分かった時点でガチガチ銀行システムの、しかも想定年数を超えない装置の置換とかやったりするものなんだろうか。
    予算とか確保してあるものなの?

    ここに返信
    • by kikki (30639) on 2021年10月11日 13時20分 (#4129739)
      4000年を見越した対応マニュアルを残す方が苦労しそう…

      「ピラミッド保守マニュアル:構造編第一版」みたいな石碑ってあるのかな?
    • by Anonymous Coward

      chinaの歴史は10月1日で73周年じゃなかったか。
      大陸に4000年くらい住んでる民族は居るかも知れん。
      https://www.google.com/search?q=china+%E5% [google.com]

      • by Anonymous Coward

        統一王朝をたてたのが約2240年前、その前の列国時代を含めると2900年以上前とかになるそうですよ?
        // 秦 -> china

    • by Anonymous Coward

      > 担当者は手順の誤りに気づいてたけど言ったら"手順書を直してテスト全部やり直す"のが怖くて言い出せなかったとかそんな感じ?

      ありえますね。
      もしくは、手順書を作成した本人には常識すぎて書くまでも無かった内容が、後任の人には常識でなかったことも。

      > 想定年数を超えない装置の置換

      リコール対象ならありえます。
      リコール対象外であっても故障が頻発するならメーカー保証の範囲内で交換されることもあります。
      ただ、システム停止を伴う交換はだれもやりたがりません。
      特に銀行システムは無停止が基本なのでフェイ

  • by nemui4 (20313) on 2021年10月11日 13時16分 (#4129733) 日記

    6年365日24hで52,560h稼働してたDiskお疲れさまです。
    この手のDiskってどれくらいの時間経過で入れ替えるもんなんだろう、壊れるまで?

    WSやファイルサーバーのDisk管理システムから故障予兆アラートが上がってくることはよくありますが。
    2・3年経過したハードだとアラートも実際の故障も結構増えますね。
    リースだとその辺で入れ替えが始まるし。

    >ディスク装置が2重に故障することは極めてまれ

    Diskの数が多い環境だと、多重に故障する確率も上がりそうですね。
    何にせよ管理体制整え直すんだろうなぁ。

    ここに返信
    • by Anonymous Coward on 2021年10月11日 13時37分 (#4129757)

      > この手のDiskってどれくらいの時間経過で入れ替えるもんなんだろう、壊れるまで?

      金融は知らないけど、うちが入れてるシステムだと4年から長くても6年ですね。
      たいていは納入機器のベンダーがもう修理や交換はできなくなると言ってくるので
      最悪でもそのタイミングで交換します。

  • 日経×テックにある、以下の内容が全ての障害の原因を表している

    「2号機(編集部注:待機系DBサーバー)の再起動に当たり、
    今回のような極めてまれなディスク2重障害において
    必要となる追加コマンドを復旧手順に含めていなかった」(みずほFG)ことが理由だ。
    待機系単独での立ち上げも試したが、復旧手順をその場でつくれず、断念した。

    ここに返信
  • by Anonymous Coward on 2021年10月11日 14時20分 (#4129797)

    ディスク装置が2重に故障することは極めてまれ

    リカバリ中にもう片方が壊れたなんて話はよく聞きますし、銀行とかだと3重構成になっているもんだと思ってたんですが違うんですね…

    ここに返信
  • by miishika (12648) on 2021年10月12日 5時28分 (#4130343) 日記
    日経新聞の記事を読むとCIO様が「システムを使いこなせていない」とおっしゃっていたけど、
    「使いこなせていない」でなくて「満足に使えていない」の間違いだろとツッコミを入れていた。

    同記事ではシステムに精通した人材を営業等に配置転換したとのことですが、
    障害が連続発生する前なら、理解ある企業の情報システム担当として三顧の礼で迎えてくれたかもしれない(今なら願い下げ)。
    ここに返信
  • by Anonymous Coward on 2021年10月11日 13時08分 (#4129725)

    どこのHDDを買うと正義なの?
    WDは定番の駄目っこだし、Seagateは壊れやすいと聞くし、東芝はよくわからん。

    ここに返信
    • > どこのHDDを買うと正義なの?

      壊れないHDDなど存在しません.HDDは故障前提で購入・運用すべきです.

      購入時は,異なるメーカ,異なるロットで複数台購入が基本
      運用時は,冗長化(RAIDとかミラーリング)監視(SMARTなど)すべきでしょう.

      私の職場では先日バックアップのHDD逹が空調の水漏れで危うく水没するという事件がありました.
      故障以外の理由でデータが消えることもありえます.重要なバックアップは保管場所も二重化したほうがいいですね.

    • Re:結局我々は (スコア:2, 参考になる)

      by Anonymous Coward on 2021年10月11日 13時23分 (#4129744)

      HDD故障率のメーカー・モデル別統計データ2020年版、故障率が最も高かったのは?
      https://gigazine.net/news/20210129-backblaze-hard-drive-stats-2020/ [gigazine.net]

      • by Anonymous Coward on 2021年10月11日 14時04分 (#4129785)

        Backblazeは「コンシューマー用の安いハードディスクを敢えて大量に購入し、信頼性が落ちる分を圧倒的な物量でカバー」という非常に特異なモデルなので、個人がHDDを選ぶ際の参考情報にはなるけど仕事のサーバーの購入指南にはあまり役に立たないのでは。

    • by 90 (35300) on 2021年10月11日 15時40分 (#4129847) 日記

      東芝の型番がMで始まるやつ、またはHGST。Mで始まる3.5"は富士通からの引継ぎとかなんとか。DT系列はHGSTのOEMで、東芝を通して買う意味がないのでNG。安くHGSTを買うにはAmazonでWD Essentialの8TB以上を買うのがそれぞれ一番早く、殻を割ると5400rpmクラスを自称するWD白ラベルのHGST製7K2が出るという話です。ただしAmazonの倉庫は産業用ルンバが揺らしまくるワイヤーラックから作業員が個包装を掴んで通い箱にぶん投げるシステムという噂なのでAmazonから精密メカトロニクス製品を買う行為が賢明かどうかは知らん。

      寿命が長いとされるHDDは異音や発熱があって困るという苦情や低評価レビューが多い傾向もある気がします(だいたい7K2だし)。環境の方がどこまで耐えられるかみたいな面もあるかもしれない。

    • by Anonymous Coward

      1本で使うならSeagateがいいよ。SMARTエラーが正しく報告されないから限界までなんとなく動作する。OSの動作が不審になったら交換時期。RAIDで使ったら故障を検出できないことが多いからダブルディスクフェイルの原因になる。
      2本以上で使うならToshiba、HGST。ソフトウェアRAIDでも故障を検出できるから、安全に交換できる。

      • by Anonymous Coward

        それっていいことなのか?

        # 動けば正義?

  • by Anonymous Coward on 2021年10月11日 13時10分 (#4129729)

    もう少しマシなエクスキューズ出せないのかねえ
    機器の故障による危機ってか

    さて、監督官庁は何というのか聞いてみたいですね

    ここに返信
    • by Anonymous Coward on 2021年10月11日 13時19分 (#4129738)

      しょうもない原因が出てきた場合は大体事実ですよ。

      • by Anonymous Coward
        スラドタイトルだけ見て反応したんじゃないですかね
    • by Anonymous Coward

      MINORI開発開始からそろそろ15年、初期に出来た部分は3回ぐらい更新されてるのでは?

      • by Anonymous Coward

        メインフレームならメーカーに金積めばかなり長期間使えるよ
        ただしメインフレーム以外の機器は何度も更新が必要だろうけど

  • by Anonymous Coward on 2021年10月11日 13時33分 (#4129755)

    > ネットワーク機器に静電気などが生じエラーが発生したと見ている

    なんでもワイのせいにするのやめろ。
    宇宙線とか虫とかの可能性もあるやろ

    ここに返信
    • by Anonymous Coward

      静電気よりも漏電とかアースが浮いてるとか、深く挿入されていないとかの可能性の方が高そう
      まあ今後、重要なNW機器は光収容にする提案が普通に通りそうですね

  • by Anonymous Coward on 2021年10月11日 13時40分 (#4129761)

    同一ロットかつ同一環境で使ってれば
    僅かな猶予はあれど同時期に逝くもんですので
    アラート出たら即まとめて交換できるようにしないとね

    # 同一ロットでそのリスクを負うか別ロットで個体差のリスクを負うかそれが問題だ

    ここに返信
    • by Anonymous Coward

      ベンダーによっては在庫の中から別ロットで出してくれる事もありますね。

      ただ、こうしたベンダー経由で購入するHDDって定価が基本だから、
      変な知識を持っている偉い人に「高い」って文句を言われがち

  • by Anonymous Coward on 2021年10月11日 13時47分 (#4129771)

    ディスク装置が2重に故障することは極めてまれ。「ITベンダーからは4000年に1回と言われた」という発言があったことが話題となっている。いくらなんでも4000年持つものは存在しないだろうとするもので...

    適宜故障をしたら取り替えてという運用を続けていくなかで、同時に故障が起きる確率は4000年に一度と言う話なのに、
    なんでそこから「寿命が4000年ある装置」という考えが出てくるんだw

    ここに返信
    • by nim (10479) on 2021年10月12日 19時01分 (#4130924)

      これ、交換にかかる時間(MTTR)がパラメータに必要なわけだけど、
      どれくらいで計算しているんだろう。

      みずほクラスになると、センター内に予備機が在庫してあって、
      富士通のエンジニアも常駐しているから1時間とかそんな感じなんだろうか。

      #なお某システムの場合は48時間くらいで置いてます。

    • by Anonymous Coward

      てか4000年に一度って、確率的に一度起きてから再度起きるまでの間隔を示したものでしかないよね。
      一回目が4000年後であることを保証するもんじゃない。

  • by Anonymous Coward on 2021年10月11日 14時44分 (#4129814)

    二重化してるディスク装置の片方が壊れたけど交換するには3連休のタイミングじゃないと時間が取れないので片肺運用になるけどまぁ大丈夫だろうと高をくくっていたらもう片方も壊れた・・・というところじゃなかろうか。

    むかーしやってた地銀系のシステムが機械壊れたときの交換対応のタイミングがそんな感じだった気がする。

    しらんけど。

    ここに返信
typodupeerror

Stableって古いって意味だっけ? -- Debian初級

読み込み中...