パスワードを忘れた? アカウント作成
13523089 story
ストレージ

2017年末のNICOSカードのシステム障害、15台のHDDで構成されたシステムで3台が同時故障 94

ストーリー by hylom
話は分かるが不思議ではある 部門より

2017年末、三菱UFJニコスのシステムに障害が発生した。これによって一部の会員に対する請求が遅延すると言ったトラブルが発生しているが、この障害の原因がHDD3台の同時故障だったことが明らかになった(日経ITpro三菱UFJニコスの発表PDF)。

使用されていたシステムでは15台のHDDを搭載しており、同時に2台までの故障に対しては自動復旧できるが、3台以上が同時に故障した場合は復旧が難しいという。この故障の影響でデータ処理が大幅に滞留して遅延が発生、この問題の解消の過程で二重請求などのトラブルも発生していたという。

  • 予算あれば (スコア:5, 参考になる)

    by iwakuralain (33086) on 2018年02月09日 19時28分 (#3359000)

    某金融関係だったけど壊れてなくても定期的に交換してたところあったが、ストレージの価格次第では安価なものを使い捨て交換したほうがいいのかもね

    ここに返信
    • Re:予算あれば (スコア:5, 参考になる)

      by SteppingWind (2654) on 2018年02月09日 22時29分 (#3359130)

      メインフレーム級になると, 統計的な故障発生情報を使って, 予防保守として交換を行うってのはよくあるんですけどね.

      要は予防保守による追加コスト, 冗長化による追加コスト, そしてシステムダウンによる業務停止での機会損失コストのどれが最も小さくなるかを評価して, 取るべき措置を選ぶべきなんですけどね. その評価自体にもコストがかかるから, いいかげんに決めちゃうんですけど.

  • by Anonymous Coward on 2018年02月09日 19時31分 (#3359003)

    システムを納入したメーカーが書かれていないのでなんとも言えないが...
    某社の保守作業者がMirrorの二重障害を「起こした」例を知っている

    再現手順:
    1.自然故障でHDD障害発生(たまにあるよね)
    2.正常な方のHDDを交換(???)
    3.急激にエラーレートが上がる(そりゃそうだ)
    4.二重障害でしたと報告(嘘つき)

    その後、日中のHDD交換とrebuildが禁止になったとさ
    # ACでなきゃ書けないんだよ!

    ここに返信
    • by nemui4 (20313) on 2018年02月09日 20時12分 (#3359035) 日記

      Disk二台逝くのってわりとあるから基幹業務にミラーは怖いね。

      予算が無いからといって、ひたすら大量の中古格安サーバーをストライプだけで構成して、壊れたら諦めるという運用してた部署もあった。
      保守も入れず、壊れたサーバーが溜まったら使える部品で組み直して再生。
      部長さんが京都の始末屋さんでした。

      • by Anonymous Coward on 2018年02月09日 21時20分 (#3359075)

        同時故障って計算上の確率は低いですが実際の構築と運用次第では頻繁に起こりますからね。
        例えば同じ型番の同じロットのHDDを使い、同じように読み書きが発生するような(単純なミラーとか)場合大体同時期に壊れます

        • by SteppingWind (2654) on 2018年02月09日 22時55分 (#3359154)

          さらに故障によるrebuild時には通常よりもアクセスが集中するので, rebuild中に残っていたディスクも逝くってのは, ある程度常識的なものですよね.

          ですから, あらかじめ余分なディスクを用意しておいて, 数カ月感覚で交換してディスクごとの稼働時間を明確にずらすなんてのも運用上の定石ですよね.

    • by Anonymous Coward on 2018年02月09日 20時30分 (#3359048)

      1台故障して交換中のリビルド負荷により弱っていたもう1台が故障、っていうか全部に読み出しがかかるので、以前に読めなくなっていた箇所があったことが発覚、じゃないの?別に同時故障は怪しいわけじゃないと思うけど。

  • ニコスだけに (スコア:3, おもしろおかしい)

    by Anonymous Coward on 2018年02月09日 18時59分 (#3358981)

    二個までの故障にしか対応してなかったんですね。

    ここに返信
  • 全然不思議じゃないよ (スコア:3, すばらしい洞察)

    by Anonymous Coward on 2018年02月09日 19時16分 (#3358991)

    どうせ、同じ種類、同じ製造時期のHDDだろ
    双子みたいなもんだ
    大体似たような時期に壊れる

    ここに返信
    • なるほど
      こういうケースだとメーカー、型番、ロットの多様性は冗長性として機能するんだな
      天然痘とか黒死病でも死なない人がいたのと似てるね

    • by Anonymous Coward on 2018年02月09日 20時55分 (#3359062)

      一つ壊れたら、同世代のいちばん寿命の短いやつが逝ったということだろう。
      残りも同じ時間酷使していたわけで、遠からず同じ運命に決まってる。

    • by Anonymous Coward

      3台の双子…

  • by Anonymous Coward on 2018年02月09日 18時42分 (#3358969)

    復旧が出来ないのではなく、難しいのですね。

    ここに返信
    • by jzkey (47353) on 2018年02月11日 11時28分 (#3359816)

      「壊れた」と称されたHDDの状態によりけりで、結構復旧できることはある。
      「リビルドしてたけど不良セクタがあったんで復旧だめですね、あ、ついでに論理ディスクも使えなくしておきます(^^)」みたいなことをいうコントローラはおおい。
      うんともすんとも言わないレベルで同時に3台壊れるって事はあんましないし、ディスク単体としてはそれなりのエリアが読たりするので。

      あとは、ディスクを開腹してどうこう、みたいな話で、そういうことができる業者もあるんじゃないのかな。

    • by Anonymous Coward

      基本的にこの手の不具合はコストをかけることで復帰できる場合がおおい
      (無理ではないが多額の費用がかかる(経験髄ずみ)

      • by Anonymous Coward

        骨の髄までしみたのですね。

    • by Anonymous Coward

      できません、というと開き直るな、って怒られたことあるな。
      ようは直球で言うのではなく、回りくどく言うことで、相手が条件反射しにくくなることを狙っているのでは。
      世の中、右に倣えなので。

  • by Anonymous Coward on 2018年02月09日 18時53分 (#3358978)

    ってことですかね。

    ここに返信
    • by Anonymous Coward

      15台をRAID6にするような構成はちょっと考えられないのでなんか別じゃないですかねー
      EMCとかだと予想します

      • by Anonymous Coward

        NetuppとEMC適当に混ぜて全部一気にタヒなないようにしてた。
        15台のdiskだけで運用ってパソコン?

    • by Anonymous Coward

      ケチくさい構成だな。今まで関わったシステムでRAID5や6とか一つもないわ。全部ミラー。

      • by Anonymous Coward

        念のため解説しておくと、RAID上級者向けのジョークだから真に受けちゃダメよ。
        よくある4台で2台分の容量になる構成で、ミラー+ストライピングとRAID6を比べるとRAID6の方が安全。2台が壊れた時、ミラーの方は壊れたのがペアになってる2台だと死ぬので、1/2の確率でアウト。RAID6の方はどの組み合わせの2台が壊れても大丈夫。

        • そんなケチくさいことせず、3台以上でもミラーリングってことでしょ。RAID1で4台なら3台壊れても大丈夫。信頼性向上だけを目指して、容量増加は狙わない。

          ちょうど、昨晩から自宅サーバ(RAID1で2台体制)の1台が死にかけてた(S.M.A.R.T見たらぼろぼろだった)ので、代わりののHDDを今さっき買ってきたとこなのですが、帰宅して交換するまでに残る1台も死んだらどうしようとドキドキです。できれば3台にしたいところですがケースに余裕がないので、とりあえずUSB接続でもう1台増やそうかと悩んでるところ。

          #と、これ書いてて、2.5インチHDDなら内蔵台数増やせるぞと思いついた…しくったなぁ。

          • by SteppingWind (2654) on 2018年02月09日 22時04分 (#3359105)

            バックアップも考えたら3重ミラーが最低限で, 冗長性を考慮すると4重ミラーが欲しいってとこでしょうか.

            RAID5や6ではなくミラーを使う理由としては, ミラーではクローンを作ることができるのでバックアップに長時間をかけることが可能というのが決定的かな. もう一つ, RAID5/6に比べて処理コストが小さいので, IO性能を求めるならミラーというのが昔は常識だったのですが, 最近はどうなんだろ.

  • by Anonymous Coward on 2018年02月09日 19時11分 (#3358988)

    人生は運のみだよね

    ここに返信
  • by Anonymous Coward on 2018年02月09日 20時27分 (#3359043)

    本当に同時にHDDが壊れたんですかねえ・・・

    ここに返信
    • by Anonymous Coward on 2018年02月09日 21時33分 (#3359081)

      報告書の対応策に「監視強化」がうたわれているのが気になりますね。

      本当にアレイを構成するディスクが3台同時に障害を起こしてしまっていたのなら、
      監視を強化したところで何の解決策にもならないわけで、
      「センター設置のシステム機器を毎日遠隔監視する態勢を整備済み」と書かれている
      ところからすると、全く監視していなかったのではないかとさえ思ってしまいます。

  • by Anonymous Coward on 2018年02月09日 20時32分 (#3359049)

    大した物は入ってないけどさ。

    ここに返信
    • by Anonymous Coward

      1本のディスクの容量で足りるデータ量のボリュームしか無いときにはそれでいいんじゃないか。
      問題はそれで収まらなくなったときにどうするか。

      • 今時、論理ボリューム管理になってるだろ。
        2本1セットで足りなくなったら、もう2本買い足してRAID1組んで、論理ボリュームに突っ込めばいいんじゃね?

typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...