パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

2017年末のNICOSカードのシステム障害、15台のHDDで構成されたシステムで3台が同時故障」記事へのコメント

  • by Anonymous Coward

    システムを納入したメーカーが書かれていないのでなんとも言えないが...
    某社の保守作業者がMirrorの二重障害を「起こした」例を知っている

    再現手順:
    1.自然故障でHDD障害発生(たまにあるよね)
    2.正常な方のHDDを交換(???)
    3.急激にエラーレートが上がる(そりゃそうだ)
    4.二重障害でしたと報告(嘘つき)

    その後、日中のHDD交換とrebuildが禁止になったとさ
    # ACでなきゃ書けないんだよ!

    • by nemui4 (20313) on 2018年02月09日 20時12分 (#3359035) 日記

      Disk二台逝くのってわりとあるから基幹業務にミラーは怖いね。

      予算が無いからといって、ひたすら大量の中古格安サーバーをストライプだけで構成して、壊れたら諦めるという運用してた部署もあった。
      保守も入れず、壊れたサーバーが溜まったら使える部品で組み直して再生。
      部長さんが京都の始末屋さんでした。

      親コメント
      • by Anonymous Coward on 2018年02月09日 21時20分 (#3359075)

        同時故障って計算上の確率は低いですが実際の構築と運用次第では頻繁に起こりますからね。
        例えば同じ型番の同じロットのHDDを使い、同じように読み書きが発生するような(単純なミラーとか)場合大体同時期に壊れます

        親コメント
        • by SteppingWind (2654) on 2018年02月09日 22時55分 (#3359154)

          さらに故障によるrebuild時には通常よりもアクセスが集中するので, rebuild中に残っていたディスクも逝くってのは, ある程度常識的なものですよね.

          ですから, あらかじめ余分なディスクを用意しておいて, 数カ月感覚で交換してディスクごとの稼働時間を明確にずらすなんてのも運用上の定石ですよね.

          親コメント
          • by Anonymous Coward

            あと、rebuild中は生き残ったディスクの全領域を読みながら交換したディスクに書き込むので、
            普段めったにアクセスしない領域もアクセスすることになり、知らなきゃよかったようなエラーも
            見つかって(見つけて)しまう、ということも。

        • by Anonymous Coward

          それは計算の仮定(HDDの故障は独立事象)がおかしいだけで計算自体に罪はないだろ

      • by Anonymous Coward

        別に3台でミラーリングしてもいいし10台でミラーリングしたっていい。

人生unstable -- あるハッカー

処理中...