パスワードを忘れた? アカウント作成
14966721 story
お金

東証売停トラブル、自動切替が無効設定されていた原因は仕様変更のマニュアル反映漏れ 72

ストーリー by nagazou
マニュアル更新ミスだったとは 部門より
1日に発生した東京証券取引所の障害の原因について富士通は19日、共有ディスク装置のマニュアルに不備があったと発表した。それによれば、マニュアルにはメモリ故障等に起因する特定事象が発生した場合、必ず自動切替が行われるという記載があったという。しかし、実際には自動切替が行われないパターンの設定があったとしている(富士通)。

実際の仕様とマニュアルの記載に齟齬が生じた理由として、共有ディスク装置のOSがバージョンアップされた際にマニュアル側の記載を変更しなかったことにあるとしている。メモリ部品が故障した原因については、偶発的なものだったという。

一部メディアで金融庁は東証に立ち入り検査を実施する方針だと報じられている。自動切り替えの設定にミスがあったことやシステム障害時の取引再開ルールが整備されていなかったことなどを理由としている(日経新聞読売新聞)。
  • by osakanataro (17131) on 2020年10月21日 15時43分 (#3910636) 日記

    初代はData ONTAP 7G
     該当設定: cf.takeover.on_panic [netapp.com]
      on=PANIC検知で即failover
      off=通常の障害検知プロセスに従ってfailover
     どっちがdefaultかはONTAP 7.xや使用する機能によって異なっていた模様
     (iSCSI/FCPライセンスを有効にすると「on」に変わる、といった記載がある)

    2代目はData ONTAP 8の7-modeかClusteredかは明記なし
     7-modeの該当設定: cf.takeover.on_panic [netapp.com]
     Clusteredの該当設定: storage failoverのonpanic [netapp.com]
      on=failoverする[default]
      off=failoverしない

    3代目はONTAP 9(Clustered)
     該当設定: storage failoverのonpanic [netapp.com]
      on=failoverする[default]
      off=failoverしない

    ONTAP 8の7-modeとONTAP 7Gは設定パラメータ的には同じに見えるけど、内部動作が違う、感じ

    ONTAP7Gのドキュメント

    on: Enables immediate takeover of a failed partner or off to disable immediate takeover. This is the default value.
    off: Disables immediate takeover. If you disable this option, normal takeover procedures apply. The node still takes over if its partner panics, but might take longer to do so.

    ONTAP 8 7-modeのドキュメント

    If the cf.takeover.on_panic option is set to on, a node panic will cause an automatic takeover.
    If the cf.takeover.on_panic option is set to off, a node panic will not cause an automatic takeover.
    You should not turn this option off unless you are instructed by technical support to do so.

    ここに返信
  • by Anonymous Coward on 2020年10月21日 14時55分 (#3910596)

    バージョン7の時点で、即時切替ではなく15秒後切り替えという選択をした理由が知りたいなぁ。
    よさそうな選択肢でないほうをあえて選択したのだから、何らかの理由があったはず。

    ここに返信
  • 例外があるなら「必ず」なんて書くなよ・・・

    ここに返信
    • by Anonymous Coward

      例外があるなら「必ず」なんて書くなよ・・・


      ならおkでしょうか

      # 心を殺してマニュアルに従おう

    • by Anonymous Coward

      マニュアルの最初に「必ず例外がある」と書いておけばOK

      • by Anonymous Coward

        例外発生時は当社は責任を負いかねますまでがセット

        • by Anonymous Coward

          「必ず例外がある」の例外が発生したら責任なんて取りたくないよな。

  • by Anonymous Coward on 2020年10月21日 14時41分 (#3910584)

    Problem Exists Between Keyboard And Chair.

    ここに返信
  • by Anonymous Coward on 2020年10月21日 14時48分 (#3910589)

    マニュアルに書かれていないことを自分で補ってやるのが仕事だ

    ここに返信
    • Re:あるある (スコア:3, 参考になる)

      by Anonymous Coward on 2020年10月21日 15時28分 (#3910624)

      書かれてたけど実際の動作が逆という酷い話やぞ。

      富士通のより東証の資料が分かりやすい。
      (補足資料)NAS設定値について
      https://www.jpx.co.jp/corporate/news/news-releases/0060/20201019-01.html [jpx.co.jp]

      しかもざっくりとしかテストしてなかったんやてー。
      おれもメモリ故障に限定してテストするのはしんどいから省くと思うけどw
      細かく動作を設定できるのが仇になったっぽいな。

      • Re:あるある (スコア:1, 参考になる)

        by Anonymous Coward on 2020年10月21日 15時54分 (#3910644)

        違うよ。設定値ONならどのバージョンでも即時切り替えが行われる。
        初代はOFFでも15秒後に切り替わる(=どの設定でも切り替わる)ようになっていたのが、
        次の世代からはOFFになると切り替わらなくなったという変更がマニュアルの更新から漏れしていたということだよ。
        ついでにいえば、補足資料では初期設定ならきちんと切り替わるようになっているっぽい?ある意味当たり前だけど。

      • by Anonymous Coward

        メモリチップの中に放射性物質を封入したり、ウェハーに放射性物質をドープした、
        エラー検査用メモリとか無いのかな?

        • by Anonymous Coward

          ファミコンカセットばりに動作中に引っこ抜くとか?
          なんかガン治療用には宇宙線(中性子)照射装置とかあるらしいぞ

    • by Anonymous Coward

      障害時の自動切り替え前提のシステムで自動切り替えが発動しなかった時点で詰んでるんだけどな。

    • by Anonymous Coward

      それは仕事の種類と状況による。
      異常事態が発生した後ならともかく、何も起こってないのにミッションクリティカルな定型業務でマニュアル外のことをしちゃだめでしょ。
      それを前提にマニュアルも作らなければならないが、今回はそれができていなかった。

  • by Anonymous Coward on 2020年10月21日 15時01分 (#3910600)

    ヒューマンファクターなんてガン無視で、自分がやれと言われたら発狂するような
    一貫性のない手間ばかり多い操作でも「マニュアルに書いておけばいい」って
    風潮は何なんだろうね。

    日本独特とも言われる「SIer」って奴がクソなだけな気がするんだけど。

    ここに返信
    • そもそもこの設定項目、富士通関係なく、NetApp なんだけど。

    • by Anonymous Coward

      今まで通りのやり方でやる→失敗は作業者のせい
      新しいやり方に変更する→失敗は変更したやつのせい
      どっちを選ぶかは自明じゃん?

      なんかトラブったら営業がへーこらすれば済む程度のシステムなんざそれでいいんだよ
      それになまじ自動化なんかして人手がかからなくなったら、売り上げさがっちゃうじゃん
      これが極めて合理的な判断なんだよ

      • by Anonymous Coward

        >それになまじ自動化なんかして人手がかからなくなったら、売り上げさがっちゃうじゃん

        大手SIがこういうことやるから、海の物とも山の物ともつかぬ中小クラウド業者が奪おうとするわけじゃん?
        で、コストしか見てない経営層が騙されて既存契約切って「移行」するわけじゃん?
        で、言うことは大手の受け売りなので立派でもまともな人材が揃えられていない「中小」ばかりなので、導入後に炎上するわけじゃん?

        合理的か?誰が幸せになってるのさ?

        • by Anonymous Coward

          合理的にやれば幸せになるはずだ、ってのは
          全く合理的な考えじゃないな

    • by Anonymous Coward

      「マニュアル」という単語に脊髄反射ですか?

      この場合、「何をやればいい」ではなく「こういう場合こうなる」っていう事前情報としてのマニュアル記載に誤りがあったってことでしょ

      それにより行われるはずだった事前準備がなくなれば、実際問題が起きた時の初動が遅くなる
      また、自動切替が行われない場合がある旨正しく書いてあった場合、その記述を見て「自動切替になるように設定変更して」と依頼することもできる

      • by Anonymous Coward

        で、今度はパターン漏れがないように全パターン網羅して記述して、
        マニュアルが1万ページ超えるような状態になったとしても

        「マニュアルに書いてありますよね」

        って言うんですよね。

        • by Anonymous Coward

          委託先がそんな資料作ってくれるなら喜んでもらいますよ。
          そうとうリスクが減らせます。

          • by Anonymous Coward

            そんなもので喜ぶのは客を見てない人の発想。

            市場で受け入れられているのはドキュメントもまともに作らない、
            作ってても現状優先とか免責事項を入れてメンテしない、
            サポートすらコミュニティに丸投げって米系巨大ITという現実。

            いいものさえ作れば余計なものは不要。

        • by Anonymous Coward

          お前仕事で「マニュアルはページ数が多いからちゃんと読んでません」って言ってるの?

          • by Anonymous Coward

            逆に聞くが、SIが出してくる膨大なマニュアルを読んで理解してる奴なんているの?
            レビュー記録表が誤字脱字の指摘ばかりで技術的なツッコミ皆無って現場も多いんだが。

      • by Anonymous Coward

        うん、今回のマニュアルって手順書よりもどちらかというと取説だよね。
        記事をしっかり読めば分かるのに、元コメの人って取説読まずに失敗するタイプだったりしないかしらん。

      • by Anonymous Coward

        まあ受け入れテストをどこまでやるかとかそういう話ですかね

  • by Anonymous Coward on 2020年10月21日 15時09分 (#3910608)

    未だに7-modeでActive-Standbyなんて使ってたんだね。cDotでクラスタ化したほうがいいよ。

    ここに返信
    • by Anonymous Coward on 2020年10月21日 21時35分 (#3910866)
      東証には去年納入された物と聞いていたが、7-mode品は4~5年ぐらい前に終息のはず。
      よっぽど営業の力が強かったのだろうか?

      NetAppから出されているcDotのHighAvailability Configuration Guideの日本語版は、
      ONTAP 8.3 用で止まっている。それには、確かにpanic時は無条件に自動テイクオーバー
      するような記述がある。
      英語版は、2020年8月にONTAP 9.7に対応した改訂版が出ていて、-onpanic をfalseにしたら
      自動テイクオーバーされないと書かれている。
      ---------------------------------------------------------------
      "If the onpanic parameter is set to true, a node panic also causes an automatic takeover. If onpanic
      is set to false a node panic does not cause an automatic takeover.
      ---------------------------------------------------------------

      # 2019年までNR1000Fをいくつか触った外野なのでAC
      # こんなクリティカルなアプリケーションが動いてるところにNASを使う?
  • by Anonymous Coward on 2020年10月21日 15時42分 (#3910634)

    一部メディアで金融庁は東証に立ち入り検査を実施する方針だと報じられている。自動切り替えの設定にミスがあったことやシステム障害時の取引再開ルールが整備されていなかったことなどを理由としている

    金融庁もシステム障害時の取引再開ルールが整備されていなかったことを確認していなかったんだよね。
    監督不行き届きだと思うけど。

    ここに返信
    • by Anonymous Coward

      それ監督できる人材は、現場で働けば金融庁の5倍くらいの給料もらえるんじゃないかな。

      • by Anonymous Coward

        人格口撃喰らって退場でしょう…

  • by Anonymous Coward on 2020年10月21日 16時45分 (#3910684)

    原文を優先させるって、基本だよね?

    ここに返信
  • by Anonymous Coward on 2020年10月21日 19時42分 (#3910798)
    富士通が、あくまでも設定ミスという話でイメージダウンコントロールをしてるのかな。
    初代がOFFだったのはまれに誤検知するからデュレイを入れて逃げていたのかしらん。
    設定値の総点検とか、今動いているものを変えるのは、怖いでしょうね。
    ここに返信
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...