東証売停トラブル、自動切替が無効設定されていた原因は仕様変更のマニュアル反映漏れ 72
ストーリー by nagazou
マニュアル更新ミスだったとは 部門より
マニュアル更新ミスだったとは 部門より
1日に発生した東京証券取引所の障害の原因について富士通は19日、共有ディスク装置のマニュアルに不備があったと発表した。それによれば、マニュアルにはメモリ故障等に起因する特定事象が発生した場合、必ず自動切替が行われるという記載があったという。しかし、実際には自動切替が行われないパターンの設定があったとしている(富士通)。
実際の仕様とマニュアルの記載に齟齬が生じた理由として、共有ディスク装置のOSがバージョンアップされた際にマニュアル側の記載を変更しなかったことにあるとしている。メモリ部品が故障した原因については、偶発的なものだったという。
一部メディアで金融庁は東証に立ち入り検査を実施する方針だと報じられている。自動切り替えの設定にミスがあったことやシステム障害時の取引再開ルールが整備されていなかったことなどを理由としている(日経新聞、読売新聞)。
実際の仕様とマニュアルの記載に齟齬が生じた理由として、共有ディスク装置のOSがバージョンアップされた際にマニュアル側の記載を変更しなかったことにあるとしている。メモリ部品が故障した原因については、偶発的なものだったという。
一部メディアで金融庁は東証に立ち入り検査を実施する方針だと報じられている。自動切り替えの設定にミスがあったことやシステム障害時の取引再開ルールが整備されていなかったことなどを理由としている(日経新聞、読売新聞)。
ONTAP7の動作とCluster ONTAPの動作の違い (スコア:5, 参考になる)
初代はData ONTAP 7G
該当設定: cf.takeover.on_panic [netapp.com]
on=PANIC検知で即failover
off=通常の障害検知プロセスに従ってfailover
どっちがdefaultかはONTAP 7.xや使用する機能によって異なっていた模様
(iSCSI/FCPライセンスを有効にすると「on」に変わる、といった記載がある)
2代目はData ONTAP 8の7-modeかClusteredかは明記なし
7-modeの該当設定: cf.takeover.on_panic [netapp.com]
Clusteredの該当設定: storage failoverのonpanic [netapp.com]
on=failoverする[default]
off=failoverしない
3代目はONTAP 9(Clustered)
該当設定: storage failoverのonpanic [netapp.com]
on=failoverする[default]
off=failoverしない
ONTAP 8の7-modeとONTAP 7Gは設定パラメータ的には同じに見えるけど、内部動作が違う、感じ
ONTAP7Gのドキュメント
ONTAP 8 7-modeのドキュメント
Re:ONTAP7の動作とCluster ONTAPの動作の違い (スコア:1)
NetAppとしては項目名が違うんだから挙動が違うのも当然と言いたいところだろうが、7-modeでONTAP 7の挙動をシミュレートできてないのもアレゲ
Re:ONTAP7の動作とCluster ONTAPの動作の違い (スコア:1)
元コメント書いたあと、さらに調べたらたぶんONTAP 7.3~ONTAP 7.3.2ぐらいの間にデフォルト値の変更があったっぽいんですが、ONTAP 7.3.2のドキュメントがちゃんと更新されてないという
Enabling and disabling automatic takeover of a panicked partner [netapp.com]ではcf.takeover.on_panicのデフォルト値について「onがデフォルト」って書いてあるんですが
同じONTAP 7.3.2のReasons for takeover [netapp.com]というどんな時にtakeoverするのかをまとめたページでは「off」って書いてあったりと・・・
どっちが正しいのやら
もともとの設定 (スコア:1)
バージョン7の時点で、即時切替ではなく15秒後切り替えという選択をした理由が知りたいなぁ。
よさそうな選択肢でないほうをあえて選択したのだから、何らかの理由があったはず。
Re:もともとの設定 (スコア:3, 参考になる)
詳しい方の予想ツイート
https://twitter.com/usamin5885/status/1318360840458760193 [twitter.com]
Re: (スコア:0)
コマンドが別物になるほど変わったなら単純な反映漏れじゃなく動作を誤解してたのかもね。
必ず自動切替が行われる(絶対に切り替わるとは言ってない) (スコア:1)
例外があるなら「必ず」なんて書くなよ・・・
Re: (スコア:0)
例外があるなら「必ず」なんて書くなよ・・・
心ずならおkでしょうか
# 心を殺してマニュアルに従おう
Re: (スコア:0)
マニュアルの最初に「必ず例外がある」と書いておけばOK
Re: (スコア:0)
例外発生時は当社は責任を負いかねますまでがセット
Re: (スコア:0)
「必ず例外がある」の例外が発生したら責任なんて取りたくないよな。
マニュアルのせい(笑) (スコア:0)
Problem Exists Between Keyboard And Chair.
あるある (スコア:0)
マニュアルに書かれていないことを自分で補ってやるのが仕事だ
Re:あるある (スコア:3, 参考になる)
書かれてたけど実際の動作が逆という酷い話やぞ。
富士通のより東証の資料が分かりやすい。
(補足資料)NAS設定値について
https://www.jpx.co.jp/corporate/news/news-releases/0060/20201019-01.html [jpx.co.jp]
しかもざっくりとしかテストしてなかったんやてー。
おれもメモリ故障に限定してテストするのはしんどいから省くと思うけどw
細かく動作を設定できるのが仇になったっぽいな。
Re:あるある (スコア:1, 参考になる)
違うよ。設定値ONならどのバージョンでも即時切り替えが行われる。
初代はOFFでも15秒後に切り替わる(=どの設定でも切り替わる)ようになっていたのが、
次の世代からはOFFになると切り替わらなくなったという変更がマニュアルの更新から漏れしていたということだよ。
ついでにいえば、補足資料では初期設定ならきちんと切り替わるようになっているっぽい?ある意味当たり前だけど。
Re:あるある (スコア:1)
それを「書かれてたけど実際の動作が逆」というのでは?
Re: (スコア:0)
メモリチップの中に放射性物質を封入したり、ウェハーに放射性物質をドープした、
エラー検査用メモリとか無いのかな?
Re: (スコア:0)
ファミコンカセットばりに動作中に引っこ抜くとか?
なんかガン治療用には宇宙線(中性子)照射装置とかあるらしいぞ
Re: (スコア:0)
障害時の自動切り替え前提のシステムで自動切り替えが発動しなかった時点で詰んでるんだけどな。
Re: (スコア:0)
それは仕事の種類と状況による。
異常事態が発生した後ならともかく、何も起こってないのにミッションクリティカルな定型業務でマニュアル外のことをしちゃだめでしょ。
それを前提にマニュアルも作らなければならないが、今回はそれができていなかった。
Re:あるある (スコア:1)
そもそも、マニュアル書いてるのはNetAppで、
富士通は日本語化してるだけじゃないの?
だとしたらそれは富士通のせいじゃないでしょ。
NetAppが悪い。
Re:あるある (スコア:1)
や、マニュアルの話じゃなくて、
> パラメータの設計もどうかと思うよ。
はNetAppのせいでしょ。
マニュアルに書けばいいという風潮 (スコア:0)
ヒューマンファクターなんてガン無視で、自分がやれと言われたら発狂するような
一貫性のない手間ばかり多い操作でも「マニュアルに書いておけばいい」って
風潮は何なんだろうね。
日本独特とも言われる「SIer」って奴がクソなだけな気がするんだけど。
Re:マニュアルに書けばいいという風潮 (スコア:1)
そもそもこの設定項目、富士通関係なく、NetApp なんだけど。
Re: (スコア:0)
今まで通りのやり方でやる→失敗は作業者のせい
新しいやり方に変更する→失敗は変更したやつのせい
どっちを選ぶかは自明じゃん?
なんかトラブったら営業がへーこらすれば済む程度のシステムなんざそれでいいんだよ
それになまじ自動化なんかして人手がかからなくなったら、売り上げさがっちゃうじゃん
これが極めて合理的な判断なんだよ
Re: (スコア:0)
>それになまじ自動化なんかして人手がかからなくなったら、売り上げさがっちゃうじゃん
大手SIがこういうことやるから、海の物とも山の物ともつかぬ中小クラウド業者が奪おうとするわけじゃん?
で、コストしか見てない経営層が騙されて既存契約切って「移行」するわけじゃん?
で、言うことは大手の受け売りなので立派でもまともな人材が揃えられていない「中小」ばかりなので、導入後に炎上するわけじゃん?
合理的か?誰が幸せになってるのさ?
Re: (スコア:0)
合理的にやれば幸せになるはずだ、ってのは
全く合理的な考えじゃないな
Re: (スコア:0)
「マニュアル」という単語に脊髄反射ですか?
この場合、「何をやればいい」ではなく「こういう場合こうなる」っていう事前情報としてのマニュアル記載に誤りがあったってことでしょ
それにより行われるはずだった事前準備がなくなれば、実際問題が起きた時の初動が遅くなる
また、自動切替が行われない場合がある旨正しく書いてあった場合、その記述を見て「自動切替になるように設定変更して」と依頼することもできる
Re: (スコア:0)
で、今度はパターン漏れがないように全パターン網羅して記述して、
マニュアルが1万ページ超えるような状態になったとしても
「マニュアルに書いてありますよね」
って言うんですよね。
Re: (スコア:0)
委託先がそんな資料作ってくれるなら喜んでもらいますよ。
そうとうリスクが減らせます。
Re: (スコア:0)
そんなもので喜ぶのは客を見てない人の発想。
市場で受け入れられているのはドキュメントもまともに作らない、
作ってても現状優先とか免責事項を入れてメンテしない、
サポートすらコミュニティに丸投げって米系巨大ITという現実。
いいものさえ作れば余計なものは不要。
Re: (スコア:0)
お前仕事で「マニュアルはページ数が多いからちゃんと読んでません」って言ってるの?
Re: (スコア:0)
逆に聞くが、SIが出してくる膨大なマニュアルを読んで理解してる奴なんているの?
レビュー記録表が誤字脱字の指摘ばかりで技術的なツッコミ皆無って現場も多いんだが。
Re: (スコア:0)
うん、今回のマニュアルって手順書よりもどちらかというと取説だよね。
記事をしっかり読めば分かるのに、元コメの人って取説読まずに失敗するタイプだったりしないかしらん。
Re: (スコア:0)
まあ受け入れテストをどこまでやるかとかそういう話ですかね
NetApp (スコア:0)
未だに7-modeでActive-Standbyなんて使ってたんだね。cDotでクラスタ化したほうがいいよ。
Re:NetApp (スコア:1)
よっぽど営業の力が強かったのだろうか?
NetAppから出されているcDotのHighAvailability Configuration Guideの日本語版は、
ONTAP 8.3 用で止まっている。それには、確かにpanic時は無条件に自動テイクオーバー
するような記述がある。
英語版は、2020年8月にONTAP 9.7に対応した改訂版が出ていて、-onpanic をfalseにしたら
自動テイクオーバーされないと書かれている。
---------------------------------------------------------------
"If the onpanic parameter is set to true, a node panic also causes an automatic takeover. If onpanic
is set to false a node panic does not cause an automatic takeover.
---------------------------------------------------------------
# 2019年までNR1000Fをいくつか触った外野なのでAC
# こんなクリティカルなアプリケーションが動いてるところにNASを使う?
Re:NetApp (スコア:1)
>NetAppから出されているcDotのHighAvailability Configuration Guideの日本語版は、
>ONTAP 8.3 用で止まっている。
私にはONTAP® 9 ハイアベイラビリティ構成ガイド [netapp.com]の冒頭に「ONTAP 9.7用に更新」と書かれているように見えるんだけどなぁ
「English」と「日本語」切り替えボタンに気がついてない?
それともGoogle検索しかしてない?
金融庁の立ち入り検査はしないのかしらん (スコア:0)
一部メディアで金融庁は東証に立ち入り検査を実施する方針だと報じられている。自動切り替えの設定にミスがあったことやシステム障害時の取引再開ルールが整備されていなかったことなどを理由としている
金融庁もシステム障害時の取引再開ルールが整備されていなかったことを確認していなかったんだよね。
監督不行き届きだと思うけど。
Re: (スコア:0)
それ監督できる人材は、現場で働けば金融庁の5倍くらいの給料もらえるんじゃないかな。
Re: (スコア:0)
人格口撃喰らって退場でしょう…
マニュアルの原文と翻訳とで齟齬がある場合 (スコア:0)
原文を優先させるって、基本だよね?
Re:マニュアルの原文と翻訳とで齟齬がある場合 (スコア:1)
翻訳あるなら原文とか読まんし。
齟齬に気が付くのって動作確認でおかしなことがあった時ぐらいじゃね。
Re: (スコア:0)
Re:マニュアルの原文と翻訳とで齟齬がある場合 (スコア:2)
MSDNの訳文みたいに一目瞭然なダメ翻訳なら「原文を見るか」ってなるけど、ちゃんとした訳文になっちゃってる場合は訳文メインになりがちじゃないかなあ。
#なんにせよ、MSDNの訳文に見る価値無し!
Re:マニュアルの原文と翻訳とで齟齬がある場合 (スコア:1)
MSDNの訳文みたいにあからさまにおかしいのはおかしいと気づけるからあまり問題ではない。
困るのはDeepLやGoogleのAI翻訳みたいにパッと見流暢に訳されているけど文が丸々抜けてたり意味が正反対になってたりするやつ
Re:マニュアルの原文と翻訳とで齟齬がある場合 (スコア:1)
「自動テイクオーバーの制御用コマンド [netapp.com]」とか思いっきりONTAP 9の日本語ドキュメントですよ
もしかして「英語」と「日本語」の切り替えボタンに気がついていない?
Re: (スコア:0)
マニュアルの原文と翻訳とで齟齬がある場合
の対応が原文に書いてある(原文に書く)
のが基本だけど、
これといった記述がなければ、原文を優先させるのは必ずしも基本ではない。
# その他、現況優先とか現状優先とか
原文を優先させるって、基本だよね?
Re: (スコア:0)
仰ることはもっともですが、
当該機材はあくまでも富士通の製品とされている以上、ユーザ側(東証側)はOEM供給元であるNetApp側の原文にはアクセスし得ないでしょう?
NetAppは古い文書は一般公開しているものがあるようですけれども。
最初の報道はファームのバグだったから (スコア:0)
初代がOFFだったのはまれに誤検知するからデュレイを入れて逃げていたのかしらん。
設定値の総点検とか、今動いているものを変えるのは、怖いでしょうね。