
JR九州で発生した輸送障害、原因は「SSDの動作仕様の認識不足」 83
ストーリー by hylom
完全互換じゃないのよ 部門より
完全互換じゃないのよ 部門より
あるAnonymous Coward 曰く、
JR九州で7月18日にシステム障害が発生した。「自動列車進路制御装置(PRC)」の不具合が原因だったのだが、調査の結果、不具合は「HDDをSSDに置き換えた」ことに起因することが判明した(日経Tech-On、朝日新聞デジタル)。
従来、PRCではストレージにHDDを使っていたのだが、2010年7月の定期交換時にHDDからSSDへの置き換えが行われたという。通常の動作においては問題は発生しなかったが、「リセット処理」の実行時の挙動がHDDとSSDで異なり、その結果障害が発生したという。具体的には、プログラム上はリセット処理が0.2秒以内に完了しない場合にエラーとするように実装されていたのだが、このSSDのリセット処理には0.3秒が要していたそうだ。
JR九州もシステムを納入した日立製作所もこの仕様について気付いておらず、そのためにシステム障害が発生したようだ。
オフトピ (スコア:5, おもしろおかしい)
死して屍、拾う者なし。
Re: (スコア:0)
理解できない人のために、かいせつよろ。
A4一枚にざっくりと。
Re:オフトピ (スコア:5, おもしろおかしい)
下記ご参照頂きたく。
日立用語 拝承!! [wankuma.com]
---以上---
死して屍、拾う者なし。
Re: (スコア:0)
× かいせつよろ
○ 解説頂きたく
Re: (スコア:0)
(AC)
横並びもお願いします。
Re: (スコア:0)
(AC)
毎々お世話になっております。SDJのACです。
首記の件、日立用語にてggって頂きたく
検討願う
-以上-
わけわかんない (スコア:3, 参考になる)
タレコミ文にもある朝日新聞の記事 [asahi.com]を見れば、
と書いてあって、リセットは情報を削除することであるように書いている。
毎日新聞の記事 [mainichi.jp]を見れば、
基板交換作業に問題があるようなことが書いてある。関係者さんの妄想?
本当のところはどうなんだろうとJR九州のページ [jrkyushu.co.jp]を見たら、
としか書いてない。
#それだけなのでAC
リセット処理は初めてだったそうな。 (スコア:2)
http://www.nikkei.com/article/DGXNASJC2202V_S3A720C1ACY000/ [nikkei.com]
こっちの記事によると、リセットというか、再起動のようですね。
0.2秒決めうちで記憶装置さわりにいったらまだ準備中でこけたとか、そんな感じ?
まあ、たしかに、SSDそのもの起動時間って気にしたことないなぁ……
#異常系のテストもちゃんとやろうね。 という教訓として受け取っておこう。
Re:リセット処理は初めてだったそうな。 (スコア:4, すばらしい洞察)
過剰なエラーチェックと、エラー検出時の過剰な対応処理も問題点のひとつなんだろうな。仕様変更ほどでない単なる機能追加、OSバージョンアップやハードの交換に弱くなる。テストが通っていたとしても、ギリギリスレスレのタイミングでパスしただけかもしれん。
Re:リセット処理は初めてだったそうな。 (スコア:1)
>過剰な対応処理
これは日本の開発力を削ぐ大きな原因だと思う
Re:リセット処理は初めてだったそうな。 (スコア:3, 興味深い)
一般に外部記憶装置の立ちあげ時ディレイって, 最悪ケースでは数秒単位で起こる可能性があるので, かなり大きな値を起動時の待ち時間とすることがあります. 例えばSCSI機器などでは起動待ち時間をデフォルトで10秒として, チューニングで実際の機器に合わせて短くするとか.
最近ではUSBメモリを起動ディスクとして使用した場合に, 起動したカーネルが周辺機器をリセットし, その後ルートファイルシステムとしてUSBメモリをマウントしようとして初期化が間に合わず落ちるという現象も起きています.
# 起動時パラメータの設定で回避できるんだけどね
Re:リセット処理は初めてだったそうな。 (スコア:1)
異常系ってわけでもないですね。
HDD交換時には毎回リセットしてたはずです。
同等(以上)品だと聞いてたのでテストせずに単純交換したら、SSDの方が遅い機能があるとは思わなかったと。
同等品だから大丈夫といった日立も日立ですが、
私でも「スペックが同等以上のSSD」に交換するだけなら大丈夫と思わなかったかというと、自信ないですね。
設計が悪い (スコア:3)
0.2secと0.3secなら、同等だろう。同等とは同じ程度といった意であって、同一とは異なるのだから、詳細な仕様がチェックは必要だ。
そもそも、起動時のエラー検出が0.2secに決め打ちという設計がオカシイ。鉄道設備のような長期に渡る運用が前提の製品の場合、まったく同じストレージしか使用できないのではメンテナンス性が悪すぎる。起動時/リセット時に限れば10secリトライしても何の問題もない。
Re:リセット処理は初めてだったそうな。 (スコア:1)
機械としての互換品と、システムとしての適応条件、双方をチェックする事を考えて無かったのかも。
大抵の現場では機会としての互換品ってだけで事足りるので、意識が楽な方に流れた、と。
Re: (スコア:0)
書込制限とかは問題にならないでしょうかね。
今時のSSDはそんな心配要らないのか。
別のメーカーの信号系だとファイルシステムにCF使ってて、システムドライブは書き換えしないようにとか気を遣ってましたけど。
Re:リセット処理は初めてだったそうな。 (スコア:1)
Re:リセット処理は初めてだったそうな。 (スコア:2)
Re:リセット処理は初めてだったそうな。 (スコア:1)
仕様の認識不足はまぁ仕方ない部分があるかと思いますが、この程度のことを事前にテストせずに実運用に持っていっちゃう運用体制のほうが怖いです。
Re: (スコア:0)
この程度のことねー
第三者だからわかりやすいけど、当事者だったらどうなんだろうね
Re: (スコア:0)
何度もやるとリセットさんが出てきて怒られるんだよ。
異常系のテストもそうだが (スコア:2)
チキンは私はギリギリの値を設定するのはよほどの事が無い限り出来ない
# HDDからSSDとかになって、そのうちそれすらもまとめてクラウドで管理とかになる日がくるんだろうか
Re:異常系のテストもそうだが (スコア:2)
Re: (スコア:0)
0.2秒と0.3秒なんて、1.5倍も違うんだからぜんぜんギリギリじゃないでしょ、、
0.2秒もあったら改札なんてどれほどの処理をしていることか、、
Re: (スコア:0)
定常的な連続処理ではなくて、(おそらく稀な)リセット処理の話だよ?
Re: (スコア:0)
>「SSDの動作仕様の認識不足」
動作仕様があるというのなら、ギリギリでもなんでもなく、単に見落としじゃない?
仕様が守られていることの確認はすべきだけど、仕様に対して余裕を設定するのは、使う側じゃなくて
製作する側でしょ。
HDDが0.2杪で回復していたのは何?? (スコア:2)
「HDDのリセット処理に0.2杪かかる」とあるが、そのリセット処理は何をやっていたのかが不思議…
雰囲気的には HDDのリセット処理はもっと長くかかる気がするんだが…。
SSDが遅いというより HDD が「やるべきことをやっておらず早すぎる」気がする。
fjの教祖様
Re:HDDが0.2杪で回復していたのは何?? (スコア:2)
他のコメントにもだいたいありますけど、IDEのディスクをリセットするだけなら、古いHDDの場合はスピンアップ完了までホストを待たせたりはせずに、モーター電源を切ってMPUをリセットしてROMの初めから実行し直すだけとかなんじゃないでしょうか。今時のSoCはかっこいいブートローダをROMで持ってたりフラッシュメモリのコントローラを統合してたり、SSD買ってきたらDDR3が128MB載ってたりとか、リプレース元のシステムにあるもの一式が「SSD装置」として扱われてるようなもので、それが起動してないと反応なんかできない構造なら、時間が何倍もかかってもおかしくないはず。古いシステムでタイミング全部決め打ちってのもよくあることですし。
Re:HDDが0.2杪で回復していたのは何?? (スコア:1)
SSDが遅いというより HDD が「やるべきことをやっておらず早すぎる」気がする。
自分もこれに一票。
たとえば従前のHDDでは
「一部分だけ初期化したら、残りの領域もリセットしたとみなす。
っていうか起動時は不定値でふつうだし。」
で良かったのが、
今回のSSDでは
「きちんと初期化処理するよ。
っていうか不定値だと誤動作するから初期化しないとダメ」
ってな実装になってるとかありそう。
Re: (スコア:0)
SSDのほうが(現実的にできてしまうだけに)隅々までチェックする分時間がかかるというのはあるのかも
Re: (スコア:0)
なんとなくファームのリブートだけ?。メカ系の制御をする前にホストに応答を返すのでは。SSDはリブート直後からNANDを制御できるだけに、もっと複雑なことしてそう
Re:HDDが0.2杪で回復していたのは何?? (スコア:2)
朝日新聞デジタルによると (スコア:1)
> SSDは、運行システム全体と一部で適合しない部品だった
仕様を理解していなかっただけなのに、SSDが悪者のような書き方をしているのには違和感を感じます。
Re: (スコア:0)
違和感は感じているんだから覚えろ。
Re: (スコア:0)
世間じゃSSDとは「なんかしらんけどHDDより早い(そして高価な)やつ」って認識だから、
SSDが遅い?何で?という話でしょう。
実際はケースバイケースなんですけど。
HGST HDDのリセット処理はわずか0.2秒で終了する。 (スコア:1)
ではその処理をもう一度見てみよう
早く立ち上がっていただきたく (スコア:0)
これひっかかるシステム多そう
まさかSSDがHDDより遅い項目があると思わず
Re:早く立ち上がっていただきたく (スコア:1)
シビアな設定でエラーにしてたわけだから、
SSDじゃなくてHDDでも、機種によって速度が微妙に違ってエラーになるケースとかありそうです。
SSDだから、ではなく、
単にそのシビアな設定で新しいユニットが動作するかどうかの、日立のチェック漏れでしょう。
Re: (スコア:0)
平均性能を上げる機能のせいで、最悪時の性能が下がるのは珍しくないので、
「SSDの平均性能が高いから最悪時についてもHDDより良いはずだ」
とは普通は思わないと思う。
日本語 (スコア:0)
0.3秒が要していたって何だ。
0.3秒を要していたんだろう。
Re: (スコア:0)
てにをはは外国人には難しいよね。
hylom氏を日本人かどうかは知りませんが。
Re: (スコア:0)
まるで日本人ならみんなまともな文章を書けると言いたげだな。
(大学を卒業したはずの)仕事先の社員が
毎度のように主語や目的語を欠落した意味不明な文章で連絡してきて困ったことがあったぜ。
最低限の文章もかけない日本人なんて山ほどいるぜ……
悲しい事実だが。
Re: (スコア:0)
…氏「を」日本人かどうかは…
の「を」はツッコミを期待してるのかな?
内容がいまいちわからないけど (スコア:0)
RAID化されてて、RAIDコントローラのファームウェアがマージン少なくてカツカツだったとかかなー
「HDDをSSDに置き換えた」 → HDD抜いて、SSD差して、リビルド とか
HDD上のOSかファイルシステムが0.2秒以内に起動完了?! (スコア:0)
たぶんなんかトラブルあるないに関わらずHDD電気通ってますよ〜みたいな信号を返すだけの話だと思うけど。
実際処理関係でSSDよりHDD有利なことってあるのかな。
HDD部門がなくなったからだろ (スコア:0)
昔はHDDも自社製だったからスペックが悪くなったとかも把握できていたからぎりぎりの値で設定してた。
それが社内でストレージを作らなくなってから外部購入しかしなくなったら、社内から調達していたときには気にしていた値が得られなくなってカタログスペックだけで検討するようになったんでは?
Re: (スコア:0)
製作所の人間の能力が昔からずっと同じレベルにあるという前提からして。
Re:つまり (スコア:1)
なにがおもしろいのか、さっぱりわからない
Re: (スコア:0)
ウルトラセブン?
Re: (スコア:0)
JR九州でセブンといえば、ななつ星 [cruisetrai...enstars.jp]?
Re: (スコア:0)
場違いすぎでしょ