8月のトヨタ自動車の生産指示システム障害、原因はディスク容量不足 46
ストーリー by nagazou
バックアップまで逝くのは厳しい 部門より
バックアップまで逝くのは厳しい 部門より
8月末に部品発注システムの不具合でトヨタの全工場が稼働停止になるトラブルがあったがトヨタは6日、この原因に関する発表をおこなった(トヨタリリース)。
先の不具合は部品の発注処理を行う複数のサーバーの一部が利用できなくなったことで発生した。経緯に関しては、不具合発生の前日となる8月27日に定期の保守作業を実施、その際、データベースに溜まったデータの削除と整理を実施したが、作業用のディスク容量が不足していたためエラーが発生、それによってシステムが停止したとしている。
これらのサーバーは、同一のシステムで作動していたため、バックアップ機でも同様の障害が発生した。切り替えができず、工場の稼動停止に至ったとのこと。8月29日に容量の大きいサーバーにデータを移管したことでシステムが復旧し、工場の稼働が再開したとしている。
先の不具合は部品の発注処理を行う複数のサーバーの一部が利用できなくなったことで発生した。経緯に関しては、不具合発生の前日となる8月27日に定期の保守作業を実施、その際、データベースに溜まったデータの削除と整理を実施したが、作業用のディスク容量が不足していたためエラーが発生、それによってシステムが停止したとしている。
これらのサーバーは、同一のシステムで作動していたため、バックアップ機でも同様の障害が発生した。切り替えができず、工場の稼動停止に至ったとのこと。8月29日に容量の大きいサーバーにデータを移管したことでシステムが復旧し、工場の稼働が再開したとしている。
DBとか知らないけど (スコア:2)
作業用のディスクを割り当てていてもシステムが停止する堅牢性っていうのは、なんだかなーという感じがするする。
Re:DBとか知らないけど (スコア:1)
ですね..
作業用ディスクとは。
ディスクが壊れようがあふれようが、システムは関係なく動いてくれないと、
作業用ディスクとは言えないぞ...
Re: (スコア:0)
>データベースに溜まったデータの削除と整理
作業用ディスクの問題と言うよりは(空きがあればいいんだろうけど)
上記作業する為のアプリか手作業かしらんが
メンテ処理自体の問題な気がする
システムブロックでもしてたのかねえ
Re:DBとか知らないけど (スコア:1)
トヨタだから割り当てケチったとかではなく単に見込みが甘かっただけだろうな。
プライベートクラウドなので割り当てたつもりが実際には割り当てられていないというかシンプロビジョニングで容量が足りないけど割り当てられてるように見えたとかかな?
Re: (スコア:0)
アラートメールが埋もれたとかも有りがち。
ラック上にパトライト立てたり、システム部門の壁にパトライトを設置しておけば良かったのに……
Re: (スコア:0)
普通はディスクやメモリが足りなくなったらシステムは停止するんだけど、どのような堅牢性があればなんだかなーとならないんですか?
OOM-Killerみたいに必要なさそうなファイルを自動で消したりする機能はどうだろう。
Re:DBとか知らないけど (スコア:2)
割当てているリソースで可能な範囲で、データの削除及び整理を行えばよい。
作業用ディスクなら、OSのファイルシステムが介入できないレベルで占有しそうなものだし。
Re: (スコア:0)
この人はなんでこのサイトにアカウント作ったんだろう
機械にできることできないことの前提常識が違いすぎて会話が成立しそうにない
Re: (スコア:0)
話が飛躍して申し訳ないが、要するに、幼児的万能感(幼児的な自己都合好し世界妄想)を患わったんでしょう。
世の中には会話が成立しないバカがいる。でも、金持っている相手なら、どうにかして金を引き出すために話をバカに合わせる。その成れの果てというものがある。
世の中を甘く見ているバカは、金で何でも解決できると思っている(ある種の幼児的万能感でしょう)。実際は、金で解決できないことはあるし、解決できないことを解決できるよ、とウソつく悪人もいる。大金を騙し取られて惨めな思いに苦しむ人がいるが、大人のビジネスの世界では、自己責任(自
Re: (スコア:0)
バカの話は長いらしい
Re:DBとか知らないけど (スコア:1)
OOM-Killerじゃないけど、大きめのダミーファイルを予め用意しておいて、
いざヤバイ時はダミーファイルを削除することで時間稼ぎするシステム運用はやってたりする。
増加量がゆっくりならそこそこ時間を稼げる。
その間にデータ不整合が起きないようにシステムを安全に止めるか、新しいストレージを手配するか。
阿呆みたいに作業ディスクを食い潰すようなクエリがいたら、許可を得て止めるとか。
Re: (スコア:0)
スパースファイルはCOWとか透過的圧縮に潰されたり。
Re: (スコア:0)
なので乱数で埋めてる。
本来はディスククオータ機能でやるべきなんだけど、事故った時の回避ハックがずるずると。
かなりのバッドノウハウなので他人にはオススメできない。
Re: (スコア:0)
# rm -rf /
開いてるファイルのファイルディスクリプタは残ってるはずだから開いてる間は消えない。
作業用ディスク (スコア:1)
Re:作業用ディスク (スコア:1)
かんばんが足りなくなったってことかーーーー!!(違
Re:作業用ディスク (スコア:1)
ギリギリを追求すればいいとか、ようりょうが悪いですよね
昔の記憶が蘇った (スコア:1)
その昔、某社の独自仕様のマシン向けに開発をしていた。
そのマシンにはデータ量に応じたファイルの使用量を示すツールが付いていて、それに従ってディスクの割り当てをした。
それがデータ量に比べても過大なディスク割り当てを、そのツールの出す値に従って行っても容量不足となって、散々苦労させられた。
結局、サードパーティのツールを使うとOKだということに行きついた。
某社のツールは信頼性がなくて、某社の中でも使用しないこととなっていたこと知ったのは、その後だった。
Re:昔の記憶が蘇った (スコア:1)
みんなFだと思うから、FじゃないならF以外と書かないとFがかわいそう。
Re: (スコア:0)
昼に親コメント読んだ時Fか…?と思ってコメント付けようかと思いつつ手を止めたが、他の人もそう思うのか。
# 最後の行に何か反応するものがある
Re: (スコア:0)
「すべてがFになる」ってそういう(ちがいます
日本企業あるある (スコア:1)
現場はヤバイ事知ってたけど、上げた稟議書が素直に通らなくて(何せ乾いた雑巾を絞るトヨタ様だ)、そうこうしている内に実際にシステムが落ちて、漸く偉い様の非常大権が発動されたとかでは?
Re:日本企業あるある (スコア:1)
「なんで壊れてもいないディスクをリプレイスする必要があるんだ? 容量が足りぬは工夫が足りぬ」って言われたのかな (´・ω・`)
果たしてトヨタのなぜなぜ分析は理想どおりに適用できたのか気になる。
Re: (スコア:0)
「なんで壊れてもいないディスクをリプレイスする必要があるんだ? 容量が足りぬは工夫が足りぬ」
車検の予防整備・部品交換で子会社食わせているトヨタ、あるある。
Re: (スコア:0)
なんで、工業製品の極致ともいえる自動車産業のトップを行くトヨタが、バスタブ曲線すら理解してないかのような想像をするの?
トヨタの人間よりも自分のほうが賢いとでも思ってる?
> (´・ω・`)
こういう顔文字入れる時点で、お里が知れるというか
Re: (スコア:0)
自分がトヨタ様とお仕事した時は、さすが金持ってんな以外の感想が出てこなかったがw
Re: (スコア:0)
「うちから受注したいのならタダでサンプルよこせ」って言ってきたM社との打ち合わせで凹みまくったあと、おなじサンプルについてT社と打ち合わせしたら「え?\XXMでいいの?」と言ってきて「これが会社規模&人&リテラシーの違いか・・・」ってなった。
T社マジ金持ち。
Re: (スコア:0)
私が若い頃は、社員寮のドアの塗装に、余った塗料を使っているとか聞いたなぁ。
Re: (スコア:0)
おんなじような名前の部署が複数ありおんなじような業務をやっていておんなじようなシステムが部署ごとにあるみたいな?
Re: (スコア:0)
同じ感想です。
代替可能なものはさっさと切り替えるようだけど、一品モノとか技術にはきちんと金払ってくれる印象。
この職位でこの金額決済してくれるのかとビビる。
Re: (スコア:0)
実際の下請けイジメはトヨタ本体はたいしてしない。ヤバいことが起きているのは3次4次。
原因はトヨタ本体と言われたら否定はしないけど。
Re: (スコア:0)
これ [srad.jp]ですね。
でも、詰め腹切らせずに偉い人の非常大権で対応したんだからマシでは。
客船焼いた所は、光速を超えたり過去に通信する前提だし。
ファイルシステムでもあるよね… (スコア:0)
キチキチまで使ってしまうと、削除しようと思ってもできなくなって最悪詰んでしまうのが。複雑なことをしているのがいけないんだろうけど。溢れそうになったら削ればいいってわけじゃないのがこわい。
Re: (スコア:0)
身近なところだとZFSでやらかす人たまに聞きますね。
自前サーバーの悲劇 (スコア:0)
工場がらみで24時間タスクを組んでいると停止させて調整するタイミングがなくなる。
昼は普通に稼働し夜はバックアップタスクが動く
下っ端はサーバーに問題があることを理解していただろうけど
作業スケジュールでサーバーを止めてるもしくはシステムの再構築する時期を組めなかった
工場が止まるからね。そんな状況で使って事故ったとしか思えん。
Re: (スコア:0)
ストレージがホットスワップ対応してないとか、この規模のシステムでありえないでしょ
Re: (スコア:0)
ホットスワップに対応していても、大きいストレージに交換したら、空き容量ふえるの?
リサイズ時には止めないといけないとかないのかな。
Re: (スコア:0)
lvmで運用してれば、止めずに容量追加できるでしょ。
Re: (スコア:0)
気付けるかは微妙。気付いて間に合うかも微妙。はんこリレーがあろうがなかろうがね。
Re: (スコア:0)
気づくとか気づかないとかじゃなく、構築時に想定するものでしょ
はんこリレーとか関係ない
トヨタが想定していたかどうかはしらない
最近自分にあったこと (スコア:0)
Ubuntuがタッチ入力重視になったころから嫌になってLinux Mintを使っている。MintにはTimeShiftという結構強力なバックアップシステムがあるが、これが元で再起動不能状態に陥った。インテルN100のメモリ8GB、SDD256GBのノートだが、Time Shiftのをデフォルトのまま使っていた。バックアップが多くなりすぎてディスクを圧迫し、使っているうちに動きが鈍くなって再起動したらコンソールだけのリカバリになってしまった。ディスクをマウントしてdfで調べたらやっぱりバックアップが圧迫していた。いらないものを削除して再び起動できるように戻した。だが結局、TeamのSSDが1TBで手ごろな値段であったので買っちゃった。
Re: (スコア:0)
> TimeShiftという結構強力なバックアップシステムがあるが、これが元で再起動不能状態に陥った。
Time Shiftだけでなく、時間停止能力も備えていたんですね。
Re: (スコア:0)
ザンネンながらMintあるある
VM上でストレージ容量少なめで使うと大抵行き詰まる
容量節約したいからVMで使っているのに最近のLinuxは大食らい
まさかとは思うが (スコア:0)
「データベースに溜まったデータの削除と整理」
「作業用のディスク容量が不足」、、、、
データベースはちょっと齧った程度だが、
・データベースのダンプ形式でのバックアップ
・テーブルのtruncate
・バックアップからのレストア
の最初の段階でコケた様にしか思えないんだが、、、
DBに依ると思うが、もうちょっとマシな最適化コマンドって無かったっけ?
(vaccum とかshrink table とか?)
Re: (スコア:0)
容量圧縮処理前のバックアップ処理でストレージがパンクしてシステム停止。復旧に人数✖️百時間かけて復旧は7日後(営業ではなく)。
あるある。あるあるだからやだ。
Re: (スコア:0)
そっちじゃなくて、バッチ流してる時に、一時表領域とか、REDOとか辺りのトランザクションログとかが一時的に爆発して不足したんじゃないかなぁ。