パスワードを忘れた? アカウント作成
17213859 story
ストレージ

8月のトヨタ自動車の生産指示システム障害、原因はディスク容量不足 46

ストーリー by nagazou
バックアップまで逝くのは厳しい 部門より
8月末に部品発注システムの不具合でトヨタの全工場が稼働停止になるトラブルがあったがトヨタは6日、この原因に関する発表をおこなった(トヨタリリース)。

先の不具合は部品の発注処理を行う複数のサーバーの一部が利用できなくなったことで発生した。経緯に関しては、不具合発生の前日となる8月27日に定期の保守作業を実施、その際、データベースに溜まったデータの削除と整理を実施したが、作業用のディスク容量が不足していたためエラーが発生、それによってシステムが停止したとしている。

これらのサーバーは、同一のシステムで作動していたため、バックアップ機でも同様の障害が発生した。切り替えができず、工場の稼動停止に至ったとのこと。8月29日に容量の大きいサーバーにデータを移管したことでシステムが復旧し、工場の稼働が再開したとしている。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by miyuri (33181) on 2023年09月07日 17時39分 (#4524732) 日記

    作業用のディスクを割り当てていてもシステムが停止する堅牢性っていうのは、なんだかなーという感じがするする。

    • by jizou (5538) on 2023年09月07日 18時14分 (#4524766) 日記

      ですね..
      作業用ディスクとは。

      ディスクが壊れようがあふれようが、システムは関係なく動いてくれないと、
      作業用ディスクとは言えないぞ...

      親コメント
      • by Anonymous Coward

        >データベースに溜まったデータの削除と整理

        作業用ディスクの問題と言うよりは(空きがあればいいんだろうけど)
        上記作業する為のアプリか手作業かしらんが
        メンテ処理自体の問題な気がする
        システムブロックでもしてたのかねえ

    • by Anonymous Coward on 2023年09月07日 21時34分 (#4524884)

      トヨタだから割り当てケチったとかではなく単に見込みが甘かっただけだろうな。
      プライベートクラウドなので割り当てたつもりが実際には割り当てられていないというかシンプロビジョニングで容量が足りないけど割り当てられてるように見えたとかかな?

      親コメント
      • by Anonymous Coward

        アラートメールが埋もれたとかも有りがち。
        ラック上にパトライト立てたり、システム部門の壁にパトライトを設置しておけば良かったのに……

    • by Anonymous Coward

      普通はディスクやメモリが足りなくなったらシステムは停止するんだけど、どのような堅牢性があればなんだかなーとならないんですか?
      OOM-Killerみたいに必要なさそうなファイルを自動で消したりする機能はどうだろう。

      • 割当てているリソースで可能な範囲で、データの削除及び整理を行えばよい。
        作業用ディスクなら、OSのファイルシステムが介入できないレベルで占有しそうなものだし。

        親コメント
        • by Anonymous Coward

          この人はなんでこのサイトにアカウント作ったんだろう
          機械にできることできないことの前提常識が違いすぎて会話が成立しそうにない

          • by Anonymous Coward

            話が飛躍して申し訳ないが、要するに、幼児的万能感(幼児的な自己都合好し世界妄想)を患わったんでしょう。

            世の中には会話が成立しないバカがいる。でも、金持っている相手なら、どうにかして金を引き出すために話をバカに合わせる。その成れの果てというものがある。
            世の中を甘く見ているバカは、金で何でも解決できると思っている(ある種の幼児的万能感でしょう)。実際は、金で解決できないことはあるし、解決できないことを解決できるよ、とウソつく悪人もいる。大金を騙し取られて惨めな思いに苦しむ人がいるが、大人のビジネスの世界では、自己責任(自

            • by Anonymous Coward

              バカの話は長いらしい

      • by Anonymous Coward on 2023年09月07日 20時49分 (#4524862)

        OOM-Killerじゃないけど、大きめのダミーファイルを予め用意しておいて、
        いざヤバイ時はダミーファイルを削除することで時間稼ぎするシステム運用はやってたりする。
        増加量がゆっくりならそこそこ時間を稼げる。

        その間にデータ不整合が起きないようにシステムを安全に止めるか、新しいストレージを手配するか。
        阿呆みたいに作業ディスクを食い潰すようなクエリがいたら、許可を得て止めるとか。

        親コメント
        • by Anonymous Coward

          スパースファイルはCOWとか透過的圧縮に潰されたり。

          • by Anonymous Coward

            なので乱数で埋めてる。

            本来はディスククオータ機能でやるべきなんだけど、事故った時の回避ハックがずるずると。
            かなりのバッドノウハウなので他人にはオススメできない。

      • by Anonymous Coward
        必要なさそうなファイル消す魔法の呪文
        # rm -rf /

        開いてるファイルのファイルディスクリプタは残ってるはずだから開いてる間は消えない。
  • by htakehoge (34352) on 2023年09月07日 13時52分 (#4524521)
    もってくれ俺の体!
  • by Anonymous Coward on 2023年09月07日 14時57分 (#4524568)

    その昔、某社の独自仕様のマシン向けに開発をしていた。
    そのマシンにはデータ量に応じたファイルの使用量を示すツールが付いていて、それに従ってディスクの割り当てをした。
    それがデータ量に比べても過大なディスク割り当てを、そのツールの出す値に従って行っても容量不足となって、散々苦労させられた。
    結局、サードパーティのツールを使うとOKだということに行きついた。
    某社のツールは信頼性がなくて、某社の中でも使用しないこととなっていたこと知ったのは、その後だった。

    • by Anonymous Coward on 2023年09月07日 18時01分 (#4524757)

      みんなFだと思うから、FじゃないならF以外と書かないとFがかわいそう。

      親コメント
      • by Anonymous Coward

        昼に親コメント読んだ時Fか…?と思ってコメント付けようかと思いつつ手を止めたが、他の人もそう思うのか。
        # 最後の行に何か反応するものがある

      • by Anonymous Coward

        「すべてがFになる」ってそういう(ちがいます

  • by Anonymous Coward on 2023年09月07日 15時17分 (#4524582)

    現場はヤバイ事知ってたけど、上げた稟議書が素直に通らなくて(何せ乾いた雑巾を絞るトヨタ様だ)、そうこうしている内に実際にシステムが落ちて、漸く偉い様の非常大権が発動されたとかでは?

    • by Anonymous Coward on 2023年09月07日 15時44分 (#4524611)

      「なんで壊れてもいないディスクをリプレイスする必要があるんだ? 容量が足りぬは工夫が足りぬ」って言われたのかな (´・ω・`)
       
      果たしてトヨタのなぜなぜ分析は理想どおりに適用できたのか気になる。

      親コメント
      • by Anonymous Coward

        「なんで壊れてもいないディスクをリプレイスする必要があるんだ? 容量が足りぬは工夫が足りぬ」

        車検の予防整備・部品交換で子会社食わせているトヨタ、あるある。

      • by Anonymous Coward

        なんで、工業製品の極致ともいえる自動車産業のトップを行くトヨタが、バスタブ曲線すら理解してないかのような想像をするの?
        トヨタの人間よりも自分のほうが賢いとでも思ってる?
        > (´・ω・`)
        こういう顔文字入れる時点で、お里が知れるというか

    • by Anonymous Coward

      自分がトヨタ様とお仕事した時は、さすが金持ってんな以外の感想が出てこなかったがw

      • by Anonymous Coward

        「うちから受注したいのならタダでサンプルよこせ」って言ってきたM社との打ち合わせで凹みまくったあと、おなじサンプルについてT社と打ち合わせしたら「え?\XXMでいいの?」と言ってきて「これが会社規模&人&リテラシーの違いか・・・」ってなった。
        T社マジ金持ち。

      • by Anonymous Coward

        私が若い頃は、社員寮のドアの塗装に、余った塗料を使っているとか聞いたなぁ。

      • by Anonymous Coward

        おんなじような名前の部署が複数ありおんなじような業務をやっていておんなじようなシステムが部署ごとにあるみたいな?

      • by Anonymous Coward

        同じ感想です。
        代替可能なものはさっさと切り替えるようだけど、一品モノとか技術にはきちんと金払ってくれる印象。
        この職位でこの金額決済してくれるのかとビビる。

      • by Anonymous Coward

        実際の下請けイジメはトヨタ本体はたいしてしない。ヤバいことが起きているのは3次4次。
        原因はトヨタ本体と言われたら否定はしないけど。

    • by Anonymous Coward

      これ [srad.jp]ですね。
      でも、詰め腹切らせずに偉い人の非常大権で対応したんだからマシでは。
      客船焼いた所は、光速を超えたり過去に通信する前提だし。

  • by Anonymous Coward on 2023年09月07日 14時25分 (#4524543)

    キチキチまで使ってしまうと、削除しようと思ってもできなくなって最悪詰んでしまうのが。複雑なことをしているのがいけないんだろうけど。溢れそうになったら削ればいいってわけじゃないのがこわい。

    • by Anonymous Coward

      身近なところだとZFSでやらかす人たまに聞きますね。

  • by Anonymous Coward on 2023年09月07日 15時53分 (#4524615)

    工場がらみで24時間タスクを組んでいると停止させて調整するタイミングがなくなる。
    昼は普通に稼働し夜はバックアップタスクが動く
    下っ端はサーバーに問題があることを理解していただろうけど
    作業スケジュールでサーバーを止めてるもしくはシステムの再構築する時期を組めなかった
    工場が止まるからね。そんな状況で使って事故ったとしか思えん。

    • by Anonymous Coward

      ストレージがホットスワップ対応してないとか、この規模のシステムでありえないでしょ

      • by Anonymous Coward

        ホットスワップに対応していても、大きいストレージに交換したら、空き容量ふえるの?
        リサイズ時には止めないといけないとかないのかな。

        • by Anonymous Coward

          lvmで運用してれば、止めずに容量追加できるでしょ。

          • by Anonymous Coward

            気付けるかは微妙。気付いて間に合うかも微妙。はんこリレーがあろうがなかろうがね。

            • by Anonymous Coward

              気づくとか気づかないとかじゃなく、構築時に想定するものでしょ
              はんこリレーとか関係ない
              トヨタが想定していたかどうかはしらない

  • by Anonymous Coward on 2023年09月07日 16時41分 (#4524665)

    Ubuntuがタッチ入力重視になったころから嫌になってLinux Mintを使っている。MintにはTimeShiftという結構強力なバックアップシステムがあるが、これが元で再起動不能状態に陥った。インテルN100のメモリ8GB、SDD256GBのノートだが、Time Shiftのをデフォルトのまま使っていた。バックアップが多くなりすぎてディスクを圧迫し、使っているうちに動きが鈍くなって再起動したらコンソールだけのリカバリになってしまった。ディスクをマウントしてdfで調べたらやっぱりバックアップが圧迫していた。いらないものを削除して再び起動できるように戻した。だが結局、TeamのSSDが1TBで手ごろな値段であったので買っちゃった。

    • by Anonymous Coward

      > TimeShiftという結構強力なバックアップシステムがあるが、これが元で再起動不能状態に陥った。
       
      Time Shiftだけでなく、時間停止能力も備えていたんですね。

      • by Anonymous Coward

        ザンネンながらMintあるある
        VM上でストレージ容量少なめで使うと大抵行き詰まる
        容量節約したいからVMで使っているのに最近のLinuxは大食らい

  • by Anonymous Coward on 2023年09月07日 21時38分 (#4524886)

    「データベースに溜まったデータの削除と整理」
    「作業用のディスク容量が不足」、、、、
    データベースはちょっと齧った程度だが、
    ・データベースのダンプ形式でのバックアップ
    ・テーブルのtruncate
    ・バックアップからのレストア
    の最初の段階でコケた様にしか思えないんだが、、、
    DBに依ると思うが、もうちょっとマシな最適化コマンドって無かったっけ?
    (vaccum とかshrink table とか?)

    • by Anonymous Coward

      容量圧縮処理前のバックアップ処理でストレージがパンクしてシステム停止。復旧に人数✖️百時間かけて復旧は7日後(営業ではなく)。
      あるある。あるあるだからやだ。

    • by Anonymous Coward

      そっちじゃなくて、バッチ流してる時に、一時表領域とか、REDOとか辺りのトランザクションログとかが一時的に爆発して不足したんじゃないかなぁ。

typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...