パスワードを忘れた? アカウント作成
13177209 story
クラウド

米東海岸で発生したAmazon S3の大規模障害、原因はタイプミス 31

ストーリー by headless
復旧 部門より
米国の東海岸で2月28日朝(日本時間3月1日未明)にAmazon Simple Storage Service(S3)の数時間にわたる大規模な障害が発生し、多くのWebサイトやサービスが影響を受けたのだが、原因はエンジニアのタイプミスだったそうだ(Amazon Web Servicesの発表The Vergeの記事The Guardianの記事The Registerの記事)。

当時、課金システムのデバッグを行っていたAmazon S3チームは、課金システムで使用するサブシステムの少数のサーバーを削除しようとコマンドを入力したのだという。しかし、タイプミスにより、意図していたよりも広い範囲のサーバーが削除されることになる。 意図せず削除されたサーバーはインデックスサブシステムとストレージ割り当てのサブシステムが使用するもので、相当量の容量が削除されたことで各サブシステムの完全な再起動が必要になったとのこと。

S3のサブシステムはこのような状況でも顧客に大きな影響がないよう設計されているが、これらのサブシステムは何年にもわたって完全再起動したことがなかったそうだ。また、S3はこの数年で規模が大幅に拡大しており、再起動時の整合性チェックなどにも想定以上の長い時間を要したという。

同様の問題が今後は発生しないよう、Amazonでは削除に使用するツールを改良して削除速度を低下させ、必要最低限の容量を下回る削除処理が実行できないように対策したとのこと。また、重要なサブシステムの復旧を迅速化するため、S3ではサービスをセルと呼ばれる小さなパーティションに分割して格納しており、規模の拡大に伴ってセルの縮小を進めてきたという。しかし、今回のトラブルでは想定以上の復旧時間を要したため、今後インデックスサブシステムのさらなるパーティショニングを進めるとのことだ。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by ncube2 (2864) on 2017年03月04日 17時12分 (#3170881)

    rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。

    • by Anonymous Coward

      その節は大変お手数かけました。

    • by Anonymous Coward

      とりあえずファーストサーバの件も、関連リンクに上がってて安心した。
      https://security.srad.jp/story/12/08/01/0057216/ [security.srad.jp]

      「ファーストサーバ データ消失オフ『データはどこへ消えた?』」
      「天に召されたデータに献杯!」
      http://www.atmarkit.co.jp/ait/articles/1207/20/news149.html [atmarkit.co.jp]

    • by Anonymous Coward

      rootディレクトリでroot権限で作業中、間違って rm -rf * を実行してしまい、復旧作業に取り掛かったものの「どうせ全部チャラなんだから」と、マシンそのものを新規に設計・開発した人を知っています。

      日本では
      とかじゃないよね?

    • by Anonymous Coward

      まちがって「 rm -fr * 」なんですか?

      rm -fr / tmp/IJrelkdjo/ みたいな間違いではないのですね?

      日本ではファーストサーバが原状回復が不可能な削除をやらかしてしまった事故がありましたけど、そっちも似たようなミスだったのかな。

  • by Anonymous Coward on 2017年03月04日 18時17分 (#3170902)

    強力なコマンドを残しておくと大変だよね(棒

  • by Anonymous Coward on 2017年03月04日 20時48分 (#3170939)

    他人事ではない 部門なのでは?

    • by Anonymous Coward on 2017年03月04日 21時05分 (#3170947)

      重要な入力を惰性で行っている感じ?
      現場でもわりとこういう人居る気がします。
      自分がミスしないと信じていると言うよりミスしたことを覚えていないんだろうなあ。

      親コメント
      • by Anonymous Coward

        危険なのでこうすべきという提案を上にあげる
        →わかったけどそんなコストは払えないと却下される
        →じゃあ何が起きても俺は知らん

        という人だっているんですよ?

        何かが起きる
        →何とかしろと言われる
        →はいはいじゃあ止めるね
        →止めるな
        →止まるからこうしろってのは前に言ったよね?
        →じゃあ最短で

        までがテンプレだけど。

  • by Anonymous Coward on 2017年03月04日 17時58分 (#3170895)

    アマゾンの発表では

    > At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

    誤って入力されたとだけ書いてあり、タイプミスだとはどこにも書いていないのだが、リンク先の三紙はいったいどこからtypoだという情報を仕入れたのだろう

    アマゾンほどの会社がタイプミスにこんなに脆弱だとは考えにくいのだよ
    それとも買いかぶりすぎなのだろうか

    • by Anonymous Coward

      「タイプミス」って言葉が押すキーを間違えたってことか、防げえる誤入力なのかはわからない

      • by Anonymous Coward

        100と入れるべきところに、100と入れようとして、手が滑って1000と入力してしまい、それが受け付けられたのなら、ずいぶんお粗末な話です

        • 滅多に使わない機能なんて、まあ、そんなもんよ

          親コメント
        • by Anonymous Coward

          コンビニの誤発注とか見るとよくありそうな話ですが。

          • by Anonymous Coward

            いい加減システムの方で何とかすべきだとおもうんだ。
            # SVとか本部は右から左にうけながしているだけですって無能の宣伝をしているって気づけ。

            あと、あのネタも「一回だけ面白いもの」だとおもうんだけどな。
            そろそろ痛い目みる店が出てきてもおかしくないとおもうんだ。
            # そもそも誤発注じゃなくて、プロモーションだったりしてな。

            • by Anonymous Coward

              いい加減システムの方で何とかすべきだとおもうんだ。
              # SVとか本部は右から左にうけながしているだけですって無能の宣伝をしているって気づけ。

              なにを言いたいのかさっぱりわからない。
              本部?もしかして人間が注文を処理していると思っているの?

              あと、あのネタも「一回だけ面白いもの」だとおもうんだけどな。

              なんも面白くもありません。
              面白いものとか言わないでください。

              そろそろ痛い目みる店が出てきてもおかしくないとおもうんだ。

              もう十分痛いよ。
              その痛みをちょっとでも減らすために必死になって売りさばいているだけで大赤字には変わりない。

            • by Anonymous Coward

              # そもそも誤発注じゃなくて、プロモーションだったりしてな。

              非道い!
              言っていいことと悪いことがある。

            • by Anonymous Coward

              ご発注はフランチャイズ元から見れば美味しい

              • by Anonymous Coward

                ていうか、10倍誤発注しちゃったをたまに見るけど、ちゃんと捌き切れるのなら、普段からいっぱい売れよっていう

              • by Anonymous Coward

                ちゃんと捌き切れるのなら、

                なにをどう読んでるの?

            • by Anonymous Coward

              > いい加減システムの方で何とかすべきだとおもうんだ。
               
              うん。いい意見ですね。
              で、具体的にはどうするんでしょうか?

              • by Anonymous Coward

                常に入力した1/10の量しか発注しないシステムを作るんだよ

            • by Anonymous Coward

               その結果某MAGIシステムのように緊急シャットダウンしようとしても
              落とせなくなるわけですねわかります。

               まあ物理的に複数の箇所からの入力が必要なようにするとかは
              参考にしていいとは思うけど、それをどうセキュアに実装するかという
              問題はついてまわるんだろうねぇ。

      • by Anonymous Coward

        「防げえる」

    • by Anonymous Coward

      「誤って入力された」か「タイプミス」かでなにかAmazonの評価が変わるか?

      • by Anonymous Coward

        ニュースの正確な伝達性が問われるだけだよ

      • by Anonymous Coward

        アマゾンは人工知能に熱心ですから、当然、重大な操作については怪しいものに人工知能が警告を出すシステムを構築していると思われます

  • by Anonymous Coward on 2017年03月05日 13時47分 (#3171105)

    ext* 系のファイルシステムを使っていて、
    "Check interval" に引っかかってfsck が起動時にかかったのですね。
    システム構築時に適切な設定にしておけば良かったですね。

typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...