パスワードを忘れた? アカウント作成
4568049 story
Oracle

さくらのクラウド、脱Oracle 64

ストーリー by hylom
Oracleさん…… 部門より
あるAnonymous Coward 曰く、

昨年末から今年頭にかけて「さくらのクラウド」で断続的に障害が発生、今年3月には新規申込みの受付中止と改善までの利用料無償化が発表されたが、さくらインターネットがこの問題に関する報告書を発表している(Internet Watch)。

ホストサーバーとストレージ間のトラフィック増によるパケットロス発生とそれによる監視系の誤動作、高負荷時にストレージの処理能力低下や管理ツールの利用ができなくなるといった問題があったということで、さくらインターネットではストレージシステムをOracleの「Sun ZFS Storage Applicance」から自社開発のものに切り替えるという。

新ストレージシステムは6月25日からベータテストを行い、検証が完了し問題がないことを確認できたら新規ユーザー募集を再開するという。予定では新ストレージの正式運用は9月以降という。

Publickeyによると、失敗の要因の1つとして「フル負荷をかけたテストができていなかった」が挙げられている。さくらインターネット側で共有ストレージの知見が不足していた中でベンダに頼りながら開発を進めたが、結局これでは問題が解決できなかったという。また、「結論として、やはり機器の性能はカタログ通りではない(だからきちんと検証が必要で)、またパブリッククラウドでは、通常のベンダサポートでは間に合わない」とも述べられている。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • こんな感じなのか? (スコア:5, おもしろおかしい)

    by Anonymous Coward on 2012年06月27日 13時28分 (#2181821)

    さくらの稼働率といったら
    並みのデータセンタの比じゃないからな

    部品の消耗率はケタはずれだ
    カタログ通りの耐久性を確保した事なんて一度もないぜ

    サーバつくるやつはシャバの人間さ
    ここはシャバじゃない
    三途の川の向こう側だ…

  • by JULY (38066) on 2012年06月27日 14時03分 (#2181867)

    さくらのクラウド、新ストレージでは性能限界テストをやりやすく、自社開発をまずは採用。さくらの夕べで参加者に説明 - Publickey: [publickey1.jp]

    気になったのは、この辺。

    現ストレージは事実上ユーザーごとのトラフィック制限はできていなくて、高性能なストレージなので、やってきたトラフィックを全部吸い込んで処理しようとしてしまっていたことはありました。

    どんなに高性能でも、リソース制限がきちんとできないと、ということかな。

  • 手探り状態だから障害起してもいいってわけでもないけど。
    ファーストサーバーみたいにうまく出来ているつもりが実はダメだったとかもあるだろうし
    クラウドという技術の「運用」が定着するのはもう少し時間がかかるのかな。

    # 単なるレンタルサーバーをクラウドと言って営業してきたお兄さんは元気だろうか・・・

  • by Anonymous Coward on 2012年06月27日 13時29分 (#2181824)

    脱Oracleというより事実上脱Sunだよな。
    でもどうしても「Oracle買収前のSunだったら何とかできたし何とでもしたんだろうな」と思ってしまう。
    #ところで導入に関わったSIerはどこだ?CTC?でもそれこそCTCだったらどうとでもしただろうし…?Oracleって直販やってたっけ?

    • by D_Sigma (26110) on 2012年06月27日 13時39分 (#2181832)
      これに関しては直販しかやってないかと。
      親コメント
    • by shesee (27226) on 2012年06月27日 13時49分 (#2181850) 日記
      富士通...いやなんでもないです
      親コメント
      • Re:s/Oracle/Sun/g (スコア:2, 興味深い)

        by Anonymous Coward on 2012年06月27日 15時22分 (#2181947)

        いや、ベンダーに支払うサポート代金をケチった結果でしょう。富士通あたりのトップベンダにそれなりの金を払えば、24時間専任SEを常駐させた上に、バックエンドとして社内にサポート部隊を常設することぐらいはします。

        テストも、稼働状態に近い実際のシステムを組んでテストしてます。実際、東証関連の案件では地獄を見ました。

        でも、最近そこまで金払いのいいお客さんはいないんで、サポート部隊に参加していた下請けが工数単位ではなく会社単位で切り捨てられているからなあ。今どうなんだろう?

        前の勤務先がその切り捨てられた下請けなので、AC

        親コメント
        • by Anonymous Coward

          サポート費用をケチると欠陥ファームウェアを送ってくるのか?

          http://support.sakura.ad.jp/mainte/newsentry.php?id=6994 [sakura.ad.jp]

          • by Anonymous Coward

            それなりに金払ったら、ベンダーのテスト環境で近い構成を組んで、事前にパッチを評価してくれるよ

            • by Anonymous Coward

              150台のモンスター級KVMホストと数千のVMでテストするの?そりゃ凄ぇ。でもおいくら億円だろうか。

              • by Anonymous Coward

                「だったら自社開発します」ってなるよねそりゃ。
                どの客もサポートを出し惜しみすれば無限に金を払ってくれると思ってる時点で間違ってるだろ。

    • by Anonymous Coward on 2012年06月27日 14時10分 (#2181871)

      脱兎Sun か…

      親コメント
    • by Anonymous Coward

      どうもOracleっていうとRDBMSしか思いつかないですよね。

      さくらってOracleのDB使ってたっけなぁとタイトルだけ見て考えこんでしまいました。

      • by Anonymous Coward

        自分はvirtualboxかと思いましたけどね.fsか.

  • by Anonymous Coward on 2012年06月27日 13時39分 (#2181831)

    というのは当日日本オラクルの平成24年5月期決算が公表 [oracle.com]されて、夕方から主に証券会社向けの説明会があったから、そこでツッコまれたかもしれない。

  • by Anonymous Coward on 2012年06月27日 14時15分 (#2181877)

    むかしむかし、あるISPがSunOS(not Solaris)からNetBSDにリプレースしようとしましたが
    カーネルパニック頻発したため、FreeBSDに変えました

    障害はエンドユーザーへの公開直後から発生して、1日かけて入れなおしとチューンを行い
    用途に応じてLinux/FreeBSD/NetBSDというハイブリット環境になりましたとさ

    …という昔話を思い出した

    #関係者なのでAC

    • by Anonymous Coward

      RIM?だっけ。。。

    • by Anonymous Coward

      4.1.3? の頃、 peach に住んでました。
      cgiの使い方とか人のディレクトリ直接見に行って、勝手に参考にしたりとか のどかな時代でした。

  • by Anonymous Coward on 2012年06月27日 14時57分 (#2181919)

    良く分かってないインフラエンジニア相手にすると、ファイルシステムやストレージ廻りで、この手の話が良くあって困る。

    曰く、負荷テストならテスト系で数十時間やりました。
    曰く、本番系で稼働していて障害でていません。
    曰く、このファイルシステムのほうが速度が、機能が。

    お前ら、クライアント数やディスク使用量、フォーマット直後と違って汚れまくったファイルシステム、冗長構成が縮退した状態、そういうのひっくるめて想定しうる最悪のケースで何週間とかやるもんだろ、負荷テストって。やんなきゃ何のためのテストだよ、おまじないかって。

    あと、自作サーバー連中が言う「これこれのディスク・ファイルシステムは俺のところじゃ安定してる」とか言うの、全く無意味だから参考にするなよ、ほんとにもう。

    • by fukapon (4131) on 2012年06月27日 16時59分 (#2182041) ホームページ

      こう言っちゃ何だけど、上にも書いてある通り、金がないんだよ。
      すると技術領域で真っ先に削るのがテスト。特に負荷テストとか耐障害性テスト、複雑なシナリオのシステムテストね。

      エンジニアはそれがよくないことを知っているし、博打打つの嫌だなーって思ってる。
      余程のバカと、正しい事例を見たこともない若手は、思わないみたいだけど。

      ちなみに、インフラ方面の最新動向は、テスト省略、SIでの単体テストすら省略ね。
      レゴでも作る感覚で組み上げて、組み上げ出気付いた問題だけは最低潰して、テストした顔して上位レイヤ引き渡し。

      特に金がないあたりでのインフラはこなれたハードの組み合わせなので、これでも割と行けちゃう。ただ、そう甘い博打じゃない。やっちまったときの悲惨さと言ったら...。ま、悲惨なのは上位レイヤなり顧客なり、受け取る側なんだけど。ここまでやる連中は、博打に負けるのをちゃんと織り込んで、覚悟してるからね。ビジネス的にも。

      親コメント
    • by Anonymous Coward

      うんにゃ、インフラに限らない。
      テストってのは必要条件を満たしているかのテストで、あくまでも「条件さえ整えれば一応動く」でしかないし、それ以上を確認しようともしない。
      果たしてそれで充分か、想定され得る条件下でちゃんと動くか、条件の想定は適切か、そんなことは実際に起きてしまうまで考えようともしない。
      ITに関する事故の大半はその辺の意識の甘さに起因する。

      • by Anonymous Coward

        ITにすら限らないだろ。高さ15mの津波が来なければメルトダウンすることはないとか。

        • by shibuya (17159) on 2012年06月27日 17時22分 (#2182055) 日記

          オフトピ。
          バーナムの森が動かなければ戦争に負けることはない
          女の股から産み落とされた者にはけして敗れない
          云々
          約1000年前の例だけど、安心の欲しい人にとっては安心が得られる言説はピンチの元……

          親コメント
      • by Anonymous Coward

        それは元コメと全く別の話になってますよ
        元コメは,テストの項目をきちんとテストしたことにならないという指摘に対して,
        こちらで指摘していることは以下の2つです(よね?).
        ・一応動くことでしかない
        そもそもテストを通過するかどうかは真偽で評価すべき.
        例:条件xの下でyという要求を満したか(yes/no)
        ・テスト項目の妥当性と十分性
        これは非常に重要な指摘ではあるけど,元コメとは趣旨が異なる.

        ちなみにワーストケースでのテストって簡単にいうけど,
        そもそもワーストなんて問題によって異なるわけで,
        それを発注元がきちっと要件として出さずに丸投げして,
        プロなんだからわかるでしょっていうのは横暴だと思います.
        せめて,素人なりに「こういう場合は? あるいはこういう場合でも大丈夫?」ということを聞くことは重要だと思います.
        そもそもシステムテストというのも一つの学問になりうる程度に難しいことだという認識が必要です.

  • by qwerty (20776) on 2012年06月28日 1時00分 (#2182360) 日記

    ストレージを ホストOSに対してNFS で見せていたようですが、
    Solaris の NFS って kernel に任せている部分が結構あるようなので、
    zfs の実装とうまくマッチしていなくて、ある閾値付近以上にクライアントが多くなると
    ロックの獲得にやけに時間がかかるようになる、とか、
    そういった感じに見えます。まぁ、具体的な内容がわからないので妄想の域を出ませんが。
    # NFS って元は ufs 向けですからねぇ…

    --
    [Q][W][E][R][T][Y]
  • by Anonymous Coward on 2012年06月27日 13時46分 (#2181842)

    「さくら」「脱」の字が目に入って思わずタレこみを開いてしまった俺は死んだ方がいい。

    • by Anonymous Coward

      知世ちゃんがスナップショットを撮るから万一の時のバックアップも安心、とか

      • by Anonymous Coward on 2012年06月27日 14時01分 (#2181864)

        専任バックアップオペレータ(システム監査役を兼ねる)がいるのはいいことだ

        親コメント
        • さらにプロダクトデザインまで兼任しているのだから、
          知世ちゃん働き過ぎ。

          --
          一人以外は全員敗者
          それでもあきらめるより熱くなれ
          親コメント
          • by Anonymous Coward

            プロダクトの殆どをテスト無しで実戦投入していますが、
            それでもトラブルを起こしていないことも注目すべき点でしょう。

            • by Anonymous Coward

              それはもうスナップショットの為に頭の中で完璧なる妄想^H^Hシミュレーションを行ってますからw

              あえて問題点を挙げるとすればコスト意識があまりない事か?
              まあはした金なんだろうけど。

      • by Anonymous Coward

        ケルベロスも使うのかな。

    • by Anonymous Coward

      倍賞千恵子「バカね、お兄ちゃん」

  • by Anonymous Coward on 2012年06月27日 14時00分 (#2181863)

    オラクルやめて自前で作るよ!と言うところで気になるのがその自前システムの詳細なんだけどどこかで情報出してくれないかな。
    さくらたんといえばBSDと言うイメージが未だにあるので、Oracleのアプライアンスは辞めたけど、ZFSは利用しているとかそう言う事は無いかな?
    それとも普通にRAIDなのかな…。

  • by Anonymous Coward on 2012年06月27日 16時10分 (#2182002)

    こういうのってさ、お得意様や大企業相手には安心して購入してもらうために、タダで検証センターのサーバーを好きなだけ貸してくれるでしょ、普通。少なくともhpやDELLはそういうサービスしてるし。
    Oracleはそういうサービスしてないの? それとも検証してこの有様なの?

    • by Anonymous Coward

      検証はしたけど、想定外の使われ方をしたんじゃないの?

      Publickeyの記事にあるにょうに、テスト環境と本番環境の違いが大きかったのでしょう。
      単純なトラフィックの負荷とかはできたけど、クライアント数が膨大になった時のテストまではしていなかった(そもそもそんな使われ方をベンダー側が想定していたのか?)ってことだと思うけど

typodupeerror

私は悩みをリストアップし始めたが、そのあまりの長さにいやけがさし、何も考えないことにした。-- Robert C. Pike

読み込み中...