さくらのクラウド、脱Oracle 64
ストーリー by hylom
Oracleさん…… 部門より
Oracleさん…… 部門より
あるAnonymous Coward 曰く、
昨年末から今年頭にかけて「さくらのクラウド」で断続的に障害が発生、今年3月には新規申込みの受付中止と改善までの利用料無償化が発表されたが、さくらインターネットがこの問題に関する報告書を発表している(Internet Watch)。
ホストサーバーとストレージ間のトラフィック増によるパケットロス発生とそれによる監視系の誤動作、高負荷時にストレージの処理能力低下や管理ツールの利用ができなくなるといった問題があったということで、さくらインターネットではストレージシステムをOracleの「Sun ZFS Storage Applicance」から自社開発のものに切り替えるという。
新ストレージシステムは6月25日からベータテストを行い、検証が完了し問題がないことを確認できたら新規ユーザー募集を再開するという。予定では新ストレージの正式運用は9月以降という。
Publickeyによると、失敗の要因の1つとして「フル負荷をかけたテストができていなかった」が挙げられている。さくらインターネット側で共有ストレージの知見が不足していた中でベンダに頼りながら開発を進めたが、結局これでは問題が解決できなかったという。また、「結論として、やはり機器の性能はカタログ通りではない(だからきちんと検証が必要で)、またパブリッククラウドでは、通常のベンダサポートでは間に合わない」とも述べられている。
こんな感じなのか? (スコア:5, おもしろおかしい)
さくらの稼働率といったら
並みのデータセンタの比じゃないからな
部品の消耗率はケタはずれだ
カタログ通りの耐久性を確保した事なんて一度もないぜ
サーバつくるやつはシャバの人間さ
ここはシャバじゃない
三途の川の向こう側だ…
Re:こんな感じなのか? (スコア:1)
マッコイ爺さん。
HDDはもっと安く入らんのかね。
Re:こんな感じなのか? (スコア:1)
商談に水をささんでくれ!
死して屍、拾う者なし。
Re: (スコア:0)
東京の人間の感覚からすると津軽海峡が三途の川って事ですね
Re:こんな感じなのか? (スコア:1)
個人的な見解かもしれませんが、角川映画『野生の証明』で「日本のチベット」と呼ばれた奥羽山脈より北は本州にとってそれに近い感覚なのかもと思っています。一方で突き抜けてしまっている北海道は常若の彼岸のような別天地イメージが。
記事をもう一つ (スコア:4, 興味深い)
さくらのクラウド、新ストレージでは性能限界テストをやりやすく、自社開発をまずは採用。さくらの夕べで参加者に説明 - Publickey: [publickey1.jp]
気になったのは、この辺。
現ストレージは事実上ユーザーごとのトラフィック制限はできていなくて、高性能なストレージなので、やってきたトラフィックを全部吸い込んで処理しようとしてしまっていたことはありました。
どんなに高性能でも、リソース制限がきちんとできないと、ということかな。
どこもまだまだ手探り状態だと思う (スコア:2)
手探り状態だから障害起してもいいってわけでもないけど。
ファーストサーバーみたいにうまく出来ているつもりが実はダメだったとかもあるだろうし
クラウドという技術の「運用」が定着するのはもう少し時間がかかるのかな。
# 単なるレンタルサーバーをクラウドと言って営業してきたお兄さんは元気だろうか・・・
Re:どこもまだまだ手探り状態だと思う (スコア:1)
> どこもまだまだ手探り状態だと思う
アマゾンは除く
※2004年には自社向けにクラウド提供してたし一般公開は2006年だし、遅れてるのは日本だけですよ
自社コンテンツで負荷・信頼性テストができる会社は圧倒的に強いです
Re:どこもまだまだ手探り状態だと思う (スコア:1)
> 遅れてるのは日本だけですよ
二行前と矛盾してるようだが。
Re:どこもまだまだ手探り状態だと思う (スコア:1)
アマゾンも除かない。
http://www.itmedia.co.jp/enterprise/articles/1104/30/news001.html [itmedia.co.jp] Amazon、EC2の大規模障害
http://aws.amazon.com/jp/message/65648/ [amazon.com]
去年konozamaデスヨ。
Re: (スコア:0)
> # 単なるレンタルサーバーをクラウドと言って営業してきたお兄さんは元気だろうか・・・
いや、だから、ファーストサーバーのあれは「単なるレンタルサーバー」だろ?
何故並列に並べたし…
Re:どこもまだまだ手探り状態だと思う (スコア:2)
すまん
別にファーストサーバーのこと言ったわけじゃないんだ。
純粋にレンサバ=クラウドと言った兄ちゃんがいたから元気かと思っただけ。
s/Oracle/Sun/g (スコア:1)
脱Oracleというより事実上脱Sunだよな。
でもどうしても「Oracle買収前のSunだったら何とかできたし何とでもしたんだろうな」と思ってしまう。
#ところで導入に関わったSIerはどこだ?CTC?でもそれこそCTCだったらどうとでもしただろうし…?Oracleって直販やってたっけ?
Re:s/Oracle/Sun/g (スコア:1)
Re:s/Oracle/Sun/g (スコア:1)
Re:s/Oracle/Sun/g (スコア:2, 興味深い)
いや、ベンダーに支払うサポート代金をケチった結果でしょう。富士通あたりのトップベンダにそれなりの金を払えば、24時間専任SEを常駐させた上に、バックエンドとして社内にサポート部隊を常設することぐらいはします。
テストも、稼働状態に近い実際のシステムを組んでテストしてます。実際、東証関連の案件では地獄を見ました。
でも、最近そこまで金払いのいいお客さんはいないんで、サポート部隊に参加していた下請けが工数単位ではなく会社単位で切り捨てられているからなあ。今どうなんだろう?
前の勤務先がその切り捨てられた下請けなので、AC
Re: (スコア:0)
サポート費用をケチると欠陥ファームウェアを送ってくるのか?
http://support.sakura.ad.jp/mainte/newsentry.php?id=6994 [sakura.ad.jp]
Re: (スコア:0)
それなりに金払ったら、ベンダーのテスト環境で近い構成を組んで、事前にパッチを評価してくれるよ
Re: (スコア:0)
150台のモンスター級KVMホストと数千のVMでテストするの?そりゃ凄ぇ。でもおいくら億円だろうか。
Re: (スコア:0)
「だったら自社開発します」ってなるよねそりゃ。
どの客もサポートを出し惜しみすれば無限に金を払ってくれると思ってる時点で間違ってるだろ。
Re:s/Oracle/Sun/g (スコア:1)
脱兎Sun か…
Re: (スコア:0)
どうもOracleっていうとRDBMSしか思いつかないですよね。
さくらってOracleのDB使ってたっけなぁとタイトルだけ見て考えこんでしまいました。
Re: (スコア:0)
自分はvirtualboxかと思いましたけどね.fsか.
日本Oracleにとっては嫌なタイミングの発表かな? (スコア:1)
というのは当日日本オラクルの平成24年5月期決算が公表 [oracle.com]されて、夕方から主に証券会社向けの説明会があったから、そこでツッコまれたかもしれない。
既視感 (スコア:1)
むかしむかし、あるISPがSunOS(not Solaris)からNetBSDにリプレースしようとしましたが
カーネルパニック頻発したため、FreeBSDに変えました
障害はエンドユーザーへの公開直後から発生して、1日かけて入れなおしとチューンを行い
用途に応じてLinux/FreeBSD/NetBSDというハイブリット環境になりましたとさ
…という昔話を思い出した
#関係者なのでAC
Re: (スコア:0)
RIM?だっけ。。。
Re: (スコア:0)
4.1.3? の頃、 peach に住んでました。
cgiの使い方とか人のディレクトリ直接見に行って、勝手に参考にしたりとか のどかな時代でした。
負荷テスト軽視 (スコア:1)
良く分かってないインフラエンジニア相手にすると、ファイルシステムやストレージ廻りで、この手の話が良くあって困る。
曰く、負荷テストならテスト系で数十時間やりました。
曰く、本番系で稼働していて障害でていません。
曰く、このファイルシステムのほうが速度が、機能が。
お前ら、クライアント数やディスク使用量、フォーマット直後と違って汚れまくったファイルシステム、冗長構成が縮退した状態、そういうのひっくるめて想定しうる最悪のケースで何週間とかやるもんだろ、負荷テストって。やんなきゃ何のためのテストだよ、おまじないかって。
あと、自作サーバー連中が言う「これこれのディスク・ファイルシステムは俺のところじゃ安定してる」とか言うの、全く無意味だから参考にするなよ、ほんとにもう。
Re:負荷テスト軽視 (スコア:4, 興味深い)
こう言っちゃ何だけど、上にも書いてある通り、金がないんだよ。
すると技術領域で真っ先に削るのがテスト。特に負荷テストとか耐障害性テスト、複雑なシナリオのシステムテストね。
エンジニアはそれがよくないことを知っているし、博打打つの嫌だなーって思ってる。
余程のバカと、正しい事例を見たこともない若手は、思わないみたいだけど。
ちなみに、インフラ方面の最新動向は、テスト省略、SIでの単体テストすら省略ね。
レゴでも作る感覚で組み上げて、組み上げ出気付いた問題だけは最低潰して、テストした顔して上位レイヤ引き渡し。
特に金がないあたりでのインフラはこなれたハードの組み合わせなので、これでも割と行けちゃう。ただ、そう甘い博打じゃない。やっちまったときの悲惨さと言ったら...。ま、悲惨なのは上位レイヤなり顧客なり、受け取る側なんだけど。ここまでやる連中は、博打に負けるのをちゃんと織り込んで、覚悟してるからね。ビジネス的にも。
Re: (スコア:0)
うんにゃ、インフラに限らない。
テストってのは必要条件を満たしているかのテストで、あくまでも「条件さえ整えれば一応動く」でしかないし、それ以上を確認しようともしない。
果たしてそれで充分か、想定され得る条件下でちゃんと動くか、条件の想定は適切か、そんなことは実際に起きてしまうまで考えようともしない。
ITに関する事故の大半はその辺の意識の甘さに起因する。
Re: (スコア:0)
ITにすら限らないだろ。高さ15mの津波が来なければメルトダウンすることはないとか。
Re:負荷テスト軽視 (スコア:1)
オフトピ。
バーナムの森が動かなければ戦争に負けることはない
女の股から産み落とされた者にはけして敗れない
云々
約1000年前の例だけど、安心の欲しい人にとっては安心が得られる言説はピンチの元……
Re: (スコア:0)
それは元コメと全く別の話になってますよ
元コメは,テストの項目をきちんとテストしたことにならないという指摘に対して,
こちらで指摘していることは以下の2つです(よね?).
・一応動くことでしかない
そもそもテストを通過するかどうかは真偽で評価すべき.
例:条件xの下でyという要求を満したか(yes/no)
・テスト項目の妥当性と十分性
これは非常に重要な指摘ではあるけど,元コメとは趣旨が異なる.
ちなみにワーストケースでのテストって簡単にいうけど,
そもそもワーストなんて問題によって異なるわけで,
それを発注元がきちっと要件として出さずに丸投げして,
プロなんだからわかるでしょっていうのは横暴だと思います.
せめて,素人なりに「こういう場合は? あるいはこういう場合でも大丈夫?」ということを聞くことは重要だと思います.
そもそもシステムテストというのも一つの学問になりうる程度に難しいことだという認識が必要です.
原因を妄想 (スコア:1)
ストレージを ホストOSに対してNFS で見せていたようですが、
Solaris の NFS って kernel に任せている部分が結構あるようなので、
zfs の実装とうまくマッチしていなくて、ある閾値付近以上にクライアントが多くなると
ロックの獲得にやけに時間がかかるようになる、とか、
そういった感じに見えます。まぁ、具体的な内容がわからないので妄想の域を出ませんが。
# NFS って元は ufs 向けですからねぇ…
[Q][W][E][R][T][Y]
脱がないのか… (スコア:0)
「さくら」「脱」の字が目に入って思わずタレこみを開いてしまった俺は死んだ方がいい。
Re: (スコア:0)
知世ちゃんがスナップショットを撮るから万一の時のバックアップも安心、とか
Re:脱がないのか… (スコア:1)
専任バックアップオペレータ(システム監査役を兼ねる)がいるのはいいことだ
Re:脱がないのか… (スコア:3)
さらにプロダクトデザインまで兼任しているのだから、
知世ちゃん働き過ぎ。
一人以外は全員敗者
それでもあきらめるより熱くなれ
Re: (スコア:0)
プロダクトの殆どをテスト無しで実戦投入していますが、
それでもトラブルを起こしていないことも注目すべき点でしょう。
Re: (スコア:0)
それはもうスナップショットの為に頭の中で完璧なる妄想^H^Hシミュレーションを行ってますからw
あえて問題点を挙げるとすればコスト意識があまりない事か?
まあはした金なんだろうけど。
Re: (スコア:0)
ケルベロスも使うのかな。
Re: (スコア:0)
倍賞千恵子「バカね、お兄ちゃん」
オリジナルのストレージの詳細が気になる (スコア:0)
オラクルやめて自前で作るよ!と言うところで気になるのがその自前システムの詳細なんだけどどこかで情報出してくれないかな。
さくらたんといえばBSDと言うイメージが未だにあるので、Oracleのアプライアンスは辞めたけど、ZFSは利用しているとかそう言う事は無いかな?
それとも普通にRAIDなのかな…。
Re:オリジナルのストレージの詳細が気になる (スコア:3, 参考になる)
>どこかで情報出してくれないかな。
おなじくpublickeyに掲載済み
http://www.publickey1.jp/blog/12/post_205.html [publickey1.jp]
標準的なストレージ向け筐体のIAサーバ, Linux, iSCSI over Infiniband
Re:オリジナルのストレージの詳細が気になる (スコア:3, 興味深い)
ZFSってハードウェアRAIDと相性が悪い [blogspot.jp]って話はちょい前からありまして, そのあたりを含めてハードウェア構成とかを見直しってことになるのではないかと.
ただZFSって比較的複雑な構成のシステムを運用する際に便利なので, そこは捨てづらいってこともあるでしょうね.
Re:オリジナルのストレージの詳細が気になる (スコア:1)
OracleのDBMSから自前のDBMSに切り替えるのかと勘違いしてました。^^)
なんて、無謀な挑戦だと思いました。
ストレージシステムを自前のものに置き換えるのですね。
Re: (スコア:0)
おっ面白い視点と思たのに。
>それとも普通にRAIDなのかな…。
なんかこの一文がとても残念な感じ(笑)。
Re: (スコア:0)
残念言うな!残念な奴に残念とか言う奴が残念なんだい!
ばーかばーか!うんこ、おまえなんかうんこだ!うんこうんこ!
と残念な返しをしてみる
#残念なのでAC
いや、素人レベルだとZFSはソフトウエアRAIDのすごくて便利な奴という認識から始まってるもんで…。
で、ZFSにする時はRAIDは組み合わせないのが普通ですし。
ベンダの検証環境は? (スコア:0)
こういうのってさ、お得意様や大企業相手には安心して購入してもらうために、タダで検証センターのサーバーを好きなだけ貸してくれるでしょ、普通。少なくともhpやDELLはそういうサービスしてるし。
Oracleはそういうサービスしてないの? それとも検証してこの有様なの?
Re: (スコア:0)
検証はしたけど、想定外の使われ方をしたんじゃないの?
Publickeyの記事にあるにょうに、テスト環境と本番環境の違いが大きかったのでしょう。
単純なトラフィックの負荷とかはできたけど、クライアント数が膨大になった時のテストまではしていなかった(そもそもそんな使われ方をベンダー側が想定していたのか?)ってことだと思うけど