パスワードを忘れた? アカウント作成
9898888 story
IBM

IBM、Power8を発表 57

ストーリー by hylom
new-power 部門より
あるAnonymous Coward 曰く、

IBMがPower系CPUの最新版「Power8」を米スタンフォード大学で開催されている「Hot Chips 25」で発表した(PC Watch)。

発表によると、POWER8は1コアあたり12スレッドを実行できるコアを12コア搭載、オンチップのキャッシュは6+96MB、オフチップのキャッシュも128MB搭載。メモリ帯域幅は230GB/秒と、POWER7系から大幅に性能が向上している。製造プロセスは22nm。ダイサイズは650平方mmと、かなりの大物になる模様。また、I/OにPCE Express Gen3を採用している点も新しい。

そのほかの仕様についてはPC Watchの記事をみていただきたいが、とりあえず現在の技術でできる物を詰め込んで見ました、という雰囲気だ。これを搭載した製品の発売がいつごろになるかについては触れられていない。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2013年08月29日 14時14分 (#2450317)

    後藤さんの記事では、
    >CPUコアは12コアだが、各コアが8-wayのSMT(Simultaneous Multithreading)をサポートしている。
    >そのため、CPU全体で96スレッドを同時に走らせることができる。
    とありますよ。

  • by Anonymous Coward on 2013年08月29日 14時19分 (#2450325)

    > POWER8は1コアあたり12スレッドを実行できるコアを12コア搭載
    8 SMTだから、「1コアあたり8スレッド」ですね。
    SMT (Simultaneous Multithreading) はIntelのハイパースレッディング
    テクノロジー(Hyper-Threading Technology、HT)みたいなもので、
    HPC用途ではたいていoffにするんだけどね。

    1ノードには何チップまでNUMAで載せることができるのかな。

    • by Anonymous Coward on 2013年08月29日 14時46分 (#2450359)

      >SMT (Simultaneous Multithreading) はIntelのハイパースレッディング
      >テクノロジー(Hyper-Threading Technology、HT)みたいなもので、
      >HPC用途ではたいていoffにするんだけどね。

      気休めの Intel HT と同類と括られたら、さすがに可哀想では。

      後藤さんの記事には、
      >>各CPUコアは8ディスパッチ、10イシュー、16実行ユニット
      とあるので、SPARC T1系のようなバレルプロセッサ(ハードウェアマルチスレッド)に近い、
      同時実行性能を期待してしまうのだが、どうなのだろう?

      親コメント
      • by Anonymous Coward on 2013年08月29日 15時34分 (#2450414)

        POWER8のSMTとインテルHTは物量が違うだけで仕組みは同じ

        SMTは異なるスレッドから同時に命令を発行できるがT1はできないので別物
        http://en.wikipedia.org/wiki/Simultaneous_multithreading [wikipedia.org]

        親コメント
        • by Anonymous Coward

          >POWER8のSMTとインテルHTは物量が違うだけで仕組みは同じ

          仕組みが一緒かどうかどうか、そういう話じゃないよ。
          そんな話は資料で SMT と名乗っている時点で判ってるわけ。
          まして、「バレルに『近い』性能を期待したい」なんて書かないよ。

          物量による実効性能がどうなのか、というのが大事だという話。
          Intel の HT は 2スレッドながら、最大20%も良くなれば御の字のレベル。
          POWER8 は 8スレッドといいつつ、SMT OFF に比べて、20~30%マシだったら、ズッコケでしょ。
          実行ユニットの数からいっても。

          • by Anonymous Coward

            > Intel の HT は 2スレッドながら、最大20%も良くなれば御の字のレベル。

            これはモデルによります。自作の 2D ソフトウェア レンダラ―で、Core i シリーズの HT の効果は 20 % 程度でしたが、Atom は 50% 程度でした。Pentium 4 は試してません。
            数字で揚げ足取りみたいなことしてしまいましたが、確かに POWER8 の SMT がどの程度の性能なのか、わたし気になります!

            • by Anonymous Coward

              IntelのSMTは、そもそも投入しているトランジスタの数もそれなりだったわけで、
              20%程度という性能向上も、トランジスタの投入量に比べると悪くないレベルだったはず。

              ただし、HPC系アプリだと性能がむしろ低下することも多くて、これは別にIntelのSMTの
              ロジック設計に問題があるというわけではなく、単にHPC系アプリはメモリバンド幅がボトルネック
              となることが多く、メモリバンド幅増やさずにSMT有効にしても性能向上はしないし、むしろメモリ
              アクセスが競合する分だけちょっと損するって話。

              今回のPOWER8は、メモリバンド幅が以上に広いので、結構性能が出そうな気がする。

              ちなみにビジネスアプリだと、メモリのバンド幅じゃなくて、レイテンシの方がボトルネックになることが
              多くて、そういうアプリなら、Intel CPU程度のメモリバンド幅でもちゃんとSMTで性能向上します。

              • by ogino (1668) on 2013年08月29日 21時49分 (#2450647) 日記

                SMT はどちらかというとメモリのレイテンシ問題のフォローでしょう。

                普通に処理をしていれば、どうしてもレジスタやキャッシュにないデータが必要になってきます。必要なデータがメインメモリからすぐにくれば良いんですが、近年では CPU の速度とメインメモリとの速度の乖離が大きすぎるため、キャッシュを埋めるまでの時間、CPU が暇をしてしまいます。

                この空いた資源を SMT として別スレッドに使用させれば、どれかのスレッドはレジスタや CPU に近いキャッシュのデータで済む可能性が高いのでメモリレイテンシの悪影響を隠蔽できトータルのスループットが向上する可能性がある、と。

                昔、シングルタスク OS に比べ、余計な処理を必要とするマルチタスク OS の方がスループットが高いのはなぜかという説明に、IO 待ちの間に他の処理ができるから、というものがありましたが、本質的には一緒だと考えています。

                親コメント
              • by Anonymous Coward

                Intel の場合、データ アクセスの局所化に際して HT 有効時で推奨されるデータ サイズがキャッシュ サイズの 1/4 ~ 1/2 になる旨が最適化マニュアルに記載されています。過去に実装したプログラムで並列化の際に、まさに HT 環境でこの数字に思いっきり足を引っ張られて、ループ ブロッキングのサイズ調整をしていたことを思い出しました。結局、スレッド間でキャッシュを食い合って速度が低下しちゃうんですよね。

                POWER8 でこのような縛りを気にしないで良いとなれば、SMT の効果も期待できそうです。32 チャネルの DDR で 230GB/sec。実効速度が想像できないですがワクワクする数字ですね。

              • by Anonymous Coward

                ちょっと前に実験したけど、4SMTのPOWER7で倍ぐらい性能向上した事あります。

              • by Anonymous Coward

                マルチスレッドはリソースが空になるのを別のスレッドで埋めるだけのことです
                メモリに限ったことではありません
                SMTの元祖的なM-MachineではスカスカなVLIWのマルチスレッドでした
                バレルやSMTといった方式の違いはあっても、それ以上でもそれ以下でもありません
                どうして半可通は自分の好みにこじつけたんがるんですかね

              • by ogino (1668) on 2013年08月29日 22時52分 (#2450680) 日記

                SMT が何かという話ではなく、なぜ SMT が採用され、SMT のスレッド数が増えていくのかという話なんですが、なにか勘違いをされていませんか。(そもそも私の好みってなんだろう…)半可通というのはその通りでしょうけど。
                CPU のシリコン面積をどういった機能に割り当てるかは費用対効果を中心に選択されるから、CPU・メモリ間のボトルネックに手当するのが主流になって来るわけで、バンド幅拡大を活かす SIMD とならんで、レイテンシ対策の SMT が主流になっている、という話をしたつもりです。

                親コメント
              • by Anonymous Coward

                MTはリソースの利用率を上げるためのものであってそれ以上でもそれ以下でもありません
                リソースが空く理由としては演算器やメモリアクセスのレイテンシもありますが演算器が多数あることも大きな要因です
                メモリアクセスのレイテンシの隠蔽だけであればOoOである程度カバーできますしSMTではないCoarce-grained MTでも構いません
                しかし山ほどある演算器がガラ空きになるのは複数のスレッドから同時に命令を供給するSMTでなければ対応できません
                演算器が山ほどあるのはシングルスレッド性能を高めるためです

              • by ogino (1668) on 2013年08月30日 0時27分 (#2450721) 日記

                話がかみ合っていないと思うのでそろそろ諦めますが、演算器の空きを埋めるための SMT という点では特に異論はありません。で、4GHz というクロックで動く CPU において「山ほどある演算器がガラ空きになる」理由では何だとお考えですか。シングルスレッドの性能向上を目指すときにボトルネックになっているのはどこですか。

                # もしかして: Coarse-grained MT

                親コメント
              • by Anonymous Coward

                演算器が山ほどあるのはシングルスレッド性能のためだと書きました
                シングルスレッド性能が頭打ちになるのはキャッシュミスと分岐予測ミスですね
                分岐予測ミスは避けようがありませんが、
                キャッシュミス下で可能な限り次のメモリアクセスを発行しレイテンシを隠蔽するためのOoOですしPOWER8でも整数ユニットに比べてロードストアユニットがリッチだと思います

                たんにメモリアクセスレイテンシの隠蔽のためならItanium2のような実装でもいいわけです
                wikipediaをはりましたが、SMTというのは複数スレッドから同時に命令を発行できるのが特徴です
                メモリのレイテンシは1サイクルで演算器が1000個あるようなケースを考えればSMTの利点がわかりやすいと思います

              • by Anonymous Coward

                Power5からのリプレースサイジングをIBMに依頼すると、SMT4対応のAIXにアップデートするか否かの2パターンで、出てくる必要CPUスペックが倍くらい違うね。
                もちろんSMT以外の機能も影響した上での計算だろうけど。

              • by Anonymous Coward

                >メモリアクセスのレイテンシの隠蔽だけであればOoOである程度カバーできますしSMTではないCoarce-grained MTでも構いません

                OoO程度では全然足りませんってば。
                キャッシュミスすると、下手をすると数百クロック待たされる。
                10数クロックのパイプラインのやり直しレベルじゃないよ。

                >http://pc.watch.impress.co.jp/docs/2002/0624/kaigai01.htm
                >
                >例えば、Intelのパトリック・ゲルシンガーCTO兼副社長(Patrick Gelsinger,
                > Vice President & Chief Technology Officer)は「(CPUの性能向上にとって)
                >メモリレイテンシはクリティカルだ。L1とL2キャッシュをミス

              • by Anonymous Coward

                リソースの利用率が低下する要因として
                1.リソースがもとから多目
                2.演算器やメモリアクセスのレイテンシの増大
                と挙げました
                simultaneousでないMTは主に2に、SMTは1に対しても効果的だと述べました
                しかしどういうわけか1を無視する人が多いのでそこに噛みついているわけです
                (そもそも出自も違います)

                現実にはメモリアクセスはポート数が頭打ちになります
                あまりセールストークを真に受けなさんな

                OoOの効果についてはかなり直感に反するものですので新し目の教科書でも読んでくださいな

              • by Anonymous Coward

                >1を無視する人が多い

                ちがうでしょ。
                SMT に 2に効果が殆ど無いor薄い、と言い張っているんでしょ?

                >現実にはメモリアクセスはポート数が頭打ちになります

                それは、キャッシュのヒット率とメモリのデータ転送速度次第でしょ。
                キャッシュミス自体の頻度は多くないが、一旦引っかかると数百クロック待たされる、
                といった世界だと充分に性能向上になると思いますが。
                だからこそ、
                >>Intel の場合、データ アクセスの局所化に際して HT 有効時で推奨されるデータ
                >>サイズがキャッシュ サイズの 1/4 ~ 1/2 になる旨が最適化マニュアルに記載されています。
                という話も出てくるわけで

              • by Anonymous Coward

                > SMT に 2に効果が殆ど無いor薄い、と言い張っているんでしょ?

                私がそう言っていると主張するなら引用してください

                > キャッシュミス自体の頻度は多くないが、一旦引っかかると数百クロック待たされる、
                > といった世界だと充分に性能向上になると思いますが。

                そのためだけならItanium2のようにCoarse-grained MTでもいいわけです

                > その後、徐々に、先に上げた後藤さんの記事にあるような、レイテンシ隠蔽が本丸だった、
                > という話になってきたわけで。

                SMTが演算器やメモリユニットを埋めるのとその結果としてレイテンシが隠蔽されるのは不可分なのです
                原因と結果を並べてどちらが本丸と言うことはできません

              • by Anonymous Coward

                別の言い方をしますと、メモリアクセスのレイテンシが隠蔽された状態というのは、そのメモリアクセスとは依存性のない命令で演算器などが満たされた状態を言います
                これはいいですよね?

                ですから、どうにかして演算器などの利用率を上げることが(メモリアクセス下なら)すなわちレイテンシの隠蔽になるのです
                これが不可分の理由です

              • by Anonymous Coward

                キャッシュミスのペナルティはOoOの命令発行キューに収まる時間じゃすまないことも多いと思いますよ。
                ハズウェルだとそのつもりで実装すればL1ミスまでは許せるかもしれませんが(たぶんそのつもりの実装はしてない)、すくなくともOoOそのものはキャッシュミス隠ぺいを目的として作られたものではありません。

              • by Anonymous Coward

                OoOもSMTと一義的には同様に演算器などをを埋めるためのものですが、ストールしたメモリアクセスを追い越して後続の命令を発行します
                追い越して発行される命令はまた別のアドレス計算やメモリアクセスだったりしますので、プリフェッチのような効果があわれます
                つまりシングルスレッドビューでは先のメモリアクセスのレイテンシが(ある程度)隠蔽されるだけでなく、後続のメモリアクセスのレイテンシが「削減されたように見えます」
                後半がOoOの大きな特徴です

              • by Anonymous Coward

                この人、議論できる人じゃないね。
                自己の主張を押しまくるだけで、本質的な論点に全く答えてない。
                数百クロックのペナルティになると、OoO レベルじゃ隠ぺいできない、というテーマが繰り返し出ているのに、全く答えてない。
                OoO って、数百命令を入れ変えてくれるのかい?

              • by Anonymous Coward

                >そのためだけならItanium2のようにCoarse-grained MTでもいいわけです

                Aを実現するには、BだけではなくCやDでも可能。
                だから、Bを採用した理由はAではない、って論理を展開したいのかい?
                頭悪すぎでは。

                他人を「半可通は自分の好みにこじつけたんがる(ママ)」とか、過激な言葉で
                disってるけどさ、貴方自身が半可通でなく、ゲルシンガーや後藤さんの内容が
                セールストークと言い切るなら、そろそろ「定量的な測定データ」を提示しなよ。

          • by Anonymous Coward

            > まして、「バレルに『近い』性能を期待したい」なんて書かないよ。

            わかっている人ならバレルはシングルスレッドのスループットは低いことくらいは知っているはずですが

            • by Anonymous Coward

              >わかっている人ならバレルは

              ここでの議論は、トータルのスループットと、スレッド数増加で性能がどこまで向上しそうかという話だよ。
              なぜ突然シングルスレッド性能が出てくるのかな?話のコンテキストが分かってない。

    • by Anonymous Coward

      インテルのHTはシングルスレッドでもピークに近い性能が出せるように設計されてるからキャッシュやDRAMの競合の影響が出やすいのではないだろうか。
      投機的なメモリアクセスを多用すると大規模なマルチプロセッサでは影響が無視できなさそうだけど。
      こういう場合のSMTはレイテンシの隠ぺいが主な目的で、キャッシュのWay数やDRAMコントローラの規模を強化することで持続的にフルに
      演算能力を発揮し続られる構成になっているのでは?

  • by Anonymous Coward on 2013年08月29日 14時24分 (#2450330)
    何の略?
    • by Anonymous Coward on 2013年08月29日 14時32分 (#2450344)

      第三世代PCエンジン

      親コメント
    • by Anonymous Coward

      すぐにPCI Express Gen3の誤字だと気付くはず。

    • by Anonymous Coward

      Express と入力する気持ちが先行して、IじゃなくてE を押したパターン?
      文章をつぎはぎしたりすると妙なミスしますしね。
      頭の中では本人は正しく入力した気になっているので意外に気がつかない。

      • by Anonymous Coward
        さすがにこれだけ多いと、明確に意識して意図的に間違いを挿入しているのでしょう。
        • by Anonymous Coward

          いやこれ、タレコミからして間違ってるわけだが

          • by Anonymous Coward

            誤記くらい直してやれよっていつも思うんですよね
            リジェクトするとか

  • by Anonymous Coward on 2013年08月29日 16時54分 (#2450489)

    採用するコンピュータは皆無なんでしょう?

    • by SteppingWind (2654) on 2013年08月29日 18時27分 (#2450544)

      10進演算をサポートしているところから見ると, メインフレームと組み合わせて [ibm.com]使用することも.

      # zBXのことはあまり知らないんですけど

      親コメント
      • by Anonymous Coward

        組み合わせてっていうか、そのまま使うんじゃないの

        • by SteppingWind (2654) on 2013年08月30日 10時25分 (#2450856)

          やっぱりそうですかね. 最近のSystem zは知らなかったのですが, z10あたりからPOWERといろいろ共通化しているみたいですね.

          親コメント
        • by Anonymous Coward

          引用先を見ると、システム統括用として使うような書き方がされてるけど。

          サービスは1つ当たり3バージョンくらい同時に動いてるものだし、
          それぞれのバージョンに似たような構成機器をぶらさげるとかありそう。

          #二十年前の、しかも就職初年度しか触らなかったメインフレームの知識
          程度の話なので、勘違いがあるかも。

    • by Anonymous Coward

      Power7/7+だってPower 7*0とか出てたりSR16000があったりするんだから、同じようにPower 8*0として売られたりスパコン作ったりすんじゃねぇの?

    • by Anonymous Coward

      IBM Power system用でしょ。↓こんなの。
      http://www-06.ibm.com/systems/jp/power/hardware/780/ [ibm.com]

    • by Anonymous Coward

      aix安定しててよいよ。高いけどな!
      商売としてLinuxに業務移行してるけど重要システムはaixそのままがよいと思うんだけどなあ

    • by Anonymous Coward

      スパコンのランキングでもピンピンしてるし、他ベンダに提供しなくても
      元が取れてしまうのではなかろうか。

typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...