パスワードを忘れた? アカウント作成
6579727 story
Intel

Intel、60基のx86コアを搭載する「Xeon Phi」を発表 39

ストーリー by hylom
夢が広がる 部門より
あるAnonymous Coward 曰く、

Intelが60基のx86コアを搭載する「Xeon Phi」を発表した。Xeonという名前が付いているがCPUではなく、PCI Express接続の補助演算ユニットという、いわゆる「アクセラレータボード」である(4GamerPC Watch)。

Intelはかつて開発コード「Larrabee」と呼ばれる、GPUとしても利用できるアクセラレータ向けプロセッサを開発していた。今回発表されたXeon Phi((コードネーム「Knights Corner」)はこれの後継となるものという。Xeon Phiは5110Pと3100シリーズというラインアップが用意されており、5110Pの場合搭載コア数は60個でコアの動作クロックは1.053GHz、メモリは8GB(GDDR5)、30MBのキャッシュを持つ。メモリ帯域幅は最大320GB/秒。

また、既存のソースコードを簡単な修正のみでXeon Phiに対応させられるのも特徴だという。Xeon Phiは「60コアを持つx86プロセッサ」として扱えるので、プログラミングが容易ということがアピールされている。

なお、Xeon Phiはまず5510Pが2013年1月28日より販売され、続いて2013年前半に3100シリーズが販売されるとのこと。1,000個ロット時の想定価格は5110Pが2,649ドル、3100シリーズは2,000ドル以下だそうだ。

また、別のAnonymous Coward 曰く、

Xeon Phiは、60個のコアをワンチップに集積、チップ当たりの理論最高性能は1TFLOPSになるという野心的で先進的なHPC向けのチップであるが、後藤弘茂氏の分析によると、IntelはこれをGPUとして使うことを諦めていないようだ。

Intelの正式なコメントでは「ハードウェアはLarrabeeだが、ソフトウェア層をHPC向けにしたのがKnights Ferryだ。グラフィックス向けの機能はダイに載っているが使っていない」となっている。 後藤氏のダイの写真からの分析によると、Xeon Phiには8個の正体不明のユニットが残っているという。位置的にはCPUコア間通信用のリングバスに接続されていると見られ、テクスチャユニットではないかと予想されている。

Intelは元々Larrabee2として設計された物を流用していると説明しており、盲腸的に残っている説明もできるが、最近のIntelのプロセッサーはリングバスによって必要のないモジュールを外して設計することが容易になっており、全く必要ないと考えているならば残っているのは不自然とも言える。

IBMおよびソニーのCell、IntelのLarrabeeなど、汎用性の高いコアをGPU的に使うのは専用GPUとして設計されたものと比べてトランジスタ当たりの性能が悪く不利である、ということを十分知ってるはずのIntelであるが、やはりGPU化の夢を捨て切れないのだろうか。

本業機械屋でどう表現しても素人のタレコミ子としては、最近のPS3の高性能描画エンジンではCell内のSPEでジオメトリプロセスを演算することで高い性能を発揮しているものがあることを考えると、ユニファイドシェーダーの流れを無視してジオメトリプロセスだけXeon Phiのコアに行わせて、ピクセルシェーダーはGPU専用に開発したものを使う、という方法なら生きる道はあるのではないかと考えます。

その他、Xeon Phi自体へのコメントもどうぞ宜しくお願いします

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • ピーク性能で1.011TFLOPSって昨今のGPUと比べたら意外とたいしたことがないという印象。
    極論するとPS3以下。

    もちろん、x86でこの性能ってのがすごいわけだけど。今のCPUだと25GFLOPS/coreくらいだし。

    --
    ともあれ、ヤードポンド法は滅ぶべきであると考える次第である
  • マウスカーソルを見失ってしまった・・・・

    # まぁ昔の遠い思い出です・・・・

    • ログの流れるのが早くなりすぎてCtrl+Sで止められなくなる話を思い出しましたw

      親コメント
    • by Anonymous Coward

      マウスカーソルの処理は瞬時(遅延時間を人間が体感不能)じゃないの?

      マウスカーソルを見失うのは、マウスの移動量とマウスカーソルの移動量との比率の設定が不適切なだけで。
      あるいは、マウスカーソルのデザインが悪くて見失いやすいとか。

      • by Anonymous Coward

        まじれす!?

      • by Anonymous Coward

        マウスデバイスを動かしてから、PCに信号が到達するまでの時間次第。

  • by Anonymous Coward on 2012年11月15日 8時13分 (#2272663)

    60コアの5110PのTDPが225W、ということは1コアあたりのTDPは225W/60=3.75W
    ちょっと信じられない値だな
    土下座して頼むから組込用のシングル・コアTDP3.75WのIntelプロセッサを売ってくれ!

    • Re:TDP225W (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2012年11月15日 8時29分 (#2272668)

      デュアルコアで TDP3.5W の Atom N2600 [intel.com] はいかが?

      親コメント
    • by Anonymous Coward on 2012年11月15日 8時42分 (#2272676)

      Atom Z2760(CloverTrail)とかも最近発表されたじゃん。
      2コア(4スレッド)、最高1.8GHzでTDPが1.7W。
      チップセットもVGAも動画系のエンコーダ/デコーダものってて便利だし。
      もうちょっと前だとSodavilleなんかも1.5Wぐらいだったような。
      必要なら買って使えば?

      親コメント
    • by Anonymous Coward
      煽ったつもりがすごい恥さらしだな
      責任持ってCloverTrailを60個ほど買いなさいよ
    • by Anonymous Coward

      後藤氏の記事を読むと、動作周波数が1GHzちょい。
      外部メモリI/Fが60セットあるわけでない。

      この辺りがカギかな。

      # Xeonを名乗っているけど、x86のバイナリは動くの?
      # 後藤氏の記事でも全然触れられていないし。

      • by ken-1 (4041) on 2012年11月15日 12時17分 (#2272804)
        Webサーバ用にAtomをいっぱいならべたサーバとかをたまに見かけますが、
        そういう用途には流用できないということでしょうか。
        そもそもI/Oを自前で制御できないという問題のほうが
        大きいのかもしれませんが。
        親コメント
        • by Anonymous Coward

          プロセッサー間のキャッシュメモリーのコヒーレンシーをサポートしていないので、巨大なSMPマシンとしては使えないものの、ネットワーク接続されたクラスタとしては使えるようです。
          独自インターフェースではなく、MPIライブラリーから利用できるなら、HPC向けにシステムがスケールできて面白いだろう。

      • by Anonymous Coward

        x86のインストラクションは持っている [www.isus.jp]ようだけど、バイナリレベルで互換性があるかは謎。
        もっとも、バイナリレベルで互換があってもWin32のアプリケーションがそのまま動く、なんとことはないので意味がないでしょうな。
        1コアあたりだと、ATOMと比べてもずっとシンプルなコア [impress.co.jp]のようです。

        • Re:TDP225W (スコア:4, 興味深い)

          by epgrec (43527) on 2012年11月15日 11時30分 (#2272776)

          原則的には動くようですが、すべてのx86命令をサポートしているわけでは無い
          ……MMX、SSE、AVXはサポートされない……があるようで、すべてのバイナリが動作する
          わけでもないようです。

          http://software.intel.com/en-us/blogs/2012/06/05/knights-corner-open-s... [intel.com]

          Xeon PhiのLinuxカーネルをビルドするためにgccの多少の改造が必要だったらしいことが
          書かれてます。現状、gccでは512bit VFPはサポートされていません。

          カーネルのソースの方は512bit VFPサポートのための細かい多数の変更等が行われているとありますね。。
          基本的にはP6の命令セットとほぼ互換性を持つようです。

          Kernel MLの方には今のところMSRとperfmonの関連のコードしか投げられていないように見えますけど?
          (当然)カーネルのソースも公開するとのことだったので、いずれMLに投げられると思いますyo。

          親コメント
          • by Anonymous Coward

            > This combination of Linux, 64-bits, and new vector capabilities with an Intel® Pentium® processor-derived core, means that Knights Corner is not completely binary compatible with any previous Intel processor.
            > Because of its unique nature, you’ll see statements like this in our code: “Disclaimer: The codes contained in these modules may be specific to the Intel® Software Development Platform codenamed: Knights Ferry, and the Intel® product codenamed: Knights Corner, and are not backward compat

  • by Anonymous Coward on 2012年11月15日 9時24分 (#2272700)

    60個のエロゲを時分割せずに同時に動かせる代物って事ですか?

    • by Anonymous Coward

      Windowsはメニーコアに対応してないから動かないんじゃ
      Linuxは動くらしいけど

  • by Anonymous Coward on 2012年11月15日 9時34分 (#2272711)

    パネェ・・・・

    うちの3770Tでさえ小一時間かかっているLibreOfficeのビルドもわずか数分で終わりそうな勢い(笑)
    むしろリソースの方がついてけないんじゃないのかな
    9並列でビルドした状態でさえ2~3GBもメモリ食ってる、これが60並列とかやった日には・・・・
    現状最速のSSDでさえ、2台でRAID-0しててもIOPSがMAXに貼り付きそうだ
    特定用途でしか使えないGPGPUと違い、通常のx86として使えるのは大きな強みだね

    # とはいえ拡張命令やら何やら違うからdistcc扱いになって-march=native使えないだろうから微妙だな
    # x86とか書いてないからx86_64はクロス扱いになってたりすると、逆に個々が遅すぎて足ひっぱるってレベルじゃないかもしれないな

    • by Anonymous Coward

      いくらPhiのコアが内部的に普通のx86とはいえ,OSから見たらCPUとは全く別のデバイスですからね.コア1個毎に別プロセス割り当てられるとはとても思いませんが.
      distccが「別ホストへ丸投げして結果待ち」ではなくて「コプロセッサへ処理を投げて結果の回収まですべて管理」できるようになれば多少は可能性もありえましょうが.
      どっちにしろコンパイルファームとして使うにも結局PCIeとストレージ系の2箇所が盛大なボトルネック候補で,この用途には無用の長物感でしょう.

      コンパイルファームに使うなら適当に多コアなCPUを複数積んでPCIeSSD使うのが一番手っ取り早そう.

  • by Anonymous Coward on 2012年11月15日 9時47分 (#2272718)

    パフォーマンス・メータを並べてみたい :-)

    • by Anonymous Coward

      linux の起動画面はどうなるの?

      • by Anonymous Coward

        最近のディストリビューションはペンギンさんが出なくなってしまいましたね。

        設定かえると出ますので、私の管理サーバはぜんぶペンギンさんが出ます。

  • by Anonymous Coward on 2012年11月15日 12時47分 (#2272818)

    そろそろCPUコア数やメモリは無限だと仮定してソフトを作る時代が来るのかな
    下手にアルゴリズムで処理させるより全てブン回しの力押しでやったほうが効果出る処理多そう

    • by Anonymous Coward

      今の環境でも既に気にするべきは、CPUよりもI/Oだと思ってたのですが……
      いずれにせよアルゴリズムが大事なのは変わりませんよ。
      勉強を怠らないでくださいね。

    • by Anonymous Coward

      むしろ60個とか半端な増え方が困るんだよ…
      8個ぐらいならCPU別に作業領域を用意しても大したことないから、処理をそのまま8分割して投入すりゃ良い。同期とらない。
      GPUみたいにスレッドは数千から数万にしてくださいねと言われれば、あきらめて同期をとったりリダクションする。
      60とか…。個別に用意するには大きいが、あふれかえるスレッドでメモリのレイテンシを隠蔽するには少なすぎる。
      どーすりゃいいのこんな半端なので。

      • by Anonymous Coward

        ちなみに4wayのマルチスレッドです
        64wayくらいのSMPなんて大昔からふつーにあります

  • by Anonymous Coward on 2012年11月15日 14時51分 (#2272902)

    速くなると無限ループは何秒ぐらいで抜けられるようになるんですかね。

    • by Anonymous Coward

      同時に60個の無限ループを実行できるんだから凄いですよね。

      • by Anonymous Coward

        最近CPUが速くなりすぎて、従来は無限ループだったのが、無限じゃなくなることが多々あるような。
        まぁ32ビットInteger限定の話とは思いますが。

  • by Anonymous Coward on 2012年11月15日 15時10分 (#2272911)

    http://pc.watch.impress.co.jp/docs/2006/0530/tawada77.htm [impress.co.jp]

    「そのPhysX P1のボードは、まるでビデオカードのような外観となっている」

    同じ同じw

  • by Anonymous Coward on 2012年11月15日 21時22分 (#2273166)

    以下コピペ。
     昨年、CERNの研究者と会った時に、彼らはMICでは多くのプロセッサを
    容易にプログラムできると評価してくれていた。CERNと言えば、この4~5年は
    GPUプログラミングの“ガンホー”だった(笑)。
    彼らは、プログラミングモデルを維持できるなら、MICに非常に多数のコアがあっても、
    Xeonからの迅速なソフトウェアマイグレーションが可能となり、
    そこそこの労力のパフォーマンスチューニングによって、
    最高の潜在パフォーマンスを引き出すことができるだろうと言っていた。
    彼らにとっては、MICの方が、より簡単なパスであることが分かったという。
    http://pc.watch.impress.co.jp/docs/column/kaigai/20121018_566618.html [impress.co.jp]

    • by Anonymous Coward

      Keplerなどもなかなか大したものだが、あっちはヘテロな構成のプログラムは動かないからね
      PCIeにぶらさがっているのが惜しい

typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...