
Intel、60基のx86コアを搭載する「Xeon Phi」を発表 39
夢が広がる 部門より
Intelが60基のx86コアを搭載する「Xeon Phi」を発表した。Xeonという名前が付いているがCPUではなく、PCI Express接続の補助演算ユニットという、いわゆる「アクセラレータボード」である(4Gamer、PC Watch)。
Intelはかつて開発コード「Larrabee」と呼ばれる、GPUとしても利用できるアクセラレータ向けプロセッサを開発していた。今回発表されたXeon Phi((コードネーム「Knights Corner」)はこれの後継となるものという。Xeon Phiは5110Pと3100シリーズというラインアップが用意されており、5110Pの場合搭載コア数は60個でコアの動作クロックは1.053GHz、メモリは8GB(GDDR5)、30MBのキャッシュを持つ。メモリ帯域幅は最大320GB/秒。
また、既存のソースコードを簡単な修正のみでXeon Phiに対応させられるのも特徴だという。Xeon Phiは「60コアを持つx86プロセッサ」として扱えるので、プログラミングが容易ということがアピールされている。
なお、Xeon Phiはまず5510Pが2013年1月28日より販売され、続いて2013年前半に3100シリーズが販売されるとのこと。1,000個ロット時の想定価格は5110Pが2,649ドル、3100シリーズは2,000ドル以下だそうだ。
また、別のAnonymous Coward 曰く、
Xeon Phiは、60個のコアをワンチップに集積、チップ当たりの理論最高性能は1TFLOPSになるという野心的で先進的なHPC向けのチップであるが、後藤弘茂氏の分析によると、IntelはこれをGPUとして使うことを諦めていないようだ。
Intelの正式なコメントでは「ハードウェアはLarrabeeだが、ソフトウェア層をHPC向けにしたのがKnights Ferryだ。グラフィックス向けの機能はダイに載っているが使っていない」となっている。 後藤氏のダイの写真からの分析によると、Xeon Phiには8個の正体不明のユニットが残っているという。位置的にはCPUコア間通信用のリングバスに接続されていると見られ、テクスチャユニットではないかと予想されている。
Intelは元々Larrabee2として設計された物を流用していると説明しており、盲腸的に残っている説明もできるが、最近のIntelのプロセッサーはリングバスによって必要のないモジュールを外して設計することが容易になっており、全く必要ないと考えているならば残っているのは不自然とも言える。
IBMおよびソニーのCell、IntelのLarrabeeなど、汎用性の高いコアをGPU的に使うのは専用GPUとして設計されたものと比べてトランジスタ当たりの性能が悪く不利である、ということを十分知ってるはずのIntelであるが、やはりGPU化の夢を捨て切れないのだろうか。
本業機械屋でどう表現しても素人のタレコミ子としては、最近のPS3の高性能描画エンジンではCell内のSPEでジオメトリプロセスを演算することで高い性能を発揮しているものがあることを考えると、ユニファイドシェーダーの流れを無視してジオメトリプロセスだけXeon Phiのコアに行わせて、ピクセルシェーダーはGPU専用に開発したものを使う、という方法なら生きる道はあるのではないかと考えます。
その他、Xeon Phi自体へのコメントもどうぞ宜しくお願いします
意外とたいしたことない? (スコア:2)
ピーク性能で1.011TFLOPSって昨今のGPUと比べたら意外とたいしたことがないという印象。
極論するとPS3以下。
もちろん、x86でこの性能ってのがすごいわけだけど。今のCPUだと25GFLOPS/coreくらいだし。
Re:意外とたいしたことない? (スコア:1)
x86コアが増える用途で喜ばれるとしたら、FLOPSよりMIPSの方が重要じゃないかな。
Re:意外とたいしたことない? (スコア:1)
単純計算で5TIPSくらい?
そういわれるとスゲーって感じがするね。
Re: (スコア:0)
倍精度演算で1TFLOPSなんで、ちょうどNvidiaのTesla K20とかRadeonのHD7970 GHz Edとかと同じくらいのはずです。
PS3なんてこれ以下じゃなかったっけ?
Re:意外とたいしたことない? (スコア:1)
PS3のGPUは公称1.8TFLOPSです。この時代だと単精度だとは思いますけど。
#1.5GFLOPSの壁(スパコンか否か)があるので、ちょっとは気にするのよね。
Re:意外とたいしたことない? (スコア:2)
単精度ですし、さらにPS3のGPUはNVIDIA G70がベースで固定ハードウェア込みの
演算性能を表示していたはずです。ゲーム機のカタログスペックだからそれで
良いのですけど、プログラマブルではない部分の演算能力はスパコンと比較するつもりであれば
それほど意味が無い、というか条件付きになりますね。
PS3は「7年前」に出た「ゲーム機」ですからね、昨今のGPUやXeon Phiと比較するのは余りに
酷すぎると思いますが?
単精度がどーこーとかいう話じゃないです (スコア:0)
当時のハイエンドである7800GTX(24ps/256bit/550/~1700MHz)が300~500GFlopsなのにRSX(24PS/128bit/450?/1400?MHz)が
1.8TFlopsなんて数字が比較対象になるわけねっす。
実態としては単精度250GFlops前後じゃないっすかね>RSX
あまりにも処理が早すぎて (スコア:1)
マウスカーソルを見失ってしまった・・・・
# まぁ昔の遠い思い出です・・・・
Re:あまりにも処理が早すぎて (スコア:1)
ログの流れるのが早くなりすぎてCtrl+Sで止められなくなる話を思い出しましたw
Re: (スコア:0)
マウスカーソルの処理は瞬時(遅延時間を人間が体感不能)じゃないの?
マウスカーソルを見失うのは、マウスの移動量とマウスカーソルの移動量との比率の設定が不適切なだけで。
あるいは、マウスカーソルのデザインが悪くて見失いやすいとか。
Re: (スコア:0)
まじれす!?
Re: (スコア:0)
マウスデバイスを動かしてから、PCに信号が到達するまでの時間次第。
TDP225W (スコア:0)
60コアの5110PのTDPが225W、ということは1コアあたりのTDPは225W/60=3.75W
ちょっと信じられない値だな
土下座して頼むから組込用のシングル・コアTDP3.75WのIntelプロセッサを売ってくれ!
Re:TDP225W (スコア:2, おもしろおかしい)
デュアルコアで TDP3.5W の Atom N2600 [intel.com] はいかが?
Re:TDP225W (スコア:1)
Atom Z2760(CloverTrail)とかも最近発表されたじゃん。
2コア(4スレッド)、最高1.8GHzでTDPが1.7W。
チップセットもVGAも動画系のエンコーダ/デコーダものってて便利だし。
もうちょっと前だとSodavilleなんかも1.5Wぐらいだったような。
必要なら買って使えば?
Re: (スコア:0)
責任持ってCloverTrailを60個ほど買いなさいよ
Re: (スコア:0)
後藤氏の記事を読むと、動作周波数が1GHzちょい。
外部メモリI/Fが60セットあるわけでない。
この辺りがカギかな。
# Xeonを名乗っているけど、x86のバイナリは動くの?
# 後藤氏の記事でも全然触れられていないし。
Re:TDP225W (スコア:1)
そういう用途には流用できないということでしょうか。
そもそもI/Oを自前で制御できないという問題のほうが
大きいのかもしれませんが。
Re: (スコア:0)
プロセッサー間のキャッシュメモリーのコヒーレンシーをサポートしていないので、巨大なSMPマシンとしては使えないものの、ネットワーク接続されたクラスタとしては使えるようです。
独自インターフェースではなく、MPIライブラリーから利用できるなら、HPC向けにシステムがスケールできて面白いだろう。
Re: (スコア:0)
x86のインストラクションは持っている [www.isus.jp]ようだけど、バイナリレベルで互換性があるかは謎。
もっとも、バイナリレベルで互換があってもWin32のアプリケーションがそのまま動く、なんとことはないので意味がないでしょうな。
1コアあたりだと、ATOMと比べてもずっとシンプルなコア [impress.co.jp]のようです。
Re:TDP225W (スコア:4, 興味深い)
原則的には動くようですが、すべてのx86命令をサポートしているわけでは無い
……MMX、SSE、AVXはサポートされない……があるようで、すべてのバイナリが動作する
わけでもないようです。
http://software.intel.com/en-us/blogs/2012/06/05/knights-corner-open-s... [intel.com]
Xeon PhiのLinuxカーネルをビルドするためにgccの多少の改造が必要だったらしいことが
書かれてます。現状、gccでは512bit VFPはサポートされていません。
カーネルのソースの方は512bit VFPサポートのための細かい多数の変更等が行われているとありますね。。
基本的にはP6の命令セットとほぼ互換性を持つようです。
Kernel MLの方には今のところMSRとperfmonの関連のコードしか投げられていないように見えますけど?
(当然)カーネルのソースも公開するとのことだったので、いずれMLに投げられると思いますyo。
Re: (スコア:0)
> This combination of Linux, 64-bits, and new vector capabilities with an Intel® Pentium® processor-derived core, means that Knights Corner is not completely binary compatible with any previous Intel processor.
> Because of its unique nature, you’ll see statements like this in our code: “Disclaimer: The codes contained in these modules may be specific to the Intel® Software Development Platform codenamed: Knights Ferry, and the Intel® product codenamed: Knights Corner, and are not backward compat
要するにこれって (スコア:0)
60個のエロゲを時分割せずに同時に動かせる代物って事ですか?
Re: (スコア:0)
Windowsはメニーコアに対応してないから動かないんじゃ
Linuxは動くらしいけど
make -j (60 + CPU数) (スコア:0)
パネェ・・・・
うちの3770Tでさえ小一時間かかっているLibreOfficeのビルドもわずか数分で終わりそうな勢い(笑)
むしろリソースの方がついてけないんじゃないのかな
9並列でビルドした状態でさえ2~3GBもメモリ食ってる、これが60並列とかやった日には・・・・
現状最速のSSDでさえ、2台でRAID-0しててもIOPSがMAXに貼り付きそうだ
特定用途でしか使えないGPGPUと違い、通常のx86として使えるのは大きな強みだね
# とはいえ拡張命令やら何やら違うからdistcc扱いになって-march=native使えないだろうから微妙だな
# x86とか書いてないからx86_64はクロス扱いになってたりすると、逆に個々が遅すぎて足ひっぱるってレベルじゃないかもしれないな
Re: (スコア:0)
いくらPhiのコアが内部的に普通のx86とはいえ,OSから見たらCPUとは全く別のデバイスですからね.コア1個毎に別プロセス割り当てられるとはとても思いませんが.
distccが「別ホストへ丸投げして結果待ち」ではなくて「コプロセッサへ処理を投げて結果の回収まですべて管理」できるようになれば多少は可能性もありえましょうが.
どっちにしろコンパイルファームとして使うにも結局PCIeとストレージ系の2箇所が盛大なボトルネック候補で,この用途には無用の長物感でしょう.
コンパイルファームに使うなら適当に多コアなCPUを複数積んでPCIeSSD使うのが一番手っ取り早そう.
お約束 (スコア:0)
パフォーマンス・メータを並べてみたい :-)
Re: (スコア:0)
linux の起動画面はどうなるの?
Re: (スコア:0)
最近のディストリビューションはペンギンさんが出なくなってしまいましたね。
設定かえると出ますので、私の管理サーバはぜんぶペンギンさんが出ます。
一気に増えすぎ (スコア:0)
そろそろCPUコア数やメモリは無限だと仮定してソフトを作る時代が来るのかな
下手にアルゴリズムで処理させるより全てブン回しの力押しでやったほうが効果出る処理多そう
Re: (スコア:0)
今の環境でも既に気にするべきは、CPUよりもI/Oだと思ってたのですが……
いずれにせよアルゴリズムが大事なのは変わりませんよ。
勉強を怠らないでくださいね。
Re: (スコア:0)
むしろ60個とか半端な増え方が困るんだよ…
8個ぐらいならCPU別に作業領域を用意しても大したことないから、処理をそのまま8分割して投入すりゃ良い。同期とらない。
GPUみたいにスレッドは数千から数万にしてくださいねと言われれば、あきらめて同期をとったりリダクションする。
60とか…。個別に用意するには大きいが、あふれかえるスレッドでメモリのレイテンシを隠蔽するには少なすぎる。
どーすりゃいいのこんな半端なので。
Re: (スコア:0)
ちなみに4wayのマルチスレッドです
64wayくらいのSMPなんて大昔からふつーにあります
無限ループは (スコア:0)
速くなると無限ループは何秒ぐらいで抜けられるようになるんですかね。
Re: (スコア:0)
同時に60個の無限ループを実行できるんだから凄いですよね。
Re: (スコア:0)
最近CPUが速くなりすぎて、従来は無限ループだったのが、無限じゃなくなることが多々あるような。
まぁ32ビットInteger限定の話とは思いますが。
AGEIAのPhysXプロセッサ思い出した (スコア:0)
http://pc.watch.impress.co.jp/docs/2006/0530/tawada77.htm [impress.co.jp]
「そのPhysX P1のボードは、まるでビデオカードのような外観となっている」
同じ同じw
CERNの研究者の見解 (スコア:0)
以下コピペ。
昨年、CERNの研究者と会った時に、彼らはMICでは多くのプロセッサを
容易にプログラムできると評価してくれていた。CERNと言えば、この4~5年は
GPUプログラミングの“ガンホー”だった(笑)。
彼らは、プログラミングモデルを維持できるなら、MICに非常に多数のコアがあっても、
Xeonからの迅速なソフトウェアマイグレーションが可能となり、
そこそこの労力のパフォーマンスチューニングによって、
最高の潜在パフォーマンスを引き出すことができるだろうと言っていた。
彼らにとっては、MICの方が、より簡単なパスであることが分かったという。
http://pc.watch.impress.co.jp/docs/column/kaigai/20121018_566618.html [impress.co.jp]
Re: (スコア:0)
Keplerなどもなかなか大したものだが、あっちはヘテロな構成のプログラムは動かないからね
PCIeにぶらさがっているのが惜しい