パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Folding@Homeのクライアント別処理能力提供状況で、GPUがPS3を抜く」記事へのコメント

  • 東工大のTSUBAMEですが、GPGPUを組み合わせた1.2にアップグレードするそうです。という話が先日のWindows HPC server 2008の発表会の時に松岡教授の口から出てきたのですが……

    TSUBAMEは元々Opteronを大量採用した初期事例で有名なのにTSUBAME 1.2で使われるGPUはNVIDIA(実証環境はGeFroce 8800で、本環境はTesla T10Pだそうで)。

    #ということで、下世話ながら表題のフレーズが頭をよぎったAC
    • Re: (スコア:5, 興味深い)

      by Anonymous Coward
      興味深いモデが付いたので追記

      現状のテストベッドはGeForce 8800GTSを使ったMS HPC-GPGPUクラスタは現在32ノードで、GPUを128枚使用、3ラック40U。Windows Compute Cluster 2003->Windows HPC 2008に移行中とのこと。開発環境はVisual Studio + CUDA 2.x(この辺がATI弱いですからね)

      で、GPGPUが一般に降りてこないのは真価を発揮できるというか、CPUに対して圧倒的なパフォーマンスと入れるのがハイエンドのド高いボードを何枚も束ねて使うハイエンド利用に限られているところでしょう。ローエンドでエンコがサクサクとか言うとうれしいんだけど、それならまだCPUの方が早い。

      話をCELLに振りますが、リードテックからCELLを使ったパソコン用エンコボードが出ます。今月末発売予定で3万円程度。HDのH.264エンコードがリアルタイム以上(約二倍速だそうだ)でできるということなのでエンコ職人垂涎の製品になりそうな予感。
      • > 開発環境はVisual Studio + CUDA 2.x(この辺がATI弱いですからね)

        ちょうど、先日東工大の中の人の、CUDAによる流体計算についての講演を受けたんですが、
        Geforceを選んだ理由として、RadeonはGPU内の「共有メモリ」が小さいのがネックだとか言ってました。

        GPUのコアはものすごく馬鹿っ速いんですが、それに比べると(ビデオカード上の)「グローバルメモリ」はとんでもなくレイテンシーが長く、読みこみに数百クロックは待たされる。
        一方、Geforceはコア上には各プロセッサで共有する16KBの「共有メモリ」があって、このメモリはペナルティなく高速にアクセス可能。

        そのため、CUDAプログラミングは、問題をいかに「16KBの共有メモリ内に収まるサイズに分割」し、いかに「共有メモリ内で処理を完結させる」ようにできるかどうかがキモだと。

        姫野ベンチのCUDA最適化という例を挙げられてたんですが、
        CPUだけだとは実測1GFlopsぐらいなんですが、
        理論値600GFlopsのGPU4枚で、実測50GFlopsぐらい出せたとか。
        コアはたったの2%しか働いてないんですが、それでもCPUより50倍以上は高速なので、GPGPUの価値は高いと。
        とにかくメモリアクセスが律速なので、メモリアクセスをいかに減らすかで苦心してるそうです。
        親コメント
        • Radeonも最新世代のRV770(4800シリーズ)ではバス周りが大幅に見直され、16KBの共有メモリ(Local Data Share Memory)が搭載されました。
          HPC向けの製品ではFireStream 9250(まだ出てない?)がRV770世代ですね。

          CPUにしろGPUにしろライバルメーカー同士の設計が似てきていますが、目指すところは同じですから結局は似たもの同士になるんでしょうね。
          親コメント
        • by Anonymous Coward
          >姫野ベンチのCUDA最適化

          また怪しい動画が出るベンチマークが出たのかと勘違いしました、姫野龍太郎先生すみません。

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

処理中...