アカウント名:
パスワード:
impress [impress.co.jp]の記事読んだけど駄目だろこれ
メモリに関しては1ノード当たり32GBで、全体で1.3PBという容量。これは理研の京の1.4PBよりも少ない。また、メモリに関してもDDR4ではなくDDR3を使用しているという。キャッシュに関しても実装が軽く、L1~L3までのキャッシュ層を持たず、各コアに12KBの命令キャッシュと64KBのローカルスクラッチパッドのみを持つのが特徴としている。
いまどきこんな少ないキャッシュで何するんだよ・・・しかも他所より遅いDDR3とか、いくら演算速度それ自体はあっても、メモリのI/Oで足引っ張られまくるだけじゃねーか・・・科学技術計算するのにこんなガラクタあってもなあ、って性能にしか見えんぞ・・・
ポスト京のプロジェクトhttp://www.aics.riken.jp/fs2020p/ [riken.jp]でコデザイン推進チームのチームリーダーをしている牧野先生は、以下のように書いてるわけで、キャッシュなしは今後主流になるアーキテクチャを先取りしてるのかも。
https://twitter.com/jun_makino/status/745213256583680002 [twitter.com]> TaihuLight はあんまりHPL専用とか けなせる代物ではないと思うんだけど。
https://twitter.com/jun_makino/status/745213265660174336 [twitter.com]> 私の主張としては、現在のメニーコアでなくすべきものは、> (1) キャッシュコヒーレンシ> (2) Dキャッシュ> (3) MIMD> で、> (1) を止めたのが PEZY-SC、> (2) にきたのが TaifuLight> なわけで設計としては最先端である。
https://twitter.com/jun_makino/status/745213275114090496 [twitter.com]> Dキャッシュがなくなってスクラッチパッドだけになるメリットは、> (1) 階層が減り、大容量とレジスタへの大バンド幅が容易に両立できる。> (2) アプリケーションカーネルのチューニングが極めて容易になる。> (3) ハードウェアの開発、デバッグが極めて容易になる。
https://twitter.com/jun_makino/status/745213284064731136 [twitter.com]> と、これくらいはあって非常に大きい。
https://twitter.com/jun_makino/status/745213293078294531 [twitter.com]> まあデメリットはもちろんチューニングしないとまるで性能がでないことだがこれはもう今後は諦めるべき。
https://twitter.com/jun_makino/status/745213302540689410 [twitter.com]> で、ほぼどんなアプリケーションでもこの構成で性能は出せるというのが我々のポスト「京」FSの結論である。
と書いてます。使いやすい汎用CPUは今後どんどんスケールしなくなっていくので、早めにキャッシュなしの方向で経験積んだ方が将来的に有望って話ですかね。
メモリバンド幅については、Linpackだってそれなりにメモリバンド幅が必要なアプリなわけで、それで理論値の65%の効率出せてるのであれば、良くはないにせよ、間違ってるというわけでもないのかも。
メモリの絶対容量は足りないですね。Linpack Rmaxあたりで見ても、3位のアメリカOak Ridge の1/3くらいしかない。京に比べると1/10くらい。この容量でも使えるアプリはあるだろうけど、メモリ容量の都合でできない計算もありそう。
一言で言えば全部スタティックにやりましょうということなんですが、牧野先生も平木先生は昔っからそういうのが好きでした
従来型よりプロセッサあたりのメモリは少な目でいいらしい、というかメモリを減らすためにSIMDだなんだと言い出した
補足
世の中にはメモリ少な目でいいからFLOPS値が大盛でほしい応用がかなりたくさんあって、計算機自体のコストも厳しいから1プロセッサあたり汎用CPUあたりの1桁以上のFLOPS値がほしいとなる
そうするとLSIには演算器以外のものは載せたくないし、キャッシュや同期関係をざっくり削るとなると上のような感じになる(非キャッシュこコヒーレント、スクラッチパッドメモリ、SIMD)ただしオンチップの通信は奢る必要はある
個人的にはSIMDは同期の粒度が細かすぎる気はする
そういう用途はありますが、たいていの場合大規模スパコンではなく、単なるクラスタで済みます。大規模スパコンの意義は、高速なことに加えて、大規模な問題を解けることにあるので。小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。これをやったら、クラスタに対する優位性が無くなってしまうので、専用に開発する意味が無い。
クラスタですめばクラスタでいいんですが
> 小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
compute intensiveな応用はどうするんですか?たくさんありますよ?
> 牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
誰が削っていいと言ってるんですか?そんなことをいうやつはクラスタで十分と言うのと同じ馬鹿ですよ
>compute intensiveな応用はどうするんですか?たくさんありますよ?小規模な問題という条件なら、大規模スパコンは不要です。小規模なコンピュータを多数用意する方が、初期コストでも電力でも有利です。
馬鹿には黙っていてほしいのだが
メモリは大してくわないけど計算パワーはものすごく欲しい、今の二ケタ以上速くなって応用がたくさんあるのよシミュレーションとかね
> 馬鹿には黙っていてほしいのだが
確かに #3034950 はひどすぎるね。
小規模なコンピュータを多数集めれば、演算器ネックな問題がとけるってのもひどいが(通信はどうするの?中国のこれは、専用インターコネクトがあるよ)、電力で有利ってのもひどい。どういう風に作っても大規模なスパコンの方がトータルな電力効率では有利だし、しかも中国のこれは普通のPCで使われているIntel CPUよりずっと電力効率がいいんだし。
>小規模な問題という条件ならこれが読めないらしい。#3034580も #3034950も、大規模スパコンの意義について話してるのに、読み取れないのね。
メモリ使用量と言う点で小規模な問題でもものすごく計算パワーが必要なの分子動力学とか、小規模クラスタなんかで100年かかっても解けない問題がたくさんあるの
馬鹿は黙ってろ
LINPACKって典型的にメモリ/通信負荷が軽い用途なんですが。だから、HPCCとかGraph500とかが出てきたわけで。それにLINPACKでピーク性能の65%って相当に低い部類ですよ。普通は80%~90%オーバーです。
たくさん引用されてるのも、キャッシュが必要かどうかの話であって、次世代スパコンでメモリ帯域やネットワーク帯域が不要とは一言も言ってない。
圧倒的なピーク性能で効率を補えていますトータルのメモリも少ないのでコストも安いでしょう
> それにLINPACKでピーク性能の65%って相当に低い部類ですよ。> 普通は80%~90%オーバーです。
京とか見てるとそういう印象かもしれませんが、先代の天河2号はたしか62%くらいしかなかった筈です。天河2号はXeonとXeon Phiという格段に大きいキャッシュとメモリーバンドを持つシステムだったわけで、それより規模を大幅に拡大して、演算効率と電力効率を自国開発CPUで改善してきたんですから立派なもんでしょう。
今回のTop500を上から見てくと、2位の天河2は62%、3位アメリカの DOE/SC/Oak Ridge の Opteron + NVIDIA K20x は65%ですね。
1位のTaihuLightが65%って話は勘違いか計算違いみたいで、効率74%あるから、2位や3位よりはずっといい。
もっとも4位は85%、5位の京は93%だけど。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
物事のやり方は一つではない -- Perlな人
いや、何に使うんだこれ? (スコア:0)
impress [impress.co.jp]の記事読んだけど駄目だろこれ
いまどきこんな少ないキャッシュで何するんだよ・・・しかも他所より遅いDDR3とか、いくら演算速度それ自体はあっても、メモリのI/Oで足引っ張られまくるだけじゃねーか・・・
科学技術計算するのにこんなガラクタあってもなあ、って性能にしか見えんぞ・・・
キャッシュなしは今後のトレンドかも? (スコア:0)
ポスト京のプロジェクト
http://www.aics.riken.jp/fs2020p/ [riken.jp]
でコデザイン推進チームのチームリーダーをしている牧野先生は、以下のように
書いてるわけで、キャッシュなしは今後主流になるアーキテクチャを先取りしてるのかも。
https://twitter.com/jun_makino/status/745213256583680002 [twitter.com]
> TaihuLight はあんまりHPL専用とか けなせる代物ではないと思うんだけど。
https://twitter.com/jun_makino/status/745213265660174336 [twitter.com]
> 私の主張としては、現在のメニーコアでなくすべきものは、
> (1) キャッシュコヒーレンシ
> (2) Dキャッシュ
> (3) MIMD
> で、
> (1) を止めたのが PEZY-SC、
> (2) にきたのが TaifuLight
> なわけで設計としては最先端である。
https://twitter.com/jun_makino/status/745213275114090496 [twitter.com]
> Dキャッシュがなくなってスクラッチパッドだけになるメリットは、
> (1) 階層が減り、大容量とレジスタへの大バンド幅が容易に両立できる。
> (2) アプリケーションカーネルのチューニングが極めて容易になる。
> (3) ハードウェアの開発、デバッグが極めて容易になる。
https://twitter.com/jun_makino/status/745213284064731136 [twitter.com]
> と、これくらいはあって非常に大きい。
https://twitter.com/jun_makino/status/745213293078294531 [twitter.com]
> まあデメリットはもちろんチューニングしないとまるで性能がでないことだがこれはもう今後は諦めるべき。
https://twitter.com/jun_makino/status/745213302540689410 [twitter.com]
> で、ほぼどんなアプリケーションでもこの構成で性能は出せるというのが我々のポスト「京」FSの結論である。
と書いてます。
使いやすい汎用CPUは今後どんどんスケールしなくなっていくので、早めにキャッシュなしの方向で
経験積んだ方が将来的に有望って話ですかね。
メモリバンド幅については、Linpackだってそれなりにメモリバンド幅が必要なアプリなわけで、
それで理論値の65%の効率出せてるのであれば、良くはないにせよ、間違ってるというわけでも
ないのかも。
メモリの絶対容量は足りないですね。
Linpack Rmaxあたりで見ても、3位のアメリカOak Ridge の1/3くらいしかない。
京に比べると1/10くらい。
この容量でも使えるアプリはあるだろうけど、メモリ容量の都合でできない計算もありそう。
Re: (スコア:0)
一言で言えば全部スタティックにやりましょうということなんですが、牧野先生も平木先生は昔っからそういうのが好きでした
従来型よりプロセッサあたりのメモリは少な目でいいらしい、というかメモリを減らすためにSIMDだなんだと言い出した
Re: (スコア:0)
補足
世の中にはメモリ少な目でいいからFLOPS値が大盛でほしい応用がかなりたくさんあって、計算機自体のコストも厳しいから
1プロセッサあたり汎用CPUあたりの1桁以上のFLOPS値がほしいとなる
そうするとLSIには演算器以外のものは載せたくないし、キャッシュや同期関係をざっくり削るとなると上のような感じになる
(非キャッシュこコヒーレント、スクラッチパッドメモリ、SIMD)
ただしオンチップの通信は奢る必要はある
個人的にはSIMDは同期の粒度が細かすぎる気はする
Re: (スコア:0)
そういう用途はありますが、たいていの場合大規模スパコンではなく、単なるクラスタで済みます。
大規模スパコンの意義は、高速なことに加えて、大規模な問題を解けることにあるので。
小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
これをやったら、クラスタに対する優位性が無くなってしまうので、専用に開発する意味が無い。
Re: (スコア:0)
クラスタですめばクラスタでいいんですが
> 小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
compute intensiveな応用はどうするんですか?たくさんありますよ?
> 牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
誰が削っていいと言ってるんですか?
そんなことをいうやつはクラスタで十分と言うのと同じ馬鹿ですよ
Re: (スコア:0)
>compute intensiveな応用はどうするんですか?たくさんありますよ?
小規模な問題という条件なら、大規模スパコンは不要です。
小規模なコンピュータを多数用意する方が、初期コストでも電力でも有利です。
Re: (スコア:0)
馬鹿には黙っていてほしいのだが
メモリは大してくわないけど計算パワーはものすごく欲しい、今の二ケタ以上速くなって応用がたくさんあるのよ
シミュレーションとかね
Re: (スコア:0)
> 馬鹿には黙っていてほしいのだが
確かに #3034950 はひどすぎるね。
小規模なコンピュータを多数集めれば、演算器ネックな問題がとけるってのもひどいが(通信はどうするの?中国のこれは、専用インターコネクトがあるよ)、
電力で有利ってのもひどい。
どういう風に作っても大規模なスパコンの方がトータルな電力効率では有利だし、
しかも中国のこれは普通のPCで使われているIntel CPUよりずっと電力効率がいいんだし。
Re: (スコア:0)
>小規模な問題という条件なら
これが読めないらしい。
#3034580も #3034950も、大規模スパコンの意義について話してるのに、読み取れないのね。
Re: (スコア:0)
メモリ使用量と言う点で小規模な問題でもものすごく計算パワーが必要なの
分子動力学とか、小規模クラスタなんかで100年かかっても解けない問題がたくさんあるの
馬鹿は黙ってろ
Re: (スコア:0)
LINPACKって典型的にメモリ/通信負荷が軽い用途なんですが。
だから、HPCCとかGraph500とかが出てきたわけで。
それにLINPACKでピーク性能の65%って相当に低い部類ですよ。
普通は80%~90%オーバーです。
たくさん引用されてるのも、キャッシュが必要かどうかの話であって、次世代スパコンでメモリ帯域やネットワーク帯域が不要とは一言も言ってない。
Re: (スコア:0)
圧倒的なピーク性能で効率を補えています
トータルのメモリも少ないのでコストも安いでしょう
Re: (スコア:0)
> それにLINPACKでピーク性能の65%って相当に低い部類ですよ。
> 普通は80%~90%オーバーです。
京とか見てるとそういう印象かもしれませんが、
先代の天河2号はたしか62%くらいしかなかった筈です。
天河2号はXeonとXeon Phiという格段に大きいキャッシュとメモリーバンドを
持つシステムだったわけで、それより規模を大幅に拡大して、
演算効率と電力効率を自国開発CPUで改善してきたんですから立派なもんでしょう。
Re: (スコア:0)
今回のTop500を上から見てくと、
2位の天河2は62%、
3位アメリカの DOE/SC/Oak Ridge の Opteron + NVIDIA K20x は65%ですね。
1位のTaihuLightが65%って話は勘違いか計算違いみたいで、効率74%あるから、
2位や3位よりはずっといい。
もっとも4位は85%、5位の京は93%だけど。