アカウント名:
パスワード:
impress [impress.co.jp]の記事読んだけど駄目だろこれ
メモリに関しては1ノード当たり32GBで、全体で1.3PBという容量。これは理研の京の1.4PBよりも少ない。また、メモリに関してもDDR4ではなくDDR3を使用しているという。キャッシュに関しても実装が軽く、L1~L3までのキャッシュ層を持たず、各コアに12KBの命令キャッシュと64KBのローカルスクラッチパッドのみを持つのが特徴としている。
いまどきこんな少ないキャッシュで何するんだよ・・・しかも他所より遅いDDR3とか、いくら演算速度それ自体はあっても、メモリのI/Oで足引っ張られまくるだけじゃねーか・・・科学技術計算するのにこんなガラクタあってもなあ、って性能にしか見えんぞ・・・
260コアで共有キャッシュは一貫性を保つことが困難なので逆にオーバヘッドになる。そもそもAlpha自体キャッシュ一貫性を保証せず、他のコアとデータ共有したければ常に同期命令を使えというアーキテクチャなのでxeon phiと同じMICで、gpuのよりマシな程度のcpuコアを大量に積んで性能を稼ぐのが目的なので問題ないだろう。DDR3なのは微妙ではあるが、実行効率が悪くても電力消費も少ないので割が合う算段なのかもしれん。
メモリバリアとキャッシュの一貫性は違うよ
リンパックの実行効率は、京ほどでなくても比較的良い方らしい。メモリもメモリI/Oも高性能では無いけど、制約の中で最善を尽くしたらこうなった、と見た方が良さそう。
面積16 bit オペランドhttp://google.jp/search?q=nintendo+ddr3+reitensi [google.jp]
いやハード面では若干世代落ち間は否めないけれど京と圧倒的に違うのは演算処理を完全に独立して行なっている点で、最終演算力は京より上です。
京も独立しているけれど、完全ではないのでどうしても他のノードと「歩調」を合わせる必要がでてきてそれがボトルネックになってる
京と圧倒的に違うのは演算処理を完全に独立して行なっている点で
演算だけで科学技術計算ができるならそれは正しいけど、実際には結果を書いたり読んだりしなきゃいけないしそもそも計算内容が複雑になればなるほどキャッシュの予測がつきにくいから、キャッシュが少ないと言うことはそれこそ、他のノード以前に自ノードのメモリと速度を合わせる必要がでてきて、そこがボトルネックになる
「1+1を1秒に何回できるか」とかなら優秀でも「円周率を1秒に何桁計算できるか」ぐらいの難易度でもヘタすりゃ負けるし、ガチ最先端の科学技術計算じゃ本当に役に立たないと思うがなぁ
・こいつにはキャッシュのかわりに64KBのスクラッチパッドメモリがある・今日日のコンパイラはキャッシュユーセージはおおむね把握している
スクラッチパッドメモリとキャッシュを一緒くたにするなというかコンパイラでCash Usageは把握できるようになったけど、メモリ空間の厳密な管理が必要なスクラッチパッドは管理できないからこそスクラッチパッドは廃れてキャッシュ持たせるのが一般化したわけで
だからPS3とか昔のGPGPUで性能を出すのは難しく、現代のGPUではL1,L2キャッシュを持つようになったのですよね。特定のソフト向けに手作業で最適化すれば性能を出せるけど、手間がかかりすぎる。
LINPACK専用なら手間をかけられるでしょうが、汎用では無理では。中国なら手間をかけられるって根拠はなんだろう?
Cashはともかく、あなたがスクラッチパッドメモリやダイレクトマップのL1$のデメリットについてよくご存じなのはわかったがでも俺だって中国人研究者より偉いわけじゃないからLINPACKマシンなどと陰口は叩けないだば
お前ら…cacheね…
もしかして:エネマグラ [wikipedia.org]
中国だと使い道がなくて完成してから1年間ほったらかしという記事を読んだことがある
まじでTOP500の上位を占有したいだけなんじゃないだろうか スポーツ競技と同じ感覚
> まじでTOP500の上位を占有したいだけなんじゃないだろうか スポーツ競技と同じ感覚
「とにかく1位であることが象徴的にも大事なんだ」という、「京」をめぐる床屋談義を思い出しました。
真の目的なんて通じるわけないからと素人向け説明&予算通すためのウリ文句ならともかくホントにそれしかないのはダメですね
#密な行列を解くような実用例って何があるんだろう。
「何に使うんだ」とか難癖つける国民は抹殺できるから中国が1位なのは当たり前過ぎますね。
こういう特殊なコンピュータで何ができるか研究するんです。煽りとか皮肉とかではなくてマジで。そしてその成果を次のスパコンに適用する。
多かれ少なかれ、どこの国でも国家規模で最先端のスパコンを導入するときはこういうことを目的としますよ。で、中国はそれに特化してきた可能性がある。
ある意味研究者のロマンですわ。日本を含め諸外国だとそんなことに特化するとか馬鹿かと批判を浴びることになりますが、中国は独裁だからできる。独裁国のお抱え研究者って理想型かも。
ポスト京のプロジェクト http://www.aics.riken.jp/fs2020p/ [riken.jp] でコデザイン推進チームのチームリーダーをしている牧野先生は、以下のように書いてるわけで、キャッシュなしは今後主流になるアーキテクチャを先取りしてるのかも。
https://twitter.com/jun_makino/status/745213256583680002 [twitter.com] > TaihuLight はあんまりHPL専用とか けなせる代物ではないと思うんだけど。
https://twitter.com/jun_makino/status/745213265660174336 [twitter.com] > 私の主張としては、現在のメニーコアでなくすべきものは、> (1) キャッシュコヒーレンシ> (2) Dキャッシュ> (3) MIMD> で、> (1) を止めたのが PEZY-SC、> (2) にきたのが TaifuLight>
一言で言えば全部スタティックにやりましょうということなんですが、牧野先生も平木先生は昔っからそういうのが好きでした
従来型よりプロセッサあたりのメモリは少な目でいいらしい、というかメモリを減らすためにSIMDだなんだと言い出した
補足
世の中にはメモリ少な目でいいからFLOPS値が大盛でほしい応用がかなりたくさんあって、計算機自体のコストも厳しいから1プロセッサあたり汎用CPUあたりの1桁以上のFLOPS値がほしいとなる
そうするとLSIには演算器以外のものは載せたくないし、キャッシュや同期関係をざっくり削るとなると上のような感じになる(非キャッシュこコヒーレント、スクラッチパッドメモリ、SIMD)ただしオンチップの通信は奢る必要はある
個人的にはSIMDは同期の粒度が細かすぎる気はする
そういう用途はありますが、たいていの場合大規模スパコンではなく、単なるクラスタで済みます。大規模スパコンの意義は、高速なことに加えて、大規模な問題を解けることにあるので。小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。これをやったら、クラスタに対する優位性が無くなってしまうので、専用に開発する意味が無い。
クラスタですめばクラスタでいいんですが
> 小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
compute intensiveな応用はどうするんですか?たくさんありますよ?
> 牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
誰が削っていいと言ってるんですか?そんなことをいうやつはクラスタで十分と言うのと同じ馬鹿ですよ
>compute intensiveな応用はどうするんですか?たくさんありますよ?小規模な問題という条件なら、大規模スパコンは不要です。小規模なコンピュータを多数用意する方が、初期コストでも電力でも有利です。
馬鹿には黙っていてほしいのだが
メモリは大してくわないけど計算パワーはものすごく欲しい、今の二ケタ以上速くなって応用がたくさんあるのよシミュレーションとかね
> 馬鹿には黙っていてほしいのだが
確かに #3034950 はひどすぎるね。
小規模なコンピュータを多数集めれば、演算器ネックな問題がとけるってのもひどいが(通信はどうするの?中国のこれは、専用インターコネクトがあるよ)、電力で有利ってのもひどい。どういう風に作っても大規模なスパコンの方がトータルな電力効率では有利だし、しかも中国のこれは普通のPCで使われているIntel CPUよりずっと電力効率がいいんだし。
>小規模な問題という条件ならこれが読めないらしい。#3034580も #3034950も、大規模スパコンの意義について話してるのに、読み取れないのね。
メモリ使用量と言う点で小規模な問題でもものすごく計算パワーが必要なの分子動力学とか、小規模クラスタなんかで100年かかっても解けない問題がたくさんあるの
馬鹿は黙ってろ
LINPACKって典型的にメモリ/通信負荷が軽い用途なんですが。だから、HPCCとかGraph500とかが出てきたわけで。それにLINPACKでピーク性能の65%って相当に低い部類ですよ。普通は80%~90%オーバーです。
たくさん引用されてるのも、キャッシュが必要かどうかの話であって、次世代スパコンでメモリ帯域やネットワーク帯域が不要とは一言も言ってない。
圧倒的なピーク性能で効率を補えていますトータルのメモリも少ないのでコストも安いでしょう
> それにLINPACKでピーク性能の65%って相当に低い部類ですよ。> 普通は80%~90%オーバーです。
京とか見てるとそういう印象かもしれませんが、先代の天河2号はたしか62%くらいしかなかった筈です。天河2号はXeonとXeon Phiという格段に大きいキャッシュとメモリーバンドを持つシステムだったわけで、それより規模を大幅に拡大して、演算効率と電力効率を自国開発CPUで改善してきたんですから立派なもんでしょう。
今回のTop500を上から見てくと、2位の天河2は62%、3位アメリカの DOE/SC/Oak Ridge の Opteron + NVIDIA K20x は65%ですね。
1位のTaihuLightが65%って話は勘違いか計算違いみたいで、効率74%あるから、2位や3位よりはずっといい。
もっとも4位は85%、5位の京は93%だけど。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
いや、何に使うんだこれ? (スコア:0)
impress [impress.co.jp]の記事読んだけど駄目だろこれ
いまどきこんな少ないキャッシュで何するんだよ・・・しかも他所より遅いDDR3とか、いくら演算速度それ自体はあっても、メモリのI/Oで足引っ張られまくるだけじゃねーか・・・
科学技術計算するのにこんなガラクタあってもなあ、って性能にしか見えんぞ・・・
Re:いや、何に使うんだこれ? (スコア:1)
260コアで共有キャッシュは一貫性を保つことが困難なので逆にオーバヘッドになる。
そもそもAlpha自体キャッシュ一貫性を保証せず、他のコアとデータ共有したければ常に同期命令を使えというアーキテクチャなので
xeon phiと同じMICで、gpuのよりマシな程度のcpuコアを大量に積んで性能を稼ぐのが目的なので問題ないだろう。
DDR3なのは微妙ではあるが、実行効率が悪くても電力消費も少ないので割が合う算段なのかもしれん。
Re: (スコア:0)
メモリバリアとキャッシュの一貫性は違うよ
Re: (スコア:0)
リンパックの実行効率は、京ほどでなくても比較的良い方らしい。
メモリもメモリI/Oも高性能では無いけど、制約の中で最善を尽くしたらこうなった、と見た方が良さそう。
恐入ります生意気を申します (スコア:1)
面積
16 bit オペランド
http://google.jp/search?q=nintendo+ddr3+reitensi [google.jp]
謝々々々 台湾宮廷料理海味館 名●屋市熊の前二丁目 ( MiniStop 対面 )
Re:エニグマとエネグラマの違い (スコア:0)
いやハード面では若干世代落ち間は否めないけれど
京と圧倒的に違うのは演算処理を完全に独立して行なっている点で、最終演算力は京より上です。
京も独立しているけれど、完全ではないのでどうしても他のノードと
「歩調」を合わせる必要がでてきてそれがボトルネックになってる
Re: (スコア:0)
演算だけで科学技術計算ができるならそれは正しいけど、実際には結果を書いたり読んだりしなきゃいけないし
そもそも計算内容が複雑になればなるほどキャッシュの予測がつきにくいから、キャッシュが少ないと言うことはそれこそ、他のノード以前に自ノードのメモリと速度を合わせる必要がでてきて、そこがボトルネックになる
「1+1を1秒に何回できるか」とかなら優秀でも「円周率を1秒に何桁計算できるか」ぐらいの難易度でもヘタすりゃ負けるし、ガチ最先端の科学技術計算じゃ本当に役に立たないと思うがなぁ
Re: (スコア:0)
・こいつにはキャッシュのかわりに64KBのスクラッチパッドメモリがある
・今日日のコンパイラはキャッシュユーセージはおおむね把握している
Re: (スコア:0)
スクラッチパッドメモリとキャッシュを一緒くたにするな
というかコンパイラでCash Usageは把握できるようになったけど、メモリ空間の厳密な管理が必要なスクラッチパッドは管理できないからこそスクラッチパッドは廃れてキャッシュ持たせるのが一般化したわけで
Re: (スコア:0)
だからPS3とか昔のGPGPUで性能を出すのは難しく、現代のGPUではL1,L2キャッシュを持つようになったのですよね。
特定のソフト向けに手作業で最適化すれば性能を出せるけど、手間がかかりすぎる。
Re:エニグマとエネグラマの違い (スコア:1)
その手間かけちゃうのが中国流なのでは?
Re: (スコア:0)
LINPACK専用なら手間をかけられるでしょうが、汎用では無理では。
中国なら手間をかけられるって根拠はなんだろう?
Re: (スコア:0)
Cashはともかく、あなたがスクラッチパッドメモリやダイレクトマップのL1$のデメリットについてよくご存じなのはわかったが
でも俺だって中国人研究者より偉いわけじゃないからLINPACKマシンなどと陰口は叩けないだば
Re: (スコア:0)
お前ら…cacheね…
Re:エネグラマ? (スコア:0)
もしかして:エネマグラ [wikipedia.org]
Re: (スコア:0)
中国だと使い道がなくて完成してから1年間ほったらかしという記事を読んだことがある
まじでTOP500の上位を占有したいだけなんじゃないだろうか スポーツ競技と同じ感覚
Re: (スコア:0)
> まじでTOP500の上位を占有したいだけなんじゃないだろうか スポーツ競技と同じ感覚
「とにかく1位であることが象徴的にも大事なんだ」という、「京」をめぐる床屋談義を思い出しました。
Re: (スコア:0)
真の目的なんて通じるわけないからと素人向け説明&予算通すためのウリ文句ならともかく
ホントにそれしかないのはダメですね
#密な行列を解くような実用例って何があるんだろう。
Re: (スコア:0)
「何に使うんだ」とか難癖つける国民は抹殺できるから中国が1位なのは当たり前過ぎますね。
Re: (スコア:0)
こういう特殊なコンピュータで何ができるか研究するんです。
煽りとか皮肉とかではなくてマジで。
そしてその成果を次のスパコンに適用する。
多かれ少なかれ、どこの国でも国家規模で最先端のスパコンを導入するときはこういうことを目的としますよ。で、中国はそれに特化してきた可能性がある。
ある意味研究者のロマンですわ。
日本を含め諸外国だとそんなことに特化するとか馬鹿かと批判を浴びることになりますが、中国は独裁だからできる。独裁国のお抱え研究者って理想型かも。
キャッシュなしは今後のトレンドかも? (スコア:0)
ポスト京のプロジェクト
http://www.aics.riken.jp/fs2020p/ [riken.jp]
でコデザイン推進チームのチームリーダーをしている牧野先生は、以下のように
書いてるわけで、キャッシュなしは今後主流になるアーキテクチャを先取りしてるのかも。
https://twitter.com/jun_makino/status/745213256583680002 [twitter.com]
> TaihuLight はあんまりHPL専用とか けなせる代物ではないと思うんだけど。
https://twitter.com/jun_makino/status/745213265660174336 [twitter.com]
> 私の主張としては、現在のメニーコアでなくすべきものは、
> (1) キャッシュコヒーレンシ
> (2) Dキャッシュ
> (3) MIMD
> で、
> (1) を止めたのが PEZY-SC、
> (2) にきたのが TaifuLight
>
Re: (スコア:0)
一言で言えば全部スタティックにやりましょうということなんですが、牧野先生も平木先生は昔っからそういうのが好きでした
従来型よりプロセッサあたりのメモリは少な目でいいらしい、というかメモリを減らすためにSIMDだなんだと言い出した
Re: (スコア:0)
補足
世の中にはメモリ少な目でいいからFLOPS値が大盛でほしい応用がかなりたくさんあって、計算機自体のコストも厳しいから
1プロセッサあたり汎用CPUあたりの1桁以上のFLOPS値がほしいとなる
そうするとLSIには演算器以外のものは載せたくないし、キャッシュや同期関係をざっくり削るとなると上のような感じになる
(非キャッシュこコヒーレント、スクラッチパッドメモリ、SIMD)
ただしオンチップの通信は奢る必要はある
個人的にはSIMDは同期の粒度が細かすぎる気はする
Re: (スコア:0)
そういう用途はありますが、たいていの場合大規模スパコンではなく、単なるクラスタで済みます。
大規模スパコンの意義は、高速なことに加えて、大規模な問題を解けることにあるので。
小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
これをやったら、クラスタに対する優位性が無くなってしまうので、専用に開発する意味が無い。
Re: (スコア:0)
クラスタですめばクラスタでいいんですが
> 小さな問題を高速に解くことが目的なら、小規模なコンピュータをクラスタでつなげるだけでいい。
compute intensiveな応用はどうするんですか?たくさんありますよ?
> 牧野さんも、キャッシュや同期の話はしてますが、メモリ帯域やネットワーク帯域を削っていいとはいってない。
誰が削っていいと言ってるんですか?
そんなことをいうやつはクラスタで十分と言うのと同じ馬鹿ですよ
Re: (スコア:0)
>compute intensiveな応用はどうするんですか?たくさんありますよ?
小規模な問題という条件なら、大規模スパコンは不要です。
小規模なコンピュータを多数用意する方が、初期コストでも電力でも有利です。
Re: (スコア:0)
馬鹿には黙っていてほしいのだが
メモリは大してくわないけど計算パワーはものすごく欲しい、今の二ケタ以上速くなって応用がたくさんあるのよ
シミュレーションとかね
Re: (スコア:0)
> 馬鹿には黙っていてほしいのだが
確かに #3034950 はひどすぎるね。
小規模なコンピュータを多数集めれば、演算器ネックな問題がとけるってのもひどいが(通信はどうするの?中国のこれは、専用インターコネクトがあるよ)、
電力で有利ってのもひどい。
どういう風に作っても大規模なスパコンの方がトータルな電力効率では有利だし、
しかも中国のこれは普通のPCで使われているIntel CPUよりずっと電力効率がいいんだし。
Re: (スコア:0)
>小規模な問題という条件なら
これが読めないらしい。
#3034580も #3034950も、大規模スパコンの意義について話してるのに、読み取れないのね。
Re: (スコア:0)
メモリ使用量と言う点で小規模な問題でもものすごく計算パワーが必要なの
分子動力学とか、小規模クラスタなんかで100年かかっても解けない問題がたくさんあるの
馬鹿は黙ってろ
Re: (スコア:0)
LINPACKって典型的にメモリ/通信負荷が軽い用途なんですが。
だから、HPCCとかGraph500とかが出てきたわけで。
それにLINPACKでピーク性能の65%って相当に低い部類ですよ。
普通は80%~90%オーバーです。
たくさん引用されてるのも、キャッシュが必要かどうかの話であって、次世代スパコンでメモリ帯域やネットワーク帯域が不要とは一言も言ってない。
Re: (スコア:0)
圧倒的なピーク性能で効率を補えています
トータルのメモリも少ないのでコストも安いでしょう
Re: (スコア:0)
> それにLINPACKでピーク性能の65%って相当に低い部類ですよ。
> 普通は80%~90%オーバーです。
京とか見てるとそういう印象かもしれませんが、
先代の天河2号はたしか62%くらいしかなかった筈です。
天河2号はXeonとXeon Phiという格段に大きいキャッシュとメモリーバンドを
持つシステムだったわけで、それより規模を大幅に拡大して、
演算効率と電力効率を自国開発CPUで改善してきたんですから立派なもんでしょう。
Re: (スコア:0)
今回のTop500を上から見てくと、
2位の天河2は62%、
3位アメリカの DOE/SC/Oak Ridge の Opteron + NVIDIA K20x は65%ですね。
1位のTaihuLightが65%って話は勘違いか計算違いみたいで、効率74%あるから、
2位や3位よりはずっといい。
もっとも4位は85%、5位の京は93%だけど。