【スパコン】東工大の“トップクラス”次世代スパコン「TSUBAME2.0」、11月の稼働開始予定
1 :
● ◆SWAKITIxxM @すわきちφ ★:
東京工業大学は6月16日、記者会見を開催し、
11月の稼働開始を目指している次期スーパーコンピュータ「TSUBAME2.0」について、
概要を説明した。目標とする性能は2.4ペタフロップス(ピーク性能)。
メンテナンス費用も含めた調達コストは32億円で、NECと日本HPの企業連合が受注した。
東工大は2006年4月に前世代のスーパーコンピュータ「TSUBAME1.0」を稼働。
デュアルコアOpteronを5240個使用したPCクラスタ型になっており、
この時の性能は80テラフロップスだった。
2008年10月には、アクセラレータとしてGPUを追加した
「TSUBAME1.2」にバージョンアップしたが(性能は170テラフロップスに向上)、
当初からすでに4年が経過しており、全面的なリプレースの時期を迎えていた。
TSUBAME2.0は、Intel製CPUによるスカラー演算と、NVIDIA製GPUによる
ベクトル演算を組み合わせた混合アーキテクチャのスーパーコンピュータ。
ピーク性能は2.4ペタフロップスとなり、これは今現在、日本国内の全スパコンを
合計した性能よりも上になる。Linpackベンチマークのスコアは
1.4ペタフロップス程度になる見込みで、世界一には届かないものの、
トップクラスの性能になる(前回のTOP500で見ると2位)。
スパコンランキングではなく実アプリの性能を重視
TSUBAME2.0の計算ノードは、並列計算用の「Thin計算ノード」(1408ノード)、
大容量メモリを用意した一部アプリケーション向けの「Medium計算ノード」(24ノード)と
「Fat計算ノード」(10ノード)で構成。主に使われることになるのはThin計算ノードで、
こちらには最新のFermiアーキテクチャGPUを採用したNVIDIAの「Tesla M2050」を搭載した。
このThin計算ノードは新規に開発したもので、日本HPより9月ころ製品化される予定だ。
Linpackベンチマークはスパコンの性能の一面を示しているに過ぎず、
システム全体の性能指標として適切ではないという指摘は以前から根強い。
最も有名なスパコンランキング「TOP500」で採用されていることもあり、
報道などではLinpackスコアによる順位ばかりが強調されがちだが、
開発を主導した東工大教授の松岡聡氏(学術国際情報センター)は、
「Linpackは重視していない。実アプリケーションで他のスパコンより
性能が出ればいい」と述べる。
そのために、設計で重視したのが高帯域なバンド幅(メモリ、ネットワーク、I/O等)の確保だ。
これが低いと3次元FFT解析などでの効率が悪化することがあり、
TSUBAME2.0では1.0に比べ、ピーク性能が30倍になったのに対し、
メモリバンド幅は40倍以上となっている。
こういった工夫により、「(TOP500で世界1位の)Jaguarは気象コードで
50テラフロップスしか出ていないが、TSUBAME2.0では2〜3倍の性能が出せる」とし、
実アプリでの性能に自信を見せた。
また、TSUBAME2.0では電力効率も重視しており、「グリーンスパコン」を目指した。
TSUBAME1.0と同等の消費電力で30倍のピーク性能を実現したほか、
PUE(電力効率の指標の1つ)も1.28に向上。
「日本のスパコンセンターとしてはトップの値を達成した」(松岡氏)という。
これは、GPUの採用による高効率化、
最先端の冷却システムの活用などによって実現したものだ。
同日、北海道大学、国立情報学研究所と協力し、
将来のスパコンの省エネルギー化に向けた取り組みを開始することも明らかにされた。
実証実験は来年度にも開始される予定で、得られた成果をさらに4年後の
「TSUBAME3.0」に反映する意向だ。
・計算ノードのスペック。全体では1万7664CPUコア/4224GPUという構成になる
ZDNet Japan
http://builder.japan.zdnet.com/news/story/0,3800079086,20415284,00.htm
2 :
名無しのひみつ:2010/06/16(水) 22:18:41 ID:MGvXE9/0
トップじゃなきゃダメなんですか?
3 :
名無しのひみつ:2010/06/16(水) 22:18:59 ID:sMZZijLv
これも仕分け対象だな
4 :
名無しのひみつ:2010/06/16(水) 22:19:20 ID:x76uB2Sa
リレーツバメじゃだめなんですか?
5 :
名無しのひみつ:2010/06/16(水) 22:23:09 ID:uNDItrW/
ながもんさんとこれ、どちらが高性能なんですか?
6 :
名無しのひみつ:2010/06/16(水) 22:23:40 ID:pDbqXLsP
首相の母校じゃないか!
7 :
名無しのひみつ:2010/06/16(水) 22:23:47 ID:sREjey8C
REN4責任取れ
8 :
名無しのひみつ:2010/06/16(水) 22:24:31 ID:O3puVxte
↓れんほーが一言
9 :
名無しのひみつ:2010/06/16(水) 22:24:43 ID:jy944v4D
2位か、事業仕分け通りか。。。
にしても、名前かっこいいなwww
10 :
名無しのひみつ:2010/06/16(水) 22:26:56 ID:PDa6bqp7
一位は確か10ペタだっけ
11 :
名無しのひみつ:2010/06/16(水) 22:31:24 ID:McDLQOXJ
どうせCPUやGPUの性能が上がっただけで
こいつらはたいした事してないんでしょう?
12 :
名無しのひみつ:2010/06/16(水) 22:34:23 ID:yN6nrF19
2.0じゃだめなんですか
13 :
名無しのひみつ:2010/06/16(水) 22:35:31 ID:/vTaH8bu
まあこの程度は簡単に出せるよな。実行性と哲学は別にすれば
14 :
名無しのひみつ:2010/06/16(水) 22:37:43 ID:14S3YNYa
フランスの自作PCマニアの20万円そこそこのPCに
負けた日本のスパコン
15 :
名無しのひみつ:2010/06/16(水) 23:02:12 ID:1rhQpHZh
Jaguar XT5 Partitionの総CPUコア数が224,256個でpeak performanceが
2.3Petaflopsだから理論値どおり出るのならまあ悪くはないかも。
でもこの性能はGPGPUに過分に依存していると思われるので、
ツボにはまるプログラム以外だと苦戦しそうだな。ソース書くの大変そうだし。
16 :
名無しのひみつ:2010/06/16(水) 23:02:32 ID:pjrcgaiy
2位w
17 :
名無しのひみつ:2010/06/16(水) 23:05:07 ID:zBv7XD2H
1位を狙うと仕分けされるので
故意に下位を狙いましたって感じだなw
18 :
名無しのひみつ:2010/06/16(水) 23:10:58 ID:FGG6lT26
あえて二位にするところに意地を感じるw
19 :
名無しのひみつ:2010/06/16(水) 23:25:54 ID:Ub0le0Et
20 :
名無しのひみつ:2010/06/16(水) 23:27:59 ID:sDadm6UX
またtop500専用機?
21 :
名無しのひみつ:2010/06/16(水) 23:39:02 ID:m7sAzbOO
2位でよかった。これで仕分けされないで済む。
1位になると某中年ババアのレンホウなにがしが出てきて中止に追い込まれるからな。
22 :
名無しのひみつ:2010/06/16(水) 23:43:20 ID:XYKGZGmr
23 :
名無しのひみつ:2010/06/16(水) 23:48:43 ID:0g0zScm5
ベクトル型とスカラー型を統合が統合できたのは無駄で時代遅れだといわれてきた地球シュミレーターのおかげ
24 :
名無しのひみつ:2010/06/17(木) 00:12:01 ID:85BYB0x9
コスパ高いな
25 :
名無しのひみつ:2010/06/17(木) 00:31:39 ID:42tPwESn
>>14 お前は先週の天気予報でも見てろ。
俺は高価なスパコンで計算した明日の天気予報を見るからさ。
26 :
名無しのひみつ:2010/06/17(木) 00:37:49 ID:jR9SQMku
京速云々は、やめたん?
27 :
名無しのひみつ:2010/06/17(木) 00:47:07 ID:521Z6dfX
やっぱり2位どまりか
28 :
名無しのひみつ:2010/06/17(木) 00:55:59 ID:Y9fsof00
Clear Speedはもうやめたのか?
29 :
名無しのひみつ:2010/06/17(木) 00:58:56 ID:DsY7MLh0
激指動かしてみてくれ
30 :
名無しのひみつ:2010/06/17(木) 01:03:58 ID:6AJac+UG
事業仕分けの結果なんて聞く耳持つ必要ないと本人が言ってましたよ
31 :
名無しのひみつ:2010/06/17(木) 01:10:34 ID:aO7oYbm+
おまいらのPS3を寄付してやれよ
32 :
( ;‘e‘)チャーニィたん ◆charny.4eA :2010/06/17(木) 01:10:49 ID:bKfBSSf5 BE:107986346-S★(508940)
( ;‘e‘)( ;‘e‘)<蓮舫のマン汁でスパコンがショートさられるらしい
33 :
名無しのひみつ:2010/06/17(木) 01:32:50 ID:uAZV13O7
さて、蓮舫予算削ってみろよ
34 :
名無しのひみつ:2010/06/17(木) 01:37:55 ID:LZEiZubX
これって倍精度いけるの?
35 :
名無しのひみつ:2010/06/17(木) 01:41:31 ID:ovo8/2aj
蓮舫対策ワロタwww
2位ねらってみましたエコです電気代少ないです
36 :
名無しのひみつ:2010/06/17(木) 02:09:53 ID:qiITO1QR
>>34 Fermiの倍精度は前世代からあまり進化してない
多分単精度の話だと思う
37 :
名無しのひみつ:2010/06/17(木) 02:53:22 ID:LWX/0R2X
スパコンで一位になるより、ウインテルの牙城を崩し儲けて欲しい。
とこで
なぜトロンosを採用した携帯電話は出ない?オープンソースだから?
アンドロイドはリナックスを母体にしてるからできると思うが。
38 :
名無しのひみつ:2010/06/17(木) 04:07:55 ID:lF55r5cF
>>37 ゆとり乙。
とはいえ、スマートフォン普及でシェア激減な状態らしいけど。
ルネサスがQualccommに対抗できるようなARMプロセッサ作らない限りどうしようもないね。
39 :
名無しのひみつ:2010/06/17(木) 06:33:12 ID:eZ9Q2Ag/
>>36 えっ?
Fermi倍精度をおもいっきり強化してただろ
汎用CPUみたいに単精度の半分のスループットが出せるように。
40 :
名無しのひみつ:2010/06/17(木) 07:40:12 ID:w9jdbBTA
東工大ってTSUBAMEが好きだねえ。
確か開発中の小型衛星もTSUBAMEって名前だよな?
41 :
名無しのひみつ:2010/06/17(木) 07:45:26 ID:w9jdbBTA
シンボルマークは『ツバメと窓』、「工」の文字を窓に見立て「大」をツバメの形にデザインした。当時東京美術学校教授だった堀進二が1948年に図案した。
シンボルマークが燕だったのか、東工大。
42 :
名無しのひみつ:2010/06/17(木) 08:19:34 ID:u7exWOdI
日本風な名前だと、やっぱ「もんじゅ」が一番カッコいいなあ。
「みろく」とか「えんま」とか「ごんげん」とか「なゆた」とか「ごうがしゃ」とか
そういうテイストの名前がいい。
仏教系といえばインドの核ミサイルの名前って全部カッコいいよね。
一番ダサオタなのはアメリカだけど。
43 :
名無しのひみつ:2010/06/17(木) 09:57:14 ID:m4TGI0ZV
>>34 倍精度で理論性能のピークが2.4ペタです。
ちなみに2位になったのはレンホーはあまり関係ありませんw
44 :
名無しのひみつ:2010/06/17(木) 10:24:33 ID:2L4zhD8J
45 :
名無しのひみつ:2010/06/17(木) 10:27:57 ID:XFw7UNCW
>全面的なリプレースの時期
置き換えた後の旧機種ってどこかに売却するのかな。
まさか5240台がジャンク扱いでアキバに出回るとかw
46 :
名無しのひみつ:2010/06/17(木) 11:01:18 ID:rC44JLjS
>>27 > やっぱり2位どまりか
マジコン大臣R4やその他の事業仕分け人と同レベルの奴発見
記事にはLINPACKで比較すること自体がナンセンスだということを
解説してるんだからちゃんと読めよチンカス
スパンコンはLINPACK走らせて終わりじゃないんだぞ
それぞれの目的に合わせて設計・構築されてるんだぞ
1位のJaguarに気象コードやらせても50テラフロップスしか出ないんだぞ
理論ピーク性能は2.3ペタフロップスなのに50テラだぞ
効率2.17%だぞ
ピーク性能が約20分の1の130テラフロップスの改良版地球シミュレータに
実効性能では2倍も差を付けられてんだぞ
47 :
名無しのひみつ:2010/06/17(木) 19:35:07 ID:SwP5odP+ BE:2271132285-2BP(162)
ただ寄せ集めただけじゃ、金をかければ誰でも出来るな
所詮東工大だよ
48 :
名無しのひみつ:2010/06/17(木) 19:40:22 ID:i++AGh0E
GPUは性能が上がっていくが
相対的にノード間通信能力の性能の伸びが足りないので
相対的にはどんどん細くなっていくなあ。
本当なら同じ程度に性能向上してやらなければならないのだが
それやったら、こんな予算じゃ無理だな。
49 :
名無しのひみつ:2010/06/17(木) 19:56:23 ID:Jc0ZWhLv
無知な俺にどうすごいのか
ガンダムかドラゴンボールで例えてくれ
50 :
名無しのひみつ:2010/06/17(木) 20:08:05 ID:5PBciG23
HPって開発環境に強いの?
> このThin計算ノードは…、日本HPより9月ころ製品化…
51 :
名無しのひみつ:2010/06/17(木) 20:26:01 ID:PeJXpmVT
>>49 ヤムチャさんがサイバイマンに勝利し立ち去る所・・・(´・ω・`)
52 :
名無しのひみつ:2010/06/17(木) 21:00:30 ID:IO6CW7JH
Linpackスコアが技術点で、東工大は芸術点なら勝てると言いたいのかな?
53 :
名無しのひみつ:2010/06/17(木) 21:01:26 ID:m4TGI0ZV
>>47 寄せ集めのものとは違うって記者会見でも言っていると思うが?
バンド幅が厚くなっているっていうのは、寄せ集めでは出来ない。
54 :
名無しのひみつ:2010/06/17(木) 21:26:30 ID:ckoMaI8h
|┃三 ζ:::ミミ:::::::::::::::::::::::::::::::::::::ヽ
|┃ ζ::::::::::蓮舫r:::::::::::::::::::::::::::::ヽ
|┃ {:::::::r` ヽ::::::::::::::::::}
ガラッ. |┃ {::::f ヽ:::::::::::::::}
|┃ ノ// ヽ:l'``‐- ,, ,,-‐"´` ヽ:::::::::/
|┃三 l:|<@> <@> l::::/l
|┃ y | イ/ノ/
|┃ l` /、__, )\ / レ_ノ
|┃三 ヽ { ___ } l::/
|┃ 入 ヽLLLLレ ノ ,仆、
|┃ / \ "" / l ヽ
|┃三 / T''‐‐''´ /| \
55 :
名無しのひみつ:2010/06/17(木) 21:38:02 ID:knYYUXfB
>>52 Linpackスコアは芸術点でも技術点でもないぞ。
どちらかと言えば100mトラックのタイム。
ただ早いだけで用途が限定されるHPCだよ、これは。
例えば全球気象シミュレーションでは地球シュミレータの30%出れば良いところ。
56 :
名無しのひみつ:2010/06/17(木) 21:48:20 ID:IO6CW7JH
>>55 つまり、才能よりも実力勝負ってことかな?
前総理に耳があったら、さぞかし痛いだろうな・・・
57 :
名無しのひみつ:2010/06/17(木) 22:48:37 ID:YOr/VV6y
でもツバメって次世代気象モデルのシミレーションが強烈に早いんでしょ?
58 :
名無しのひみつ:2010/06/17(木) 23:09:03 ID:PLk3PkcI
59 :
名無しのひみつ:2010/06/17(木) 23:36:28 ID:ydnnGSoQ
次世代気象モデルって気象庁にスパコン運用できる財政的余裕あんの?
60 :
名無しのひみつ:2010/06/18(金) 01:33:56 ID:wflnNMFa
>58
>高速ネットワークで連結された120個の GPU を使うことにより,
>3.22 TFlops の実行性能を達成しました。
ここで使われているTeslaが一台で512GFlops
120台なら60TFlops
実効効率は5%ちょっとか。1%行かない安物クラスタも多いから
頑張っているとは言えるかもしれないな。
61 :
名無しのひみつ:2010/06/18(金) 02:01:07 ID:W2MWx0cH
結局のところスパコンの性能は何で測ればいいのか誰か教えてくれよ。
そしてその基準に照らして世界で一番性能がいいのはどのスパコンなんだ?
62 :
名無しのひみつ:2010/06/18(金) 02:11:23 ID:mNMwIvH/
専門家が議論しても確実にコレと言えるのがきまらんのだからここで聞いて答えなどでない。
63 :
名無しのひみつ:2010/06/18(金) 02:14:16 ID:v1SyU1od
ペタフロップス・コンピューティングへの道
図書館で借りてでもいいから、読んでみて!
64 :
名無しのひみつ:2010/06/18(金) 02:15:45 ID:iswyWx7t
頭の固い研究者よりも,マニアックな秀才・天才学生達に自由に使ってもらう方が
なにか新しい成果が出るような気がしないでもない。悪くない先行投資だろう。
65 :
名無しのひみつ:2010/06/18(金) 02:35:42 ID:qN4frSw2
>>47 記事も読めない文盲乙
ただの寄せ集めというのはTSUBAME2と同じようにGPUを利用して理論ピーク性能
世界1位でありながら比較的実効性能が出しやすいLINPACKでさえ性能出せずに
Jaguarに負けて現在Top500の第2位に位置する中国のNebulaeみたいなのを言うんだよ
馬鹿は黙ってROMってろ
>>52 LINPACKは技術点でも芸術点でもない
LINPACKはLINPACKでしかなく、LINPACKでスパコンの性能を測るという行為は
人間の体力測定における立位体前屈での記録で、長距離走の能力を推察しろと言っているようなもので
前屈は前屈の記録でしかなく、長距離走に限らずそれぞれの能力を知るには
それぞれの測定項目に適した方法で測定する必要がある
>>59 現在の政権与党である民主党しだいとしか言いようがないのでは
アメリカの場合だと不況だからこそ雇用対策としてJaguarに予算を2000万ドルも追加している
一方日本の現政権与党は事業仕分けと称して大衆にアピールするつもりが
目標として喧伝していた3兆円削減に全然届かないし
埋蔵金も全く出てこない上に、「2位じゃ駄目なんですか」発言で無知を露呈しただけ
無駄な支出を抑えるということは大事だが
鳩山の人気取りのポピュリズムの為に無理なノルマの押しつけられ
結果、科学と産業に振興に欠かせない重要な事業を
成長戦略のビジョンも何もない無知で馬鹿な政治家達の
駆け引きに使われているのが現状
66 :
名無しのひみつ:2010/06/18(金) 11:38:55 ID:sk8lpLf7
67 :
名無しのひみつ:2010/06/18(金) 12:29:23 ID:x4QtZaeP
それカラオケでよく歌うわ
68 :
名無しのひみつ:2010/06/18(金) 13:48:32 ID:RqJzVVFf
69 :
名無しのひみつ:2010/06/18(金) 14:22:58 ID:GRLj+B5v
12CoreのOpteron6100を2個さしたブレードを40枚差したタワーを
400本用意すると
2.4GHzだとして
2.4*4*12*2*40*400=921600 GFLOPS=921 TFLOPS
もう少しで1PFLOPSだな
1万6000ノードも必要なので
GPUないと1PFLOPS超えは無理は無理か
70 :
名無しのひみつ:2010/06/18(金) 15:07:39 ID:hPy0QNB+
理研よりも大きなハコが必要だな
71 :
名無しのひみつ:2010/06/18(金) 15:20:22 ID:1er6+jJW
>>11 スパコンと言うかソフト何もわかってないだろ
>>14 ルーピーはこれだから
>>47 あのな〜石があれば動くってもんじゃないから
重要なのはソフトウェアだって話だ
>>65 ポピュリズムで役に立たないとか決めつけるバカを持ち上げるこの国ですから
72 :
名無しのひみつ:2010/06/18(金) 15:44:24 ID:i5yjX7EM BE:312448043-2BP(1029)
プロジェクトで人足りないからって人雇っても
結局 大人数を使いこなせないだけで何も成果上がらないとかいうのと同じで
こんなのあっても 成果は たいした結果がでないんだろ?
並列化率どのくらいあるんだよ・・・ てか、並列化率の限界を知らないで作っちゃったとか?
73 :
名無しのひみつ:2010/06/18(金) 15:49:29 ID:i5yjX7EM BE:703008239-2BP(1029)
ス〜パ〜コンピュ〜ティングの将来は 現在の延長線上にはないよ。
その芽が出てきているけど 全然別の分野ね。 東工大にもその教授いるんだけどね。
74 :
名無しのひみつ:2010/06/18(金) 16:19:46 ID:QL+QMyUa
ぶっちゃけスーパーコンピューターって、金さえあれば誰でも作れるようなものなの?
それとも、何か独自の技術とかいるの?
75 :
名無しのひみつ:2010/06/18(金) 16:54:59 ID:qN4frSw2
>>74 「誰でも」出来るのでは?と疑問に思うなら
具体的にどういうものを使って構築し、
理論ピーク性能と実効性能がどの程度でる予定で
実際に利益が出る形でどこに納入を打診したら
性能に納得してくれて買ってくれそうかを第3者が
納得する形で説明してみせてくれ
米軍の研究者がPS3を使って格安のスパコンを構築しましたって話題になって
「日本もPS3で構築すれば格安で高性能なのを作れそう」とほざく馬鹿が
雨後の竹の子の如く好き勝手にのたまわっているがそういう奴らに
実際にPS3を連結したシステムが素晴らしいならその研究者だけでなく
米軍の別のセクションや米エネルギー省傘下の各種研究所、
米国に限らずドイツや中国だってPS3で作ったシステムに乗り出してたって
おかしくないのにどこも真似してないのは何故か、この矛盾を説明させてみればいい
76 :
名無しのひみつ:2010/06/18(金) 17:40:59 ID:QL+QMyUa
>>75 たとえばPS3をスーパーコンピューターにする場合は、
別になにか特別な装置を開発する必要があるの?
77 :
名無しのひみつ:2010/06/18(金) 18:50:12 ID:qN4frSw2
>>76 質問ばかりしてないで少しは調べる努力くらいしろよチンカス
PS3は素のままだと外部との通信は1GbpsのEthernetが最高のスループットだぞ
それで1000台を超える多数のPS3を繋いだシステムに局所性のない問題を与えて
それぞれが他のノードのPS3からデータ読み込もうとしても
ネットワークの帯域が飽和しないで性能でるとおもうのか?
78 :
名無しのひみつ:2010/06/18(金) 19:14:42 ID:da6+XlVz
頭いい奴が馬鹿でも分かるように、かつ馬鹿でも自分の過ちが理解できるように簡潔に説明してたつもりになっても
きっと頭の悪い奴の知性は、頭のいい奴が想定していた馬鹿のそれよりも遥か下を行っているのが常である
79 :
名無しのひみつ:2010/06/18(金) 20:15:26 ID:B0gAdRkJ
そもそもだな、スカラー(CPU)とベクトル(GPU)のイメージとしてはこんなもんだ。
スカラー型 => 複数の値をひとつずつ取得して計算 == 銃で相手を攻撃
ベクトル型 => 複数の値をまとめて計算(行列) == 火炎放射で面攻撃
問題は計算データの収集だな。
80 :
名無しのひみつ:2010/06/18(金) 20:41:27 ID:aWFCgGGI
いつもの犬のおっちゃんがまだ出て来てないな。
NECがプライムだけどGPU構成だから貶しにくいのかな?
81 :
名無しのひみつ:2010/06/18(金) 21:17:26 ID:UMq/AohJ
>>77 じゃあ米空軍のPS3スパコンはネットワークの帯域が飽和してるの?
82 :
名無しのひみつ:2010/06/18(金) 21:32:40 ID:ymmsIFjt
ES2関係者涙目w
83 :
名無しのひみつ:2010/06/18(金) 22:27:56 ID:d5muoHCk
トップクラスで泣きゃだめなの?
セコンドクラスでもええんじゃない?
エイエイホー エイエイホー
84 :
名無しのひみつ:2010/06/18(金) 22:40:36 ID:ikjf/8Hb
順位を決める基準になるものが実際の使用時の性能を表わさないならその基準で1位を目指す事の意味は説明できないわな
85 :
名無しのひみつ:2010/06/18(金) 23:16:24 ID:u7CTVX+K
>>81 そう。結局それがネックになって、どうしようもなくなって止めた。
86 :
名無しのひみつ:2010/06/18(金) 23:18:05 ID:0TNMGUeH
>>81 PS3スパコンは、ある特別な問題(おそらく流体計算)を速く解くための
専用計算機のような物だと思う。
その問題専用のプログラムを、ネットワーク周りの貧弱さや1台1台の
メインメモリの少なさをカバーするように組むことによって性能を引き出しているので、
他のプログラムを走らせると帯域問題等でまともに動かないはず。
>>82 TSUBAME2(省エネ・コストパフォーマンス重視)と次世代スパコン(ともかく高性能化)は
ちょっと方向性が違うのであまり気にしてないと思うが・・・
87 :
名無しのひみつ:2010/06/18(金) 23:22:09 ID:dIPC/p2q
>>84 新しい基準(ベンチマーク)を作ろうとすれば、各機関が自分の課題を基準にしようとして結果、誰かが得をするだけの基準が出来上がる。
その問題は、その新しいベンチマークの結果がおのおのの課題に対してどれくらい参考になるのか、みんな解らない。
その点、Linpakの結果は(スパコンを使う人なら)みんなどういったものか知っている。
Linpackの結果とシステムの構成が解れば、自分の課題に対してどれくらいの性能なのかおおよその判断ができる。
だからLinpackの性能指標は基準として成立する、というものだそうだ。
まぁ、つまり闇雲にLinpackを伸ばすのを目標にするのはおかしいが、基準として意味の無いものでは決して無いということ。
88 :
名無しのひみつ:2010/06/18(金) 23:23:09 ID:IznYlPzd
TUBAME 32億円 2.4ペタフロップス 2010年稼動
京速 1200億円 10ペタフロップス 2012年稼動
こうならべると、京速は仕分けられても当然と言う感じはある。
なんでこうなったの?
89 :
名無しのひみつ:2010/06/18(金) 23:29:16 ID:bDepTXSF
普通のGPUとかだと、外部のバスがネックになったりしないの?
90 :
名無しのひみつ:2010/06/18(金) 23:34:59 ID:dIPC/p2q
>>89 バスよりもメモリ量が問題になるんじゃないかな?
Teslaの少ないメモリを超えたデータ量を超えると極端に性能が落ちるような。
演算量に対して極端にデータ量が少なく、かつ分散化が進んだ分野でないとシステムを生かせないかも。
91 :
名無しのひみつ:2010/06/18(金) 23:51:36 ID:0TNMGUeH
>>88 TSUBAME2の基本パーツ(CPU,GPU,チップセット、メモリ、,ネットワークアダプタ等)は
全て普通に買える汎用品で、しかもコストパフォーマンスが良い物を選んでいる。
OSもIntel用LinuxやWindows HPCが使えるし、ライブラリもIntelやNvidiaが出してくれる。
京速はCPU(SPARC64 VIIIfx)から何から国産で新規開発。OSやコンパイラ、ライブラリも新規開発。
さらに各コンポーネントの信頼性がエンタープライズ用途並みの物を要求していて、
それでいて物理CPU数が8万以上(64万物理core)を予定という何でもあり状態なので、
開発費込みの調達価格がとんでもないことになっているんだと思う。
92 :
名無しのひみつ:2010/06/19(土) 00:23:48 ID:IUvw0Tz+
本来はその予算の中に
NECのベクトルが入る予定だった。
それがとんでもなく金食い虫だが
安物クラスタでは使えない計算を受け持つはずだった。
それがなくなったんだから
200億もあれば十分だろ。
富士通のスカラクラスタはSPARCを使うといえど
安物クラスタの範疇を超えるものではない。
箱物を別にすれば、TSUBAMEと同程度の
パフォーマンスでできるはずだ
93 :
名無しのひみつ:2010/06/19(土) 00:31:58 ID:IUvw0Tz+
TSUBAMEに限らないが、いまのGPUはパソコンのマザボに相当するものに
接続して、PCのCPU、メモリ、I/Oを介してネットワークに繋がるように成っている。
そのため、ネットワークの通信量も小さいが
レイテンシー(通信遅れ)も相当大きい。
GPU内で演算単位が処理され、なおかつ、他のノードとの
通信がほとんど必要ない課題でなければならない。
それ以外の課題は絶望的に遅くなる。
120ノード、60TFlopsの機材を使って、3.2TFlops
の実効性能が出たと喜んでいる状況。
94 :
名無しのひみつ:2010/06/19(土) 00:49:02 ID:uFXtAoRk
95 :
名無しのひみつ:2010/06/19(土) 01:34:59 ID:eJ5xHJH1
>>88 TSUBAMEは買い物だけど、京速は公共事業だから。
とにかく高額の予算を確保して電機メーカーにばら撒くのが目的で、その予算が使われた結果は問題じゃないのよ。
ド田舎に、ろくに使われもしない空港や道路を作ったりするのと、性格としては一緒。
96 :
名無しのひみつ:2010/06/19(土) 03:11:26 ID:VBJnVyt3
>>95 そんな単純な図式なら事業仕分けの時にあんなに騒がれてねーっつのボケ
97 :
名無しのひみつ:2010/06/19(土) 03:37:34 ID:eJ5xHJH1
98 :
名無しのひみつ:2010/06/19(土) 03:49:45 ID:sFhsmFYc
>>93 しかもそれ単精度だから。倍精度だとまあうまくいって半減の1.6TFLOPS、実行効率3%。
ベクトルコードをT2Kで動かした場合の実行効率が5%程度だから、スカラ以下ですってこと。
99 :
実アプリケーションで評価:2010/06/19(土) 04:36:59 ID:D//syoyM
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
100 :
名無しのひみつ:2010/06/19(土) 04:41:17 ID:A0vj3G8+
>>90 >バスよりもメモリ量が問題になるんじゃないかな?
LINPACKなら、外部バスしょぼくても、内部の高速にアクセスできるメモリが大量に
あればいい。
従来のGPUにはどちらもなかったので、LINPACKですらろくに性能は出なかった。
http://graphics.stanford.edu/papers/gpumatrixmult/ みると(行列乗算だが、通信の局所性はLINPACKと同じ)3GHzのP4と同程度か、むしろ劣る。
>>1 >こちらには最新のFermiアーキテクチャGPUを採用したNVIDIAの「Tesla M2050」を搭載した。
ってのは、従来より倍精度の計算速度と内部メモリが増えてて、どうやら倍精度LIN
PACKに特化してる。うまい買い物をしたとは思うが、
>>1 >開発を主導した東工大教授の松岡聡氏(学術国際情報センター)は、
>「Linpackは重視していない。実アプリケーションで他のスパコンより
>性能が出ればいい」と述べる。
といいつつ、実態はLINPACK専用機。
>>86 >TSUBAME2(省エネ・コストパフォーマンス重視)と次世代スパコン(ともかく高性能化)は
>ちょっと方向性が違うのであまり気にしてないと思うが・・・
方向性は全く同じ。
NEC・・・・・
さりげなくHPと組んでるけど・・・・
いいのかこれ。
102 :
名無しのひみつ:2010/06/19(土) 05:39:57 ID:A0vj3G8+
>>101 >TSUBAME2.0の計算ノードは、並列計算用の「Thin計算ノード」(1408ノード)、
>大容量メモリを用意した一部アプリケーション向けの「Medium計算ノード」(24ノード)と
>「Fat計算ノード」(10ノード)で構成。主に使われることになるのはThin計算ノードで、
>こちらには最新のFermiアーキテクチャGPUを採用したNVIDIAの「Tesla M2050」を搭載した。
>このThin計算ノードは新規に開発したもので、日本HPより9月ころ製品化される予定だ。
と、主要部分はHPで、NECはおまけっぽい。
Fat計算ノードってのがSXだったりするのかもしれん。
そこまで堕ちちゃったのね。
NEC・・・・・
たいしたことないといえばたいしたことなかったけど
104 :
名無しのひみつ:2010/06/19(土) 08:54:46 ID:IUvw0Tz+
NvidiaはNECの共有メモリ他のパテントを
GPUに使ってるからな。
結構いろいろ共同開発している。
106 :
名無しのひみつ:2010/06/19(土) 18:42:46 ID:G2h/fL2/
長崎大学のGPUスパコン理論のよいところを抽出できないの?
教えてえらいひと
107 :
名無しのひみつ:2010/06/19(土) 18:56:33 ID:A0vj3G8+
>>105 しかもHP製だから、NECは完全にSIerか。落ちたもんだな。
その図だと、相互結合網がフルバイセクションなんで、
>こういった工夫により、「(TOP500で世界1位の)Jaguarは気象コードで
>50テラフロップスしか出ていないが、TSUBAME2.0では2〜3倍の性能が出せる」とし、
>実アプリでの性能に自信を見せた。
は、thinノードのCPUが216TFLOPSのピーク性能に近い速度が出せると仮定してるん
だろうな。
しかし、ES1では、64GFLOPSのノードを12.3GBps(98.4Gbps)でつないでる。
TSUBAME2.0は、ノードあたり153GFLOPSで、それにQDRを2ポートつないでそうだが
それで80Gbpsと、FLOPSあたりの通信性能はES1にかなり見劣りするけど、大丈夫
かね。ES1が贅沢すぎただけ?
せめて比較対象はES2にしといてやってくれ。
109 :
名無しのひみつ:2010/06/19(土) 21:41:12 ID:A0vj3G8+
>>108 ES2って、流体コードで性能出てるのか?
ソースあったら、よろ。
>>109 検索してもES2の流体アプリのベンチ結果があたらないな。ちと見つからない。
性能出てる比較対象としか比較しちゃなんない事もないだろ。
そもそも製造年次もES2の方が近いし、NECもES1の時のようなネットワークを諦めてるんだから、
現実問題比較対象に出来るのはES2だろう。学問として計算機科学をやりたいなら別だが。
111 :
名無しのひみつ:2010/06/19(土) 22:30:58 ID:vwSUCtgr
>>109 ES2では流体コードでは全然性能が出てないらしい。
ES1より性能が低いという噂もあり。
今度の生贄はNvidia?
1.0はSUNだったね
その前はCRAY
最初はETAだっけ?
113 :
名無しのひみつ:2010/06/19(土) 22:57:20 ID:IUvw0Tz+
ES2は絶対的な速度はそれなりに早くなっているが
効率は落ちているそうな。
牧野先生のところに書いてあった。
114 :
名無しのひみつ:2010/06/19(土) 22:58:01 ID:IUvw0Tz+
ごめん ES2じゃなくてSX9の話
115 :
名無しのひみつ:2010/06/20(日) 07:35:48 ID:uhyG+iSn
>>110 >検索してもES2の流体アプリのベンチ結果があたらないな。ちと見つからない。
それ、性能がいまいち出てないことの、状況証拠。
>そもそも製造年次もES2の方が近いし、NECもES1の時のようなネットワークを諦めてるんだから、
>現実問題比較対象に出来るのはES2だろう。学問として計算機科学をやりたいなら別だが。
フルバイセクションを謳ってる以上、比較対象はES1だよ。
性能が数倍も違わないので、FLOPS/BPS比は指標として完全に有効。
>>114 URLは?
116 :
名無しのひみつ:2010/06/20(日) 10:05:36 ID:nZcqFfen
>>115 >
>>110 > >検索してもES2の流体アプリのベンチ結果があたらないな。ちと見つからない。
>
> それ、性能がいまいち出てないことの、状況証拠。
性能がいまいち出てないどころかES1よりも低下しているらしい。
ES1以上の性能が出たアプリは皆無とか聞いたことがある。
あんな物TSUBAMEの6倍の価格で購入して何の意味があるんだろうか。
117 :
名無しのひみつ:2010/06/20(日) 14:25:32 ID:uhyG+iSn
>>116 >性能がいまいち出てないどころかES1よりも低下しているらしい。
ES1が40TFLOPSで8TBps、ES2は131TFLOPSで10TBpsだから、絶対的な通信バンド幅で
は負けてないんだが、、、原因の見当はついた。
ES1のほうには、
http://www.jamstec.go.jp/es/jp/es1/system/in.html ノード間での、連続データだけでなく3次元配列断面やリストベクトル参照タイプのデータ
転送を行うハードウエア命令が用意されている。
ってあるんだけど、この命令ってかなり重要。ES1は結合ネットワークが主記憶に直結だ
からこういうことできるけど、ES2は分離してるから無理。
TSUBAME2.0は、thinノードでGPUは無視して216TFLOPS。ノードあたりのQDRが2個だと
すると14TBpsと、F/B比はES2にも劣る。
データ転送の専用命令なんてないだろうし、もしあってもキャッシュ前提の主記憶は連続
アクセスでしか性能でないので、ES2と同様の結果に終わりそうだ。
>ES1以上の性能が出たアプリは皆無とか聞いたことがある。
LINPACKのような計算も一応はアプリとしてあるから、それはないだろ。ES1で動かしてた
アプリ限定でなら、ともかく。
>>117 >ノード間での、連続データだけでなく3次元配列断面やリストベクトル参照タイプのデータ
>転送を行うハードウエア命令が用意されている。
これは多分HPF用で、MPIにはそんな機能は用意されていなかったと思う。
HPF側で対応していたと思ったけど、ハード上にそんな機能を入れてたんだ…
119 :
名無しのひみつ:2010/06/20(日) 16:27:29 ID:uhyG+iSn
>>118 >MPIにはそんな機能は用意されていなかったと思う。
パックアンパックやギャザースキャッターに、ライブラリ内部で普通に使うだろ。
>ハード上にそんな機能を入れてたんだ…
俺も今日見つけて驚いたが、これでES1の驚異的な並列化率が説明できる。
>>119 ESのMPI上でパックアンパックするような機能はないって。
gather やscatterにしたって不連続データを使えるのは派生データタイプだけだった。
でES側は派生データの使用を勧めていなかった。
(自分で連続データにパックしてMPIライブラリに送れと)
121 :
名無しのひみつ:2010/06/20(日) 16:54:58 ID:uhyG+iSn
>>120 ESは使ったことないから知らんが、X軸で並列化してたのをY軸での並列化に切り替える
時は、「3次元配列断面」のような機能使わずに、どうするんだ?
それに、ノード内では自分で連続データにパックするのは当然として、それをそれぞれ別
の他ノードに送るわけだぞ。
122 :
名無しのひみつ:2010/06/20(日) 17:10:34 ID:vRYsytsS
123 :
名無しのひみつ:2010/06/20(日) 17:13:47 ID:iol7C4vV
金って
あるところにはあるんだね
>>121 だからX→Yのような転置の場合も不連続アクセスだから、派生データで送るか、
不連続データを連続データにパックして送るかのどちらか。後者はあくまでも連続データの転送。
MPI通信で不連続データを送る機能は派生データしかないだろ、でその派生データで送る方法を
ESCがむしろ勧めないんだから、あったとしても機能してないだろ。
これって、ソフトは全部東工大が書いたの?
ベンダに書かせただけ?
126 :
名無しのひみつ:2010/06/20(日) 17:40:05 ID:uhyG+iSn
>>124 なんで、ノード内の話ばっかりするんだ?
>>117 >ノード間での、連続データだけでなく3次元配列断面やリストベクトル参照タイプのデータ
>転送を行うハードウエア命令が用意されている。
ってのは、「複数のノードにまたがる3次元配列断面」や「複数のノードにまたがるリストベク
トル参照」を、ハードウェアの命令一個でやれるんだと思ってるんだが?
ノード内のメモリにちらばるデータを一箇所にまとめて複数のノードに送ったり、複数のノード
からのデータを一箇所に転送してもらってノード内のメモリにちりばめたりするんだろ。
>>126 ノード内の話は全くしてない。ESの場合、ノード間通信はMPIかHPFで行うわけだから、
MPIで不連続データの高速ノード間通信ができるのであれば、不連続データを送る独自仕様のMPIライブラリがあるわけだろ。
でそんなライブラリはなかったから、通常の派生データ通信を独自仕様に変更してるとしか解釈できないだろ。
128 :
名無しのひみつ:2010/06/20(日) 18:21:52 ID:uhyG+iSn
>>128 その例でどれがメモリ上の不連続データの転送なんだよ、全部連続じゃないか。
130 :
名無しのひみつ:2010/06/20(日) 18:41:21 ID:uhyG+iSn
>>129 三次元だと軸によっては不連続になるし、ベクトル参照もそうだろ。
>>130 だからMPIでは不連続の転送は、派生データを使わなければ、
>>128の例の図のように
連続データに入れ替えたあとMPIで転送するわけだろ。ES/MPIに派生データ以外に不連続データを
MPIの引数に呼び込める仕様などなかった、といってるわけだ。
132 :
名無しのひみつ:2010/06/20(日) 20:30:11 ID:uhyG+iSn
>>131 ああ、そういうこと。
俺は、
>>117 >ノード間での、連続データだけでなく3次元配列断面やリストベクトル参照タイプのデータ
>転送を行うハードウエア命令が用意されている。
の「連続データ」ってのを、メモリ上じゃなく通信路上で連続ととったので、話がかみあわな
いわけ。相手をいろいろ切り替えたら、断続だからな。
でも、並列処理の話になると、ノード内は(それなりに大変だけど、既に)どうにでもなってる
という前提で、通信路だけを問題にするわけ。
つまり、ノード内でやれることは全てやった上で「3次元配列断面やリストベクトル参照タイ
プのデータ 転送」を効率的に行うハード命令があるってことだよ。
今のSSE3は64ビット倍精度浮動小数点を1クロックに4個処理できる
そこで、行列演算前提で、1クロックに倍精度演算を1個(しかし加減乗除)しか出来ないコアを
4096個搭載すれば1クロックに4096演算、行列だと64x64が一気に計算できる
4GHzで動作させれば、
4GHz*4096=1.6TFLOPS
こういう専用CPUを量産できないかな
134 :
名無しのひみつ:2010/06/20(日) 22:32:02 ID:T0QEZiwq
それってどこのGPU?って感じですな。
さすがに4096はまだないけど、
64x64だと用途が限られると思うけど
4x4なら何か役に立ちそうな気がする[w,x,y,z]の4座標の変数変換とかに
4x4だから16コアあればいい
>>133 SH-2の1024コア版が試作されたという話は聞く。
みんなのスパコンTSUBAMEが1個の計算機実験を占有することがあるのだろうか?
何十,何百人のユーザーがそれぞれジョブを投げて待っているイメージが強い。
138 :
名無しのひみつ:2010/06/21(月) 10:35:42 ID:JD25FhtB
演算はクロック一回で出来るとしても
各CPUにデータを満たすのに何クロックかかるんだろう。
あと出力も。
>>137 基本はそっちでしょ
でも記録狙うときには占有するんじゃないの
>>132 あんたES使ったこともないんだろ。単段クロスバーで各ノードがすべてのノードと直結してるのに、
通信経路の不連続ってなんだよ。
>>139 そう考えると実用性能を考える上で全ノードが他の全ノードに対して高速通信できる必要はないのかな。
>>141 だから3次元FFTを使う場合は不可欠と書いてあるじゃん。
143 :
名無しのひみつ:2010/06/21(月) 23:31:59 ID:jpD8cmbY
>>140 おいおい、、、
フルメッシュならともかくクロスバーなんだから、各ノードは同時に一個のノードからしか受
信できないぞ。
だから、別のノードから受信するときは、当然クロスバーを設定しなおさないといけなくて、
断続になる。
しかも、新たな送信元がまだデータを準備できてない場合や別のデータを送信してる場合
には、それが終わるまでもっと待ちが発生する。
ノードが送信する場合も、同様の問題が発生して、通信は断続になる。クロスバーでは一般
には同時に複数のノードに送信できるし、送信側にバッファがあれば見かけの待ちを吸収で
きり場合があるから、受信より複雑だがな。
>>142 3次元FFTが常に全ノードつかわなけりゃいけないというわけではあるまい。
グループを二つに分けて、グループ内では高速通信、グループをまたぐとホップ回数が増える、
というのでコストを上げずに規模拡大という路線だって考えられるのではないかと思った。
メリット? もちろんコスト面しかないがねw
>>143 そんなことは分かりきってるだろw
クロスバースイッチの切り替えが必要だから通信が断続なんて言わんだろ。
でそれを断続と言うとして、どうやって連続で送るんだよ。
ハード側で通信のスケジューリングをするのか?
146 :
名無しのひみつ:2010/06/21(月) 23:44:48 ID:jpD8cmbY
>>145 >クロスバースイッチの切り替えが必要だから通信が断続なんて言わんだろ。
ふーん。そう言い張ってみたところで、
>>143 >しかも、新たな送信元がまだデータを準備できてない場合や別のデータを送信してる場合
>には、それが終わるまでもっと待ちが発生する。
は断続なんだよ。
>でそれを断続と言うとして、どうやって連続で送るんだよ。
連続で送れるわけないんだが、「連続で送る」なんて話がどっから出てきたんだ?
送信側に十分なバッファさえあれば、バッファに送るデータを置いてIOPに送信を依頼した後
のCPUは別の計算ができるけど、IOPからクロスバーへの送信自体は断続だ。
>>144 いやだから、多段のFat-Treeなんだろうから、
ノード間通信は段数に応じて通信速度は変わり、事実上グループに分けてるのと同じなんじゃないの。
当然全ノード通信の場合は一番遅い通信速度で律速になると。
>>146 その断続なんて言葉は聞いたことががないが、その状態は通信のコンフリクトといってるけどね。
そもそもESもSX-9もCPUと通信ユニットRCUは独立。だからソフト側で、通信している間に別の計算をさせるて
通信時間を隠蔽し、効率を上げてるんだがな。
>>147 そうじゃなくて、多段だろうがなんだろうが、FFTの次元領域でのノード比と連鎖について、
コンパートメント定数序列を対比してるわけだから、いいんだよ。
完全trimになんぞ通常落ち込む事は無いし、そんな特殊な状況を想定して組んでたら、
「汎用」とは言えんだろw
150 :
名無しのひみつ:2010/06/21(月) 23:57:42 ID:jpD8cmbY
>>148 >その断続なんて言葉は聞いたことががないが、
なんだ、日本人じゃなかったのか。国語辞典引けば、載ってるぞ。
>そもそもESもSX-9もCPUと通信ユニットRCUは独立。だからソフト側で、通信している間に別の計算をさせるて
>通信時間を隠蔽し、効率を上げてるんだがな。
143でも146でも書いたことを、何をいまさら?
151 :
名無しのひみつ:2010/06/22(火) 00:02:40 ID:piWZxiz/
理研の次世代スパコンは、何の計算に使うんですか?
ほんまに1000億円をかけて10ペタも必要なのか?
>>149 特殊な状況ね、ESのゴードンベル賞をとった気象コードも、
特別賞の非圧縮性計算もFFT型の全ノード通信のアプリなんだがね。
>>150 だから、実際は通信のコンフリクトをさけるためにソフト側でスケジューリングして
かつ、通信の隠蔽を行ってるって言ってるんだよ。ハード命令なんて機能してたら必要ないじゃんw
使ってもいないのにそこまで自身もってよく言えるもんだなw
なんにせよコストがいくらでもかけられるならとんでもなく豪華なネットワークだってできるだろ。
配線的な限界は別として。
155 :
名無しのひみつ:2010/06/22(火) 06:30:55 ID:e2N9Q9Y6
>>155 だめだこりゃw
だからMPIでどういう風にハード命令を実行してたか言って見ろよ。
おまえ使ったことすらないんだろw
157 :
名無しのひみつ:2010/06/22(火) 08:47:57 ID:W/A5R3qM
ES関係者はうざいから来るな。
>>156 さっさと間違い認めればいいのに、なんでバレバレの自演までするの?
>>158 あるって言ってるんだから、お前がそれを示せばいいだけだろw
HPFでは間違いなくあるがなw
160 :
名無しのひみつ:2010/06/22(火) 09:36:40 ID:JLGULJOQ
犬社員はゴミ
>>1 > Linpackベンチマークはスパコンの性能の一面を示しているに過ぎず、
システム全体の性能指標として適切ではないという指摘は以前から根強い。
これを、「ベンチマーケティング」と言います。
162 :
名無しのひみつ:2010/06/23(水) 13:53:34 ID:wWklRdW+
焼け付く様なバンド幅!!
164 :
名無しのひみつ:2010/06/23(水) 19:56:29 ID:D0dRW1X2
ツバメだとスワローズのせいですごく弱そう
>>21 同意w
>>23 その通りです。
>>29 Bonanzaメソッドの激指10で、スパコンに最適化されていれば、
トッププロクラス。
もう、スパコンに最適化されたコンピュータ将棋に勝てる見込みがあるのは、
プロ棋士でもトップ10に限られる。
ただし、羽生さんは別格。
166 :
名無しのひみつ:2010/06/24(木) 23:30:31 ID:lvMgOxRd
定期検査の停電の日に対決すれば不戦勝。
メルセンヌ素数探しにのためにフル稼働させたらぶん殴られるかね?
>>37 >なぜトロンosを採用した携帯電話は出ない?
欧米が「規格封じ込め」という汚い行為で
技術で勝る日本の携帯を日本に閉じ込めて
携帯電話における自由で公平な競争を阻害しているから。
171 :
名無しのひみつ:2010/06/25(金) 15:16:22 ID:JevHf0Uh
今の若い人は若いツバメという言葉を知らなかったりするからのう。
昔の年寄りは年老いた雛という言葉を知らなかったりするけどな。
>>169 アハハ
規格で主流になれない方が悪い
経済戦争で負ける方が悪い
>>46 >>170 トップのマシンなんてレーシングカーみたいなもの
ベンチマーク以外でいくら勝ってもそんなの評価の対象外
誰も気にしない実効性能で勝っても
レーシングカーに燃費では勝ってるぞなんて言うようなもの。
>>61 >結局のところスパコンの性能は何で測ればいいのか誰か教えてくれよ。
科学計算の実アプリケーション。
>そしてその基準に照らして世界で一番性能がいいのはどのスパコンなんだ?
地球シミュレータ2。
>科学計算の実アプリケーション
ソレこそ用途によって性能がいくらでも変わるのにw
>地球シミュレータ2
そんなトップ10にも顔出さない化石システムをw
ボクの都合のイイ方法で測れば最速なんだモンてかWww
>>151 勿体無いよなあ。性能1/10でよければ100台は作れるだろう。
あちこちばらまくなり何台かネットに繋ぎっぱなしで誰でも勝手に
使えるようにしとくとか。100万のゴミ計算のなかから1つでも
何か発見があるかもしれない。
179 :
名無しのひみつ:2010/06/26(土) 20:08:39 ID:28pi9rYr
地球シミュレータ2なんて粗大ゴミだよ。
>>175 新規課題のアルゴリズム検証開始からプログラミング、実行結果が出るまでの
トータル時間だと、確かに世界最高速だろうね。
>>151 どうせ中身はインテルじゃないの?
最速って「金積んでたくさん積み上げました」
ってことじゃないよな?
183 :
名無しのひみつ :2010/06/27(日) 11:29:41 ID:WruRU7vD
なんでCELLを倍精度に改良しなかったの?
インテルより消費電力も少ないし、フロップス性能も断然高いのに。
>>74 >ぶっちゃけスーパーコンピューターって、金さえあれば誰でも作れるようなものなの?
それとも、何か独自の技術とかいるの?
アメリカのLINPACKベンチマークに特化したなんちゃってスパコンなら誰でも作れる。
日本のSXシリーズのような本物の汎用性の高いスパコンの建造には独自の技術が必要。
>>183 SSE3をハードウェアで搭載しているIntelやAMDのCPUの理論倍精度FLOPSは
クロック(Hz)×4(FLOPS/クロック)×コア
です。
2.3GHzの12コアなら
2.3G*4*12=110.4GFLOPS
PS3のCELLの理論単精度FLOPSは
クロック(Hz)×8(FLOPS/クロック)×コア
です。
3.2GHzでSPU6コアなら153.6GFLOPSですが、単精度です。
クロックを上げるのは無理があるしコアを増やすとメモリーの共有が難しいので
浮動小数点計算の同時実行数を上げるのはいいかもしれません。
パイプラインが膨大になり必要なトランジスタも増えますが、どうにかなるでしょう。
256FLOPS/クロックのユニットが出来れば
(つまりキャッシュから256*8=2048バイトのデータを2個読み出してレジスタに格納し
256個の倍精度浮動小数点演算を1クロック未満で終了し結果をキャッシュに書き込む)
3.2GHzで16コアのCPUでも
3.2*256*16=13107.2GFLOPS=13TFLOPS
4Wayならその4倍の52TFLOPSでクラスター化無しに旧ES並になる。
冷凍用冷媒で冷却しクロックを5GHzに上げコア数を256個に増やして32Wayにすれば
10485760GFLOPS=10485.7TFLOPS=10.5PFLOPS
理論値だけならクラスター化無しで京速並
186 :
名無しのひみつ:2010/06/27(日) 14:38:14 ID:SHG+CiZ1
>>184 > 日本のSXシリーズのような本物の汎用性の高いスパコンの建造には独自の技術が必要。
SXシリーズは流体計算だけが早く、その他の計算は話にならないくらい遅いんで、
汎用性が高いとは言えない。
187 :
名無しのひみつ:2010/06/27(日) 23:00:37 ID:WoR3h+3O
188 :
名無しのひみつ:2010/06/28(月) 09:39:15 ID:hVSuq+Ex
グラフィックに特化したGPUのFPがプログラマブルになってちょっと汎用的に
なったからってスパコンで使えるなら、CPUの汎用的に設計されたFPを省いて
プログラマブルなGPUのFPをCPUに搭載すればいいじゃん。
どのタイプのデータでも早く動くんじゃない?
CPUの汎用的なFPはもういらないんじゃないの?
189 :
名無しのひみつ:2010/06/28(月) 10:19:16 ID:OHDEzc9T
ES=SXの場合は、全コアが同じなので、統一的にプログラミングしやすい。
コンパイラの完成度が高いので、既存のソースをコンパイルしても
そこそこ性能が出る。
ベンチマークならかりかりにチューニングしなければならないが、
実作業なら、バンド幅が大きいので、チューニングを極めなくても
それなりに効率が高い。仕事で使える範囲なら、開発時間と
人件費を大きく節約できる。
GPU系はx86コアとGPUコアの混在なので、
それを考慮したプログラミングをする必要がある。
バンド幅が狭いので、通信を少なくする工夫が
ソースコードレベルで必要。
チューンしなければ性能がまるで出ないので
開発時間と人件費が多く必要になる。
GRAPEの牧野先生も苦労されているようです。
話を少し現実に戻して京速に使われる富士通のSparc64について考える
JAXAのFX1のはSparc64-VIIを12,000コア使って110TFLOPS
Sparc64-VIIは2.5GHz,4FLOPS/Clock,4Coreで40GFLOPS
最近のIAと比べると平凡
京速に使われるSparc64-VIIIfxは、2GHz,8FLOPS/Clock,8Coreで128GFLOPS
IAのSSE3の4FLOPS/Clockの倍の8FLOPS/Clockを実現したのは
富士通独自のHPC-ACEというSIMD実装らしい
発表した時は最速だったそうです
今でもi7-980Xが3.4*4*6=81.6GFLOPS、Opteron6100が2.3*4*12=110.4GFLOPSなので
定格クロックなら最速かな?
191 :
名無しのひみつ:2010/06/28(月) 11:28:27 ID:A1uXo3nR
>>186 > > 日本のSXシリーズのような本物の汎用性の高いスパコンの建造には独自の技術が必要。
> SXシリーズは流体計算だけが早く、その他の計算は話にならないくらい遅いんで、
> 汎用性が高いとは言えない。
マジで?NECが必死になるわけだ。
実質スパコン利用者はその上で目的のアプリケーションを動かした
性能で評価するわけで、流体計算専門でほかは何も計算しないって条件は
スパコン利用で少数派だろうな。
>>190 intelはOCが公認仕様だから自動OC状態の周波数で計算するべきでは?
故意にOCしたのなら定格違反だろうけど。故意ではなく仕様だし。
193 :
名無しのひみつ:2010/06/28(月) 13:01:23 ID:r3vymJ08
>>186 > SXシリーズは流体計算だけが早く、その他の計算は話にならないくらい遅いんで、
ピーク性能と実効性能の乖離が出やすい流体計算でダントツに速いESが苦手とする計算分野って何?
>>190 発表したときは最速って笑わせるなよ。動いてもいないけど、この時期に発表しなければ
最速にならなから、無理やり発表しただけ。ですでに発売開始したPOWER7(256GFLOPS)にダブルスコアで負けていると。
SPARC64VIII-fxが本格始動するのは2012年。そのころには、またx86と比べても平凡って言われてるってw
原子力機構が2010年3月末に京速用の開発用にFX1を入れているが、2009年5月発表済みなら、SPARC64VIII-fxを入れてなければおかしいだろw
195 :
名無しのひみつ:2010/06/28(月) 15:47:35 ID:hVSuq+Ex
富士通のVENUSってやつか?
あれ、5GHzで動いて、消費電力もインテル最速の半分位だって言ってたぞ。
すごいね〜。
>>151 >理研の次世代スパコンは、何の計算に使うんですか?
科学技術計算。
LINPACKベンチマークを回していればいいだけのアメリカ製スパコンとは違うのだよ。
>ほんまに1000億円をかけて10ペタも必要なのか?
アメリカのLINPACK専用ガラクタマシンダンピング詐欺商売を破壊するために必要。
>LINPACK専用ガラクタマシンダンピング詐欺商売を破壊するために必要。
だったら日本もLINPACK専用機作れよ科学技術計算なんて無駄な機能なんて外してさw
LINPACK(密行列)やデータベースにしか使い道がないペタサイズクラスターなんていらんよ
サイエンスやエンジニアリングには真の大規模科学技術計算専用マシンが必要
199 :
名無しのひみつ:2010/06/28(月) 23:34:02 ID:HgkVOVaH
Linpack専用機を作れば良いんだよ。GPUよりも性能出せるぞ。
200 :
名無しのひみつ:2010/06/28(月) 23:37:01 ID:X/YRAXsB
GRAPEですかね
201 :
名無しのひみつ:2010/06/28(月) 23:49:01 ID:Hgb1r356
>>196 も認めてるようにLINPACK専用ガラクタマシンが売れてるんだからショーがねーじゃん
1000億円かけて地球上で一個しか売れないオナニーマシン作っても
メーーは商売にならないんで、現に日立もNECも逃げちゃったじゃん。
>>196 もっと具体的に。
1000億かけてやる値打ちのある計算って何さ
>>195 5GHzになったのか、そりゃまたすごいなー。理論性能も320GFLOPSに爆上げw
それで消費電力も半分以下、やっぱりこれからの時代はエセだね。
・アメリカ経済は既に実質破綻した。ただし帳簿上では破綻してない事になっている。
・実態の暴露による真の崩壊を防ぐには各国からの米国への投資を増やすしかない。
・ClAが世界各地の治安と国際関係を悪化させ、格付け会社が各国の財政状況悪化を煽る。
・米国以外の国に執拗に財政出動を求める。内需拡大を煽って粗悪な米国製品の輸入を強制。
↑↑↑LINPACK専用機似非スパコンw↑↑↑
・「米国以外に投資先は無い」と思わせる状況に各国を追い込み、
そのうえで輪転機でドルを刷りまくり、ドル安政策を進める。
・しかし実際は、各国は財政再建に取り組まざるを得ない状況になり、
必然的に投機のデレバレッジ化と投資額減少の方向に向かう。
・その流れは米国への投資減少としてカウンターパンチで米国に返る。
・2番底の到来。さらなる倒産と失業率の上昇。
・世界はさらなるブロック経済化と自国通貨安政策の応酬と資源の囲い込みへ。
・世界丸ごと失われた20年へ突入するか、世界経済クラッシュか、の分水嶺へ。
辛抱できない馬鹿ばかりだった場合は、
・共和党への回帰とユニラテラリズムの復活。戦争への漸進。
・あるいは、FRBによる各国中央銀行の統合支配による焼け太り
206 :
名無しのひみつ:2010/06/30(水) 16:44:23 ID:vNGjfvg7
ヤクルトスワローズが思い浮かんだ
不吉だ
PS3のセルを集めたのとどっちが凄くなるの?
208 :
名無しのひみつ:2010/06/30(水) 21:47:56 ID:5kPvFAPZ
東工大△
>>173 よろしい。ならば戦争だ。日本は重武装し、核武装する。敵国はアメリカと韓国だ。
>>174 >誰も気にしない実効性能で勝っても
レーシングカーに燃費では勝ってるぞなんて言うようなもの。
実際に使うスパコンが、実際に使う実アプリケーションで実行性能で劣っていたらだめだろうが。
馬鹿かスパイか。
>>176 >>科学計算の実アプリケーション
ソレこそ用途によって性能がいくらでも変わるのにw
日本のスパコン=汎用
米国のスパコン=専用forLINPACK
>>177 LINPACK専用粗大ゴミ100台と、実科学研究実アプリケーションで使える日本のスパコンとでは
比較にならない。
>>179 アメリカ製LINPACK専用機は本物の粗大ゴミ。
>>186 >SXシリーズは流体計算だけが早く、その他の計算は話にならないくらい遅いんで、
汎用性が高いとは言えない。
SXベクトルスパコンシリーズは流体計算でさえ速い汎用性の高さを持つ。
アメリカ製LINPACK専用機はLINPACKでのみ速い汎用性の低さしか持たない。
>>191 韓国工作員のデマゴギーに決まっているのに組織プレーするわけだ。おまえら。
>>193 同意。
アメリカ雇い韓国工作員は具体的に地球シミュレータが流体計算のみ速いというデマを証明せよ。
さもないと内乱罪で死刑。
>>197 >だったら日本もLINPACK専用機作れよ科学技術計算なんて無駄な機能なんて外してさw
世界の科学が遅滞する。
>>198 >LINPACK(密行列)やデータベースにしか使い道がないペタサイズクラスターなんていらんよ
サイエンスやエンジニアリングには真の大規模科学技術計算専用マシンが必要
同意。
そしてそれがSXベクトルスパコン。
>>199 >Linpack専用機を作れば良いんだよ。GPUよりも性能出せるぞ。
馬鹿にあわせて馬鹿になってどうするw
>>202 ここで日本が負けると、世界の科学は終わる。
>>203 ここまで言ってもわからないのは、おまえが馬鹿ではなくてアメリカの韓国スパイだからだ。
当初の京速計算機システムには、アメリカのLINPACK詐欺を破壊する能力と使命があった。
世界の科学の進展速度を維持するために。
212 :
名無しのひみつ:2010/07/01(木) 23:32:20 ID:EPHB/enm
>>169 中国人が自分たちで石を焼き始める頃にもっぺん売り込むしか無いなw
>>199 GRAPEのようにLINPACK専用のハードを実装したマシンはやろうと思えばすぐ簡単に出来る
(LINPACKだけの)驚異的な性能を出せると解ってるけど、ただ使い道が無いとみんな知ってるからバカらしくてやらないんだよねー
日本の西の方の国がやり始めたりしてw
国家予算を投入するなら、箱作るよりもチップ開発に投入した方がいい。
Core2やCore-iでは1クロックに計算できる倍精度浮動小数点演算はたった4個だ
無茶苦茶大きいキャッシュとパイプラインで
1クロックに倍精度浮動小数点計算を65536個出来るチップ
それも5GHz動作で512コアのものを作れば1個で167PFLOPS
256x256の行列演算が1クロックで出来るから
それに最適化したプログラムを作れば無敵
216 :
名無しのひみつ:2010/07/02(金) 19:42:59 ID:NxP6D17+
256×256の行列に演算データを送り込むのに
何クロック必要でしょう?
実は、億単位のトランジスタを実装できるので
そういう回路を造るのは、そんなに難しいことじゃない。
IBMのPOWER7も、IntelのXeonも
演算に必要なデータ入出力に苦労している。
チップの中で済むなら、問題の解決は割と簡単だが
いまの問題はチップと外の入出力にある。
217 :
名無しのひみつ:2010/07/02(金) 20:21:57 ID:k2tz7gVb
>>205 いいんじゃない。
戦後のブレトンウッズ体制崩壊→紙くずドルのばらまきで、世界で一番得した国は何処だと思う?
と言っても別に外貨準備のことを言ってるわけじゃない。USドルはブレトンウッズ体制が壊れた
時から紙屑だなんて最初から分かってるよ。
日本はその紙屑に価値があるように見せるのに協力して、その間に世界的企業をいくつもつくり、
しかも世界でトップクラスの技術力や研究開発力を持つようになった。
これからもアメリカはもっと紙屑を発行してくれんかなぁ。
勿論、日本はその紙屑を拾ってまたアメリカに届けてあげて、安心してドルをいっぱい刷って貰おう。
コンピュータも見掛け倒しを世界中の国に作ってもらって、その競争をしてもらってる間に日本は実質を
取ればいいだろう。
>>215 考えなしに大きな数字だけ並べていいならいくらでも高性能化できるよ。
1クロックに浮動小数点演算16777216個できるチップ
それも10GHz動作で4096コア、な〜んて並べても何の意味もない。
219 :
名無しのひみつ:2010/07/02(金) 23:15:55 ID:RaDkxRFk
220 :
名無しのひみつ:2010/07/03(土) 01:35:21 ID:qmw62g+8
SXは粗大ゴミだよ。
221 :
駿隼:2010/07/03(土) 07:51:45 ID:QAryxl9J
>>216 データの隘路をいかに速く通過させるかだね。
足の数を増やすのも限界があるのだから、
量子か光を使うしか、本質的な解決の道はないのじゃあるまいか。
あるいは、億単位のトランジスタを容易に搭載できるなら
渋滞を起こさせぬよう、すべてオンダイにするとか。
>>216 倍精度8バイトx256x256のレジスタを4本用意して
レジスタAに配列をロード
レジスタBに配列をロード
レジスタCに配列をロード
A*B+Cを計算して結果をレジスタDに格納
レジスタDの配列を書き込み
を各々1クロックでやればいい
キャッシュがいっぱい必要なのと長さとか最適化したワイヤードロジックにする必要がある
223 :
名無しのひみつ:2010/07/03(土) 11:52:25 ID:HUJDxBsP
>倍精度8バイトx256x256
64bit*256*256=4194304ビット幅のバスが無いと1クロックではロードできません。
>レジスタAに配列をロード
>レジスタBに配列をロード
>レジスタCに配列をロード
>A*B+Cを計算して結果をレジスタDに格納
>レジスタDの配列を書き込み
演算回路を専用にすれば、1クロックで計算できるでしょうけど
演算に5クロックかかってしまっていますが良いのですか?
>>223 ロードを含めてFLOPS計算なんじゃないの?
SSE3ならMOVSHDUPという浮動小数点データのロード命令があるし
なので
A*B+C
の行列演算でサイズが256x256なら
ロードが65535*3回、掛け算が65536回、足し算が65536回
膨大なクロックが必要
それに比べて5クロックぐらいどうってことない
225 :
名無しのひみつ:2010/07/03(土) 13:16:28 ID:HUJDxBsP
演算回路は沢山作れるから
かけ算足し算回路は、65536回を一度にやってもいい。
でも、ロードはそれではすまない。
キャッシュに入れれば、1クロックですむという考え方もあるけど
1クロックですむのはL1キャッシュだけ。
L1キャッシュを各演算回路に1クロックで繋ごうとすると
全演算回路に、L1キャッシュを演算回路数配線する必要がある。
だから、Intelでも、L1は32Kと比較的小さくなっている。
配線の爆発で、余り大きくできない。
また、キャッシュに主記憶からメモリを書き込む作業も必要。
キャッシュとは桁が違う時間がかかる。
だから、演算回路だけ増やしても、計算速度は上がらない。
演算回路ならかなり増やすことが出来るけど
SSE、AVXどまりなのは、高速化が出来ず意味がないから。
226 :
名無しのひみつ:2010/07/05(月) 09:32:48 ID:D80j3LYH
お前ら、行列乗算やLINPACKの話は、せめてブロッキングを理解してからやれ。
ちなみに、どっちもブロッキングは有効。
227 :
名無しのひみつ:2010/07/05(月) 10:14:16 ID:APAoBpw1
解説ヨロ
228 :
名無しのひみつ:2010/07/05(月) 19:43:24 ID:SKzk5vpq
次世代スパコンの愛称「京」、12年完成予定
http://www.yomiuri.co.jp/science/news/20100705-OYT1T00936.htm 昨年の事業仕分けで、一度は事実上の凍結を言い渡された次世代スーパーコンピューター
(スパコン)の愛称が、「京」に決まった。
開発を進める理化学研究所が5日発表した。「京」は1兆の1万倍を表し、
次世代スパコンが1秒間に1京回の計算をこなせることにちなんだ。
次世代スパコンは、2012年の完成予定。一般からの愛称募集で1927件の応募があり、
有識者らでつくる選考委員会が絞り込んだ。「京」を提案したのは7人。
最も多く提案された名前は公表しないという。
---
最も多く提案された名前は公表しないという。
最も多く提案された名前は公表しないという。
最も多く提案された名前は公表しないという。
最も多く提案された名前は公表しないという。
最も多く提案された名前は公表しないという。
まさかおまえら・・・w
229 :
名無しのひみつ:2010/07/05(月) 21:06:09 ID:APAoBpw1
富士通が京速で足踏みしている間に
NECはHPやIntelと、いろいろ手を伸ばしているのでありました。
230 :
名無しのひみつ:2010/07/05(月) 21:22:56 ID:ZzWn3tNl
つばめの次がこだま、その次がひかり
231 :
名無しのひみつ:2010/07/05(月) 21:54:56 ID:wj+r2bW6
235 :
名無しのひみつ:2010/07/27(火) 20:51:18 ID:V8SSaR3r
理研と合体して
「WAKAME 2.0」
にしろ。
236 :
名無しのひみつ:
大都会岡山を意味する大岡山駅を称えて
「OOOKAYAMA ST.」も捨てがたい。