2ゲット
998 名前:Socket774[sage] 投稿日:2007/05/03(木) 03:24:44 ID:wWJSXCIP
ベクトル計算機の場合マルチと言ってもクラスタに近いから、それほど厳密に区別する必要も無いでしょ。
ベクトル演算ユニットがあればベクトル計算機で良いんじゃね?
そいやー、Crayにはベクトル演算中の0除算を無視するモードとかあったなぁ…
999 名前:Socket774[sage] 投稿日:2007/05/03(木) 03:30:05 ID:d1JfRd2R
1000ならおっぱい
1000 名前:・∀・)っ-○◎●[sage] 投稿日:2007/05/03(木) 03:30:24 ID:C7PZYiLL
1000
3 :
Socket774:2007/05/03(木) 08:33:53 ID:EwI2I2bS BE:369860674-2BP(7778)
3
6 :
Socket774:2007/05/03(木) 11:01:50 ID:7/TOxO9e
聞伝くんって、ブロック図的に独立した複数の演算モジュールに制御シグナル
をブロードキャストして同期動作させる、今じゃ死語の世界に片足を突っ込ん
じゃった古典的SIMDプロセッサしかSIMDと言いたがらないひとなのねん
このこだわりってやっぱり愛ゆえ?
「高並列でスケーラブルで汎用なSIMDが実験プロセッサを除いて絶滅したのは
使い道が無いからだ」とか言ってみるテスト
すごく古い人だなってのは至る所で感じるよ>伝聞君
汎用で使い道が無いってどういうことっすか
「高並列でスケーラブルで汎用なSIMD」ってそもそもコンセプト的に
成立しない、ゆえにそれを生かせる使い道が無いのかもってこと
並列度を最大限に生かそうとしたら、互いに異なる処理も同時に実行
したくなるよね?
一時期プログラマブルな画像処理プロセッサとかがSIMDであったけど、今はもう無いのかな。
最近のCTやMRIのはどうなってるんだろう?
11 :
MACオタ:2007/05/03(木) 11:52:09 ID:LpHr6P80
前スレ終盤の叩き合いに参加できなかったのわ、つくづく残念す(笑)
どっちに組するにしても、面白いソースの一つも紹介したものを。。。
12 :
聞伝君:2007/05/03(木) 12:37:29 ID:kg5QnGlP
意図せず人気者ってやつ?オレ。まあ、いいやw
SIMDに愛なぞ、、どちらかというと余り好きじゃない。
演算器積んでいてもloadネックで遊ばしてしまうような用途には無力で、
主にそう言う用途に関わっているから。
section 並列の方が(遊びとしても)面白いし。
13 :
聞伝君:2007/05/03(木) 12:43:43 ID:kg5QnGlP
>>10 ピクセル並列で処理を行うプログラマブルな画像処理専用デバイスなら
あるだろ、単純なSIMDで作ると適応形フィルタ処理で効率が落ちると思うが
17 :
聞伝君:2007/05/03(木) 13:09:30 ID:kg5QnGlP
18 :
聞伝君:2007/05/03(木) 13:13:18 ID:kg5QnGlP
>>16 そいう考え方を発展させれば面白い物が出来るかも知れないけど。
解が見えないんだよ。
すぐ実用性求められるし、
こういう場合にはやっぱりまだベクトルに負けるじゃんとかケチ付けられるし。
それでコンサバなarchitectureの拡大発展と並列化に走ると。
成熟してきたんかな。
>>17 -----------------------
softwareがIPC3で動くようにするのは難しいでしょ。
-----------------------
SPEわ2-issueのプロセッサなので、理論限界でIPC=2なんすけど。。。
20 :
聞伝君:2007/05/03(木) 13:17:13 ID:kg5QnGlP
>>19 SPEじゃなくて別のprocessorを想定してた。
あと、IPCを測るときに積和を2としたがる人も居て
そう言う人は何で4がでないのか説明しろと無理難題を迫ってくる。
SIMD命令のIPC maxは1と見るかNと見るかみたいな話し。
21 :
聞伝君:2007/05/03(木) 13:18:20 ID:kg5QnGlP
ちょっと用があるんで、抜けますノシ
>>20 -------------------
IPCを測るときに積和を2としたがる人も居て
-------------------
IPC (instruction per cycle) と ops (operation per second)の勘違いのような気がするす。
話変わって「CELL BE = MIMD」説の方わ、私も常々"cluster on a chip"と主張しているすから
同意するす。
23 :
MACオタ:2007/05/03(木) 13:47:05 ID:LpHr6P80
POWER6搭載製品のリリーススケジュールについて公式のコメントが出たす。
http://www.eweek.com/article2/0,1895,2124931,00.asp --------------------------
At IBM's ParterWorld Conference in St. Louis, Ross Mauri, the general manager for
System p in IBM's Systems and Technology group, told eWeek that Big Blue will be
announcing new System p servers based on the Power6 processor in the next six weeks.
--------------------------
CellがMIMDなのは疑いようが無いが
な ん で
「SIMDではない」
んだ?
排他的概念か?
それともSPEを並列に動かしたら、1命令で1個のデータしか扱えなくなるのか?
>>24 あれが謎発言だってのわ、前スレ後半についたコメントを見ても衆目の一致するところす。
これ以上からんでも団子さんのほうがキチガイ粘着に見えてくるだけかと。。。
我々、一般のヒトわデスクトップ用マイクロプロセッサに実装されるショートベクトルのユニットを
"SIMD"と呼ぶす。しかしスーパーコンピュータの世界でわ、ちょっと違う分類をしているらしいすよ。
http://www.linux.or.jp/JF/JFdocs/CPU-Design-HOWTO-6.html -----------------------
6.3 SIMD(Single Instruction stream, Multiple Data stream) マシン
このようなマシンはしばしば 1,024個から 16,384個といった膨大な数の処理単位をもち、
それらがそれぞれ異なるデータに対して軍隊の行進のように同じ命令を実行することが可能と
なっています。したがって、たった一つの命令で多くのデータを並列に操ることができます。
このタイプに分類される SIMD の例としては CPP DAP Gamma II や Alenia Quadrics などが
挙げられます。
もう一つのタイプの SIMD システムはベクトルプロセッサです。ベクトルプロセッサは特別な
構造をもつ CPU を使って、独立したデータ群より類似データの配列に対して能力を発揮します。
ベクトルユニットでデータを処理する場合、結果は3クロックサイクル当たり 1個かまた特別な場合
には2個の割合で出力されます。 (1クロックサイクルとはシステムの内部処理時間の基本単位
です。) つまり、ベクトルモードで実行するときに限り ベクトルプロセッサはほぼ並列にデータを
処理する事になります。この場合、旧式のスカラーモードで実行するのに比べて数倍高速となり
ます。このため、ベクトルプロセッサの実用上の効果は、ほぼ SIMD マシンと同じと考えられます。
このようなシステムの例をあげるとすれば、Hitachi S3600 です。
-----------------------
彼らの用語でわ、ショートベクトルわ"SIMD"じゃ無いらしいすね。
仲裁役のMACオタなんて見たくない…
MACヲタは「しばしば」を「全て」と脳内変換してるらしい
>>15 どっちに組するもなにも、{更にCellのSIMDではない}以前に、
しつこいようだが、前スレの議論の発端は、
ベクトル演算=ベクトルプロセッサでするもの
という聞伝君の誤認識からだよ。
それがなければすぐに終わっていた話なのに。
一切ベクトル機やSIMD機の議論ではなかった。
というわけで、そろそろ次の話題に移行してほしい。
>>28 英語において"often"わ「〜じゃない場合より多い」というニュアンスす。("as often as"の用法で
調べると良いかと思うす)
>>26の意味でわ少なくともSIIMDに分類されるシステムのうち半分以上わ1,024-16,384の
ロングベクトルである。。。ということになるわけで、明らかに、MMX, SSE, AltiVecの類わSIMDに
分類されていないす。
>>29 -------------------
そろそろ次の話題に移行してほしい。
-------------------
面白いと思うからコメントしているすけど、他にご希望があるなら自前でネタ出しすべきかと思うす。
ちゃんと次のネタを提供しているのはさすがMACオタではないか。
774 名前:MACオタ>757 さん[sage] 投稿日:2007/04/30(月) 22:06:20 ID:qk7MKfVw
>>757 特に遅れているという訳でも無さそうす。
http://www.itjungle.com/tfh/tfh043007-story02.html others that I am now hearing say IBM will crimp the clock speed back
to 3.3 GHz or 3.5 GHz except for the machines that get sent to the big
supercomputing laboratories operated by the U.S. Department of Energy.
I have no confirmation of these new rumors, but IBM is expected to deliver
a range of Power6 processors that span as low as 3 GHz and as high as 5
GHz over the two-year span of the product,
今後6週以内に3GHz級のPOWER6 serverが登場。5GHzはとても無理とのこと。
SRAMの製造にトラブル抱えて成功するわけがない
35 :
聞伝君:2007/05/03(木) 16:58:02 ID:8Am9M4nx
clock speed backもさることながら、6は苦難だろうな。
向いているprogramでは、まあ、あれなんだろうけど、
もうじき市場で様々な評価がされるだろうな。
次を急ぐのか、clock上げて逃げるのか…
5GHzが無理となるとえらい厳しい戦いになりそうだなー
Nehalemに市場取られる気配がぷんぷんするんだぜ?
>>32 続報わ、こっちす。
>>23 ちなみに、既存のPOWER5+製品ラインの値下げとPOWER搭載ブレードサーバーの管轄を
x86 (x series)部門からunix (p series)部門に移管する等、POWER6搭載製品発表の準備も
始まったとのことす。
http://www.crn.com/hardware/199203320 -----------------------
IBM is changing the way it distributes the blade version of its System p servers to
separate them from sales of the company's System x blade servers.
[中略]
This week will see IBM also drop the price of its current System p servers, based on
the POWER5+ processor, by 15 percent to 25 percent as it prepares for the release of
the POWER6-based System p servers in the next couple of months, Handy said. The
cuts will be a combination of price reductions and promotions and will apply to the
midrange System p 5 570 servers and high-end 590 and 595 servers, he said.
-----------------------
3GHz版ってブレードサーバーのことじゃないかと思われるす。
38 :
MACオタ:2007/05/03(木) 17:38:17 ID:LpHr6P80
POWER6の性能すけど、整数パイプラインのin-order化による既存コードの性能低下わ予想通り
あるらしいす。
先ごろ開催されたPower.org Software Summit 2007のプレゼン資料からの引用す。
http://www.power.org/swsummit/download/SW_Summit_gcc_and_tool_chain_Peter.pdf (p.8参照)
------------------------
.・32-bit and 64-bit default: -mtune=power4
- Good value for power4 and related 970 processors
- Ok, for power5 and power5+
- No so good for the in-order power6 processor
------------------------
ゎーぃ
やっぱpowerでin-orderはやべぇっぽいな
ブレード以外ではしっかり4GHz+出てりゃいいんだけど…
クロック上げるために、in-orderにしたんじゃないの?
それで3GHzじゃ悲し過ぎるぞ。
次のネタ
アホアホ聞伝君の次のハンドル
時間の無駄
絶対処理量を無視した比較に公平性もなにもない
所詮無能の詭弁
もっさり=毛深いを「もたつき」だと勘違いし続けてるいつもの馬鹿のスレを
こんなスレに貼るMACヲタも所詮その程度だね
「もたつき」の意味もありますがw
はいはい【ギザワロス】wwwww
っていうかさ、Core2Duoの半分以下の性能しか出せないのにIEの同時起動云々って
はなから論外じゃん
腕相撲で負けて「実は左利きなんだ再戦しろ」っていうくらい見苦しい
もっさり
@動きがにぶいさま。気がきかない。
Aあかぬけないさま。
B毛などが厚く生えているさま。
だそうですよ。
つまり、俺ベンチでC2Dの半分の性能も出ないAthlon64 X2=もっさり
53 :
MACオタ:2007/05/04(金) 12:12:18 ID:8lBhBvV5
>>41のナノテクによる超low-k技術わ、元々ナノスケールのマスクを自動生成するための
研究からの派生すけど、なんとHPが同様な手法で"nanoimprint"なるマスク生成技術に
成功したそうす。
http://www.hp.com/hpinfo/newsroom/press/2007/070502a.html --------------------
The technology involves a process called nanoimprint lithography (NIL) -- a method of
literally stamping out patterns of wires less than 50 atoms wide on a substrate. HP Labs
researchers have created patented NIL technology, which has enabled the fabrication of
laboratory prototype circuits with wire widths of 15 nanometers -- about one-third the
dimension of the features in the most advanced circuits that will be commercially available
this year.
--------------------
HP自体わ半導体製造わ商売にしていないんで、この技術をライセンスするとのことすけど
どこが実用化するすかね。
>>53 マスクを生成ってのとはちょっと違う気がする。
ナノインプリントは色んなところで研究してるから珍しくはないけど実用レベルなのかな。
15nmだとリソグラフィに遜色ないし、簡単な半導体を安価に作るには良いね。
今だとリソグラフィのマスクコストは馬鹿にならんおかげで、数がそう出ない半導体なんかは
微細化を諦めてたりするけど、ナノインプリントが実現出来ればそれも変わりそう。
>>54 確かにIBMの高分子の自己組織化ネタとわ違うす。
微細化とともにうなぎ上りのマスクコストの対策の話題ということで。。。
56 :
MACオタ:2007/05/04(金) 18:22:55 ID:8lBhBvV5
IPF叩きが大好きなTheInquirerの記事なんで、話半分に読んだ方が良いかと思うすけど、
Tukwilaが動作クロックが上がらないという問題に直面しているとのことす。
http://www.theinquirer.net/default.aspx?article=39397 ---------------------------
Well, now word has reached out tender ears that the delayed Tukwila is also having
serious speed problems. It is currently looking like it it will top out at 2.1Ghz, but given
the line's illustrious history, there is still time for this to drop significantly. In any case,
this is a massive drop from what was promised.
---------------------------
57 :
MACオタ:2007/05/05(土) 14:44:40 ID:PYZKrr9x
Software Optimization Guide for AMD Family 10h Processor (Balcerona)が公開されているのわ
あちこちで報じられているすけど、Appendix Aに一通りのアーキテクチャ解説がついてるので
以後の資料として必読かと思うす。
http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/40546.pdf AMDのアーキテクチャに詳しい方にわ常識なんだと思うすけど、実行ユニットの直前まで
Macro-opsのまますから、特にmicro-ops fusion的な機構わ不要なんすね。
また浮動小数点におけるロード->演算のsuperforwardingの追加等、高級言語の一命令をそのまま
に近い状態でハードウェア処理するという方向性が見えるす。SSE4系高機能命令も同様な目的に
見えるす。
この辺、ハードワイアードCISCとでも言うべき方向性かと思うすけど、高クロックとマルチコア実現
のために古典RISCに戻しちゃったCELL SPEなんかとの対比が面白いす。
220 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 18:27:13 ID:ML3bg+Sf0
>>216 違うだろ。
もしこの説が有力ならPS3がミス設計だったってだけ。
しかも今後出るモデルは現行のPS3下位互換だから、取り返しが付かない。
223 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 18:47:49 ID:ML3bg+Sf0
理解力の無いアホが早速噛み付いてきた
225 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 18:51:51 ID:nLMTJSGq0
>>223 今後出るモデルがどう下位互換で、何が取り返しが付かないのか
具体的にどうぞ
230 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 19:07:22 ID:dMdeP9wf0
>>220 全く意味不明なんで詳しく説明して。
PS2までへの互換部分以外になにか変更あるの?
ソフト動かなくなるじゃん。
231 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 19:13:43 ID:ML3bg+Sf0
そもそもPS3の勝ちって何ですか
1.Wiiから今世代機トップシェアを奪還すること
2.ゲームから撤退しないこと
3.今年中にはゲームから撤退しないこと
1はまず無理だと思ってますが
233 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 19:14:59 ID:rWwJDbs70
詭弁のガイドライン
6.一見、関係がありそうで関係のない話を始める
「そもそもPS3の勝ちって何ですか?」
234 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 19:15:28 ID:nLMTJSGq0
>>231 そもそもミス設計って何ですか
論点すりかえるなよ
235 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 19:19:53 ID:ML3bg+Sf0
「PS3が勝つる!」に対してレスしたのに詭弁扱いすることのほうが
よっぽど詭弁かと。
トレンドを見誤ったという点ではハードそのものがミス設計だよ
238 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 19:24:57 ID:rWwJDbs70
そもそも
>>216の「これでPS3勝つる」は性能面でって意味だろ(どうせ皮肉だろうが)
>トレンドを見誤ったという点ではハードそのものがミス設計だよ
ミスリードも甚だしいなw
241 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 19:36:27 ID:ML3bg+Sf0
トレンドってようは商売になるかどうかだよ。
結果論として商売になってない。売り上げ予測を下方修正してる。
PS3は時に定価より安値で売られてるのに、Wiiは逆だ。
まあ、PS3の捨て値>Wiiのボッタクリ値ではあるけど。
240 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 19:29:29 ID:rWwJDbs70
団子氏はCellスレとVSスレを勘違いしているご様子
>>58-62 面白くない。。。と言っちゃ嘘になるすけど、ここ団子さんの行状を語るスレッドじゃないす。
ハード詳しくないのに無理に語ろうとするからボロが出たな
307 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 22:26:19 ID:ML3bg+Sf0
そういえばLSの存在を忘れてた。
Cellでシェーダ処理を行う場合、LSを小さなVRAMと考えてテンポラリ的に使用すれば、
帯域的にはもっと凄いことになる。
<中略>
↑いや、最初から言ってることだけど、これのお目出度さが解らないあたりがGK脳というか
308 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 22:28:44 ID:EghhwPrU0
>>307 複数IDを駆使した自演?
誰もそういう釣りにいちいち食いつく気もおこらないだけ。
309 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 22:30:16 ID:ML3bg+Sf0
俺が否定するまでマンセーしてたけどなwww
310 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 22:32:48 ID:EghhwPrU0
イカ臭い書き込みばっかりで斜め読みしかしてないけど、
ヲーズマンですか?って突っ込みしか入ってないような。
311 名前:名無しさん必死だな[sage] 投稿日:2007/05/05(土) 22:33:05 ID:bdN1r93/0
ID:KzXs2OL60をマンセーしてるカキコなんて1つも無いよ
ヤクチューだろってカキコはあるけど
315 名前:・∀・)っ-くコ:彡-[sage] 投稿日:2007/05/05(土) 22:48:23 ID:ML3bg+Sf0
>>306によるとここは ID:bdN1r93/0 のスレらしいので
ずらかる
腹イテェwww
66 :
MACオタ:2007/05/05(土) 23:15:09 ID:PYZKrr9x
せっかく今日わbarcelonaの最適化ガイド(
>>57参照)も出て、お得意のSSE性能に関する
講釈もできたものを、わざわざゲーハー板で存在しない敵相手に大暴れってのも。。。
ようやく彼の身の丈にあった居場所が見つかったようだな
68 :
+++:2007/05/06(日) 23:10:17 ID:kzz9v83a
>>68 マスクコストが下がると実験的プロセッサを先端プロセスで造り易くなるという点で、
世の中面白くなりそうだと期待しているす。
ちなみにEBわスループットが下がる上、装置に高レベルの磁気遮蔽が必要とか
難しい点が多いと思うす。
>>66 MOVAPSですらレイテンシ2じゃ語る価値もねーだろwwww
さらにcellはSIMDではない(笑)
実際問題movapsに待たされる局面ってあるか?
oooまでやっててレイテンシが1か2で性能変わるもんか?
とりあえずLatency-Throughput : 2-0.5ってCore 2の1-0.33と比べれば激しくしんどい。
4並列処理を意識して徹底的にチューニングしてもIPC=2だからな。
フェッチ帯域やLoadの本数の差が出やすい(Barcelona優位)浮動小数以外の
スコアをAMDが公表しないのも道理
>Latency-Throughput : 2-0.5ってCore 2の1-0.33
FSTOREでも MOVAPS xmm, xmmを実行できるよ
XMMレジスタは、8本もしくは16本(x64)ですが?
レイテンシが長いと、ストール頻度は増大。
もしくはそれを回避するためのアンローリングにより
コードサイズやロード・ストアの発行頻度の増大を招く。
>>75 そこは見落としてた。
現実問題として使えんと思うよ。Core2と比べてL/Sが忙しくなるはずだ。
movapsだけがレイテンシ大きいんじゃなくて、ほとんどのSIMD整数演算のレイテンシがほぼ倍だ。
まあ、予想はついてたことだけど、性能を引き出すには「書き分け」は必須になるな
なにが変わったかというと、Intelコンパイラに言いがかりつける要因が再び出来上がったということ。
いい加減純正コンパイラ作ってください。
79 :
Socket774:2007/05/07(月) 06:07:54 ID:O6XMiobS
あの一つ質問なんだけど、今のコア2って改良はしてても結局P6なの?
糞スレageんなウンコゲハ厨
>>79 CPUIDで Family=6 だから Intel の扱いとしては Core2Duo は P6
最初の P6 から大きく変わったけど、同種と見るか別種と見るかはあまり意味が無いような
>>82 富士通の安藤氏もあのwebサイトを長年やっているし、プロのアーキテクトも他人の仕事わ
普通に気になるんじゃないすかね。。。
85 :
MACオタ:2007/05/08(火) 20:30:03 ID:aS05Llh+
Amigaほしいなw
90 :
レトリック君:2007/05/09(水) 03:36:02 ID:EHpKsaKv
良く今まで粘った
というか見込みのないことに時間費やし杉(ry
>>89 それホントに「主任編集委員」が書いた記事か。
「返す刀」って攻撃する時の例えだろ。SunがAMDやIntelに斬りつけたのかよ。
最後の段落も、「…の誤算。これが〜見直し論」である。」って、どう語句を補完すればいいのやら。
「とっととx86-64に一本化しろ」と思ってて、それに合いそうな事実を並べてるだけのような。
富士通のSPARC64が前途多難なのは間違いないが。
93 :
MACオタ:2007/05/09(水) 18:37:58 ID:QqcrkS6w
xbox360版のLinuxに関するプレスリリースが出てるす。
http://www.free60.org/wiki/Press_Release_2007-05-08 ----------------------
The free60 project today announced the release of a new Live CD enabling users to try
out the GNU/Linux Open Source operating system on Microsoft's Xbox 360 gaming consoles.
The new Live CD supports all Xbox 360 consoles with firmware versions 4532 and 4548 and
can be run without affecting the console's normal functionality.
----------------------
ハック版ゆえにハイパーバイザの制限も無いし、PowerPCに興味を持つオープンソース作者向けの
プラットフォームわPS3 Linuxより、こちらが有望すかね。。。
Amigaほしいな
> PWRficient
ktkrktkr
夢が広がりんぐwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww
>>90 時々ハンドルを変えるのわ個人の自由かと思うすけど、"latest"の件で取り下げた
名前を使うのわ逆効果じゃないすか?
ログ残してるヒトって少なくないので、無駄に煽られるネタになるかと思うす。
ユー「更にcellはSIMDではない」をハンドルにしちゃえYO
98 :
MACオタ:2007/05/10(木) 00:24:16 ID:EEUG0kKL
99 :
MACオタ:2007/05/10(木) 00:26:13 ID:EEUG0kKL
こういう(
>>97)団子さんのような粘着のヒトがいるすよ。
もちろん私もネタ用にログ残してるすから、ヒトのことわ言えないすけどね(笑)
どうでもいいし
更にcellはSIMDではない
101 :
レトリック君:2007/05/10(木) 01:11:46 ID:I7rVz91G
>>96 心配ならthx、しかし2chは遊び、気にならないタチなので、
気分でハンドルは変えてます。(しかしこのスレ保存してどうすんの…)
>>97 くだらんよ。SPEではなくcellをSIMDとして使いなされ。
102 :
レトリック君:2007/05/10(木) 01:15:52 ID:I7rVz91G
cellは片側単精度のfmacの寄せ集めってところを1000歩譲って我慢しても
softwareからはむちゃくちゃ使いにくそうだな。
開発者さんは大変だわ。
103 :
レトリック君:2007/05/10(木) 01:19:18 ID:I7rVz91G
SMTと依存、性能特性について書こうと思ってたら
前スレから話が逸れに逸れた
また今度だ
104 :
レトリック君:2007/05/10(木) 01:26:10 ID:I7rVz91G
片側じゃなくて入り口両方か…
団子は下らん話をまだ続けているのか。
CellのSPEにSIMD演算器が入っているのは事実だがCellをSIMDと
呼んでいいかは別問題だろう。
団子は俺のCore2とかキモイ発言するからな。
自己アイデンティティが特定のCPUと同化してる。おかしな自称プログラマー
> CellのSPEにSIMD演算器が入っているのは事実だがCellをSIMDと
> 呼んでいいかは別問題だろう。
これ言っちゃうと、SIMDユニット付いてるのに
SIMDではないと言い切っていいのか、という堂々巡り開始。
>>107 いや、CellのinstructionとしてSPEのinstruction単体を含めるかって問題がある。
>>109 え?メモリ上のinstructionをSPEは直接実行できないのに?
>>112 全く無意味な観点からの議論だからな。
時間を浪費するにはもってこいだ。
>>113 視点の違いにより評価が変わるという事を「無意味」と表現するなんて
議論する価値のない人間ですね。
>>114 この議論では何も産まないから無意味だな。
別にどう定義すればどうなるってのは最初からわかってるしぃ。
ただの、俺様の主張をいかに押し通すかゲームwww
CrusoeをVIEWと考えるべきか?それともx86と考えるべきか?と似たような話か?
>>115 > 別にどう定義すればどうなるってのは最初からわかってるしぃ。
本当かどうかあやしいもんだが。下らん。
それなら面白い側に立ったほうがいいじゃないか。
>>116 そんな感じ。正直どっちでもいい。だから反団子。
>>116 だな。
AとBがあって現実的には両方が微妙に混ざってるわけだが、
定義や屁理屈でもってAとBの範囲を弄って
例えば、片方を全体化してもう一方ではない、とか言ってるだけ。
そんな、まことに不毛な議論でございます。
>>102 むちゃくちゃ使いにくいが、ツボにハマった時はそれなりに速いぞ。
まあそのツボにハメる作業が大変なのだが・・・
>>106 「俺の」ってなんだよwwww
おまい頭おかしいwwwwwww被害妄想きめぇwwwwwww
VIEWってなんだおwwwww
まさかVLIWじゃないよなwwwwwww
このスレクォリティ高ぇwwwwwwwww
流石、「更にcellはSIMDではない」の人だwwwww
>>110 変換したコードをトレースキャッシュ上に展開しないと実行できないNetBurstアーキテクチャは
オメー的にはいったい何なんだよ
>>120 このスレのギャグセンスは俺のツボにハマりまくってる
本人たちにとってはガチレスだから余計おもろい
>>107-108 そもそもSPEを全く使わなくともPPEだけでSIMD演算はできる。
SPEがSIMD演算「しかできない」だけ。
ID:QTNM4DYiは頭悪すぎます
125 :
レトリック君:2007/05/10(木) 22:40:28 ID:ZPJ5zrqx
MMXもSIMD拡張だがMMX Pentiumは…
「CellはSIMDである」なんて誰も言ってなかったのに唐突に
SIMDではないと言った馬鹿本人の登場です
127 :
レトリック君:2007/05/10(木) 22:41:48 ID:ZPJ5zrqx
>>123 NetBurst architectureと言います。
ホント、次スレのテンプレに追加したいくらいの爆笑レスの宝庫だな
すっかりネタスレ化したな
Reborn Sun Micro plots server CPU push
http://www.eetimes.com/showArticle.jhtml?articleID=199203751 まあ特に新しい情報はありませんが、このスレ的には↓ここらあたりかな
> "We don't have the volume Intel has, so we will not compete on cost. Intel has
> the best transistor designers--they are leading the semiconductor industry--so
> we will not compete with them in frequency. So we decided to compete in
> architecture. That is the only thing left, and not anyone's monopoly," said Yen.
またすぐ re-"bone" しそうな・・・・
今気づいた
しかもadaとは熱いな
CPUスレなんだから、むしろz9だろ
>>129 団子の妄想ネタスレだろ。他人が書いたネタを基に妄想して次世代を語る。
そして団子風味の解析や予想が加わったとたん怪しくなる。
いろいろ突っ込まれて苦しくなったら、地下にもぐり。
まとめて猫パンチレスを返す。そして、何故か好意的な単行レスがつく。
これの繰り返し。
なんだかんだ言う割りにコード晒したことはない。
2bit以上のCPUは概ねSIMDな命令を持つ
>>135 ム板ではそこそこ晒してるっぽいが。
まぁ、お前、団子が嫌いなのは分かったがそこそこにしね?
能力の無い人間がグダグダ言っても始まらんぞ
ネタが無いなら出せ。
怪しいなら突っ込め。
>>136 どこら辺がM?
ゲハでCellのスカラ演算が遅い云々の議論でmacヲタを撃破してたな
珍説を唱え続けるも団子が公開した実測結果には勝てなかったようだ
あれはもう暫く出てこれないだろ。
>>137 たとえばZ80には8つの1bitデータ同士の論理和を同時に行える命令がある
などと自分でネタ解説しなければいけないのが空しい
ごめんごめん
>>136の意味が日本語として分かってなかった。
141 :
MACオタ:2007/05/11(金) 18:47:14 ID:5t4FVfG5
TheInquirerのPOWER6ネタ2題す。3GHzしか出ない(
>>33とか)というのわ、誤報だったようで。。。
http://www.theinquirer.net/default.aspx?article=39522 ---------------------
IBM HAS promised its partners that its Power 6 processors will hit between 4 to 5GHz
pretty soon now, with each SMT2 core accessing 4MB of L2 memory, and sitting astirde a
32MB level three controller.
---------------------
http://www.theinquirer.net/default.aspx?article=39556 ---------------------
The Power 6 processor 5622 includes a 4.2GHz chip, an 0/2 core Power 6 and 12 DDR-2
memory slots. The Power 6 5621 upgrade is similar but includes eight DDR-2 memory slots,
he gurgled.
---------------------
>>141 ふーん
「4GHzなんてすぐ出るよ!」とか言ってたIntelみたいにならなきゃいいけど。
OoOやめてクロックあんま上がりませんでした、じゃシャレにならんからね。
そうならPower死ぬかもね。
あ、加算命令って2オペランドだからSIMDじゃね?
ん、4GHzは今度のPenrynで達成しちゃう可能性があるのか…
分割要素ごとにせめてラップアラウンドや飽和処理しないとSIMDとは胃炎だろ
>>143 -------------------
「4GHzなんてすぐ出るよ!」とか言ってたIntelみたいにならなきゃいいけど。
-------------------
6月だか7月だかに発表されるようなサーバー製品が実物でバリデーションが終っていない訳が
無いす。デスクトップPowerPCのように大量生産して外販する部品じゃ無いすから、歩留まり等わ
別の話すけど。
>>143 IBMだって「3GHzなんてすぐ出るよ!」って言ってたじゃないか
実はPS3のCellのクロックは3.2GHzではなく3192MHz
149 :
レトリック君:2007/05/11(金) 22:41:26 ID:NVbWV9hR
ム板ってどのスレだ。Haskell、Scheme、Pythonでは見かけんな。
叩きに行こうかなニヤニヤ
SIMDではない君おはwww
×叩きに
○叩かれに
>>143 このスレらしくはないが、自作板住人ぽいレスだなw
152 :
レトリック君:2007/05/12(土) 00:52:38 ID:U2v9uyJR
おはって…
嘴の黄色い小僧になつかれちまった。やれやれ
そろそろ次の謎発言としゃれこむか。
SMTはCMTと異なり、threadの独立性が高くなるほど
migrationによるscalability抑制の性能特性要因を持つ。
中途半端に日本語と英語混ぜるなボケ
妄想ネタ書くなボケ
>>152 んじゃオジサンがクソつまんねーたとえ話を披露してあげよう
CMPは一つの机で二人が仕事してる
SMPは別の机で二人が仕事してる
>>156 こうだと思うす。
・SMP: 別の机で二人が仕事
・CMP: 一つの机で二人が仕事、でも筆入れわ 二つ
・SMT: 一つの机で二人が仕事、筆入れも一つ
>>120 ツボッた時は速いって何かCPUというよりDSPだな
159 :
レトリック君:2007/05/12(土) 13:30:05 ID:/u1syYKZ
SMP: 二つの机にそれぞれ文房具があり、それぞれの机で二人が仕事
CMT: 一つの机に二つの文房具があり、二人が並んでお仕事
SMT: 一つの机で文房具を二つ使って一人が二つの仕事をヒーコラ掛け持ち
じゃない?
>>159 理解できていないのわ、譬とリソースの概念のどちらなんすかね。。。
SPEの場合だけレジスタはメモリという人は
言うことが違うな
>>157SMT出てくると↓になっちゃう
チップ→机
同時に動くスレッド数→人数
コア→筆入れ
コア→仕事する人にしたほうがよくない?
ルネサスの技術者が殆どのケースで汎用レジスタは16本あれば十分って言ってるんだがな。
長いレイテンシの隠蔽を前提するにはテクニックが必要だっていうのはまあその通りなんだが
コンパイラレベルではどうしようもない変な条件が付く時点で、それは結局スカラ演算弱いんでしょってことで。
>>162 最近、本気でプロセッサのボトルネックがデコーダにあるとか考えているヒトがいそうで恐ろしい
すけど、SMTの概念わ命令自体わキューに無尽蔵に詰まっていて、実行リソースを分け合う
というモノす。
現実にわ、命令キュー(ROB)のサイズ自体に制限があるために 「命令自体わキューに無尽蔵に
詰まっていて」の部分が成り立たなくて、色々工夫が必要なんすけど。。。
コアを人間に喩えるか演算ユニットを人間に喩えるかの違いかな
1つのスレッドを1つの仕事に喩えた方が俺にとってはわかりやすいけど
>>164 ----------------
ルネサスの技術者が殆どのケースで汎用レジスタは16本あれば十分って言ってるんだがな。
----------------
汎用レジスタ32個のAVRアーキテクチャに対するFUDかと。。。
168 :
レトリック君:2007/05/12(土) 14:30:33 ID:baQtcMoW
理解できないのは「譬」の読みかな。
モレの例えでは
人間=演算ユニット
文房具=中のリソース
机=core・L2
(そして部屋=chip)
169 :
レトリック君:2007/05/12(土) 14:35:48 ID:baQtcMoW
必用な汎用レジスタの本数ねぇ…
用途によっては数個で十分、別の用途では256あっても
全然足らない(codeの急激な増大をまねく)。
対象と判定条件で全然違ってくる、そう言う議論だな
伸びてると思ったらこれかよ、orz
読み返してみたらわけわからないこと言ってるな
>>166の二行目は無かったことに
汎用レジスタは4本、多くても8本で十分だろ
68kが出たときには、こんなたくさんあるのに
使えるやついるのか?とモトローラに問い詰めたかった
「組み込み用途ならば」って書いてある気がする
UNIX上のプログラムでも16変数以上は稀とあるな
>>174 図3を素直に信じると、要素数16以上の配列を使う関数ってほぼ0ってことになるすけど(笑)
15文字制限のprintfがメジャーな世界ってあるすか?
配列わポインタしか勘定に入れていないとか、色々ごまかしがありそうす(笑)
178 :
レトリック君:2007/05/12(土) 15:00:59 ID:XNhNW89w
ルネの石の設計者って、あまりsoftware分かってない
unix使えるヤシどれほどいるのか
だから鵜呑みはどうかと
配列を全部レジスタに配置するような変態アーキテクチャは要らんだろ
アドレッシングモードをリッチにした方がいい
ベクトル演算がわかってないカスは黙れ
SHの開発主任は麻布から東大の典型的秀才
>>179 UNIX上のプログラムで「関数呼び出し時の引数とローカル変数の数」が16個以下になる例が、
統計的に100%なんて戯言を信じるかどうかって話すけど(笑)
183 :
レトリック君:2007/05/12(土) 15:07:05 ID:XNhNW89w
streamのCSEのことも、たまには思い出してやって下さい
三大糞コテの同窓会かよ
185 :
レトリック君:2007/05/12(土) 15:09:06 ID:XNhNW89w
>>
ニヤニヤ
186 :
レトリック君:2007/05/12(土) 15:10:04 ID:XNhNW89w
同窓会、いち抜けた ノシ
レジスタの多さに甘んじて実行レイテンシを短くする努力を怠る糞アーキは
メチャメチャにホロン部
>>187 滅ぶかどうかわ知らないすけど、本気でローカル変数だけでも16個以下の関数しか世の中に存在
しないと思っているかどうかが知りたいす。
団子おすすめのItaniumはどうなの?
俺自身がローカル変数100個とか平気で使うし。レジスタが多ければね。
んで、どこに100%なんて書いてあるんだ?
>変数が10個以下の関数が95%以上を占めることがわかった。
とは書いてあるが、16個までで100%うんぬんはどうみても脳内妄想です。
本当にありがとうございました。
Itaniumがあんだけのレジスタが必要なのはユニット数が多いからでそ。
まあ、SHが否定してるPA-RISCの血統も引き継いではいるんだが。
まあ、汎用レジスタ8本のx86のほうがPowerPCを搭載したMacを
大きく引き離すようになった時点で、レジスタ本数が本質じゃないことは
既に分かり切ったことかと。
つか
>>169が正しいと思う
とか書くとレトリック君の自演と思われるかな
ほぼ入れ替わりで出てきちゃったし
プレゼン用に簡略したグラフにいちゃもん付ける馬鹿は手に負えない
関数呼び出し回数の割合だから、多変数関数が存在しててもほとんど呼び出されない、ってことでしょ。
>>192 Itanium のは、いっぺんに128個使うつもりではなくて、
ループでのレジスタのローテイトとか、SPARC風レジスタウィンドウのためでは?
あと、
8レジスタじゃ少なすぎるから、x86-64では16になったんでは?
なんにせよ汎用レジスタ8本のCPU作ってる会社が半導体業界のトップに君臨してるわけで
無論ルネサスも業界屈指だな
>>198 ----------------
無論ルネサスも業界屈指だな
----------------
素直に「業界屈指の」ルネサスなんで捏造資料と気付かずに騙されたと書けば良いかと。。。
学歴コンプレックス(
>>181)も気にしないほうが良いと思うす。
捏造資料って言いがかりかwwwww
SPUのレジスタがメモリだと主張したりデータも示さずスカラ演算が遅くないと言ったり
妄想に限りがないな
>>200 ---------------
捏造資料って言いがかりかwwwww
---------------
でわ、
>>193へ回答をお願いするす。数字を書くだけだから簡単だと思うすけど。。。
ほぼ100%とは思うが、スケールの具合からして有効数字はまずないな
グラフが途中で切れたように見えるのはプロットツールの問題じゃないのか
学術論文そのまんまを持ち出してきてるわけでもあるまい。
203 :
MACオタ:2007/05/12(土) 16:11:21 ID:gD9+7XNL
100%かどうかなんて、どうでもいいのに
今回の話は、99.99%か100%かで結論が変わるようなものじゃないでしょ
それより
>>196はスルーしちゃうの?
まあ2人でおしゃべりしてる方が楽しいのかも知れないけど
あと、あっちのネタで悪いけどSPUで遅くならないスカラ演算のコードをいい加減、示してくださいね
もちろん机上の空論なら聞きたくない
ちなみに俺がCell向けに書いたMTのコードは本家へのコミットも検討してるくらいなんで
いつでも公開しますよ
>>207 SFMTの件なら、その後ソースコード見つけたす。シフト演算の山なんすね。
「机上の空論」で悪いとわ思うすけど、シフト演算わpermuteと同じパイプで行われるから、
この仮定が成り立たないというだけの話かと。
http://ex22.2ch.net/test/read.cgi/ghard/1177951427/661 --------------------
661 名前:MACオタ>団子 さん 投稿日:2007/05/10(木) 04:04:30 ID:DvaX376M0
>>657 スカラとベクトルがIPC的に一緒(当然ベクトルわ並列分だけスループットが高い)なので、
特にスカラが遅いということわ無いす。
permuteと演算わ別パイプラインになっているすから、並列動作可だし。
--------------------
>>206 えーっとなんだったっけ?
REXはコードサイズが増えて性能低下するケースがあるよね。
だから一概に良いとは思わない。
まあ、何事も向き不向きはあるよね
そもそも16バイト単位の読み書きしか出来ないプロセッサで
4バイト単位のスカラ演算を行うにはシフトは必ず発生する
だからこそ遅いって言ってるんだよ
ちなみに要素毎(32ビット迄)シフトはeven、バイトシフトはoddだ
> まあ、何事も向き不向きはあるよね
うはw
まあ、キャッシュですら遅いってんで、レジスタを拡張してなんとかならんか
って研究は、そこここでやってるらしいね
つっても詳しい話は知らん(というよりわからんw)けど
ちなみに、あのネタ書いてから斉藤君とはメールで話やってて
SPE向けの最適化について助言貰っている。
昔、レジスタに番地が振られててレジスタ上にコードを並べると高速に
実行できるプロセッサが存在したそうな
へぇ
SPEをスカラ演算に使ったときのロード・ストア・パーミュテーションの
レイテンシをじゅうぶん隠蔽できるケースの方が稀。
だから遅い。自明の理。
逆にあれだけのレイテンシが隠蔽できるくらいデータ並列性があるなら、SIMD化できる。
結局スカラ性能は悪い。
グラフ捏造云々は詭弁者の言いがかり。それ以上でもそれ以下でもない。
その実態はSPEでスカラ演算が遅いことの反証すら出来ない雑魚ww
データの正確さに拘る人間が自分では一切データを用意せず空論を語る矛盾
>>217-218 暴れるのわ結構すけど、ローカル変数の数の話わ何処に行ったすか?
------------------
ロード・ストア・パーミュテーションのレイテンシ
------------------
これについてわSIMDでもスカラでも一緒なんで、アーキテクチャの問題じゃなくて実装の問題す。
SIMDが速くてスカラが遅いというのとわ違うかと。。。
221 :
レトリック君:2007/05/12(土) 17:34:16 ID:Z8HpemwG
>>193 このグラフはひどいな、実態からかけ離れている。
その辺にころがっているデータの都合良い部分を使ったんかいな。
レビューは受けてないのかな…
>>220 MACオタ
16変数以上の関数があっても、それの「呼び出し回数の割合」は限りなくゼロに近い。
みんな分かっているが、団子がとぼけた答えをしているので、いつまでも終わらない。
二人の馴れ合い。
223 :
レトリック君:2007/05/12(土) 17:37:40 ID:Z8HpemwG
がしかし、引数+変数の数だけregisterが無ければstallするという訳ではないんだよね。
よほど関数bodyが小さくない限り。
従って変数の個数でregisterの個数が多い少ないって議論は片手落ち。
ーみつをー
224 :
レトリック君:2007/05/12(土) 17:39:22 ID:Z8HpemwG
>>222 なんだ二人はラブラブだったのか…
水を差しちゃ遺憾な、そっとしておいてあげるわ ノシ
どーみてもパーシャルリード・ライトをサポートしないアーキテクチャの問題ですが。
なんにせよコードすら書いて検証できず詭弁ばかり並べる人よりも
多少おおざっぱでもグラフを出して説明出来る人の方が
説得力はダントツ上かと思います
まあ、SHの件は麻布高校出身のエリート(ちなみに同級生にかの古川享もいる)から
屈折した感情持っても仕方ないなと思ってしまいますでつよ。
PCREをSPEに移植してみてください。もちろん遅くならないように。
うーんでもやっぱ口だけの人には無理かな
>>222 --------------------
16変数以上の関数があっても、それの「呼び出し回数の割合」は限りなくゼロに近い。
--------------------
広く使われて(多くの場合)16変数以上使う関数の例わ
>>177に書いた通りす。
配列をポインタの1変数として数えるようないかさまをしない限り、16変数以下がほぼ100%というのわ
無理かと思うす。
変数の個数云々の検証はレジスタ本数の決定のためであって
あたかも配列の要素数分だけレジスタを使うかのような詭弁はやめるべきだな
>>227 配列は a[i] のiがimmediateで指定できるときは、レジスタに展開できる、
for(i=0;i<4;i++) a[i]=... → a0=, a1=, a2=, a3=
だけど
a[i] = b[ c[i] ] みたいな演算をしたいときは、
ファンタスティックなレジスタ指定が必要になります。
>>228 やっと正気に戻ったようすね(笑)
-------------------
変数の個数云々の検証はレジスタ本数の決定のため
-------------------
その場合、レジスタ本数の増減による性能の差を検証する必要があるす。
また所要レジスタの数も汎用レジスタが完全に対照か、一部の命令で使用するレジスタが
固定されているかどうか、等も大きく影響するかと思うす。
例えば
>>215に上げたAVRの例でわ、一部のレジスタが直値の代入ができないために、
ldi r16, 1
mov r1, r16
のようなコードになってしまうことがあるようす。
>>229 >>227わレジスタの話とまったく関係なく、ローカル変数が16個以下ということが一般的か?
という疑問す。
例えばa[100]という宣言が、1変数と数えるのか、100+1(ポインタ)+1(インデックス)と考える
べきか。。。ということなんすけど。
うわっ
CのABIをまるで解っていない
くどいな。
レジスタだけではなく、
b[ c[i] ] なんて操作をしたい場合は、b0,b1,b2,b3... では代用できないんだから、
b[] で一まとまりの変数として考えるべき。だから配列なんだろ。
>>233 ------------------
b[] で一まとまりの変数として考えるべき。だから配列なんだろ。
------------------
大きさわ、どうでも良いすか。。。
コードを書いたら、"segmentation fault"ばかりになりそうすね(笑)
くだんね
配列があったら全要素レジスタ変数に展開しろとでも教育された可哀想な人なんだろうな
ベクトルプロセッサだとどうなるのかレトリック君に解説をお願いしたい
int func1(int a[8]);
みたいな関数の引数が8個とか10個とか思っちゃう人なんだろうな。
ポインタはどこでも指せるから2^32個とかになるのか。
ト
238 :
レトリック君:2007/05/12(土) 19:07:30 ID:YJKBuV4r
ん?b[ c[i] ]のような二重リストのvector化?
pre-load命令を持たないV.P.の場合は;
innermost loop;
1)まずindex配列c[i=0〜511]がmemoryから直接ザーッと
register file r0〜r511にloadされる(vector SIMD load命令)。
2)次にb[r0〜r511]に対する
load命令とそれに続く->演算->store 命令が(全てvecor SIMD命令)
vector pipelineにchaining投入されてゆく
このblocking=512のinnermost loopの外側に
512sttep widthのouter loopが形成される。
こんな感じだったかな。blockingはcompierが自動的に行う。
prelaod命令を持つarchでは二重リストの間接的な要素を直接loadできるので
1)と2)をマージしたようなinnermost loopになる
はず、なんチッチw
239 :
レトリック君:2007/05/12(土) 19:14:02 ID:YJKBuV4r
こうやって改めて書くとSIMD拡張とはまるっきり別物だな。とくに2)が。
だからxlfやintel compilerでvector directiveを挿入してvector化したと
思っているヤシみると、ああ、この人は…と、ついね、思っちゃう訳。メシだ ノシ
>>238 ありがと
ベクトルパイプラインの数だけレジスタも用意されてるってことでいいのかな
(しろーとですんまそ)
ついでに、スカラプロセッサにSIMDを組み込む場合にはレジスタをどうすれば
いいのか教えて 数を増やす?サイズを大きくする?
あ、続きあったのか
> ああ、この人は…
まあ、そう言わずに教えてくださいな
242 :
レトリック君:2007/05/12(土) 19:24:17 ID:2IcgcX+0
>>240 上は違う。pipelineは8とか16本。register fileは512とか1024
考え方としては各streamを16本のpipelineに割り振る感じ
下は質問の意味が今一分からないよ。メシに行くので ノシ
レジスタのカバー率なんて、計測対象によって変わって来るものに有効桁数なんて意味がないから。
MACオタみたいな勤勉な低能を見ると可哀想になってくるな。
> 上は違う。pipelineは8とか16本。register fileは512とか1024
なるほど
> 下は質問の意味が今一分からないよ。
自分でも何を聞きたいのか分かってないのかもしれないw
えーと、たとえば32bitプロセッサで128bit幅のSIMD命令を追加するとして
32bitレジスタを4個用意した方がいいのか、128bitのレジスタを1個用意
した方がいいのか、とかそういう話を期待してた
あとは最適のレジスタ数はSIMD無しの時とくらべて変わるのかなとか
(なんか書いてて己の馬鹿さ加減に恥ずかしくなってきた)
> メシに行くので
後でも良いので 気が向いたらで良いので
SPUのスカラ性能は、道具立ての貧弱さから来る印象よりは行けてるって感じ
かね。配列アクセスをスカラでやるようなまねをするととっても遅いってのは
串団子の言う通りだが、レジスタ変数を有効利用できるようなケースでは遅く
ないってのはMACオタの言うとおり。
大体、どういうケースで何と比較してってのを明確にしなきゃ話にならん。
それはそれとして、PPUは情けない。
>>244 はいはい
「関数呼び出し時の引き数とローカル変数の数 (単位:個) 」なんて、計測対象によって変わって来るものに有効桁数なんて意味がないから。
MACオタみたいな勤勉な低能を見ると可哀想になってくるな。
>>245 32bitレジスタ*4だと、ポート数も4倍必要なので
普通はそんなことはしないよ
250 :
Socket774:2007/05/12(土) 20:09:54 ID:hCjL26Kx
>>239 >>238は正しいのだが、スカラープロセッサでの所謂ベクトル化もほとんど同じだよ。
要素ごとに命令を発行するのが違いなだけで。
>>242 streamをpipelineに割り振るってどういうことだ?ベクタ命令内部のデータ並列
で並列演算パイプラインを駆動するってのが典型的なベクタプロセッサだと
思うが。
>>251 それグラフを読めないヒトにしか関係ない話すけど。。。まさか、あなたも温度計の読み方とか
小学校で教わらなかったクチすか(笑)
ちなみに団子さんわ、プライドが高すぎるのでトボケてただけで読めないわけじゃ無いす。
>>252 演算やロードストアパイプが8個とか16個とかあるのが普通で
ベクトル命令は適当に空いているパイプに割り当てる
ってことじゃろ。
>>253 このグラフを温度計のように読むやつはMACオタしかいないと思うが。
日エレの特集記事が学術論文扱いって何の冗談なんだ
参考文献として使われているから日エレは学術論文っていう意味?
>>209 > REXはコードサイズが増えて性能低下するケースがあるよね。
微妙に違って、正しくは
・命令が長くなるのでキャッシュラインあたりの命令数が低下する
・プリフィックスをつけることによって、投機的な命令の切り出しの精度が低下する
ので実効バンド幅が減るのね
>>259 特に「学術論文」の定義をするつもりわ無いすけど、学術論文の参考文献として
使われる程度に信頼されているという事かと。。。
>>197 下のネタは
「しばしば自分の意見を論文紹介で代弁するMACオタはバカです」
という自己紹介ですか?
263 :
245:2007/05/13(日) 00:23:10 ID:iSFbLCYO
>>248 ありがとう
てことはレジスタの数を増やさずに一部を128bit化して
普段は32bitでも使えるようにしておく、って感じになるのかな
>>250 kwsk
264 :
レトリック君:2007/05/13(日) 00:56:51 ID:NViMoeQ1
vector pipelineとscalarのvector的なpipelineをモレは別物だと見てる。
scalar processorでのいわゆるベクトル的な物はsoftpipeを指していると思うが
softpipeは簡略に言うと、iterationを展開してload -> 演算 -> store命令を
iteration間を跨がせる様にschedulingする事とも言える。このときCPU
pipe lineはloop bodyをあくまで縦にsequentialに流してゆくのが基本。
これはgemmの様な細いstreamのloopだとvector pipe line のsoftware +
scalar CPU pipelineによる回りくどいemulationにも似ていて、
違いはscalar命令が個々の要素に対し毎回実行される点だとも言える。
しかしloop bodyが複雑になってくるとvectorは時にwork 配列を使ってまでも
loop body をsplitし、細分化したloop内の少ないstreamをindex 変数方向に
pipeline化…横にpipelineを伸ばしそれを縦に束ねたような流れ…となるのに対し、
scalar のsoftpipeでは(配列を使ってsplitすることもできるが、load/stoerのコスト
がvectorより高いので滅多に有効ではない)大量のregister spillを起こさせながら
loop展開し、loop body内をsequentialに実行+先行prefetchやloadを投入する。
pipelineを流れるstreamの向きが直行と言っていいほど変わってくる。
>>250 あなた素人じゃなさそうだね、ニヤリ。酒飲んでくる ノシ
>だからxlfやintel compilerでvector directiveを挿入してvector化したと
こいつ真性のアホだwwwwwwwwwww
自分でSIMD化も出来ない屑である上にコンパイラの仕事を勘違いしてるわけで
>>246 悪いが、「レジスタを活用するケース」というのがごく稀な例だと思うぞ。
ほとんどのケースで、素のCプログラムをspu-gccでコンパイルすれば
激しく遅い。
>>260 K8もCore2も16バイト/clkフェッチだから、命令長そのものがネックになるケースはあるよ。
>>263 あのさー、SIMDレジスタと汎用レジスタが共有されてるアーキテクチャってどれだけあると
思ってる?
Intelアーキテクチャの最適化リファレンスとか読んだことある?
XMMレジスタとFP/MMレジスタは物理的には共有した実装は多いが
汎用レジスタとは別物。
269 :
レトリック君:2007/05/13(日) 02:12:40 ID:Y2C2XzUx
あなたは素人に毛が生えてるかどうかのレベルだわ。
自分の未知な世界は狭量にもケチ付けて、人を中傷して憂さ晴らししてるだけ。
人から学ぶと言うことを知らない。能力と人格に問題有り。
まぁどーでもいいやモレの部下じゃないし。2chじゃ珍しくないし。
どこのcodreだか知らないが友達少なそうだな ノシ
と素人が申しておりまし
と、真性の素人がほざいております
かぶってしもた
ベクトル演算とSIMD演算が別物って言うような無知な子だしww
>>264みたいな中途半端に英単語と日本語並べる文がかっこいいと思ってるのかね
一見読みづらいから相手が難しいこと話してるなって威圧感与えたいのか
なんなのか知らんが、本質的には馬鹿さ加減が酷いというか。
>先行prefetch
とかさ、長嶋の親父さんの「秋の秋季キャンプ」なみに無意味
あんまり本質的でないところに突っ込んでるな。
そんなに英単語多用したいなら全部英文で書けばいいのに。
そっちのほうが読みやすいわ。
同じ流儀で一言でいえば「pedanticなレス」
知性にコンプレックス抱えた人間の典型だな。
カタカナでなければ読めないのならそう言えばいい
日本語で書けるようなものまでわざわざ英単語で書く必要ないだろ
たとえば分割をsplitと書かなきゃいけない理由なんてあるか?
つremix
中二病が「〜である」調や使い慣れない四字熟語を多用したりするのと同じ精神構造なんだろ
どうでもいいアホクサ
「偉い人の反対は偉そうな人」
ブログでえらく反響をよんでるフレーズだが、なにげに真理なんだよね。
背が高い人と背伸びをしてる人も別だし
同様に、知識人と、知ったかぶりの関係もそうだよね。
本物の知識人は他人にわかりやすいように配慮することは事欠かない。
典型的な知ったかぶりはまったくその逆で、中身のない単純な文章を
一見小難しく見せるために日本語でもいいところをむやみに英単語に置き換えたりする。
その綻びが「先行prefetch」みたいな頭の悪いフレーズなわけですよ。
>縦にsequentialに
ここもだな。長嶋クォリティを感じるのは。
286 :
+++:2007/05/13(日) 04:03:08 ID:oNcXQ/gI
>>団子
Itaniumのレジスタ数の多さは、SPARCみたいなレジスタウィンドウ機能と、
ループでの自動レジスタアンローリングとか、そういう理由もある。
でも、それにはもっとレジスタ欲しいと思うけど、それ以上増やせない
理由もあって・・。
SHはあれだね、16bit命令を実現するにはレジスタ数が限界だし。
ちょっと前の日経エレでの対談には、レジスタ・カラリング手法が出てきたんで
これでいいや、とか書いてあったな。
・・・SH-6を作ろうとかいう機運は出てこないのかな。
高橋麻奈女史の「やさしい〜」シリーズがなぜベストセラーなのか。
難しい内容を初心者にわかりやすいよう噛み砕いて本を書いてる。
あんだけ読みやすいのにツボはちゃんとおさえてる。
あんだけ多くのジャンルの本出せるんだから知識量は半端じゃないと思うが
そこをインテリぶらないのはT大卒の余裕かもね。
>>286 ルネサスとして新規に作ったR8CシリーズってSHではなくM16シリーズの流れだよね。
SHとしては携帯とか車関連で安定した市場があるからね
現状でも世界で通用する企業だし。
個人としてはARMともっとやりあって欲しいんだけど。
>>264 > scalar のsoftpipeでは(配列を使ってsplitすることもできるが、load/stoerのコスト
> がvectorより高いので滅多に有効ではない)大量のregister spillを起こさせながら
> loop展開し、loop body内をsequentialに実行+先行prefetchやloadを投入する。
スカラープロセッサの場合はループのブロック化もやるんで、こっちのほうがベクトル化のイメージに近いんじゃないかな。
ソフトウェアパイプラインだけじゃないお。
あとレトリック君はイテレーションをまたいだやつを先行プリフェッチと言っているぽいので、べつにそんな馬から落馬じゃないから>団子
あとOoOのスーパースカラーの場合は物理レジスタがたくさんあるんだから
わざわざスピルコードいれなくてもいいよ
>>267 だから、何と比べてどういう条件で動かしたときにどういう評価基準で
「遅い」のか明確にして話をしないとただのネガキャンだよ。ちなみに、
byte/short/word load storeが無いことによる性能低下は3割ぐらいかなぁ
と思ってる。コードサイズがでかくなることも痛い。
それから、GCC+素のCコードだとかなりタコだよ。変数をこまめに128bit
アラインするとか、ローカル変数にコピーするとかでずいぶんと早くなる。
XLCのほうはよく知らんがもっと賢いの?
291 :
レトリック君:2007/05/13(日) 08:31:21 ID:3ocC1wpW
>>288 xlf 7,8の-qhot=vectorはschedulingの間隔を少し広げてlatencyの
ペナルティーを和らげようとし(効果小)
intel compiler 7,8のvector directiveはSSE命令を生成するものだったと記憶している。
自動blockingをするcompilerは…あれかなw、それを使っているならば
あなたも素人じゃ無さそうだね。
ただし、scalarの自動blockingはcache hit率を高めるために
折り畳んでいるのであってvector化と対比させる物はblockingした
innermost loopのL2 latencyペナルティを減らす為の疑似ベクトル化だと思う。
「やさしい〜」シリーズがどうのこうのしか書けず、内容に触れることの出来ない団子は
オレのレスの内容は全く理解できていないし、あなたのレスの意味も理解できていないよ。
朝飯だ ノシ
>>290 ------------------
だから、何と比べてどういう条件で動かしたときにどういう評価基準で
「遅い」のか明確にして話をしないとただのネガキャンだよ。
------------------
団子さんわ、自作の乱数発生コードでx86と比較して遅いと言いたいみたいすけど、
普通わ回路規模や設計の世代を考慮するとPPEやPXと比較すべきかと思うす。
293 :
レトリック君:2007/05/13(日) 08:40:05 ID:3ocC1wpW
>>289 つ 多重リストのsoftpipe code生成
loop bodyがほんの少し複雑になただけでregister何個あっても足りなくて
code量爆発するからw
あんまり書くと身元が
>>288 ブロック化を自動で上手にこなしてくれるコンパイラってある?レトちゃん
との議論は落としどころが良く分からんので、そっちにはあまりかかわりたく
ないのだが、いいコンパイラがあったら使いたいと思ってるんで。
295 :
レトリック君:2007/05/13(日) 08:47:29 ID:3ocC1wpW
>>294 いいのがあるけどここにはかけない。
落としどころが見えにくいのはこっちがねた全部出し切れない理由があるからかな。
ごめんね。
>>291 blockingについては、L1=ベクタ変数的な解釈も成り立つかと。結局、ストラ
イドとか、スキャッタ/ギャザーをあの性能でこなせるメモリシステムがベクタ
の取りえであり弱点であると思うのだ。それ以外は瑣末?というか解釈の問題
というか。
>>296 >blockingについては、L1=ベクタ変数的な解釈も成り立つかと。
単純なprogramならそう捕らえられるけど
その考えを拡大して、頑張って造って実は複雑なsoftwareで効果が出なくて
えらく苦労したのが90年代終盤〜ここ数年の一つのscalar compier技術だったと思う。
名無しに戻りますw
>>295 ------------------
いいのがあるけどここにはかけない。
------------------
ここで話を完結させる気が無いというのわ、上から視点で罵詈雑言だけ書く時の団子さんと
同じレベルかと思うすけど。。。
レトリック君は前からそうじゃん
肝心な所になると逃げちゃう
自分じゃ他人を馬鹿にして楽しいのかも知れないけど
傍から見ると説明が下手な頭の悪い人にしか見えない
あたまがわるいひとが無理してむずかしいことを書こうとすると
不要に英単語をちりばめて自体を読みづらくすることくらいしかできない
※無論全部英文で書くことなんてできない。おそらくTOEIC300レベルだから
むろん内容自体は大したことは言っていない
301 :
MACオタ:2007/05/13(日) 10:18:16 ID:mSmGJBHJ
TheRegisterのPOWER6サーバーに関する報道す。今月中にも発表されるが、対応OS
であるAIX 5.4わ遅れるとのことす。
http://www.theregister.co.uk/2007/05/12/ibm_power6_lifesupport/ ---------------------------
Most notably, IBM has shifted from an out of order design with Power5's integer
units to an in order design with Power6. Such a drastic change will require first
AIX 5.4 and then a full software recompile should customers want to see maximum
performance.
---------------------------
Power Mac G5発売時のOS Xの状況と同じす(笑) Ashlee Vance記者自身わ、まだ
POWER6の製造問題を疑っているみたいす。チップとして歩留まりが悪そうなのわ当然
すけど、意図的にFUDをバラまいてるヒトがいるのかもしれないす。
---------------------------
We've heard consistent speculation that a manufacturing issue has crippled IBM's
ability to produce Power6 chips above 3.5GHz. Customers, however, were promised
that the initial Power6-based systems will indeed come in above 4.0GHz, during the
recent IBM ParterWorld event in St. Louis.
---------------------------
>>290 spu-gccは一応、SCE純正のコンパイラなんだけどな。
ただ、メモリレイアウト云々にめんどくさいことに気を遣わなきゃいけないのは
最初からSIMD化するんだよね。
SCEも明示的にSIMD組み込み関数使えば性能が16倍出ますよって公言してる。
確かにspu-gccで明示的にSIMD化すればかなり性能良いコード吐く。
スケジューリングも悪くない。
そもそもスカラが遅いのはCellのアーキテクチャ・実装の問題だと思ってる。
SSEみたいにパーシャルリード・ライトをサポートすればかなり変わってくる筈。
>>302 -------------------
パーシャルリード・ライトをサポート
-------------------
>>300のように他人を非難するなら、ここわ」「ワードやバイトデータのロード/ストア」
とか書くべきかと。。。
>>301 > a full software recompile
ああ、やっぱそうなのね
あと、レトロ人間君はそんなに英単語使いたいなら全部英文で書いてください。
And Letroman, if you like to write English-terms so much, please write without Japanese.
おっとRetromanだったかな。綴りがわかりません><
@ パーシャルリード・ライトをサポート
A ワードやバイトデータのロード/ストアをサポート
どっちが回りくどいかね。
SSEのmovss/movsdはパーシャルリード・ライトでしょう
少なくとも1バイトの読み書きは聞いたことがない。
pinsrb/pextrbはSSE4で初めてサポートされる機能だ
もっともパーシャルリードかどうかは実装依存だ。
第一要素にスカラデータをロードしろという仕様はあるが
その他の要素は不定するように仕様で決まってる。
pinsrw/pextrw/maskmovq/maskmovdquはパーシャルライトだな
309 :
263:2007/05/13(日) 10:52:35 ID:QCrMuaRU
>>268 あいてしてくれて、ありがとう
すんませんね、なにぶんしろーとなもんでw
SPEネタその続き。
16バイト境界にあわせても、ストア時にパディング領域を破壊していいかどうかの情報は
コンパイラにはわからないので、保持のためのコードを生成してしまうね。
結局SIMD組み込み関数を明示的に使うしかなかったり。
そもそもLSが256KBしかない。
パディングなんてしてられないでしょ。
>>305 団子さん、はっきり言ってしつこすぎだ。
内容に対する突っ込みが
>>265だけで、英単語云々に対する
突っ込みが黙々と続くのはいかがなもんかとおもうぞ。
内容がないんだからそこくらいしか突っ込むところ無いじゃん
いまだにvectorの意味を誤解してるし
ちなみに内容なんて、前スレで論破された記憶を喪失して
同じことを連呼してる以上のことは何もない。
したがって、何も理解しようとする必要なんてない。
英単語に置き換えて読みづらくしてるだけで相変わらず知識の狭さを露見してるだけ。
無理して英語を使おうと必死な痛い子よりもお塩ロックのほうがまだ聴けるよ
ファッキンライト
ただQWORD以外のスカラデータでのロード/ストアわ、CELL BEが生き残ることができれば将来
の実装で追加される可能性わ大きいと思うす。歴史を鑑みても初期のAlpha AXPの実装もこんなんす。
http://www.hpl.hp.com/hpjournal/dtj/vol4num4/vol4num4art1.pdf --------------------
Only aligned longwords or quadwords may be accessed: an aligned
longword is a four-byte datum whose address is a multiple of four; an
aligned quadword is an eight-byte datum whose address is a multiple of
eight.
--------------------
微細化でトランジスタや配線が楽になれば、LSがマルチポート化されてMFCとSPUが並列動作
できるようになるのも、ありそうな話す。
そういう意味でわ団子さんの最近の文句もPower.orgやIBMのフォーラムでもっと大っぴらに書けば
建設的展開があるかもしれないす。
過渡期の技術など、残る必要ない。
過去の資産を受け継いできたIntelプロセッサに部分技術が採り入れられて
Cellの役目は終わり。
>>316 --------------------
Intelプロセッサに部分技術が採り入れられてCellの役目は終わり。
--------------------
まあ確かにAlpha自体がその良い前例す。
>>302 配列じゃない独立データだったら、パディング入れてメモリアクセスがシン
プルになってコードサイズが減少する分を考慮すると、パディングの増分を
埋め合わせて黒字になったりする。とはいえ、さっさとスカラアクセス入れ
やがれってのは同意。
なんにせよ、できるだけレジスタに載せるとか、SIMD命令の明示的な利用ま
で含めてチューニングすれば「スカラ」なコードもかなり救える。そんなの
めんどくさくてやってられっか、という意見はもっともだが、CODECが速い
のはそこらへんのテクニックを総動員しているからだったりする。
決して「CODEC向きのプロセッサだから」じゃないんだよ。
関係ないけど
「Sonyはついに狂ったのか?」by 安藤さん
ビキニトップをペイントと見抜く眼力はさすが
>>320 このスレッド向けの話題だと、APLの件でSUNから散々な仕打ちを受けた安藤氏がRock開発遅延
の報道で嬉しそうなのが。。。
Larrabeeでなくて?
>>324 > 10コア以上でL2$共有って、>10ポートのメモリで同時アクセス可能?
コア毎に専属の領域を設けるとコア-メモリのIFは無理なく作れるが、その外
が大変。L2をマルチバンクメモリにするとバスとバッファに面積を食われる。
どのみちレイテンシすさまじいんだからおもっきしリッチな命令を
コンプレックスデコーダでデコードさせるんでない?
x86は一応15バイト命令まではいける。
328 :
MACオタ:2007/05/14(月) 19:02:40 ID:T+HlRhKp
おもろいな。学閥とか持ち出して来た。分かりやすく説明するのが得意なのは
分からない奴の気持ちが分かってるということだからな。
頭の良さとは関係ない。学者が教師として適格かどうかなんてどうでもいいのと同じ。
キチガイは怖いな
>>329 いや、問題大あり。
民間資金や競争資金引っ張ってこなくとも潤沢に固定予算もらえてた時代ならいざしらず
校費等は大幅削減だからネクラ学者さんは総あぼーんの構図だな。
いまどきブンケイ相手にでも研究概要説明できない学者さんは資金の調達できねーわなw
つーか営業力のある教授さんって民間で揉まれた人が多いと思う。
講義内容を学生が評価する制度も始まってたと把握してるが
そもそもレトリック=聞伝の不必要に英語句に置き換えてものを書く癖は、
本人はかっこいいと思っているのだろうが、知的でもなければ技巧的でもない。
ただ無駄に読みづらくしてるだけで、珍走団の当て字と同じくらいDQN臭い。
相変わらず尾ひれにしか食いつかない魚だねぇ。。。
「----------------」と「================」、うぜー
「〜(主語)〜わ〜(述語)〜す。」、うぜー
うぜーうぜー、うぜー
346 :
Socket774:2007/05/18(金) 17:40:00 ID:G+bTfjwm
うぜー
セガサターンの、32bitCPU2つで64bit級!
みたいに、メニイコアCPUで、コア複数使って32,64,128,256bitを再現してくれないかな。
無理だな。
情報弱者を騙すための宣伝文句じゃん。
疑似128ビットマシンなら大学の情報処理センターにあったなぁ
>>349 SPARCの仕様には128bit浮動小数点演算命令が有るよ。
命令自体が実装されているのか、例外からルーチン呼んで計算してるのか知らんけど。
352 :
MACオタ:2007/05/19(土) 01:31:41 ID:kXRlW1BL
353 :
MACオタ:2007/05/19(土) 01:38:29 ID:kXRlW1BL
vanguard?
>>353 つか本文に5月22日ってはっきり書いてあるじゃん
英語は読めても日本語は読めないんだな
本文に5月22日ってはっきり書いてあるす。
英語わ読めても日本語わ読めないんすね。
なるほど
教授がほざいてただけだからなぁ。
ソフトウェアで128ビットのアドレス空間をシミュレートしてるだとか
思い違いで、実は四倍精度浮動小数が使えるだけとかって落ちも十分考えられ。
実物見たこと無いし。
Sunは基本的に複雑なオペレーションはOSが無効命令をトラップして実行する
って思想だよな。
>>357 巨大論理アドレス空間のならいろいろあるけど
大型機由来のセグメントのあるやつ(x86含む)はたいてい巨大だ
思想もなにも後でインプリしたとき遅いだろ
>>357 ------------------
教授がほざいてただけだからなぁ。 [以下、略]
------------------
また口からでまかせすか。。。
ここで油売ってるより、また「もっさり」スレッドがTXネタで伸びてるすよ。
http://pc11.2ch.net/test/read.cgi/jisaku/1179113168/258- -------------------
258 :Socket774:2007/05/18(金) 00:00:00 ID:HcBSNHdn
>>257 マジレスしとくと
OCerには日常茶飯事だよ
耐久探るのに、Orthos or TX or TAT回しながら、ブラウズなんてのは結構頻繁、
そこで直ぐ気付くのが>3だったりする
[中略]
282 :Socket774:2007/05/18(金) 00:56:42 ID:HcBSNHdn
>>277 やってみた?
結果>50だったでしょ?
E6700を見る限りじゃ超もっさり+鈍足TX(2MTrips/sec未満)だろ。
見てて可哀そうになったw
-------------------
MACオタの引用うぜー
時刻だけは凄いな。
「わざわざ速度リミッタ紹介してるんだから、使えよwwww」
とだけレスするにも面倒だ
363 :
MACオタ:2007/05/20(日) 17:51:15 ID:basf+1Lb
上の話すけど、Oracle 11i (11.5.10)のMedium Configuration Benchmark で、レスポンス時間[秒]
でこういった結果す。POWER5に対して十分性能を上げてきたと見るべきかと思うす。
POWER6/4.7GHz x 8 (2100 users): 0.625 [sec]
POWER5+/2.2GHz x 8 (2000 users): 0.983 [sec]
へぇ、立派なもんやね。
でもこの手のベンチで高得点出すのってどんどんクラスタ化されていってるような…
商機あんのかね?
1年後にはSMTが再導入されたNeharemが控えてるし、商売としては厳しそうな気がするのだが…
ATI-AMDのR600について語る奴はおらんのか?面白そうだぞ。
>>367 それはGPUだろう。蛋白質解析とかGPGPUのスコアでも出ないと。
369 :
MACオタ:2007/05/20(日) 19:38:35 ID:basf+1Lb
ベンチマークの詳細を見ると、
・8 x 4.7GHz IBM POWER6 processor chip (SMT-enabled), each witth L2 Cache of
4MB per core and L3 Cache of 32MB per single Core Module (SCM)
とあるす。POWER5の時と同様にSCM版が先行して、MCMのハイエンド構成わ遅れるということに
なりそうす。
ちなみにOSわPOWER6完全対応じゃないAIX 5.3で、当然POWER6用にリコンパイルなんて
されてない市販のOracle E-Business Suite 11i (11.5.10)のベンチすから、既存アプリでin-order
の悪影響で性能が上がらないという心配わ、大きな問題になるわけじゃない模様す。
もうじき問題点もばれるよ。
power.orgの記述はまんざらガセじゃない。
>>370 SPECだとリコンパイル済みだし、既存アプリでの問題があったとしても検証結果が一般に
理解される形で公開されるのわ、難しいかと思うす。
>>371 compilerのp6 scheduling対応はまだ不十分だと思う
それ以外にも…
373 :
MACオタ:2007/05/22(火) 05:29:24 ID:TVO4r9wN
既報通りPOWER6搭載のp570が発表されたす。
http://www-03.ibm.com/systems/p/news/features/2007/annc_0522.html ------------------------------
The System p 570 server offers clients 2- to 16-core POWER6 processor configurations at
speeds of 3.5, 4.2 or 4.7 GHz in an easily expandable 4U (4 EIA units) rack mount modular
package. Each p570 building block accommodates two processor cards, each of which
provides two 64-bit POWER6 processor cores, 8 MB of Level 2 (L2) cache and 32 MB of
Level 3 (L3) cache. The p570 provides memory capacity of up to 192 GB per building block
or 768 GB per system, depending on memory speed
------------------------------
4.7GHz版に関してわ、秋になるまで入手不可能というオチがついているすけど、TheRegisterの
記事でわ、製造上の問題でわ無いとのコメントが出ているす。
http://www-03.ibm.com/systems/p/news/features/2007/annc_0522.pdf ---------------------------
- The 4.2 GHz POWER6 2-core processor card with eight memory DIMM slots
(FC 5621) . available only for model upgrades from 9117-570 to 9117-MMA . and the
4 GB, 8 GB and 4/8 GB 533 MHz DDR2 POWER5 memory features (FCs 7893, 7894
and 4495) are planned for availability November 16, 2007.
- Model upgrades from 9117-570 to 9117-MMA that include the 4.2 GHz POWER6 2-
core processor card with twelve memory DIMM slots (FC 5622) are planned to begin
September 7, 2007.
---------------------------
http://www.theregister.co.uk/2007/05/21/ibm_power6_p570/ ---------------------------
McCredie denied speculation that IBM will struggle to produce enough of the 4.7GHz chips
to satisfy near-term demand.
"We have been enjoying very good yields and supply capability," he said.
---------------------------
377 :
Socket774:2007/05/22(火) 21:08:24 ID:Ba8l/F+m
/.:.:\ + ,..-──- 、
く\ノ.:.:.:.:.:.: \ /. : : : : : : : : : \
\\:.:.:.:.:.:.:__ヽ /.: : : : : : : : : : : : : : ヽ
\\:./ ,!::: : : :,-…-…-ミ: : : : :',
\\ {:: : : : :i '⌒_, ,_⌒' i: : : : :}
\\ {:: : : : | ェェ ェェ |: : : : :}
. \\. { : : : :| ,.、 |:: : : :;!
rヘ \_ ..ヾ: :: :i r‐-ニ-┐ | : : :ノ
} >'´.-!、 ゞイ! ヽ 二゙ノ イゞ‐′
| −! \` ー一'´丿
ノ ,二!\ \___/ /`丶、
/\ / \\ /~ト、 / l \
/ 、 `ソ! \\l::::|ハ/ l-7 _ヽ
/\ ,へi r''ー-ゝ_`ヽ、 |_厂 _゙:、
∧  ̄ ,ト| >‐ ̄` \. | .r'´ ヽ、
,ヘ \_,. ' | | 丁二_ 7\、|イ _/ ̄ \
i \ ハ |::::|`''ー-、,_/ /\_ _/⌒
378 :
Socket774:2007/05/22(火) 21:46:14 ID:BtmcHDPF
POWER6Mac期待してもいいよね?
…真性?
>>378 ずいぶん細かいところまで四角く切ってるよね
下の方の階層は細かく切らないのが最近の傾向かと思ってたけど
そうでもないのかな
>>381 っていうかデュアルコアのはずなのにどことどこが同じコアなのか分からん。
下側で左右にコアがあると思うのだが微妙にレイアウトが違うような。
光の加減かな。
って書こうとしたら下にスクロールしてないことに気づいた。
細かく区切ってあるのは徹底したチューニングの成果ということなんだろうか。
これで0.75V以下〜1.3V以上まで動かせるんだから凄い。
Conroeみたい。
シリコンウェハーよりでかいチップなんてありえないだろ。
ボードの大きさが半分てことだろ
一生懸命張るのはいいんだけど…
単なるURL indexというか、なんというか、
自分の考えは?
いや、いいんだけれども
>>375 なんでWoodcrestと比べてんの?
>>388 Pentium 4以来、SPECintの王者わx86だからす。
391 :
MACオタ:2007/05/25(金) 01:17:40 ID:6ojiKhut
392 :
MACオタ:2007/05/25(金) 01:27:10 ID:6ojiKhut
こちらもPowerPCネタすけど、開催中のMicroprocessorr ForumでAMCCが新PowerPC 440
"Titan"を発表したす。
http://www.eetimes.com/news/latest/showArticle.jhtml?articleID=199501275 -----------------------
The 90nm Titan is a dual-core processor that hits 2 GHz in bulk CMOS to deliver
8,000 Dhrystone MIPS.
-----------------------
高速化のミソわ、ダイナミックサーキットによるプロセッサ設計の雄、Intrinsityの技術を
導入したことにあるす。ちなみにこのIntrinsityもサマセット研時代のPowerPC技術者の
会社す。
Intrinsityの初期製品わMIPSベースだったすけど、これPowerPCのライセンスが高くて
MIPSを選んだといういわくつきの話す。Power.org以前のPowerPCの戦略の不味さが
改めて明らかになったとも言えるかと思うす。
ちなみにPPC440コアの代表的製品といえばBlue Gene/Lすけど、果たしてAMCC/Intrinsity -> IBM
という痛快極まりない技術の逆転わ有るすかね。。。
"Titan"の成果わ、POWER6に続いて「回路設計レベルの革新で性能を上げる」ということが
可能であることを証明したす。
Penrynの"Radix-16"除算回路の投入も含めて、この方針が当座の性能向上のトレンドになる
気がするす。これわ設計に費やすコストやマンパワーの増大につながると思うすけど、
なんだか技術者をリストラしつつあるらしい某社の先見性の無さっぷりって。。。
FreescaleがSOI含めIBMと協業する話は1月に既出す。
>>394 これすね。
http://www-06.ibm.com/jp/press/20070125002.html IBMわバルクシリコンでSamsungやInfineon, SOIでChartaedやFreescaleと以前から提携
している訳すけど、ここで面白いのわ今回の発表に今までIBMを中心とするプロセス開発
連合の一員だったSonyと東芝が入っていないことす。
この辺に、今回のリリースの意図があるすかね。。。
----------------------
また5社は5月24日、都内で32nmプロセス共同開発に関する記者発表を行ない、その
取り組みを日本企業に向けてアピールした。
----------------------
ノート向けのPPC64はFreescaleには期待せんよ
もっともPowerBookはもう二度とでないだろうが
>>396 質の悪い株屋に買収されて、事業を切り売りされるんじゃないかと恐れていたすけど、
単に良いスポンサーが付いて経営が安定する方向に向かってる模様す。
>>398 "Research"(基礎研究)にしか入っていないすけど?
>>400 へ?もともと、そういう位置づけでしょ?
ちなみにそのスライドの"Common Platform Manufacturing"ってのわ、同一の設計でどの会社でも
製造できるというレベルの話すから、ファウンダリ企業にしか関係無いと思われるす。
>>402 CELL BEをSonyとIBMのどちらでも製造できるという点で、現状のIBM-Sony-東芝連合わ
"Common Platform Manufacturing"レベルかと。。。
そらあんたの思い込みでしょ
>>407 思い込みでチップの製造を他の会社に移管できるなら、今頃AMDのプロセッサわUMCで
製造されていた筈かと(笑)
なんか噛み合ってないな
まあいいや 説明するのめんどい
おやすみ
組込のチマチマしたCPUなんざどーでも良いと
内心思っているオレガイル
でもこれから何年かは自動車向けのCPUの覇権争いが面白そうだよ
softwareの方が大変
それはご愁傷様
POWERの話になると比較にならんぐらい生き生きするな。
昔から思ってたんだが何でPOWERオタと名乗らないんだ?>MACオタ
419 :
MACオタ:2007/05/25(金) 17:59:42 ID:6ojiKhut
PPCの9シリーズと統合しただけなんじゃないの?
>>420 そういう意味す。ただPPC9xx自体わ外販してるチップすから、それがすぐさまPPC9xxの消滅を
意味する訳じゃ無いす。
PPC9xxは使い道が限られてるからな…
CoreやAthlonと同じで。
POWER6は驚くほど速くはない!?
http://www.geocities.jp/andosprocinfo/wadai07/20070526.htm SPECint2006では・・・クロックがが1/3しかないItanium 2と比較して,ベース
では2割,ピークでも4割程度のアドバンテージしかありません。
SPECfp2006も・・・Itanium 2と比較すると,ベースで8%,ピークで23%という
アドバンテージです。
この程度であれば,Itanium 2がMontvaleで追いつけないというほどの性能差ではありません。
やはり,クロックを上げると相対的にメモリレーテンシが増加する効果や,
コアをインオーダ化したこと等により1サイクル当たりの命令実行数
(Instruction per Cycle:IPC)は低下しているようです。
>>424 Pentium4 2.53GHzが55Wくらいで、AthlonXP 2200+が80Wくらいだっけ
そんな時代を思い出すな。
AthlonXP<クロック上げるとか馬鹿のやることじゃね?w
>>424 OoOが電力効率悪い理由は性能向上幅以上にトランジスタを注ぎ込まないといけないから。
トランジスタをつぎ込んでIPCを向上させても、トランジスタ数に比例して性能が向上することはない。
かといって、IPCを向上させずに周波数だけを上げても、周波数に比例して性能が向上することはない。
Pentium4 2.53GHz TDP61W
AthlonXP 2200+ TDPmax67W、TDPtyp61W
Pentium4 2.53GHz 最大電流*電圧80W
AthlonXP 2200+ 最大電流*電圧68W
>>430 ついでに、単純にマルチコアにしても、コア数に比例して性能が向上することはない。
SMPでリニアに伸びるのは8CPUぐらいまでだったような。
20CPUぐらいで頭打ちになるんだったかな。
のびねェよ
どんな単純なin cache loopでハカッテンダか
IBMがPOWER6Macを出さない方が問題だ。
MacとMacOSの販売権はAppleにあるのになんでIBMが?
IBMがPowerBook用G5を出さなかったのでMacがIntelに乗り換えた、
みたいな話じゃないのか。
PowerPCはバカ売れしてるんだが、アップルはパソコンメーカーでは4位程度のメーカーだったので
PowerPC出荷量の1-2%に過ぎなかった。
だから後回しにされた、というわけだ。
このスレはまた別の話だが、自作住人ってなぜか、8コアとか4.7GHzとか、そこら辺の「単語だけ」に反応するよな
物事を一個の数値などに単純化しすぎると万人に分かり易くなる
その反面、物事の繊細な本質が見えなくなる
ベンチの性能性能言ってるヤシらだって同じアナのムジナ
>>439 -------------------
PowerPC出荷量の1-2%
-------------------
組込向けの10倍以上の単価すから、売上に換算すると結構な割合になるすけど。。。
問題わIntelに対抗できるだけの開発費にペイするかどうかってことかと思われるす。
>>439-440 例えばゲーマーだったら、ゲームを快適に楽しみたい、という目的が有って組むけど、
組むこと自体が目的だったら、単語や数値にこだわるのも自然では?
日常使用では、一部の用途を除けば、普通のPCで十分だし。
E6850なんか3GHzでTDP65w。
Power6の存在価値がMacであるかといわれるとかなり微妙。
444 :
440:2007/06/01(金) 02:47:43 ID:SiuhZr8w
>>442 言いたかったのは単純化しすぎた数値にばかり着目すると
結局、変な代物ができあがると言うこと。
cellしかり、点数教育しかり
そしてlinpackだけが速くてその実、使い物にならないcomputerしかり
>>444 そういう設計だと割り切って作られてる製品を、知っている単語だけで反応し、分かりやすい解説が入るまで叩けないんだよな
競争相手としてのPowerPC Macは欲しかったな。
どの市場でも二、三の勢力が競争してるのがいいんだけど、
2,3割のシェア取れなければやっていけないから。
Meromと張り合えるのはPWRficientくらいしかない
POWER6の動作電圧の広さもなかなか
Windows VistaをPPCに移植してそっちをライバルにでもなんでもしてくれ
マカーはx86になって幸せを満喫しているんだよ
IntelにとってはAppleは高値のXeonとMeromだけを買ってくれるいい客だもんな
にしてもClovertown 3GHzは異常に安いが。
>>451 IntelがPPCを作り、MSがPPC版Vistaを出せば、全て解決。
x86と同レベルのモノを作ることは、両者にとって困難ではないだろう。
素性はいいからな
VistaではなくXPでお願いっ><
Adobeアボーンの方がいい…。
京速のアーキテクチャまだ決まってなかったらしいな
寄せ集めだろ
ここ数年、何やってたんだか
プロジェクトを遅らせるほど技術の進歩で京速を達成するのが容易になりますw
ライバルも進化する
イタチごっこ
忘れちゃいないだろうな
465 :
MACオタ:2007/06/07(木) 20:49:10 ID:OCp7RXQD
ここのところPOWER6関連で、海外の掲示板等で紹介されていた特許や論文を漁っていたす。
POWER6に関してわ、高速化の代償として整数演算ユニット(FXU)がインオーダー実行になっている
ことが以前から指摘されていたすけど、これ以外にもコアに機能上のトレードオフとして削減された
部分やや改善が加えられた部分があるす。以下、興味深い点について書き残しておくす。
長くなるかと思うすけど、勘弁して欲しいす。
■レジスタリネームの削除
FXUでOoOEを削ったことに加えて、OoOEを残したFPUやVUでもレジスタリネーム機能を完全に
削っているす。つまり、ちゃんとpowerアーキテクチャで定義された32個レジスタを有効活用しないと、
レジスタ競合で始終パイプランが停止してしまうということになるす。
ただしHPC Linpackの成績を見ると、POWER4/5と同程度のパイプライン段数であるにもかかわらず
リネームレジスタ数を72->120に大増強したPOWER5とそれほど変わらない効率を出しているす
(POWER5: 84.8%, POWER6: 79.6%, 共にp570 16-way)。
命令キューも小さくなっていることでキャッシュにヒットしてデータが連続的に供給される限りわ、
シンプルな構造にしたことが成功していることが判るす。
ちなみにリネームレジスタわ存在しないものの、後述する投機実行機能に使う一時使用のための
レジスタファイルが一セット用意されている模様す。
■load/branch lookahead機能
L1キャッシュやTLBのミスで発生する長期のストール時に実行する一種の投機実行機能なんすけど、
「実行」する訳じゃない。。。ってのが面白いところす。
in-orderでリネームレジスタを持たないという設計により、投機実行中にレジスタの書き換え等、
プロセッサの内部状態が変わるようなことが一切できないす。そこで、冬季実行している間の
実行結果わ捨てて、L1キャッシュへのプリフェッチや分岐テーブルの更新のようなプロセッサの
内部状態を変えない動作のみを行うす。ストールが終わって後続の命令が開始されると、必要な
データがL1に入っていたり、分岐予測の精度が上がっていたりして万々歳ということになるす。
この機能、OoOEと違ってパイプラインバブルを埋めることわ出来ないすけど、普通のin-order実行
で問題となるキャッシュミス等での完全停止の対策としてわ面白いす。バブルについてわ高い動作
クロックと整数命令の実行レイテンシを1に削減したことで影響わ少ないという考えだと思われるす。
ちなみに投機実行中に全くレジスタに書き込めないと、本来の目的である後続のload命令や分岐
命令の実行まで行き着くことすらできないんで一時使用のためのレジスタファイルを一セット持って、
投機実行中の演算結果を書き込むようにしている模様す。
■プレデコードの強化
私わ以前から「POWER6わNetburstの衣鉢を継ぐ」とか書いているすけど、これもトレースキャッシュ
に近い機能す。RISCでわ下のメモリ階層からL1命令キャッシュに読み込む段階でプレデコードを行う
すけど、以前わ実行パイプラインで行っていた命令のグループ化の大半をこのプレデコードの段階で
行う模様す。
命令ごとに必要とするリソースを示すビットとグループ境界の参考用に使うビットが付加されるために、
L1キャッシュ内の命令わ32-bit幅のpower命令より若干肥大化するす。この肥大化分が64KBという
L1命令キャッシュのサイズに含まれているかどうかわ不明す。
ちなみにFXUのin-order化/FPUのOoOEの規模縮小により命令のcrackingやらmillicoding (より単純な
命令への変換機能)わ無くなった模様す。複数の実行ユニットを使用する命令わ存在するす。
後述の整数乗除算命令なんかわ、その一例す。
■命令ディスパッチレベルのSMT
以前に、
http://pc9.2ch.net/test/read.cgi/jisaku/1169393906/818 ----------------------------
issue queue内部でOoOE機構を持たないプロセッサにSMTって実装する意味があるすか(笑)
----------------------------
なんてことを書いた覚えがあるすけど、なんとPOWER6わ2つのスレッドから7命令をグループ化して
ディスパッチすることでSMTを実現しているす。グループ生成の制限わ、まず優先スレッドから
in-orderかつ所要リソースがダブらないという制限で最大5命令で、残りをサブスレッドから。。。
というモノす。場合によってわサブスレッドの命令のほうが多くなる筈す。
ちなみにPOWER4/5わ命令キューにサイクルあたり5命令のグループをディスパッチして、命令キュー
からアウトオブオーダーで7命令をイシューするという設計だったすけど、OoOEを縮小した分最初から
静的に7命令をイシューするようになったとも言えるす。なんとなく更にVLIW的になったという気もするす。
■FPUによる整数乗算/除算の実行
おかげで従来パイプライン化されていなかった整数乗除算がパイプライン化されるす。ただし
スループットわ2。
■FPUの逆数/平方根近似値命令の高精度化
14-bit精度になったとのことす。そのまま使えそうな値すね。
■FPUパイプラインの改善
除算や平方根のようにパイプラインを何周もする長レイテンシの命令がFPUを占有している間に、
前述の一時使用レジスタをその手の命令に回すことで後続の命令をパイプラインに投入できる
ようになっているす。
ただし論文でも「リネームレジスタが無いのでシングルスレッドでの効果わ今一つ」とあるす。
ただし片側のスレッドが除算とかを実行中に、もう一つのスレッドからのFPU命令をどんどん投入
できるそうす。
■単精度浮動小数点わ実行レイテンシが大きい?
倍精度FP演算わ6-cycle後の後続命令に結果をフォワードできるとのことすけど、単精度わ
丸めの追加処理が複雑になるのでフォワードが遅くなるらしいす。
■VMX (AltiVec)
VMXのイシューポートが一つだけになって、演算とvpermを同時実行できなくなっているという噂が
流れているすけど、それわ無い模様す。
特許でもVMXユニットが2つ(多分VIU/VFPUとVPERM)という実装例が記述されているし、何より
ダイ写真でベクトルレジスタが2ブロックあって、2つのパイプランが並列実行することを示しているす。
(POWER4以来、IBMの設計わパイプラインごとにレジスタを割り当てている。例えばFXU0とFXU1の
GPRわ別でそれぞれ32個づつある)
どうやらFPUとVMXの関係わ、PPEとよく似ていて命令キューを共有し、FPU命令とAltivec命令を
任意の組み合わせでサイクルあたり2つイシューできる模様す。
謎なのわダイ写真を見る限り、ベクトルレジスタが64-bit幅づつ2つに分割されていることで
四則演算ならともかくシフトやpermuteで不都合が無いのか非常に不思議す。
■リネームレジスタの話の続き
リネームレジスタを削ったかわりに、演算やロードの結果を引数として使う場合の優遇措置わ
色々ある模様す。
まとめるとベンチマークに現れている高性能っぷりわ、in-order実行の問題であるキャッシュミス等
によるストールが各種の新機軸によってうまくカバーされたことを証明しているかと思うす。
CELLのSPEでわ、そもそもストールが発生しないようにLSを採用した訳すけど、同じIBM社内で
in-orderでの性能向上策として色々考えていることが判るす。
POWER6の手法わ将来のPPEの実装にも適用できるネタであることも今後の注目点じゃないすかね。
IBMわ昔から「割り切った」設計をする癖があるすけど、今回の割り切りネタわ
「パイプラインバブルわ放置」
ってところに見えるす。キャッシュ/TLBミスによる長期の停止がIPC低下の主要な原因である
認識わCELL BEの設計方針にも通じるすね。
一方で、数年振りにSPECintの王者の地位を譲ったIntelが今後何をやってくるかわ楽しみす。
IBMと違ってIntelわ 「割り切らない」 会社す。
IBMがPOWER4で「クロックを上げれば命令の実行レイテンシわ多少悪くても良い」と考えた時に、
Intelわ超高クロックのPentium4の上に更に倍クロックのALUを内蔵することで命令のレイテンシを
短縮したす。同じくIBMがデュアルコアわL1をwrite-throughにしてL2で同期すれば良いと考えた時、
IntelわL1をcopy backのままにして、L1間のスヌープを実装したす。
Intelわ既知の性能向上策を決してサボらない会社す。powerを支持する私にとってIntelわ常に
恐ろしい競合相手す。
今回参考文献サボったすけど、ほぼソースわあるので質問があれば紹介するす。
IBMとAppleはなぜPOWER6 Macを出さないのか。
IntelとPCメーカーはなぜItanium2 PCを出さないのか。
POWER6の半分程度のクロックだから参考にならないかもな
>>475 分割されたブロックの距離が妙に遠いすよ。
ダイ写真の方わ
>>378のリンク先でも見て欲しいすけど、上側コアの左端がVMXユニットで、
見ての通り128-bit幅のレジスタが2ブロック見える筈が64-bit幅と思しきブロック(赤銅色に見える
四角)が4つあるす。
トレースキャッシュに続いてランアヘッドも実用化か
Rotenbergはヒーローだな
何度も言うけどトレースキャッシュとプリデコードキャッシュは全くの別物だから
CellのSPEでもVPERM相当ユニットはLSU側のポートだったな
>>480 ちと話わ変わるすけど、PPEのVMXがハーフスピードって話わ、何を探せば書いてあるすか?
もちろん実測。
あとIBMのサイトにも図でそう書いてあったがURLは忘れた。
>>482 ----------------
あとIBMのサイトにも図でそう書いてあったがURLは忘れた。
----------------
そういうの探したすけど、見つからなかったす。
ところでFGMTでソフト的にわクロック半分のプロセッサが2つに見える筈すから、実測だと半分で
当たり前なんじゃないすか?
「PPE VMX 半速」でググったら俺のカキコしかなくてワロタ
むろん両コンテクスト動かして合計スループットを計測した上で言ってる。
フェッチ・デコードが1コンテクストあたり1命令/clkなだけで演算ユニットのポートの
縛りがないことは判明。
IBMのサイトに明示してあったんだが今探しても見つからん
http://forum.beyond3d.com/showthread.php?t=23419 > XENON's VMX floating simd unit longer than PPS's, because dotproduct,DX compression instructions etc
>
> PPS's vmx contain 8 floating units, but i dont know why,
> it has more facilities:
>
> 1. 2*4 ways floating simd unit
> 2. 1*8 ways simd
> 3. yield problem or higher frequency
> 4. VMX run at half speed
> __________________
> Version of Majic12
演算器内で処理が完結するなら、レジスタが分離していても
Vpermやシャッフルで不都合は起きないような気がしてきた
ところで、2つのスレッドを実行できるということは
レジスタセットは各パイプラインごとに2つあるのか?
>>484 引用先わ私も検索で引っ掛けたすけど、ポストしたヒトの推測に過ぎないす。
>>485 ------------------
レジスタセットは各パイプラインごとに2つあるのか?
------------------
そうす。lookahead用の予備も入れるとパイプラインごとに4つということに。
結果的にレジスタの面積わ、リネームレジスタが120あったPOWER5とほぼ同じす。
命令ごとに必要とするリソースを示すビットとグループ境界の参考用に使うビットが付加されるために、
L1キャッシュ内の命令わ32-bit幅のpower命令より若干肥大化するす。
EPICみたいだな。
MPC7450でいうVSIUパスの命令くらいしかまともに計ってないけど
2スレッド使っても綺麗にPPC G4のクロック当たり半速程度しか出ない。
ちなみにSPEは等速かな。むしろ実効ではレジスタ数分伸びた。
8flops * 3.2GHz * 7.5 = 192GFlops
どうみてもVMX半速 +7SPEで計算合います。本当にありがとうございました
※もっとも厳密には3.2GHzじゃなくて3192MHzなんだが
8SPEは217GFLOPSだったっけ?やっぱりVMX半速で計算合うね
既にデータとってるし。
汎用ALUとVPUは実は同時発行できない
>>495 --------------
汎用ALUとVPUは実は同時発行できない
--------------
それ普通「半速」とわ呼ばないと思うすけど。。。
いや?
半速でしかもそれだって話だが。
だからこそG4 1.42GHzより性能悪いことすらある。
今気付いたすけど、
>>469のこれ間違いす。
誤: ただしスループットわ2。
正: ただしスループットわ0.5。
>>472 > 今回参考文献サボったすけど、ほぼソースわあるので質問があれば紹介するす。
時間があれば参考文献も読んでみたいので、紹介ヨロシク。
CBE PPUのVMXは半速じゃないよ。
クソシーケンス喰わせりゃ激遅になるだろう。
502 :
499:2007/06/08(金) 22:38:09 ID:SUTtHFb0
503 :
MACオタ:2007/06/08(金) 23:12:15 ID:z+wK8eWd
京速計算機プロジェクトってお取り潰しになるんじゃないすか?
http://www8.cao.go.jp/cstp/tyousakai/hyouka/fu-super.pdf -------------------
さらに、本計算機の目標性能も0.5ペタFLOPS と低いこ
とから、国家プロジェクトとしてベクトル計算機の開発に本格的に着
手する必要性が必ずしも明確となっていない。同様に、「逐次処理計
算機部」についても、目標性能は1.0ペタFLOPS と低いため、国家
プロジェクトとして開発に着手する必要性が必ずしも明確ではない
という点が挙げられる
。。。
さらに、仮に本プロジェクトの提案のとおり、「大規模処理計
算機部」、「逐次処理計算機部」、「特定処理計算加速部」の3部構成を
とることとした場合、それらを密に結合する必然性が必ずしも明確で
なく、したがって密な結合を担うこととしている「異機種間接続超高
速インターコネクション部」を開発する必要性も明確ではない。
-------------------
>>503 もう、時代の曲がり角はとっくに過ぎているのに
なのに20年来の延長線上で恐竜が呉越同舟
時間と労力の無駄使い。
気の毒だが、不要といえばもう不要なものなのかも。
公の文章に載るようじゃ末期症状。
逆に日本のsoftwareの発展にとっては明るい材料かも。
気の毒だが。
これは、だめかも知れない…orz
>>500 はい?どうみても半速ですが。
もちろん2スレッド食わせてますよ。
>>505 確かに日付的にも古いネタで失礼したす。
これからプログラムの勉強する香具師がわざわざx86のアセンブラなんか触るのか?
どうも先には行き止まりが見えるような希ガス
え、独学なら普通x86じゃない…?
まー最適化をある程度見限ってJavaやC++つー手もあるけれど。
非x86つーと昔のPowerPCMacくらいか。
更にそれ以外となると入手の敷居が一気に高くなる。
新品でプログラミングの勉強用にPPCマシン手に入れようと思ったら今や最も手軽なのがPS3
てか唯一の選択肢。
まあ俺はPPC Mac確保しといたけど。
>>513 まーねー、他の選択肢がことごとく絶滅したからね(または敷居が高すぎる)。
目的を何にするかにもよるが x86 は純粋なアセンブラの勉強としては
不向きだな。
勉強用はCASL-II/COMET-IIでいいじゃん。
なんという情報処理技術者試験www
電子工作とかやるんならZ80もいいと思うんだけど
パソコンとはるとx86以外見当たらんなー
x86はアドレッシングも楽だしアセンブリ言語で組みやすいだろ。
バイナリコード直接叩くわけじゃあるまいに
あとRISCの単純さ・直交性は人間のためじゃなくて高級言語コンパイラの為。
あぼ〜んが多いな。
x86はアセンブラ組みやすいし読みやすいぞ。8086の頃の悪評に引きずられてるんだろうけど
386以降のいわゆるx86は別物だ。
最近、x86を批判して通ぶってる奴が多い気がする。
>>522 申し訳無いとわ思うすけど、この21世紀にデコードのボトルネックを解消したのしないのと
自慢してるのがイタいのわ事実す。
当のIntelですら、トレースキャッシュでこの手の問題から開放された筈だったすけど。。。
トレースキャッシュとプリデコードッキャッシュは別もんだと
一体何度言ったら。。。
>>524 固定長命令であれば実行時のデコードの並列化わ容易なので「デコードのボトルネック」なんて
存在し得ない。。。という話であって、プレデコード云々わ関係無いす。
もちろんプレデコードだって楽になる訳すけど。
526 :
MACオタ:2007/06/12(火) 00:36:16 ID:MDfzQR8J
ところで「プレデコードキャッシュ」ってあまり聞かない用語だな。。。と思って調べてみたら、
AMD K6が命令キャッシュをそう呼んでたすね。
異常に固執してる理由が理解できたす(笑)
私が書いているのわ、RISC一般の技術的な話なので関係無いと思って欲しいす。
>>526 あいわらず重箱の隅ばかりつついて本質が見えないやつだな
デコード済みの命令をキャッシュするものは、トレースキャッシュとは全くの別物
間違える学生が出てくると可哀想だしね
トレースキャッシュは(分岐をまたいだ場合の)命令フェッチバンド幅を改善するもので
はっきり言ってあんまり関係ない
仮にデコードが性能のボトルネックというならば
L1 cache latencyを減らし
L1 band widthを広げ
単に周波数を上げればいい
こんな楽な話なら誰も苦労はない。
>L1 cache latencyを減らし
>L1 band widthを広げ
>単に周波数を上げればいい
想像して文章化するのは楽かもしれんが、
どれもあまり楽な作業には見えないんだが…
全体をはやくするよるり
はるかに楽
そして、本当に速いコンピューターを造るより(ry
>>529は全体を速くしろと言ってるのと同義じゃん。
単に周波数を上げろ、ってそれが出来れば苦労しねえw
>>533 >単に周波数を上げろ、ってそれが出来れば苦労しねえw
この板ではいとも簡単に数十パーセント上げてる人多いけどね。
OCと定格を上げるのは別
まぁそうだけどね。
「上げるのが難しい」みたいな書き方するから。
あまり熱くせずに上げるのが難しいというか、消費電力とのトレードオフで
理想的な並列度、キャッシュサイズ、動作周波数が導出されるのであって、
周波数を上げるのが難しいから(いや実際難しいんだけどさ)大変だというような
簡単な話じゃないじゃん。グダグダですまんが。
単に周波数を上げるのが簡単なら並列もくそもなく
単に周波数を上げるだけでいいだろうがw
>>526 >ところで「プレデコードキャッシュ」ってあまり聞かない用語だな。。。と思って調べてみたら
ちょっ、MACオタがまともなことばづかい.....
>>540 ワロタw
〜あまり聞かない用語すね。。。
この記事からは、ぽしゃる訳が読みとれん…
りけんが投げ出した?
世界一の性能目指すのに3社連合なんてありえないでしょ
12日、3社連合で実施する方針を決め…
今後2年間で部品選定などの最終設計を詰め、2010年度の完成を目指す
ここか
3社連合なんて最初から予定調和でしょ。
今まで方針が公に決まらなかったこと
今から設計、作り始めて2年あまりで稼働までもってくことw
この辺では?
OSとかsystemsoft、アプリ絶対間に合わない
結局、富士通とNEC+日立の2案が
まとまらなかったってことだろw
どっちかばっさり切って退場してもらう決断もできなかった。
中途半端のシステムになるの目に見えてるよ。
http://techon.nikkeibp.co.jp/article/NEWS/20060919/121249/ 「2案の大きな違いはマイクロプロセサ1個の演算性能とそれを
いくつ利用するか,の違いにある」(理研)と説明する。目標とする
10PFLOPSを実現する上でマイクロプロセサ1個の性能と総数の
選び方にいくつかの選択肢がある。例えば,10GFLOPSの
マイクロプロセサを100万個用いて実現するか,100GFLOPSの
マイクロプロセサを10万個用いて実現するか,といった選択肢である。
50GFLopsで20万個ですか?
使いやすい物が出来ない
速い物が出来ない
まともに動くものが出来ない
あなたの落とした斧はどれですか?
>>548 50Gなら5個、10個でそ
10万20万はペタのレンジが目標の個数かと
> 中途半端のシステムになるの目に見えてるよ。
そうそう、そういうこと。
>>549 10GFLOPS×100万
=100GFLOPS× 10万
= 50GFLOPS× 20万
ってことでしょ?
さすがは聞伝くんだね
まあ、今から50GFLOPSの石を作ってる時間は無いと思うけど
誉められた訳では無さそうだな。
石はたぶん出来るよ。石だけは。
石が出来ることnearly equall computer systemが完成すること
彼らにとっては
入れ物も多分できるら。
> 誉められた訳では無さそうだな。
馬鹿にしてすまなかった そのことについては謝る
10GFLOPSってのは、おそらく富士通のスカラ
100GFLOPSってのは、おそらくNECのベクタ
どちらも、元になるアーキテクチャがあるんだから作れる見込みはあるんだろう
でも、今から50GFLOPSなんていう石(新アーキ?)は作れないんじゃないの?ってこと
ああ、NECの石を半分の性能で作ればいいのか(意味ねえw)
ソフトがなけりゃ石だけ(あるいは入れ物だけ)あっても仕方ないってのはその通り
なんだけど、それはまた別の話
>>555 繋ぐだけでしょ。悪く言えば。
その高速接続の必要性に文系からケチが付いたんじゃないのかな。
それぞれ勝手に作って繋ぎますって
手前らの都合で変な物でっち上げやがって
ってわけか
単体についてもケチ付く度にかさ上げ->仕様変更
10Gってのは今となっては見所無いな
単体の理論≒見かけ性能を上げるためにあの手この
せこい手
さすがに一からは作らんでしょw
超伝導素子のCPUってまだ出ないのかな。ルータの試作はできてるらしいけど。
水冷するくらいなら冷凍機もたいして違わんと思うし、かべは低くなってきてるはず。
ある大型の公共事業案件に入札しようとした会社全てに落札させ、
お金を全ての会社に配ることにしました。めでたしめでたし。
>>555
ゲートの集積とかどーすんだ
しらんけど
>>559 トランジスタのスイッチングがいくら速くても
CMOSと同等の集積度が実現できない時点で勝負にならない
次世代スーパーコンピュータ概念設計評価報告書 出ました
ttp://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu2/toushin/07061321/all.pdf 結論としては
> 本システム構成案は複合システムであるという大きな特徴を有し、世界的
> 主流となっているスカラプロセッサに演算加速機構を付加したプロセッサ
> と、我が国が強みをもつベクトルプロセッサの改良型となる新しい汎用
> プロセッサを同時に開発するものである。
とのこと
あと、面白かったのは↓このあたり
> なお、スーパーコンピュータそのものの市場は必ずしも大きくなく、今後の急激な
> 拡大も期待できないことから、プロセッサ技術を情報家電の国際的競争力の強化に
> 活用できるようにするなどの視点も重要である。
ベクトルCPUを搭載したPCエンジン萌えw
スカラー、ベクトル、日立の三題囃しなら
疑似ベクトル
携帯電話用プロセサでスパコンを構築が今の流れだろ。
演算加速機構ってなんだろね?
「〜を付加したプロセッサ」って書いてあるから
クリアスピードみたいなのとは違うのかな
>>567 スーパーHコンピュータか なんかエッチだな
恥丘シミュレータとか
570 :
元:2007/06/15(金) 01:55:57 ID:F6redfqx
ワロタ
>>394 に対する評価報告
>@ 革新性
>システム構成案は、スカラプロセッサ、ベクトルプロセッサ、各演算部内部のネッ
>トワーク構成、両演算部のアーキテクチャなどについて、革新性の高い部分を有する。
>ただし、両プロセッサについては、基本的に従来のプロセッサ構成の延長上にある
>ことから、改良はなされているものの、新規の系統の技術という観点においては、革
>新性は限定的である。一方、コンピュータ技術は積み重ねで成り立っており、単に独
>創的なだけでは、技術として定着しないことにも留意すべきである。
>今後、両演算部を一つのシステムとして活用するシステムソフトウェアの開発に期
>待したい。
革新性がないと報告されてしまいました
新規制もないし
互換性もないよ
システムソフトウェアの開発に期待するのは勝手だけど
そっちは予算0だったりして
まあ頑張りな。金貰った以上、よそに頼らず自力でやってご覧、一回くらい。
>>566 SR11000。
>>568 SIMD拡張とかアレイプロセッサブロックとかじゃない?
温度スケーリングやんないのかやるわけ無いか開発会社にいないし。
>その結果、HPCC 過半数目標はシステム全体の性能を評価するものとしては必ずしも適切ではないこと、
>HPCC 過半数目標を達成するシステムは、Linpack 性能、汎用性、消費電力、設置面積
>などの目標及び予算上の制約を満足しないことが明らかになった。
>これを踏まえ、作業部会においてこれら目標間のプライオリティに関する議論を行った結果、
>HPCC 過半数目標より汎用性、消費電力、設置面積などの目標の達成がより重要であることから、
>HPCC 過半数目標そのものを変更すべきであるとの結論に至った。
>新たな性能目標のための評価項目としては、
> @多様なアプリケーションの実効性能の評価に資するものであること
> Aある程度世界的にも認知されていること
>との視点から、「HPCC Award 4項目」が適切であり、新たな性能目標としては、
>「HPCC Award 4項目において最高性能を達成する」とすることが適当であると考える。
HPCC Award 4項目中2つは「京速を使ってこんな研究をしましたすごいでしょ」で賞が奪れる。
残り2つは、ノード間のインターコネクト、I/Oとファイルシステムの二点が革新的だと認められねば奪れない。
>CPU やノードの信頼性向上については、キャッシュのECC 機能、内蔵RAM のパリティ検査など、
>故障診断のための十分な対策も取られており、評価できる。
>ただし、システム規模を考慮すると、それらの対策による構成要素の信頼性の向上に加え、
>更なる故障への対策が必要であると考える。
信頼性も足りないと報告されてしまいました。
>>574 > 温度スケーリングやんないのか
東芝ネタ?
諌早湾に要らぬ堰を作るようなものかな
それがどんなに高い堰で広大な耕地の開拓であっても
いまや不要な物には変わりない
ましてや死体累類の上にlinpakが何テラflopsだとか
あれは高みの見物気分なのかな
社会的にも科学的にも無意味どころか害しかもたらさない
税金ばらまきに群がり麗しき山河を汚すゼネコンの業界腐敗体質と
あまりにも似ている
コモデティーにコテンパンにのされて自業自得
実力で食えないなら
ダニのように血税にたからず
撤退しなさい
出来損ないのゴミみたいなハードウェアをソフト部門に押し受けて
遅いはずはないとかほざいて
延々欠陥探しをさせて
死人がでて知らん顔
そんな物になぜ国は税金使う
止めなさい
欠陥コンピューター
ゴミコンピューター
使う人を不幸にするコンピューター
ゴミみたいな論文書き散らかしてパルプ資源を無駄にして
すぐスクラップにするだけのコンピューター
> 死体累類
死屍累々じゃね?
どうでもよくないでしょ
全自動で設計できるかどうかってのは、IPとして商売する上では重要なことだよ
4GHzで動くのは元々なので、実は「面積縮小」のほうが結構重要だったりする。
歩留まりも上げられるし、同じ面積ならユニットを増強する方向にも持って行ける。
Larrabeeの1コアのサイズって今のSPEを45nm工学縮小したくらいのサイズのようだね
もっともL2キャッシュやCSI・メモコンは外に別個にあるようなので、ロジック部だけで
考えればLarrabeeのコアはSPUよりやや大きい。
面積30%減ってのも情報家電なんかで使う上では
コスト的にかなりポイント高い
被った
失礼
テレビにCellが使われる日は訪れるのだろうか?
東芝はテレビにDDR2メモリ使ってるにょ、とかいうのを売りにしてるからそのうち来るのかも。
てか面積30%減て尋常ではないんだが
>>586は間違いなくアホ
はあ?
おれが反応したのはここなわけだが
>4GHzってのはすごいね
>>593 また内容考えずに、パソコン視点でしか突っ込めない方ですか?
そうそう、アフォなのは
>>586じゃなくて
>>585 すでに4GHzで動くものはあるんだから、全自動でできるかどうかなんて
どうでもいい
ラボレベルで達成した数値の無意味さを揶揄しただけなのに
とんちんかんな反応するアホばっか
アホばっかりで疲れるよね
>>598 しつこいなデブ
無意味だからこそ一行目に「そんなことはどうでもいい」とエクスキューズをつけた
わかってることを繰り返すなアホ
配線遅延やらスキューやらを考えると
面積70%化で6GHzくらい行ってくれないと
コンパクションすると、むしろ配線的には厳しいんですが…
で、まさに厳しそうなところを追加のツール(クロック系、太幅配線)で
対応したという話ではないのかな?発表聞いたわけでも論文読んだわけでも
ないから、わからんけど
つか30%も小さくしてキャパシタとか足りてるのか?
こりゃ論文読んだ方がいいかな
>>585 "Synthesizable"を「自動設計」って訳すのわ、適当なんすかね?
605 :
MACオタ:2007/06/16(土) 19:16:28 ID:qcd6RBae
peakのコンパイラオプションすけど、INT/FP共にAltiVec (VMX)オプションをつけて成績アップ
という傾向が見えるす。時期XLC/XLFで自動ベクトル化オプションが付けば、baseも現在の
peak並に改善する見通しかと思われるす。
ボクシングの採点スタイルでCoreマイクロアーキと比較したい方わ、この辺見ると良いす。
http://www.realworldtech.com/forums/index.cfm?action=detail&id=80144&threadid=80142&roomid=2 -------------------------
Subtest Power6 Woodcrest Score
400.perlbench 13.7 24.1 9:10
401.bzip2 16.1 16.1 10:10
403.gcc 19.8 18.0 10:10
429.mfc 36.8 20.8 10:9
445.gobmk 17.9 21.4 9:10
456.hmmer 17.1 20.0 9:10
458.sjeng 14.9 19.6 9:10
462.libquantum 96.6 31.2 10:7
464.h264ref 30.6 32.9 10:10
471.omnetpp 18.5 14.4 10:9
473.astar 13.8 15.2 10:10
483.xalancbmk 18.3 24.6 9:10
Total: 21.6 20.8
-------------------------
608 :
MACオタ:2007/06/16(土) 21:29:08 ID:qcd6RBae
>>604 別に"Synthesizable"を「自動設計」って訳したわけじゃないと思うけど
「完全自動設計」って書くことに何か問題でも?
>>610 -----------------
別に"Synthesizable"を「自動設計」って訳したわけじゃないと思うけど
-----------------
記事の冒頭をもう一度読んで欲しいす。
http://techon.nikkeibp.co.jp/article/NEWS/20070616/134354/ =================
東芝がマイクロプロセサ「Cell」のSPUを完全自動設計で実装した例を紹介した(講演番号5-4)。
=================
当該講演のタイトルわ、"A Design Methodology Realize an Over GHz Synthesizable Streaming
Processing Unit"す。
>>607 総合するとほぼdrawでも、内訳見ると
得手不得手の特徴が出ているな…
> 400.perlbench 13.7 24.1 9:10
> 462.libquantum 96.6 31.2 10:7
>>607 http://www.geocities.jp/andosprocinfo/wadai06/20060826.htm /||ミ
/ ::::||
/:::::::::::||____
|:::::::::::::::|| ||ガチャ
|:::::::::::::::|| || ,,―‐. r-、 _,--,、
|:::::::::::::::|| ,―-、 .| ./''i、│ r-,,,,,,,,,,,,,,,,,,,,,,,,―ー. ゙l, `"゙゙゙゙゙ ̄^ \
|:::::::::::::::|| / \ ヽ,゙'゙_,/ .゙l、 `i、 \ _,,―ー'''/ .,r'"
|:::::::::::::::||´ .,/^'i、 `'i、`` `--‐'''''''''''''''"'''''''''''゙ `゛ .丿 .,/
|:::::::::::::::|| . ,/` ヽ、 `'i、 丿 .,/`
|:::::::::::::::|| 丿 \ .\ ,/′ 、ヽ,,、
|:::::::::::::::||'" || ゙'i、 ‘i、.r-、 __,,,,,,,,--、 / .,/\ `'-,、
|:::::::::::::::|| || ヽ .]゙l `゙゙゙゙"゙゙゙゙ ̄ ̄ `'i、 ,/ .,,/ .ヽ \
|:::::::::::::::|| || ゙ヽ_/ .ヽ_.,,,,--―――――ー-ノ_,/゙,,/′ ゙l ,"
|:::::::::::::::|| || ` ゙‐''"` ゙'ー'"
|:::::::::::::::|| ||
\:::::::::::|| ̄ ̄ ̄ ̄
\ ::::||
\||
完全自動設計ってスゲーな
人手の関与なしかw
>>611 タイトルを訳したんじゃなくて内容の説明が書いてあるだけじゃないの?
すごいというか、あきれるというか
篠沢教授の「書いた人素人」説にドーンと10万円
ん、R-CUBEに沿って高位設計やったというか、SystemCから動作合成したのかと思ったよ。
そこまでやんないと全自動って言っちゃだめ?
きびしいなあ
MPUを作れるほどの性能じゃないだろうけど凄いなあ。
液浸リソも導入してるし。
>>622-623 -----------------
MPUを作れるほどの性能じゃないだろうけど
-----------------
読めば判るように、45nm、液浸リソ、歪みトランジスタ、low-kと新技術満載で、
十分ハイエンドプロセッサ用トランジスタを製造できるす。
韓国がメモリで日本を追い越したことでも、AMDのようなチンピラ企業がCPU市場で
幅を利かせていることからも判る様に、半導体産業って超高価な製造装置を揃えて
ちゃんとしたレシピを教えてもらえれば、ある水準迄わ何とかなるす。
もう45nm量産開始か
Intelより早いな
>>625 「量産」と言っても規模がIntelとわ違うような気がするす。
量産ならIntelはもう開始してるんじゃない?
Harpertownは9月か10月に出荷予定だから。
>>623 >>622に、CPUとグラフィックを統合したSoCを45nmで作る、と出ているんですが。
AM34(AM33)ってオリジナルアーキテクチャらしいけど、
CPUからソフト開発まで自分のところでやってしまうのか。
省電力用のトランジスタとハイパフォーマンス用のトランジスタじゃ
作りが全然違うでしょ
ハイパフォーマンス向けじゃないね。
だから何?
>>624 要素技術だけで判断されても困る。
歪Siは性能を上げる代わりにリーク電流を抑える方向にも使えるし。
だいたいPanasonic自身がITRSの45nm Low Standby Powerと比較してるじゃん。
LSTPの場合ゲート絶縁膜が厚いからMPUには向かないよ。
634 :
631:2007/06/20(水) 01:00:12 ID:u5HmCUkf
>>632 松下の45nmプロセスでハイエンドプロセッサを作れると書いてる人がいたから
説明してあげたの
>>634 発表したプロセスそのままでハイエンドプロセッサクラスのトランジスタが製造できるという
誤解を与えたのわ失礼したすけど、単に発表されたプロセスが低消費電力チップ向けなだけで、
工場設備自体わハイエンドプロセッサの製造にも使えるレベルだと思われるす。
了解
ただ
>>633も言ってるように、要素技術だけじゃ判断できないよ
インテグレーションが重要なわけだからね
装置買ってくればいっちょ上がりだなんて、ハイエンドのプロセス作ってる
人たちに失礼だと思うよ
あ、低消費電力に特化したプロセスが、ハイエンドのプロセスに劣るって
言ってるわけじゃないから、念のため
>>636 >>624を読み直してもらえば判ると思うすけど、装置だけと書いたつもりわ無いす。
製造法にも特許わ有ることでもあるし。。。
ああ、そうね
「装置買ってくればいっちょ上がり」ってのは取り消すよ
でも、「工場設備自体わハイエンドプロセッサの製造にも使えるレベル」だからって
「十分ハイエンドプロセッサ用トランジスタを製造できる」なんて気安く言ってほしくないな
ハイエンドでなくとも45nを作れない
自称ハイエンド・メーカーの落ちぶれた末裔が
必死のスレはここですか
独力開発を諦めたGKさんじゃねーの?
IBM勢の惨めな事w
643 :
MACオタ:2007/06/21(木) 00:54:38 ID:pNWcD04K
>>608のパート2が掲載されているす。
http://www.edn.com/article/CA6453097.html 今回わ主としてファウンダリや設計サービスビジネスについて語っているす。
あと余談的にCELLの応用について触れているすね。
--------------------
Q: Do you foresee the alternative energy market as an opportunity, as well?
Reeves: We’re looking at how the Cell processor can improve the efficiencies of energy
distribution and management.
--------------------
POWER6 Macの話はまだですか。
Intelの方がいい仕事してるのにPOWERに戻る意味ないじゃん
POWER6は性能はダントツだよな。
PowerBook用の省電力PPCが出来ればPPCに戻るんじゃないか。と非現実的な話。
アップルはたしかにPCメーカーとしてはシェア大きいほうだけど、PowerPCの売り上げからみたらたいしたことないので
作ってもらえない
出来ればって、単純な話、IBMには出来ないんじゃないの
Intelの45nmプロセスに勝るようなCPUは
だいたい970FXとかで開発失敗したのが、アップル撤退の原因じゃないか
メモリやI/Oのバンド幅増やしすぎで自爆しました
652 :
MACオタ:2007/06/23(土) 12:19:06 ID:P6ZL+h52
そらCPUやっても勝ち目ないしな
>>653 しかしやってたら商売広がるだろ。
PDAとかSTBとかCPUとGPUがワンチップならメリットは大きい。
Transmetaに出てきて欲しいところですが、まあ夢のまた夢ですな……
MediaGXという略
Intelその他の汎用プロセッサ屋が莫大な金を費やし
長年積み上げてものをいったいなんだと思っているのか
ヘタに突っ込むと大火傷を負う
ファブレス企業がCPUに参入してもな…
Transmeta、がーんばっ
竜芯はもろパクリだっけ
モドキだ。
ハゲが
刻印削ってリマークじゃなかったっけか。
刻印削ってリマークは漢芯
龍芯はMIPSもどき(今はライセンスとってMIPS互換にしてる)
タスクマネージャが大変なことになりますなぁ
>>663 >プロセッサは1,000コアへと向かう
んなこと書いてねえぞ
> トランジスタ数は・・・2015年には1,000億個を突破する
って、原子の大きさとバランス取れてる? > 計算できる人
集積度だけでしか進歩の指標が語れないヤシには言わしておけばいい。
その頃奴らは引退済み、へたすりゃ棺桶の中。
昔ふかした言の葉の責任なんてどこ吹く風の現世利益だろ。
668 :
MACオタ:2007/06/26(火) 18:46:31 ID:E+b+TZBO
単純計算でシリコン系原子が0.2nm間隔で詰め込んであるとして
10mm^2には、(5*10^7)^2で25*10^14個入る(縦方向無視)
2500兆個/1500億トランジスタだとぼちぼちやばそうだね。
670 :
MACオタ:2007/06/26(火) 22:25:47 ID:E+b+TZBO
Blue Gene/Pのプレスリリースす。
http://www-03.ibm.com/press/us/en/pressrelease/21791.wss ---------------------
Four IBM (850 MHz) PowerPC 450 processors are integrated on a single Blue Gene/P
chip. Each chip is capable of 13.6 billion operations per second.
---------------------
・PPC450: Quad 850MHz PPC440 core with "Double Hummer" FP-APU
・1 petaflops at 294,912-processor
・up to 884,736-processor
・optical rack-to-rack interconnect
とりあえず884,736-processorの最大構成で2-PetaFlopsわ超えるす。同じPPC44xベースの
コアが90nmバルクCMOSで2GHzを超えることが可能なことも証明されているすから(
>>392参照)、
Blue Geneわ、このままの設計でも数年以内に5-PetaFlopsを超えるロードマップわ現実的す。
ファットツリーか
Blue Geneってなんだっけ?
>>672 TACCが10月15日までにAdvanced Micro Devices(AMD)から十分な数の「Barcelona」チップを調達できれば、
さらにSunは、AMDの出方を待つ必要がある。
同システムが次のトップ500ランキングを制することができるかどうかは、
2007年第3四半期に発売予定のBarcelonaが調達できるかどうかにかかっている。
Bechtolsheim氏は「すべてはAMD次第だ」と語った。
遅れそうだから相当プレッシャーかけてんだろな・・・
プレッシャー掛けたところで出ないもんは出ないだろ
積和演算機の数だけならちょろいはずなのにね
あとはどうでもいいんだから
いくら金かけたってまともなもの造る能力ないくせに
金が足りないせいにしやがって言い訳三昧
ノータリンどもが
スパコンに掛かる金って、開発費よりも部品代だろ。
金に糸目を付けず、贅沢なネットワーク構成にすれば、それなりに性能出るだろ。
使われるチップの開発コストに比べれば、製造原価なんて微々たるもんだよ
スパコン専用プロセッサより汎用CPUを使うほうが多いと思うんだが、
「使われるチップの開発コスト」って、ネットワークスイッチのこと?
687 :
MACオタ:2007/06/28(木) 20:26:22 ID:B7qBBFTo
689 :
MACオタ:2007/06/28(木) 23:50:04 ID:B7qBBFTo
だから、LarrabeeをアクセラレータにしてXeonでTSUBAMEみたいなクラスタ組めばいいって
言ってんじゃんよお
つーか、NehalemとLarrabeeの混成はサポートしてるって。
ソケット互換かは知らん。
4〜8コア+32コアの変則デュアルソケットは面白そうだな
LarrabeeはPCI Expressボードで提供されるんだからソケット互換もクソもない
あれ?CSIでダイレクトにリンクする構想って消えた?
695 :
Socket774:2007/06/29(金) 00:45:51 ID:SfPK+Qsm
>>691 >TSUBAMEみたいな
Opteronよりピークの低いCSに使い道はなかったわけで、
Xeonで100Gflops、Larrabeeで1Tflopsぐらいにしとかなきゃ
駄目駄目。
698 :
Socket774:2007/06/29(金) 01:16:09 ID:SfPK+Qsm
>>689 >メモリバンド幅が性能を決めるアプリケーションでも P4 のほうが ES の
>4倍価格性能比が良い
Pen4からXeon SMPにすることで数倍価格性能比を悪化できる
ことを5年前に何割の人がきづいてたかな?
HPC→ハイエンド→Xeon dualみたいな短絡で
屑をつかまされた人もいるはず。
帯域のスケールしないSMPはHPCでは役に立たないということ。
価格あたりのメモリ帯域を最大にしようという製品展開が
少なくともHPC用には存在しなかったというのも問題じゃ。
何でこんなもんが「ほう」なの
帯域で言ったならOpteronもドングリの背比べ
中の方はひたすら遊んでる
キャッシュ頼りのアーキテクチャに
単にメモリバンド増やしたって
実行転送レートは意外と上がらず
中もメモリもぎくしゃくスカスカ
分かっている人以外と少ない
Larrabeeも登場は2010年になるかもという話まであるしなあ。
さすがにそこまで時間があればボードでもソケットでもリリース出来るかもね。
もっとも2010年なんて情報はあまり信じてないのだが。
ところでCSIとGeneseoってもしかして似てる?
HyperTransportとHTXみたいな関係を想像してしまった。
そこら辺の情報ってあるかな。
J2って…
プレスに何渡した
Jに戻して紛らわしス
チャウチャウ犬
ちがうんだ
>>711 確かに2.3GHzだとPOWER5+す。日立もサービス良いすね(笑)。
Xscaleとかを45wとか65wで走らせたら凄そうな気がするな
パイプラインを段とかにしてOoO強化してキャシュも増やす
x86より2.3割くらいマシでもコストとソフト資産で逆転されるかorz
12段くらいね orz
半角使え
半角とは?
ふと、何故 半角/全角と呼ぶのか疑問に思ってググってみたが分からなかった。
何故「角」を使うのだろうか?
>>718 Xscale等英字は1バイト文字を使え、って言いたいのでしょう。
>>719 かく 【角】(名・形動)
(1) 四角。方形。また、四角なさま。
で、縦横同じ大きさ(正方形)の活字が全角、その半分が半角、ってだけでしょう。
721 :
突く突く某氏:2007/07/04(水) 00:58:37 ID:mmMYO9us
ヘ_ヘ
ミ ・ ・ ミ
( ° )〜
voidさんはそんなこと言わない
ねこみみです。
ということにしたいのですね:)
>>715 シンクライアントは最近、それなりに伸びてきているけどね…まだまだまだまだ
728 :
突く突く某氏:2007/07/05(木) 00:29:47 ID:pMb1rStG
>>726 このてのニュースは殆どがゴミ情報
見る目を養おう
10年〜数年遅れでスカラー・スパコンの後追いしてる感が拭えなくて
さすれば、将来は見えてしまうわな
動作周波数を上げることだけで処理性能を高めることができなくなった
プロセッサの動作周波数を上げると、それに比例して消費電流が増加する
半導体製造プロセスの微細化が進み、1つのチップ上に膨大な数のトランジスタを集積できるようになった
複数のプロセッサコアを1つのチップに組み込むことを可能にした
(というか他に手が無くなった)
クロック周波数を抑えて消費電力を削減しつつ、プロセッコアサの数を増やすことでパフォーマンスを向上させる手法がトレンドとなった。
これが、マルチコアプロセッサが主流となった理由
(アイデアが無くなった)
マルチコアプロセッサにおけるキャッシュメモリーの在り方だ
●階層メモリー構造
_, ._
( ゚ Д゚) 脳味噌あるのかよ
>(というか他に手が無くなった)
>(アイデアが無くなった)
ha!
「遠くは高い」は物理法則から導かれる原則だからなぁ。同じような道を進まざるをえないんジャマイカ。
まあ、将来は見えているよな…
ha!じゃネーよ
ノータリンのハゲが
マリリンモンロ〜、の〜たり〜ん、の〜たり〜ん、の〜たり〜んw
ごめん、何が面白いのかわからない
ノータリンなんて死語だろ、とかそういう話?
70年代、80年代、90年代
さんざんやって来てるのに、また悪あがきをするという・・・・
野坂昭如かよ
おまえいくつやねん
おじいちゃんきちゃった?
742 :
736:2007/07/07(土) 17:43:18 ID:L8pRsDVw
>>739正解!
元歌は「マリリンモンローノーリターン」
なんだおじいちゃんじゃないのか
かみさんいるの〜?
僕いないの〜!ところでかみさんよくイクんだって?ちょんちょん!
ところであんた写真好き?ちょろちょろぱっぱのさ!ニタニタじんじんで!
や〜ったらしいんだから!すけべえが!
そんなの見て「お〜!」なんでしょ?「お〜!」なんだろ!この〜!
・・・古すぎてわからんか・・・・
いらないからそういうの
>>747 > ピーク性能に対する実効性能が高いことは良いことであるという考えは誤解。
ややこしい言い回しだが、ユーザー/ベンダー双方が幸せなのは、実効
性能に対してコストが安い事で、更に電力比、設置面積比ってのも派生
事項でつな。そういう観点で話を詰めないと。
少なくても、実効「効率」なんてのはなんの意味も無い。
命題:「ピーク性能に対する実効性能が高いことは良いことであるという考えは誤解。」
回りくどいこの命題の対偶は…
何となく気持ちは分かる気もするが(例えば、どんなに効率が悪くたって
ピークで世界一ならば、それは一つの世界一だ、等々)、
どんなに論理的でも前提が間違っていると非合理的な結論に必ず陥るものなんだよな…
いわゆる、末期症状。
ピークを高めれば効率が悪くても実効性性能は高いはずだ。
今は、ひたすらこの路線だもんね、ケケケ
流体屋の戯言に付き合ってたら国が滅ぶということだ
え?仮にピーク100TFで実行性能30TFと、ピーク500TFで実効30TFの
マシンが有り、前者は後者の3倍の値段で電気も3倍喰うよといったら、
前者を買うわけ?紙幣印刷機でも持っているとか?
>>753は金余りのjikMY4bN宛て
最近は、電気代ケチるために、使わないノードは電気落としてる
計算センターも多いのにな。
>>753 普通は実効性能に金を出しているわけだが
奇形マシンに出す金をしぶるのは普通の感覚
冗談さておき、代弁する訳じゃないが
効率半減しても、ピーク3倍だから。
とうか、そういう論理展開だろ。
値段下げるためにコモデティー部品使って
OSLで固めてエンジニアは派遣をこき使い…という具合に。
そしてクソみたいなマシンがはびこると。
>>758 クソかどうかはユーザーが決めることだろ。
それって本当にコンピューターアーキテクチャが(の)問題なの? (w
アーキテクチャに金払う訳じゃない
>>763 半分はね。でもまともに動かないコンピューターの性能は
無と一緒ですから。
>>765 アーキテクチャ、アーキテクチャ騒いでいて
いつまでもまともなコンピューター作れないって意味では
アーキテクチャの問題だろうな。
日本人メジャーと騒いでいても
4割打者がでてこないのと同じです
いや、アーキテクチャは過程または手段的な位置付けか。
まともな事業運営が出来ない -> 変なアーキテクチャを作る -> 売れない -> 金がない -> endlessloop
>ID:jikMY4bN
そろそろオナニー終わらせろ
何おこってんの?吟線に触れたか。
なんか、効率の話からずいぶん変わってるけど。
オナニーとか琴線とか気持ちよさそうな言葉を並べないでくれたまえ
7/9追記とか書いてあるよ……素人ごときにマジになんなよ。
たるさんだってせいぜい「ちょっと詳しい素人」なんだし。
>>758 MPPの安価な構築は、Dellが承ります。
ギャーorz
牧野必死だな。嫌な性格○出し・・・
東大はプライドだけは超一流だなw
これはいいマッチポンプですね
>>776 ベートーベンは偏屈な性格丸出しと言っても世間の評価は変わりませんよ
はっきり言ってはかわいそうだけど
天文台だから
でもまあ笑いを提供してくれる
実績も超一流です
May the Force be with you.
天文学という狭い分野でね。
どうだろう、Wさんとかどう思う?
ってシンパか本人のご降臨?
ならば、やるべことほかにあるでしょうに
牧野氏のやりたいシミュレーションにはベクトル機の意味がないって事だろ
particlteっておい、
燃料満腹ぎみっす
語るに疲れた
大人の牧野と子供のtaru
>>788 牧野の名誉のため念のため
90年代初め、GRAPEに傾倒する前の牧野は
今ではベクトル機を使うこと自体お金の無駄といわれるような
低B/FのN体計算のベクトル化に精を出してました。
ちょい昔の論文を漁ってみると、この計算はベクトル化
できるかどうか、とか執拗に議論してます。
低B/Fをベクトル化する意義って…
90年代初めなら他の選択肢の方が(ry。
ベクトル化出来るかどうかは、不明依存を動的には依存無しにするため
カラーリングでHプレーンを構成できるか等々、それ程難しくないんだよね。
学生レベルかな。
課金を払えるか立場かどうか、ただそれだけの差。そういう研究はobsolate。
ハハン、それで、
実効性能が高いことは良いことであるという考えは誤解
みたいな考えに取り付かれたんだ。ガッテン。
ガッテンて
>>794 前抜かすなよw
”ピーク性能に対する”実効性能が高いことは良いことであるという考えは誤解
しかしマキーノたんもまわりくどい言い方するからー
ストレートに「効率最優先が行き過ぎることには疑問がある」とでも言えばいいのにねw
効率優先なんて、コモデティーの商売上手の前にすでに破綻してるがな
yblogの人、もっともらしい文章を書く能力はすごい
でもそれだけ
うは、結論出ちゃいました
>>800 ---------------
yblogの人、もっともらしい文章を書く能力はすごい
---------------
役人のヒトとかって、こういう評価で物事を考えていそうす。
なんでもかんでもダイサイズで換算して考える後藤氏あたりも同種すけど(笑)
研究を冒涜して地に落としめているのは研究者自身かもな。
夢がない。理系離れするわけだ。
Top500とか下らないからもう止めたらどうかと思うのは俺だけだろうか
Crayの取り巻きコンサルから始まって、スパコン事業周辺は
胡散臭いヤクザまがいや総会屋モドキの取り巻きばかりの
ドロドロ利権構造だったからな。もういいよ。
Intel、MSやアップルがメインフレーマーに一泡吹かせたときには
内心溜飲が下った。あれななぜだったのだろう。
コンピューターが人に自由を与える可能性を信じたかったのかもしれない。
以上チラ裏
また全否定の人キチャッタ
>>806 これは本当に素晴らしい、役に立つと言い切れるものがあれば書きな。
そが身をもって実感した話ならば耳を傾けてやってもいいよw
P6は残念だったけどP5+とかは誉めてきたつもりだけどな…
キャッシュに乗ればの話だが。まいいや
Pentium MMXの話?
10年前の技術としては最良のアーキテクチャだったな
イイ子だからあなたはオシッコして寝なさい
そーいや実効性能落としてピークを引き上げたゲーム機用CPUがあったな。
Top500は馬鹿度を競い合う場としか。
>>804,812
しかしわかりやすさも必要なんじゃない?きっと
モーターレースが確かに自動車の要素技術を向上させた(過去形)わけだし
スパコン競争の意味があったのは90年代初頭まで
>>814 税金に群がって箱もの作る、まるで公共事業費に群がらるゼネコン。
そのための指標に悪用されすぎて垢にまみれてるよ。
モーターレースはもっとストイックなものじゃないかな。
ピュアというか潔癖
スパコンは技術的な話で無くなると盛り上がるな。
中二病のまま、おっさんになっちゃった人。みたいな?
「物量でピーク性能が決まりアーキテクチャで効率が決まる」
なら面白いんだけど、実際は
「物量でメモリバンドが決まりアーキテクチャでピーク性能を決める」
効率とは単なるその比率というつまらなさ。
('A`)
>>821 その比率は処理内容によっても変わってくるだろう。
でも疑似ベクトルなら日本勢だってやっていけると思うんだがなぁ。
低消費電力コア高密度実装で……
>>824 >>821 のカキコはベクトルについて書いてないようにみえる。
RISC + キャッシュ + メモリバンド の構成について書いているんじゃないかな。
ところで、実用的でかつ程度複雑なソフトを使っているなら
疑似ベクトルに幻想は持たない方が吉
>>825 そういやそうだね。実質高バンド幅高効率はベクトルだけど、そうとも限らんし。
後段はちょっとどうなのか俺にはわからん。一応ジーンとか何とかもそうでしょ?
>>826 BGはPPCだからdcbtとかあるだろうけど疑似べくcode生成出来る程の
リソースとコンパイラある?xlfの qhot とかvectorはウンコだよ
>>827 ということはジーンは通常疑似ベクトルに含まないのか。
サンクス。
829 :
Socket774:2007/07/13(金) 17:36:03 ID:COHllPW6
>>811 使いこなした結果が出始めている今、ネガキャンは控えた方が吉
PS2?
件のゲーム機に面白いゲームが出て来たってんでないの。
ゲハ板級の議論しかできないんなら自作板にある意味ないんでない?
にしても、
ベクトル機信者≒cell信者
な状況には極めて違和感がある。
むしろジーンな方向なアプローチに見えるわけで。
>834の話は、アーキテクチャの問題というより出荷量だからな
ここでするような話じゃない
ベクトル演算とベクトル計算機は言葉が似てるから混同し易いからねぇ。
と書いてて835の「ベクトル機」は何を指すのか判らなくなって来た。(笑
839 :
Socket774:2007/07/14(土) 16:29:27 ID:qR0Gw24C
そうか
んじゃSPUでCellのシミュレーションやってくれ
イラネ
あきらかに釣りだろ
>>839 SPUでCellのemulationがナンセンスと同様に、
逆にCellでSPUのemulationも
ものすごく無意味という意味で反論として成立しない。
とチャチャを入れてみるテストw
いずれにせよ、どっちもゴミじゃん。ボソ
いちおうPPEでCellシミュレータ動くけどなwwww
実はFedora x86さえ動けばエミュレータでもいい
>>846 現実問題としてFedoraが動くZ80上のx86エミュレータって存在するすか?
ノイマン型なら、という趣旨の発言だと思うがそんなのにいつまでかまってるんだ?
こいつら餌が馬糞でも釣れるんだw
>>848 この人は失礼ながら多少脳味噌がある
850 :
MACオタ:2007/07/16(月) 04:12:46 ID:fgN1FWeh
あまり確定的な情報じゃ無いすけど45nmにシュリンクしたPOWER6+わソケットあたりの
コア数を2倍にする予定らしいす。
HPC向けラックマウント筐体のモデルででコア数が変わらないとの話もあるすから、MCMで
実現する可能性もあるすけど初期のHPC向けPOWER4サーバーでで片側のコアを殺していた
ことを考えるとネイティブ4-coreの可能性もあるす。
>>850 AMDとピンコンパチってニュースが数ヶ月前にあったけど
信憑性不明
amd互換はさておきハイエンドは何か出してくるだろうな。
ps初期だから殺していたわけでは(ry
>AMDとピンコンパチ
AlphaAXPを思い出した。スロットだが。
854 :
MACオタ:2007/07/16(月) 09:06:08 ID:fgN1FWeh
> モデルでで
レディオがが
856 :
MACオタ:2007/07/16(月) 19:52:45 ID:fgN1FWeh
>>854のPOWER7/PERCSシステムを消費電力の観点から眺めてみると、こんな感じになるす。
Performance Power Efficiency
[TFlops] [MW] [W/GFlops]
PERCS 10,000 33.3 3.3
BG/P 1,000 2.3 2.3
BG/L 360 1.5 4.2
ASC Purple 100 4.8 48.0
従来型クラスタに比較すると高い効率すけど、同世代の製造プロセスでわBlue Gene型にわ
劣るす。
ラックあたりの消費電力から推定できるダイあたりの消費電力わ250-300Wという代物で
水冷必須というのわ仕方の無いことかと思われるす。クロックが4GHzとハイエンドPOWER6
より抑えた値になっていることも8-coreチップであることを考慮すると仕方の無い話かと思うす。
256 coreでSMPやんのかな?そしたらbandと同期大変だわw
あるいは、いま流行り(w)の階層local memory(別名NUMAモドキ)か…
にしてもIがそこまでHPCに気合い入れる訳がワカラン。
BGの汚名挽回に今回も国家予算をつぎ込んでチョー、ってわけ?必死だな。
> 汚名挽回
やっぱりこれって餌なんだろうな
859 :
Socket774:2007/07/16(月) 23:52:31 ID:djXYvRKf
> NUMAモドキ
これも餌か
∩___∩ |
| ノ\ ヽ |
/ ●゛ ● | |
| ∪ ( _●_) ミ j
彡、 |∪| | ξ
/ ∩ノ ⊃ ヽ
( \ / _ノ | |
.\ “ /__| |
\ /___ /
疑心暗鬼はしんどかろうに。
ξが餌じゃだめか。かわいくねぇな…
>>857 -----------------
256 coreでSMPやんのかな?そしたらbandと同期大変だわw
-----------------
全てのダイを1-hopで接続する"graph interconnect"とのことす。
>>861 まるっきり調べてないんだけど、GXみたいなものかな?
あれはあれで(実は非対称の)SMPだった。
ググレカスのお出ましになる前にズラカルか…
やっぱ、時代はシリアルだな。
1ビットなビットスライスプロセッサ、再びかもーん!
「ウチは金が無いので48ビット(32+16)だぜ。」ってヤツが、、、
加減算のレイテンシすら凄いことに・・・w
レイテンシなんざスループットで隠蔽できれば無きに等しいんだよ
隠蔽できればの話だが。
ステレオタイプというか、他に気にするところ無いのかな
レイテンシをスループットで隠蔽・・・ベクトルプロセッサの考え方ですな。
今時のスーパースカラプロセッサには既存プログラムコードの性能じゃ太刀打ちできんわけで
パイプラインの考え方だよ
NetBurstみたいにALUを倍速動作・・・もうありえなす
急にずれて何の話だよ
あれはあれで実際のアプリが動作中に意味がある
core/core2をみなよ、威力を知っているだろ?
ってマジレスする気が失せるずれっぷり ノシ
871 :
Socket774:2007/07/17(火) 02:49:19 ID:J0Uuhk6y
んで頭にNonがつくやつのモドキってなんだ
NUMAみたいだが実はUMAなのか
それは、
ヒ・ミ・ツ、フフッ
おや、そいつは失礼
IBMに言いたい。スパコンなんて開発する金あるなら,その金でAppleを買収しろと。
878 :
MACオタ:2007/07/17(火) 23:38:21 ID:C4c2cRJI
>>877 止めてよ、Appleがつまらない会社になっちまう
ああいうカウンターカルチャの面影を残す会社がある方が楽しいじゃないか。
コンピューターの値打ちを
性能(linpak等の)/値段
みたいな指標ばかりで捕らえていると
バカになるぞ
881 :
Socket774:2007/07/18(水) 00:03:07 ID:J0Uuhk6y
>>880 そんなやつは、君のほかに誰がいるんだい?
名指ししてくれないか
linpak の検索結果 約 658 件中 1 - 50 件目 (0.37 秒)
IBMもやっちゃってるのかw
ξでも釣れるのね
理論ピーク性能/コストを持ち出す奴の方がもっと馬鹿だろ
理論て何だよ(笑)
886 :
Socket774:2007/07/18(水) 01:50:24 ID:7CPy9e95
そういうつまらない揚げ足を取るやつほど馬鹿ではない
>>886 偉そうな事書くならば理論性能が実際には決して出ない理由について責任持てよ
>理論ピーク性能/コスト
の議論にうまいこと持ち込みましたが
実際にはそんな性能出なくても責任持ちましぇーん
でも私は馬鹿じゃありまーん、
てか?こういうのなんて言うんだよ、人間の屑かw
だれもお前の脳みそのアーキテクチャの話はしとらん
>>890 ばかだなスルーして新しい技術ネタ提供すればいい物を。
勘に障ったか。
引用以外期待してないけど。
892 :
Socket774:2007/07/18(水) 09:48:01 ID:7CPy9e95
>>885 だから、理論ピーク性能/コストなんて言ってるやつは誰がいるのか
名指ししてみろや
上から順に富士通、tarusan、分子研、お茶の水、TSUBAME、理研、、、
きりがないお
895 :
Socket774:2007/07/18(水) 14:53:31 ID:7CPy9e95
>>894 その上から順に見ていったが
理論ピーク性能/コストなんて持ちだしているやつはないね
マシンスペックとして理論ピーク性能を出しているだけだな
まさか「ピーク性能/コスト」じゃなくて、「理論ピーク性能」に拘ってるわけじゃないよな?
ばかいえ
理論ピーク性能は超重要だろ
というよりむしろ、カタログスペックが最優先
じゃなかったらBG/Lがこれだけ売れたことを説明できない
(゚听)ツマンネ
>>898 イイ子だ、もう泣くんじゃないよ、単体性能とSMPで
真似できないところに抜け出して振り切るのさ
>>854 温度スケーリングみたいなことはやらんの?
>>898 ちゃん付けで呼ぶ時はオンプちゃんと言ってあげるのが心遣いってモンですよ?
Opteronタンに萌えるスレはここですか
♪
******恋のおまもり******
これを見た人は,超超超超幸せもの☆☆
@週間以内に好きな人に告白されるか、
■■■■■■■■■■■■■■■■■■
■■■■□□□■■■■□□□■■■■
■■■□□□□□■■□□□□□■■■
■■■□□□□□□□□□□□□■■■
■■■□□□□□□□□□□□□■■■
■■■□□□□□□□□□□□□■■■
■■■■□□□□□□□□□□■■■■
■■■■□□□□□□□□□□■■■■
■■■■■□□□□□□□□■■■■■
■■■■■■□□□□□□■■■■■■
■■■■■■■□□□□■■■■■■■
■■■■■■■■□□■■■■■■■■
■■■■■■■■■■■■■■■■■■
好きな人とイイ事があるよ・・・・☆★
コレを読んだら、1時間以内にどこかに貼る★★
数ゎあなたが好きな人への思いを込めて
好きな人いないから貼らない
そしたら生き物として何のために生きてんの。
GFLOPSがどうとか惚けたこと言って一生終わるくらいなら
いっそいま氏ね。
はいはいガウディガウディ。
息継ぎしたら負け
恋のおりものと空目したおれは毎日が充実してください。
やっぱクワトロだべ
アズナブルだろ
修正してやる!!
これが若さか……
(゚听)ツマンネ
UNIX MagaのTUBAMEの記事
おぞましいほどのヨイショ振り
貧すれば鈍するというかもはや哀れ。
魔が差して買わずに立ち読みで済ませれば良かった。
みんなで使うスーパーコンピューターを標榜するなら
所詮小分けのクラスターの寄せ集めとしてしか使っていないって
自ら認めてどーすんの
そういう用途向けってことなんじゃないの?
「4GHzの壁」を超えた“POWER6”でサーバー市場の潮目が大きく変わる
http://itpro.nikkeibp.co.jp/as/p6/index.shtml |武藤 革新的なアーキテクチャのひとつが,従来のマイクロプロセサではソフトウエアで処理していた10進浮動小数点演算を
|ハードウエア化し,高速処理したことです。これにより,例えば典型的なJava BigDecimalで1708サイクルかかっていた足し算
|が,わずか8サイクルで済んでしまいます。ユビキタスなコミュニケーションや電子マネー取引などが急速に広まる今後を見据え,
|大量の10進数計算を瞬時でこなせる処理能力をPOWER6は備えています。
これってそんなに大した事なの?
x86なサーバー用CPUでも登載すると、ユーザーは結構嬉しいのかな?
>>919 COBOL時代からの伝統とは言えど〜BCD処理はねぇ〜〜〜
実装すべきな様なそうじゃない様な〜〜迷う部分だろう。
過去遺産的な部分も大きいからサポートされれば喜ぶ人達は一杯居るだろう。
>>920 過去資産より先を見ての話では?
倍精度floatingで扱いにくい数値計算いろいろある
整数論でBigIntが速いと個人的には嬉しい。
スパコン探訪日記の人だね
これって釣りなのかなぁ
>>919 昔のモロにCISCな命令は、内部的にはマイクロコードの実行で実現してたけど、
そのやり方でもハードウェア化って話になるのかな?
まあある意味MicroOPSとかは、それっぽいし。
実行性能…
>>924 2進演算でなくて、BCD演算ってことかな。
小数で2進と10進を変換すると微妙に誤差が乗ってしまうことがあるよね
それでも科学計算なら有効桁数で解決できるけど
金額の計算では10進のままじゃないとシャレにならないことがあるんじゃない?
誤差すらも業界標準があるんで、一時HPだかの電卓の
争奪戦があったとか聞いた記憶があるな。
真偽は知らん。
>>928 そらあるさ。
80 bit on registerのまま演算すすめられたら逆に困る
倍精度にはIEEE倍精度の誤差の入り方をきっちりしてもらわにゃ困る
そういうシーンはあるよ。
がしかしだ、仮数部が有効数字16,7桁しかないんじゃ…
あれできない、これできないというシーンもある
930 :
Socket774:2007/07/29(日) 00:18:30 ID:6+cfuX/H
とりあえずおれの資産は倍精度にはおさまらん
誤差何桁だよハゲが
-InfあるいはNaNか…お気の毒
>>922 10PFLOPSっていったら理論値でもCore2Duoを500GHzまでクロックアップしても
1000個いるな。今の日本の技術じゃ悔しいが無理だろ。
狭量というか近視眼的というか
935 :
Socket774:2007/08/03(金) 01:52:41 ID:Ko6H0BDm
大悪党にもなれない小賢しさに虫酸
束になってもコモデティーに勝てない
hosyu
Intel Core最強!
937 :
MACオタ:2007/08/07(火) 18:12:40 ID:TajiF3rp
IBMがNCSA向けペタフロップス・スーパーコンピュータの契約を
獲得したらしいとのことす。$200Mの規模とか。
http://www.nytimes.com/2007/08/06/technology/06ibm.html(要登録?)
--------------------------
The National Science Foundation is planning to award I.B.M. a
contract to build the world’s fastest supercomputer at the
National Center for Supercomputing Applications at the University
of Illinois at Urbana-Champaign, according to documents that were
accidentally placed on a federal government Web site for a short
time last week.
--------------------------
Blue Gene/Pなのか,POWER6やCELL B.E.ベースの新型なのか,追加情報が
待たれるす。
938 :
MACオタ:2007/08/07(火) 18:14:47 ID:TajiF3rp
コードネーム:Niagara2
商品名:UltraSPARC T2
同じものだと思ってたけど何か違うところあるのけ?
>>939 ----------------------
何か違うところあるのけ?
----------------------
別に無いす。『Niagara2搭載のサーバーを。。。』的なことを書こうとして
混ざったす。
チップと鯖?
pwr7でスパコン作るってぶってたから
もしかしたらそれかもね
floatingの単純なloopならそこそこ速いんじゃねかな
まちげえたpwr6だ
944 :
MACオタ:2007/08/07(火) 22:19:54 ID:akKcwEOL
>>944 折角だから中国のx86互換なドラゴンVを、SPARCソケット互換で出して欲しいなあ。
8−16、32−64コアで出そうとしてるから、マルチスレッドな用途は似てるのだし。
>>946 NECのセミナーに「理研の花村」の講演かよ。
- PR - って書いてないとおかしいような記事だなw
どういものか分かってるのかね
T2K!T2K!
まあBarcelonaの予想ベンチでも勝てそうだな
肩持つわけじゃねぇが
SpEcのintはしゃーねーだろ
首から上多社比ん倍速が効く
955 :
MACオタ:2007/08/10(金) 01:47:56 ID:U34+h53m
PCI Express ver.3の仕様が固まったとのことす。ピンあたり8Gbit/sとか。
http://www.eetimes.com/news/latest/showArticle.jhtml?articleID=201302918 -----------------------
The PCI Special Interest Group has set 8 GigaTransfers/second as the bit rate for the next
generation of the PCI Express interconnect. The decision ends a lively debate that has
stretched over several months as to whether 8 or 10 GT/s was the right step for the 3.0
version of the interconnect introduced in 2003 and now broadly used in PCs.
[中略]
As a compromise, developers agreed PCI Express 3.0 will remove the 8bit/10bit encoding in
the existing technology. That will remove processing overhead of as much as 20 percent,
opening the door to real throughput of about twice the maximum that can be attained through
the 5GT/s version 2.0 announced in January.
-----------------------
MACオタがPOWERオタと名乗らないところに,彼の狭量さがよく出ている。
自作できない時点でMACなんて板違い以外のなんでもない
>>956 思うに狭量というのわ、こういうヤツだと思うす(笑)
>>957 ----------------------
自作できない時点でMACなんて板違い以外のなんでもない
----------------------
自作w
パーツ買ってきて繋いでいるだけだろ
マクオタにレスするのは癪だが、Macは板違いだと思うぞ。
お前この板居るときはMacの話わざわざしないだろ?
ま、言い出したらCPU自作してる奴なんかこのスレで一人でもいるのか?ってくらいだし
PC組む関係だけいうなら現状だとx86だけ語ってればいいんでスレ自体が板違い
それじゃつまらんよね?
雑音と503とMACヲタと団子はまとめて最悪板池!
ウザくてかなわん。
>>961 x86しか語れなくて、必死にコテを叩く姿も見られるなw
ただ単に団子はオバちゃんが好きなんだろ
965 :
Socket774:2007/08/10(金) 22:35:40 ID:wR80YBFC
今なら3,4万あれば中古でSparcやMIPSのワークステーション買えるんだから
誰か買ってみればいいのに。
UNIX本舗ならかつての高級EWS SparcStation20が20000¥台で買えるぞ。
でもなー買っても使い道がない、SolrisとかUNIXぐらいしか使えんな。
RISCは速い⇒いや、俺んとこのPEN4 3.2Ghzの方がMIPS/R10000やMicroSparc
よりウン倍も速い
メモリ⇒2GBですがなにか。
3Dグラフィック⇒十分今のPCでもできる。
インタ−ネット⇒わざわざ、UNIX使わなくてもwinでやれる。
高解像度画面⇒ワークステーションの特権だった時代はすでに終わった
そういえば、Naiagara2のCPUコアは基本的にUltraSparc2なんだっけ?
UltraSparcWはUltraSparcVのニコイチだと聞いたことある。
両方ともたいした性能じゃなさそうだな。
というか、ハード的に普通のPCと大差なくなった時点でアーキテクチャ的に語るべきもんなんて
ないだろ。
Intelに移行してMacOSが動くハードの独占供給だけが残った。
最低。
>>968 商売ってそういうもの
馬鹿にしてる貧乏人乙
貧乏人でいいけど自作の趣旨に合わないからそうそうにお引き取り下さいね。
>>968 Intel移行直前のMacも充分にPCに近づき過ぎていて、
その時点で語るべきものなんて無かった気が。
まあどうでもいいがね。
974 :
Socket774:2007/08/11(土) 12:24:28 ID:8RXytZu3
>>972 そんな感じだったな。単純にCPUがintelかPowerPCかだけの違いになってた。
WindowsPCとMAC
CPUちがってりゃ、このスレ的には語るべきとこなんじゃないか?
その意味Amigaはネタとして最高。
>>973 -----------------
金を全部富士通によこせとw
-----------------
普通に誰もが抱く疑問だと思われるす。
http://www8.cao.go.jp/cstp/tyousakai/hyouka/haihu67/siryo2.pdf =================
(1) ベクトル型一本に絞り込めない理由を明確に。世界の主流であるスカラ
型では勝負できないということか。
(2) 消費電力あたりのテラFLOPS 値でスカラ部とベクトル部を比較した図に
は説得力があった。主要な7 つのアプリケーションで、ベクトル部が必要
となる妥当性に関する第1 回評価検討会の質疑応答は不明確で難解
であった。同じ図をつかって明確な理由を述べてほしい。
(3) 文部科学省の議論の中で、スカラ部だけでも十分という意見はなかった
のか。
(4) ベクトル部とスカラ部の消費電力性能比を考慮すると、7 つのアプリケー
ションのベンチマークによるベクトル部とスカラ部の優位性の比較に関す
る説明には、説得力が無い。
(5) スカラ部とベクトル部の開発コスト配分額の開示。ペタ FLOPS あたりの
開発コストが、ベクトル部がスカラ部より大きい場合は、問題になるであ
ろう。
(6) スカラ部とベクトル部を個別に切り離して開発してもよいのではないか。
(7) 性能評価結果は大差ないように見えたが、システムアーキテクチャ候補
の絞込みの結果、2 企業グループを採用することの妥当性。
=================
透明化したらスッキリ
979 :
MACオタ:2007/08/11(土) 14:50:43 ID:bCtF0+BO
>>937の話すけど、正式決定したと伝えられているす。
http://www.hpcwire.com/hpc/1715754.html "Blue Waters"と呼ばれる新システムが2011稼動予定とか。
Blue Watersの詳細わ明らかにされていないすけど、POWER7/PERCSとの観測が多いす。
http://www.hpcwire.com/hpc/1717690.html ----------------------
To be begin with, the Track 1 supercomputer bid by UIUC appears to be an IBM PERCS
system -- the same system being developed for DARPA's High Productivity Computing
Systems (HPCS) program.
----------------------
980 :
Socket774:2007/08/11(土) 14:57:04 ID:8RXytZu3
Pentiumの頃が良かったな。
Cisc vs Risc
Pentiumの前にPowerPCが立ちはだかり、Sparc Mips PA-RISCは健在
Alphaは世界最高速として君臨していた。
P6アーキテクチャが登場した辺りから、Risc陣営の旗色が悪く成りだした。
内部Risc化にout-of-order 若干Riscに劣るものの膨大な量産効果で
コストパフォーマンスはRiscより上だった。
Riscはクロック上げれなくなったのが痛手だな。Pentium4辺りまではIPCでは
Riscが上だったからSparcなんか3Ghzで回せればここまで落ちぶれることも
なかっただろう。
NorthWooD Pentium4と同世代のUltraSpracVはプロセス130nmと同じなのに
クロックは半分の1.5Ghzしかない。
ハード的な複雑さもPentium4とUltraSpracVで変わらないのに
(むしろPentium4の方が複雑)なぜ、Spracチップは3Ghzを達成できなかった?
Pentium III当時から「スループットコンピューティング」連呼してたでしょ
デスクトッププロセッサとサーバプロセッサの求めるものの違いが明確になっただけ。
そうは言ってもSunは性能的に大したことなくなってしまった。
> NorthWooD Pentium4と同世代のUltraSpracVはプロセス130nmと同じなのに
> クロックは半分の1.5Ghzしかない。
Pen4のクロックと単純に比較しちゃ駄目だろ
SPARCのIPCも大したこと無いよ。SPARC2eで示されたとおり。
>>977 > (1) ベクトル型一本に絞り込めない理由を明確に。世界の主流であるスカラ
> 型では勝負できないということか。
こんなレベルの発言をする奴が、評価専門調査会に参加して良いのか?w
ベクトル=アナログハイビジョン
スカラ=デジタルHDTV
986 :
Socket774:2007/08/11(土) 18:01:47 ID:8RXytZu3
SpracはレジスタウィンドウがネックでOut of Orderを導入しにくいとのこと
だが、それを強引に導入してるSprac64はOut of Ordr実行において他のCPU
より効率が悪いってこと?
>>986 実行効率は問題ないんじゃない?
トランジスタ効率は落ちるだろうけど
Niagar IIかぁ。
これにSIMD拡張FPUつけたら凄いんじゃない?
とゆうかこの8スレッドラウンドロビンというのを
擬似的にSIMDで使えればある種の用途には有用そうだ。
GPU張りに使いにくいものになってマゾプログラマは
喜ぶんじゃ。
sunには作れてfujiには作れなかったりするの、こういうの?
>>990 ------------------
とゆうかこの8スレッドラウンドロビンというのを
擬似的にSIMDで使えればある種の用途には有用そうだ。
------------------
Niagaraのアーキテクチャわ、各スレッドが独立している場合に全てのスレッドが同時にメモリ
アクセスすることわ無い。。。という前提で初めて意味があるす。
スレッドをグループ化して、同期して演算やメモリアクセスを行うのわ無意味かと思われるす。
そんなのは1スレッドの性能が重要な市場での普及を諦めてるからこそやれるんであって、
まだまだエンドユーザーにはシングルスレッド性能は必要。
IntelもAMDもわかってるし、SONYはわかってない。
993 :
Socket774:2007/08/12(日) 03:50:55 ID:4//2rAB2
>>987 Pentiumの2WAYスーパースカラ同様に、制約があるんでは?
Sparc64のOut of Order
しかし、Out of Order実装されてなくてもSpecCPU2000fpだと
そこそこの結果が出たりするUltraSparcV
>>992 そもそもゲーム機にCPU性能は必要ない。
おまえはそこがわかってない。
いちばん売れてるDSのスペックのしょぼさを見ろ。
据置機でも性能でははっきり見劣りするWiiが快進撃中だ。
古くはSFCの時代でもCPU性能はライバル機のMDやPCEの半分以下だった。
まあ、そこがハード屋とおもちゃ屋の違いだな
つーてもSFCはサウンドとグラフィックが充実してたからなぁ…
音と映像ではMDはSFCに敵わなかった。
>>995 おもちゃ屋と家電屋とソフト屋の戦いなんだよな
SCEはは多くに必要とされてもないのにCPUカタログスペック重視ですが