Intel派がAMDの次世代CPUを語るスレ 1

932 ：Socket774：2011/04/22(金) 09:40:31.70 ID:GIoQFYAj

バックアッププランって普通、メインの予定が崩れたから出てくるんじゃないの？
>>930の言ってることだとLarrabee統合がメインプランで、それが崩れたから、
HaswellがSandy改良＋普通のGPU統合のバックアッププランになったの方が
意味が通じるんだけど。

933 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 09:42:12.92 ID:o5GMnakW

コプロとしてダイ上に併設するってのとCPUコア組み込みのSIMD機能として追加するってのは
全く意味が違うんだが。支離滅裂にも程がある。

934 ：Socket774：2011/04/22(金) 09:50:34.48 ID:IPw2otA7

>>924
実験的な意味がかなりつよいのとTSMCの都合上バックプランを発動せざるをえなかった結果だと思う
P/Wが向上したHD4770が40nmとしてでたときはその派生版なんてでてなかったでしょ

935 ：Socket774：2011/04/22(金) 09:57:37.76 ID:ndnxwSqS

淫虫はコプロを否定してたよねｗ

936 ：Socket774：2011/04/22(金) 09:58:15.86 ID:jmsJSjTn

ビデオカード（笑）の話はスレチですよ

937 ：Socket774：2011/04/22(金) 10:14:29.51 ID:mY++9B9T

＞淫虫はコプロを否定してたよねｗ

AMDのVLIWじゃコプロに成りえないじゃん遅すぎて
同規模でスレッド数20%あがるはずのcaymanがcypressにf@hで負けるのはどういうことなんだろうね
shaderは単に簡略化してTMUの数を増やしただけで終わったのがcayman

938 ：Socket774：2011/04/22(金) 10:21:24.13 ID:GIoQFYAj

AMDのAPUも今のところCPUとGPUを1チップにしましたってだけだからな。
GPGPUの活用はユーザーが各自努力してくださいだし。
その先は、青写真もあるか怪しい状態だけど。

939 ：Socket774：2011/04/22(金) 10:28:12.32 ID:jvtTeiV1

caymanは32nmがキャンセルされた影響で、5xxxをベースに、32nmで予定していた機能の一部
を載せたものだから、イマイチなのは仕方が無いだろう
28nmが出る前にソフトメーカーにVLIEW4に馴染んでもらうための布石といったところか

ちなみにGPGPUをコプロとして使って速度が出ないのは当然だ
PCにおけるGPGPUはGPUが使われて無いときに遊んでいるリソースを回収するためのもの
HPCにおけるGPGPUはまた別だが

940 ：Socket774：2011/04/22(金) 10:40:03.10 ID:CpK4sWxB

単にドライバの成熟度の違いだな
SP構成を弄って既存のアプリが影響受けないわけがない
今の段階でもGPGPUアプリじゃCypress比で下がってるのもあれば上がってるのもある

941 ：Socket774：2011/04/22(金) 11:10:06.96 ID:sGNkuWUq

SSEやAVXの経験あるからRadeonのSIMD化は可能だろ
単に回路の簡略化のためVLIW>SIMDって判断してるだけ

そういえば団子って以前Larrabeeの512bit SIMDがAVXの次世代って息巻いて絶賛してたよな
いつの間にAVXの512bitや1024bitなんてものに宗旨替えしたんだ？
そもそもそれがホントならLarrabee統合に意味は全く無いだろ

942 ：Socket774：2011/04/22(金) 11:40:03.51 ID:GIoQFYAj

RadeonをSIMD化するってどういう意味？
たとえばVLIW4を128bitSIMDにするとか？

943 ：Socket774：2011/04/22(金) 12:12:41.00 ID:mY++9B9T

サーバー向けはともかく
一般向けにsimdコプロは不要
アクセラレータがあればよい

944 ：Socket774：2011/04/22(金) 12:14:08.26 ID:mY++9B9T

>単に回路の簡略化のためVLIW>SIMDって判断してるだけ

その分リアルタイムでコンパイルしVLIWを発行する負荷がCPUに増える

945 ：Socket774：2011/04/22(金) 12:17:47.66 ID:sGNkuWUq

>>942
そんな感じ
ただし制御回路とかくっつける必要があるから回路規模というかダイサイズが倍位になる
ゲフォは倍速化使ってサイズを半分にしてるから小さい(大きいけどな)

VLIWだからデコードやスケジューリングをCPUが受け持ってるけど、
CPUとGPU、メインメモリとGPUメモリが物理的に離れていてレイテンシが大きいし、
転送速度も遅くて効率が非常に悪い

946 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 19:14:27.47 ID:o5GMnakW

> そういえば団子って以前Larrabeeの512bit SIMDがAVXの次世代って息巻いて絶賛してたよな
それ言ったのは後藤だっつーのｗ

> いつの間にAVXの512bitや1024bitなんてものに宗旨替えしたんだ？
もちろんIntelがAVXと別物と言った時点で

> そもそもそれがホントならLarrabee統合に意味は全く無いだろ
逆に言えば統合しなくともCPUコアのSIMD拡張計画には全く支障は無いということね。
CPUコアにSIMD機能を統合するのか単にダイ上にコアを載せるのか
お前の想定してるのはどっちだよ。話が進んでるとすれば後者のほうだ。

947 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 19:23:52.27 ID:o5GMnakW

IntelがSIMD拡張を率先してやるとAMDのファンボーイがそれを貶す
でもAMDはIntelについていく。
そのパターンの繰り返しいい加減飽きたよ

948 ：Socket774：2011/04/22(金) 20:00:49.19 ID:mrCuIf4Q

>>946
> > そういえば団子って以前Larrabeeの512bit SIMDがAVXの次世代って息巻いて絶賛してたよな
> それ言ったのは後藤だっつーのｗ
ほうほう

271 名前：,,・´∀｀・,,）っ[sage] 投稿日：2008/08/22(金) 03:46:06 ID:6R6YXCRn
http://pc.watch.impress.co.jp/docs/2008/0822/kaigai461.htm

Ctについては>>182あたりに書いたことがドンピシャ。
Larrabee新命令はどうやら既存命令とはOpcode食い合わないらしい
（＝512ビット版AVXそのものの先行実装の可能性大）

Larrabeeの位置づけといい、俺どれだけエスパーだよ
あまりに予想が当たりすぎててもう笑うしかねー

639 名前：,,・´∀｀・,,）っ-○◎●[sage] 投稿日：2008/10/29(水) 08:00:59 ID:PL3EJ2gj [2/2]
（略）

ごめんね、実はAVXまでは既に対応出来てるんだ
Larrabeeはこれを512ビットに引き延ばすだけでいけると思うんだ

868 名前：,,・´∀｀・,,）っ-○◎●[sage] 投稿日：2008/11/21(金) 01:36:03 ID:IoVgtMoH [1/2]
AVXに関しては、整数512-bit/浮動小数1024-bitまでの拡張計画打ち出してるから
まさに512-bit/1024-bitがLarrabeeのそれなんじゃないの？

（略）

949 ：Socket774：2011/04/22(金) 20:03:14.81 ID:mrCuIf4Q

こんなんもあったわ
どう見ても息巻いて……なんでもないよ

170 名前：,,・´∀｀・,,）っ-○◎●[sage] 投稿日：2008/10/15(水) 00:08:21 ID:ucUcLpmM [1/15]
>>169
継承するコード資産は高級言語でいいじゃん。最適化なんてIntelコンパイラに任せておけよ。
Cellが何が駄目って、2005年の電撃的な発表以来、未だにIBM謹製のXL C/C++が「開発版」なんだぜ。
その意味じゃIntelは使い古したアーキテクチャの拡張故に地に足がついてる。
ちなみにLarrabeeはIntelの将来のCPUで搭載される命令を先行実装してるって言う意味では
過去の資産よりは「未来への資産」を重視してる。
AVXの更に先の世代ではLarrabeeのSIMD拡張は普通のCPUに搭載されることになる。

（略）

950 ：Socket774：2011/04/22(金) 20:13:22.11 ID:GIoQFYAj

LNIの仕様が出る前、出た後で変わったんじゃないの？
一時期、サイトの方でLNIをVEXフォーマットで表現できないか考察してたと思うけど。

951 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 21:23:35.03 ID:o5GMnakW

>>950
まあそういうことだな
64ビット専用だからVEXに押し込む必要ないからねぇ。
たとえば回収されたBCD命令のOpcodeをリードバイトに使っても収まる。

VEXじゃ32本（5ビット）のSIMDレジスタ×3オペランド＋マスク（3ビット）を表現するのは
難しい。できなくはないけど、mmmmmの予約空間が半分近く使われる。
VEXの寿命縮めてまでLarrabee独自命令を押し込む必要は無い。

AVXの命令のほとんどはRISCに倣ってに1命令1サイクルで実行できる
（今はできないものもあるが将来的にはできる）ようにデザインされてるが、
LRBniはCISC的に何サイクルもかけるものが多いし、単純な積和算にせよ1サイクルのスループットで
完結させようと思えば従来CPUのような高クロック化は難しい。
命令フォーマットの設計思想が全く違う。

952 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 21:42:46.48 ID:o5GMnakW

参考までに、LRBniからは8/16ビット整数オペレーションが省かれてるので
これをそのまんまSSE/AVXのポストに据え置くのは難しいわな。

もしCPUコアにLRBniを組み込むとして512ビットAVXとLRBniの2系統の命令を同時に
サポートするということになるんじゃね？
それは単純にLRB側のコードをそのままCPUで動くようにするためだな。
フォーマットが複雑すぎるのでmicrocodeデコードになるだろうが、Sandy Bridgeで追加された
μOPs cacheがあるのでループする処理に関しては性能の問題は軽減されるかも。

953 ：Socket774：2011/04/22(金) 21:48:21.86 ID:Feo+jUsj

>microcodeデコード
これ何？

954 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 22:46:28.56 ID:o5GMnakW

x86の1命令と内部μOP(s)が1～2つで対応してる場合は、ハードワイヤードロジックで実装された
Simple Decoderでの対応になる。モダンなx86が1クロック3～4命令同時デコードできるってのは
Simple Decoderで処理できるものだけ。
複雑な命令は、Complex Decoderのmicrocode ROMテーブルから対応する複数のオペレーションを
引っ張ってきて複数サイクルかけて吐き出すような動作になる。

んでもってμOPs cacheにヒットしてればこの遅いDecoderでの処理を飛ばすことができるので
パイプラインを乱さずに処理することができる。Sandy Bridgeの速さの理由のひとつだね。
じゃあトレースキャッシュNetBurstだってもっと速くてもよかったじゃないかというと、
それもそうなんだが、処理可能なオペレーションが単純すぎて、それほど複雑でも無い普通の
命令までもμOPs数そのものが増えて結果的に遅かった。

955 ：Socket774：2011/04/22(金) 23:13:51.97 ID:Feo+jUsj

それは
複数のμOPに分解される命令の話で
複雑なフォーマットの命令の話ではないよな

複数のμOPに分解される命令＝複雑なフォーマットの命令
なのか？

956 ：Socket774：2011/04/22(金) 23:27:17.97 ID:Um708KPJ

via cpuのx87命令の大半みたいなものかな

957 ：,,・´∀｀・,,）っ-○○○：2011/04/22(金) 23:44:41.23 ID:o5GMnakW

ロードしてBroadcastして型変換してプレディケートつき積和算みたいなのを従来CPUで
１～２μOPｓでできるかっつーの。

でもComplexにだけ実装すればsimpleデコーダのコストは省けるよね。
Sandy BridgeでもAVXのうちvpblendvbのような4オペランド命令はComplex Decoderでしか
デコードできない。

958 ：Socket774：2011/04/22(金) 23:57:38.14 ID:Feo+jUsj

これについて聞きたいんだけど
>フォーマットが複雑すぎるのでmicrocodeデコードになるだろうが

μOPの話ばかりして、命令フォーマットの話はスルーか？

959 ：,,・´∀｀・,,）っ-○○○：2011/04/23(土) 00:04:59.83 ID:vH/Ah5Lq

フォーマットが複雑ってのはハードワイヤードロジックで実装するとコストがかかるってことも意味する。
ハードワイヤードで処理できたとしても全部のデコーダで対応したらコストがかかるだろう？
Complex Decoderで処理される命令全てがmicrocode ROMで処理されるわけではないが
フォーマットが複雑な命令はほぼすべてComplex Decoderで処理されるのが通例。

P54CのU/VパイプってのはまさにComplex DecoderとSimple Decoderの組み合わせだ。

960 ：,,・´∀｀・,,）っ-○○○：2011/04/23(土) 01:04:36.18 ID:vH/Ah5Lq

ちなみにLarrabeeネイティブでもSIMD命令のほとんどはComplex Decoderのパスだし
Simple Decoder処理できるのはシンプルなスカラ演算とマスク演算、vstore命令くらいしかない
ってIntelが言ってるだろう。

そもそも根本的な話として、LRBniフォーマットが複雑なのは、複数のオペレーションを
1命令に詰め込めるようにしたからなわけで、Wide-issueでμOPsに分解して処理するモダンな
CPUでは大半がmicrocodeデコードになって然るべきだろう。

961 ：Socket774：2011/04/23(土) 16:58:08.80 ID:grcL4xNw

プレス子スレにてSIMMとSIMDの勘違いをした決定的瞬間のログ（団子こと雑音が"録音"と呼ばれていた時代のログ）
http://web.archive.org/web/20080518103351/http://z-temp.hp.infoseek.co.jp/2ch/Prescott699-.html

962 ：Socket774：2011/04/24(日) 09:15:17.84 ID:wunbfiu8

>>961
（録音が）あまりに無様すぎて乾いた笑いが出てくるレベルだな・・・

963 ：Socket774：2011/04/25(月) 13:48:28.06 ID:di7fBKWI

最近だとデフォルトスタンダード、ビター文か？

964 ：Socket774：2011/04/25(月) 20:12:42.86 ID:8lQb0UoI

せざるおえん　っていうのもある

965 ：,,・´∀｀・,,）っ-○○○：2011/04/25(月) 22:37:58.60 ID:OyPMlNid

パッチもん　っていうのもある

966 ：Socket774：2011/04/29(金) 03:22:47.49 ID:edr+Z9gC

正しい日本語：雑音語
ビタ一文→ビター文
せざるを得ない→せざるおえん
laugh→lahgh
デファクトスタンダード→デフォルトスタンダード
SIMD→SIMM
脊髄反射→脊髄反応
骨折り損のくたびれ儲け→骨折り損のくたびれ損
馬脚を現す→馬鹿ってすぐ脚をだす
提灯記事→行灯記事

967 ：Socket774：2011/04/29(金) 07:01:56.70 ID:1qsVxLoQ

ブルドーザー（笑）
ttp://www.xtremesystems.org/Forums/showpost.php?p=4830335&postcount=303

968 ：Socket774：2011/04/29(金) 09:31:05.03 ID:edr+Z9gC

translation:
Author never thought that this thread could be so noticeable...so do doubts.
Please be neutral, this processor ain't the best from AMD or it might consists some bugs(causing low in score).
Take this test with a pinch of salt. Both CPU taken for comparison support turbo feature (Intel is slightly better than AMD in this case).
Benchmarks conducted had left turbo enabled.
For the sake of equality, all parameters are unified, CPU from AMD has turned off Turbo Core/CIE/CnQ and for Intel side, it has TB/C3,C6/EIST/CIE turned off. (edited: left out of the keyword "turned off")
Benchmark software is now updated to Cinebench R11.5

（笑）なんていってそのサイトのURLコピペするとか中国語も英語も読めないんだろうな

969 ：,,・´∀｀・,,）っ-○○○：2011/04/29(金) 09:37:55.57 ID:c15ZwRFu

Turboがきいてもスコア改善率はせいぜい1～2割だろ。
いい訳にならない差だな

970 ：Socket774：2011/04/29(金) 09:49:51.36 ID:edr+Z9gC

http://www.xtremesystems.org/Forums/showthread.php?t=270041

こんな格好だけ動いてる状態で比較とかさすが自称プログラマーの無職君

971 ：,,・´∀｀・,,）っ-○○○：2011/04/29(金) 10:06:46.52 ID:c15ZwRFu

必死だなｗ

972 ：Socket774：2011/04/29(金) 10:14:16.08 ID:RiQsxLbM

対sandyで概ね半分のパフォーマンスだよね
同クロックだと

973 ：Socket774：2011/04/29(金) 10:20:48.51 ID:eW45ccDm

いっぽうSandyはLlanoに比べて80%低速（19.21/3.99）

974 ：,,・´∀｀・,,）っ-○○○：2011/04/29(金) 10:23:33.50 ID:c15ZwRFu

>>972
4コア対4コア（2モジュール）じゃないんだよね
4コア対4モジュール8コア！

ライバルはCore i3じゃねーか？

975 ：Socket774：2011/04/29(金) 10:49:23.50 ID:45p+W9Gq

http://www.4gamer.net/games/128/G012877/20110215083/
以前よくIntelびびってるってことで、取り上げられていたのが
＞Intelは，Sandy Bridge-Eの4コアモデルやIvy Bridgeで，動作クロックを引き上げることにより，
＞同価格帯の「Bulldozer」（ブルドーザ，開発コードネーム）比で10～30％高い性能を発揮できる

http://www.anandtech.com/show/4291/additional-details-on-sandy-bridgee-processors-x79-and-lga2011
SandyBridge-E 4コア版のクロックが、定格3.6GHz、TB最大3.9GHz
とクロックわかったから、4gamerの記事にあるIntelの言に合わせると、
Bulldozerの3～5万ゾーンは、
SandyBridge-Eの定格2.8～3.3GHz
TB時も考慮すると3～3.6GHz
くらいの性能と、Intelは推測してるっぽいな。

976 ：Socket774：2011/04/29(金) 11:31:04.84 ID:edr+Z9gC

hammerの頃もこんな感じで馬鹿が勝利宣言してましたよ

977 ：Socket774：2011/04/29(金) 11:37:10.97 ID:45p+W9Gq

Intelが言ったということからすると、Intelは>>975で書いたくらいの性能だと
推測してるんじゃないの？
別に実際のBulldozerの性能がこれくらいだと言ってるわけじゃないのに。
あと、SandyBridge-EとLGA1155のSandyBridgeの性能差もわからないんだけど。

978 ：,,・´∀｀・,,）っ-○○○：2011/04/29(金) 12:29:03.00 ID:2Yx8Ejco

直接影響しそうなのはL3キャッシュ容量とメモリチャネル数くらい

979 ：Socket774：2011/04/30(土) 11:05:03.24 ID:3MStz+Yl

Bulldozerが6月、Sandy Bridge-EがQ4なんだから、Sandy Bridge-Eを出すときに価格決めるってだけじゃないか？

980 ：Socket774：2011/04/30(土) 11:28:10.40 ID:21kqxICY

>>979
Intelはランク付けで大体価格決まっている。
P1が300ドル前後で、P2が600ドル前後と900ドル前後、Extremeが999ドル以上って感じに。
4コアSandyBridge-EはP1なので、基本300ドル前後。
高くてもP2の600ドル前後まではいかない。

981 ：Socket774：2011/05/02(月) 14:40:26.83 ID:5Flx4D5r

Sandybridgeと比較して小さいとはいえないBulldozerのFPU

http://repositories.lib.utexas.edu/bitstream/handle/2152/3082/quinnelle60861.pdf
P.141
Table 6.3.2 Bridge fused multiplier-adder results
より

65nm AMD SOI
FPADD_DP 72,075um^2
FPMUL_DP 131,130um^2
FMA_DP 186,930 um^2
であるから

FMA_DP/(FPADD_DP + FPMUL_DP) = 0.919908
となる

Bulldozerは50%が拡張倍精度(EP)対応
Sandybridgeは25%がEP対応だから
実際の差はより小さいと推測される