【AthlonDuron】SocketA CPU全般 8版【SempGeode】

400 ：Socket774：2008/06/15(日) 00:28:19 ID:4BDuG3Io

>>396
DDR2の方が遅くなるクソベンチが何の参考になるんだ？

DDR266（CL2）よりDDR400（CL3）の方が速くなるベンチに何の意味が？

401 ：Socket774：2008/06/15(日) 03:32:43 ID:nqQQ6csC

Pen3の時代ってぇと、
VIAﾁﾌﾟｾﾄにPC133メモリ付けてFSB133で使ったときと
IntelﾁﾌﾟｾﾄでPC100メモリFSB133で使ったときで
メモリアクセス速度(ってか、帯域)が同レベルだったしな。
当時よりは改善されてると言っても、限界はある。

ちなみに、AthlonXPで使う場合、デュアルチャンネルメモリは効果なしだ。
AGPデバイスとCPUがメモリバスを取り合うときとか、
FSBよりメモリクロックが遅いときとか、そういう変則的な条件でしか、デュアルチャンネルが役立たない。
(いや、前者は、ベンチでは測れなくても、ゲーム中に効くかもしれんけど。ゲームベンチでも。)

ところで、131072個って、1バイトのデータでの128kB相当、8バイト(データバスのサイズ、64ビット分)アクセスの1MB分に相当するわけだが、
L2の速度の影響が大きく響くテストのような気がするんだけど...

402 ：Socket774：2008/06/15(日) 10:48:15 ID:l1UfQ4mp

Pentium3のSDRとAthlonXPのDDRは、理屈上では互角のハズ。

SDRとDDRの違いは、大雑把に言うと、データ転送部分だけが倍速化。
Pentium3のメインメモリへのアクセスは32バイトのバースト転送。64ビット×4回。SDRなので4クロック。
AthlonXPのメインメモリへのアクセスは64バイトのバースト転送。64ビット×8回。DDRなので4クロック。
データ転送以外の部分に要する時間について、SDRとDDRの違いは僅かでしかない。

にもかかわらず差が付いてしまうのは、
メモリコントローラ、バスプロトコル、キャッシュ制御のどこかが大きく違うということだと思う。

>>401
256KBのL2の速度が現われるのは、もっと少ない個数の領域です。
131072個のとき、Pentium3なら4MB、AthlonXPなら8MBのメモリアクセスが生じていると思います。

>>400
自分の思っていた通りの結果が出ないからといって「クソベンチ」と言うのは、いかがなものかと。

DDR266の2クロックとDDR400の3クロックは、ほぼ同じ15nsecです。
その後のデータ転送が1.5倍速いのですから、DDR400が速くなって当然です。

403 ：Socket774：2008/06/15(日) 11:52:04 ID:ho9xFd0F

2700+ メモリ1.2Gの環境にeBooster導入してみた。
メモリ割り当ては、メインメモリから320MB。　
HDDは薔薇7の120Gにカンタムの5400回転30Gだけど
全体的にキビキビになっていい感じだ～。
これでもうしばらく延命できそうだ。

404 ：Socket774：2008/06/15(日) 12:39:25 ID:h27Oq11J

DDR266とDDR400のマシン使ってるけど
体感ではXP2800+（FSB266）よりXP2500+（FSB333）の方が軽く感じるな

405 ：Socket774：2008/06/15(日) 12:40:29 ID:h27Oq11J

XP2500低格でメモリはDDR400って構成で

406 ：Socket774：2008/06/15(日) 12:41:03 ID:h27Oq11J

低格→定格

407 ：Socket774：2008/06/15(日) 16:55:25 ID:hCYn+q+J

75 名前：1GHzDual使い[sage] 投稿日：2008/06/15(日) 16:49:41 ID:hCYn+q+J
レイテンシ計測ツール v0.2改 4224byte stride
vender:GenuineIntel CPUID:686
CPU動作クロック : 1004.6 MHz

ｱｸｾｽﾃﾞｰﾀ数 stride=128bytes stride=4224bytes
4 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
8 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
16 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
32 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
64 個 : 3.0clock( 3.0ns) 3.8clock( 3.8ns)
128 個 : 3.0clock( 3.0ns) 8.7clock( 8.6ns)
256 個 : 7.1clock( 7.0ns) 18.7clock( 18.6ns)
512 個 : 7.1clock( 7.1ns) 25.1clock( 25.0ns)
1024 個 : 7.1clock( 7.1ns) 146.3clock(145.6ns)
2048 個 : 26.7clock( 26.5ns) 165.9clock(165.2ns)
4096 個 : 140.7clock(140.1ns) 188.7clock(187.8ns)
8192 個 : 140.7clock(140.0ns) 194.7clock(193.8ns)
16384 個 : 140.6clock(139.9ns) 196.3clock(195.4ns)
32768 個 : 140.6clock(140.0ns) 196.7clock(195.8ns)
65536 個 : 140.7clock(140.0ns) 206.0clock(205.0ns)
131072 個 : 141.0clock(140.4ns) 212.2clock(211.3ns)

終了します。Enterキーを押してください :

408 ：Socket774：2008/06/15(日) 20:46:53 ID:l1UfQ4mp

ググったところ。

AthlonMPは同一マザーボードで、
CPUを1個積んだ場合と2個積んだ場合で、
メモリのレイテンシが違うらしい。

しかも1個の場合に、どちらのソケットにするかでもレイテンシが違うらしい。
たとえば、
ttp://www.geocities.jp/amd760mpx2/MPXLOG/1064972611.html
の541番。

どうりでSocketAのdualは自作向けだけで大手メーカーが採用しなかったわけだ。

409 ：Socket774：2008/06/15(日) 23:34:12 ID:oL3hYX3Z

>400
よく見たら、「鱈は先読みが効いてるから速い」らしいぞ。
シーケンシャルアクセスのテストだから、無視できんほど効いてるみたい。
別系統のベンチで調べてる例だが、
ttp://home.att.ne.jp/wave/shida/mflops3.html
キャッシュとTLBの構成内容の違いが顕著なのか。

410 ：Socket774：2008/06/15(日) 23:52:54 ID:l1UfQ4mp

いや、鱈ではなく河童に負けているという話なんですが・・・。
しかも、ハードウェア・プリフェッチを装備したPalomino以降のコアで。

411 ：Socket774：2008/06/16(月) 00:01:40 ID:nsj4ccIi

つか、実際の使用での速度では何の関係も無いから
スレから出てこないでくれる？

BXとKT以降のHDD速度で差が倍以上とか要っても
ならBXが遅いとか始める気か？

412 ：Socket774：2008/06/16(月) 00:37:56 ID:PRuv6mK/

>>410
そのハードウェア・プリフェッチが敗因かもしれないね。

ベンチマークでは128バイト毎あるいは4224バイト毎に先頭4バイトだけを飛び石で読んでいる。

1. 先頭4バイトのために、キャッシュラインのサイズである64バイトをDRAMから読む。
2. さらにプリフェッチによって次の64バイトもDRAMに読みに行くが、それは使われない
3. 次の先頭4バイトのためにDRAMを読みたくても、まだ2番目が進行中なので待たされる
こんな具合かな?

>>396の数字を比較すると、30nsくらいの差で、
30nsといえば、133MHzで4クロック、つまり64バイト分の転送時間だから、
間髪入れずにバースト8の転送を2回連続でやれるなら、だいたい合致すると思う。

>>411
TLBミスやキャッシュミスを頻発するようなプログラムだと、効いてくると思いますが?

413 ：Socket774：2008/06/16(月) 03:24:57 ID:nERW1Dqn

やってみた
CPU AthlonXP 3200+ (203*11=2233)
MEM Samsung PC3200(DDR400) 1GB*2 DualChannel (CL RCD RP RAS : 2.5 3 3 7, CR=1T)
M/B ASUS A7V880

load レイテンシ計測ツール v0.2改 4224byte stride
vender:AuthenticAMD CPUID:6A0
CPU動作クロック : 2233.1 MHz

ｱｸｾｽﾃﾞｰﾀ数 stride=128bytes stride=4224bytes
4 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
8 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
16 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
32 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
64 個 : 3.0clock( 1.3ns) 8.0clock( 3.6ns)
128 個 : 3.0clock( 1.3ns) 8.0clock( 3.6ns)
256 個 : 3.0clock( 1.3ns) 9.6clock( 4.3ns)
512 個 : 3.0clock( 1.3ns) 29.1clock( 13.0ns)
1024 個 : 20.1clock( 9.0ns) 61.5clock( 27.5ns)
2048 個 : 20.1clock( 9.0ns) 67.1clock( 30.1ns)
4096 個 : 23.8clock( 10.7ns) 207.6clock( 92.9ns)
8192 個 : 209.0clock( 93.6ns) 306.4clock(137.2ns)
16384 個 : 210.2clock( 94.1ns) 331.9clock(148.6ns)
32768 個 : 210.2clock( 94.1ns) 332.0clock(148.7ns)
65536 個 : 210.4clock( 94.2ns) 336.2clock(150.5ns)
131072 個 : 210.5clock( 94.3ns) 337.3clock(151.0ns)

414 ：Socket774：2008/06/16(月) 04:07:17 ID:A3rNAnB/

>412
なるほど。
AthlonXP系のメモリアクセス方式にとって、いちばん厳しくなる条件に、たまたま合致していたわけか。
いやいや、本来なら、どのCPUにとってもいちばん厳しくなるはずの条件、と思って作ったはずなのに、
AthlonXPにとって、特別に厳しくなる条件だった?

415 ：Socket774：2008/06/16(月) 06:28:24 ID:PRuv6mK/

128バイトずつメモリアクセスするCPUがいるので、
それ以下にするとキャッシュにヒットしちゃうから、
だと思うよ。

416 ：Socket774：2008/06/16(月) 06:32:33 ID:PRuv6mK/

元ネタのスレを確認してきました。
C2DのL2キャッシュのラインが128バイトだから、ということらしいです。

417 ：Socket774：2008/06/16(月) 13:45:16 ID:II4vXtK7

チップセット側のメモリコントローラを評価せずに
CPUの優劣に話を持って行ってる時点で
頭の悪い釣り確定だろ

418 ：Socket774：2008/06/16(月) 17:07:53 ID:uqg8d2l3

ということにしたいんですね

419 ：Socket774：2008/06/16(月) 23:13:21 ID:GUgj6CPA

雑音ｗ

420 ：Socket774：2008/06/17(火) 01:09:09 ID:Y9j23GMU

少なくともソケAとソケ370ではソケAに軍配が上がると思うな。
ベンチはどうか知らんが、鱈P3-1.2とパロ1.2では、
誰が使っても分かるぐらいパロのほうが速い。
当時のチップセットが、まだ信用度も性能も大したことない
KT133AやKM133だったというハンデを背負っているにも関わらず。
nF2やKT880を使えば更に差が開くだろう。

ただ今から使うならP3にするけどｗ