【AthlonDuron】SocketA CPU全般 8版【SempGeode】

このエントリーをはてなブックマークに追加
400Socket774
>>396
DDR2の方が遅くなるクソベンチが何の参考になるんだ?

DDR266(CL2)よりDDR400(CL3)の方が速くなるベンチに何の意味が?
401Socket774:2008/06/15(日) 03:32:43 ID:nqQQ6csC
Pen3の時代ってぇと、
VIAチプセトにPC133メモリ付けてFSB133で使ったときと
IntelチプセトでPC100メモリFSB133で使ったときで
メモリアクセス速度(ってか、帯域)が同レベルだったしな。
当時よりは改善されてると言っても、限界はある。

ちなみに、AthlonXPで使う場合、デュアルチャンネルメモリは効果なしだ。
AGPデバイスとCPUがメモリバスを取り合うときとか、
FSBよりメモリクロックが遅いときとか、そういう変則的な条件でしか、デュアルチャンネルが役立たない。
(いや、前者は、ベンチでは測れなくても、ゲーム中に効くかもしれんけど。ゲームベンチでも。)

ところで、131072個って、1バイトのデータでの128kB相当、8バイト(データバスのサイズ、64ビット分)アクセスの1MB分に相当するわけだが、
L2の速度の影響が大きく響くテストのような気がするんだけど...
402Socket774:2008/06/15(日) 10:48:15 ID:l1UfQ4mp
Pentium3のSDRとAthlonXPのDDRは、理屈上では互角のハズ。

SDRとDDRの違いは、大雑把に言うと、データ転送部分だけが倍速化。
Pentium3のメインメモリへのアクセスは32バイトのバースト転送。64ビット×4回。SDRなので4クロック。
AthlonXPのメインメモリへのアクセスは64バイトのバースト転送。64ビット×8回。DDRなので4クロック。
データ転送以外の部分に要する時間について、SDRとDDRの違いは僅かでしかない。

にもかかわらず差が付いてしまうのは、
メモリコントローラ、バスプロトコル、キャッシュ制御のどこかが大きく違うということだと思う。

>>401
256KBのL2の速度が現われるのは、もっと少ない個数の領域です。
131072個のとき、Pentium3なら4MB、AthlonXPなら8MBのメモリアクセスが生じていると思います。

>>400
自分の思っていた通りの結果が出ないからといって「クソベンチ」と言うのは、いかがなものかと。

DDR266の2クロックとDDR400の3クロックは、ほぼ同じ15nsecです。
その後のデータ転送が1.5倍速いのですから、DDR400が速くなって当然です。
403Socket774:2008/06/15(日) 11:52:04 ID:ho9xFd0F
2700+ メモリ1.2Gの環境にeBooster導入してみた。
メモリ割り当ては、メインメモリから320MB。 
HDDは薔薇7の120Gにカンタムの5400回転30Gだけど
全体的にキビキビになっていい感じだ〜。
これでもうしばらく延命できそうだ。
404Socket774:2008/06/15(日) 12:39:25 ID:h27Oq11J
DDR266とDDR400のマシン使ってるけど
体感ではXP2800+(FSB266)よりXP2500+(FSB333)の方が軽く感じるな
405Socket774:2008/06/15(日) 12:40:29 ID:h27Oq11J
XP2500低格でメモリはDDR400って構成で
406Socket774:2008/06/15(日) 12:41:03 ID:h27Oq11J
低格→定格
407Socket774:2008/06/15(日) 16:55:25 ID:hCYn+q+J
75 名前:1GHzDual使い[sage] 投稿日:2008/06/15(日) 16:49:41 ID:hCYn+q+J
レイテンシ 計測ツール v0.2改 4224byte stride
vender:GenuineIntel CPUID:686
CPU動作クロック : 1004.6 MHz

アクセスデータ数 stride=128bytes stride=4224bytes
4 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
8 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
16 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
32 個 : 3.0clock( 3.0ns) 3.0clock( 3.0ns)
64 個 : 3.0clock( 3.0ns) 3.8clock( 3.8ns)
128 個 : 3.0clock( 3.0ns) 8.7clock( 8.6ns)
256 個 : 7.1clock( 7.0ns) 18.7clock( 18.6ns)
512 個 : 7.1clock( 7.1ns) 25.1clock( 25.0ns)
1024 個 : 7.1clock( 7.1ns) 146.3clock(145.6ns)
2048 個 : 26.7clock( 26.5ns) 165.9clock(165.2ns)
4096 個 : 140.7clock(140.1ns) 188.7clock(187.8ns)
8192 個 : 140.7clock(140.0ns) 194.7clock(193.8ns)
16384 個 : 140.6clock(139.9ns) 196.3clock(195.4ns)
32768 個 : 140.6clock(140.0ns) 196.7clock(195.8ns)
65536 個 : 140.7clock(140.0ns) 206.0clock(205.0ns)
131072 個 : 141.0clock(140.4ns) 212.2clock(211.3ns)

終了します。Enterキーを押してください :
408Socket774:2008/06/15(日) 20:46:53 ID:l1UfQ4mp
ググったところ。

AthlonMPは同一マザーボードで、
CPUを1個積んだ場合と2個積んだ場合で、
メモリのレイテンシが違うらしい。

しかも1個の場合に、どちらのソケットにするかでもレイテンシが違うらしい。
たとえば、
ttp://www.geocities.jp/amd760mpx2/MPXLOG/1064972611.html
の541番。

どうりでSocketAのdualは自作向けだけで大手メーカーが採用しなかったわけだ。
409Socket774:2008/06/15(日) 23:34:12 ID:oL3hYX3Z
>400
よく見たら、「鱈は先読みが効いてるから速い」らしいぞ。
シーケンシャルアクセスのテストだから、無視できんほど効いてるみたい。
別系統のベンチで調べてる例だが、
ttp://home.att.ne.jp/wave/shida/mflops3.html
キャッシュとTLBの構成内容の違いが顕著なのか。
410Socket774:2008/06/15(日) 23:52:54 ID:l1UfQ4mp
いや、鱈ではなく河童に負けているという話なんですが・・・。
しかも、ハードウェア・プリフェッチを装備したPalomino以降のコアで。
411Socket774:2008/06/16(月) 00:01:40 ID:nsj4ccIi
つか、実際の使用での速度では何の関係も無いから
スレから出てこないでくれる?

BXとKT以降のHDD速度で差が倍以上とか要っても
ならBXが遅いとか始める気か?
412Socket774:2008/06/16(月) 00:37:56 ID:PRuv6mK/
>>410
そのハードウェア・プリフェッチが敗因かもしれないね。

ベンチマークでは128バイト毎あるいは4224バイト毎に先頭4バイトだけを飛び石で読んでいる。

1. 先頭4バイトのために、キャッシュラインのサイズである64バイトをDRAMから読む。
2. さらにプリフェッチによって次の64バイトもDRAMに読みに行くが、それは使われない
3. 次の先頭4バイトのためにDRAMを読みたくても、まだ2番目が進行中なので待たされる
こんな具合かな?

>>396の数字を比較すると、30nsくらいの差で、
30nsといえば、133MHzで4クロック、つまり64バイト分の転送時間だから、
間髪入れずにバースト8の転送を2回連続でやれるなら、だいたい合致すると思う。

>>411
TLBミスやキャッシュミスを頻発するようなプログラムだと、効いてくると思いますが?
413Socket774:2008/06/16(月) 03:24:57 ID:nERW1Dqn
やってみた
CPU AthlonXP 3200+ (203*11=2233)
MEM Samsung PC3200(DDR400) 1GB*2 DualChannel (CL RCD RP RAS : 2.5 3 3 7, CR=1T)
M/B ASUS A7V880

load レイテンシ 計測ツール v0.2改 4224byte stride
vender:AuthenticAMD CPUID:6A0
CPU動作クロック : 2233.1 MHz

アクセスデータ数 stride=128bytes stride=4224bytes
4 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
8 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
16 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
32 個 : 3.0clock( 1.3ns) 3.0clock( 1.3ns)
64 個 : 3.0clock( 1.3ns) 8.0clock( 3.6ns)
128 個 : 3.0clock( 1.3ns) 8.0clock( 3.6ns)
256 個 : 3.0clock( 1.3ns) 9.6clock( 4.3ns)
512 個 : 3.0clock( 1.3ns) 29.1clock( 13.0ns)
1024 個 : 20.1clock( 9.0ns) 61.5clock( 27.5ns)
2048 個 : 20.1clock( 9.0ns) 67.1clock( 30.1ns)
4096 個 : 23.8clock( 10.7ns) 207.6clock( 92.9ns)
8192 個 : 209.0clock( 93.6ns) 306.4clock(137.2ns)
16384 個 : 210.2clock( 94.1ns) 331.9clock(148.6ns)
32768 個 : 210.2clock( 94.1ns) 332.0clock(148.7ns)
65536 個 : 210.4clock( 94.2ns) 336.2clock(150.5ns)
131072 個 : 210.5clock( 94.3ns) 337.3clock(151.0ns)
414Socket774:2008/06/16(月) 04:07:17 ID:A3rNAnB/
>412
なるほど。
AthlonXP系のメモリアクセス方式にとって、いちばん厳しくなる条件に、たまたま合致していたわけか。
いやいや、本来なら、どのCPUにとってもいちばん厳しくなるはずの条件、と思って作ったはずなのに、
AthlonXPにとって、特別に厳しくなる条件だった?
415Socket774:2008/06/16(月) 06:28:24 ID:PRuv6mK/
128バイトずつメモリアクセスするCPUがいるので、
それ以下にするとキャッシュにヒットしちゃうから、
だと思うよ。
416Socket774:2008/06/16(月) 06:32:33 ID:PRuv6mK/
元ネタのスレを確認してきました。
C2DのL2キャッシュのラインが128バイトだから、ということらしいです。
417Socket774:2008/06/16(月) 13:45:16 ID:II4vXtK7
チップセット側のメモリコントローラを評価せずに
CPUの優劣に話を持って行ってる時点で
頭の悪い釣り確定だろ
418Socket774:2008/06/16(月) 17:07:53 ID:uqg8d2l3
ということにしたいんですね
419Socket774:2008/06/16(月) 23:13:21 ID:GUgj6CPA
雑音w
420Socket774:2008/06/17(火) 01:09:09 ID:Y9j23GMU
少なくともソケAとソケ370ではソケAに軍配が上がると思うな。
ベンチはどうか知らんが、鱈P3-1.2とパロ1.2では、
誰が使っても分かるぐらいパロのほうが速い。
当時のチップセットが、まだ信用度も性能も大したことない
KT133AやKM133だったというハンデを背負っているにも関わらず。
nF2やKT880を使えば更に差が開くだろう。

ただ今から使うならP3にするけどw