雑音先生に勝てるかな? 【がんばれアム厨

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
最悪板で雑音が下記のスレをたてたのですが 板違いなのでこちらに移転します。

以下>>1の内容です。

雑音先生に勝てるかな? Part32【がんばれアム厨】
http://tmp5.2ch.net/test/read.cgi/tubo/1121707518/

1 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:25:18 ID:NPu5VQkJ
--------------------------------
現在のお題
--------------------------------
TMPEGEnc3 X2/4200+
SSE3/1CPU    5分9秒
SSE3/2CPU    2分34秒

約2.01倍

        Pentium D 820
SSE3/1CPU    4分57秒
SSE3/2CPU    2分47秒

約1.78倍

詳しく教えてください。
2デフォルトの名無しさん:2005/07/19(火) 13:17:17
2 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:26:01 ID:NPu5VQkJ
--------------------------------
SSE3はクロック依存が大きい命令の1つだ。
PenDはAthlon64 4200+よりも実クロックが高い為に
1CPUだとその差が諸に影響してPenDが早くなる。

で、2CPUだと並列処理が可能な為、SSE3のメリットは小さくなる。
つまりスカラー性能の違いが表面化してくるわけだ。
その為、PenDはX2より遅い結果となる。

まぁ、SSE3で高速処理をしても次の処理が待たされるなら無意味と言うことだな。
ここらは、CPUだけの問題ではなく、ソフト側のアーキテクチャにも大きく依存していることも伝えておくよ♪

3デフォルトの名無しさん:2005/07/19(火) 13:17:55
3 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:26:17 ID:NPu5VQkJ
--------------------------------
問題はそんなところにはない。
スカラー性能の差なんだよ。
つまりSSE3の処理速度とスカラー演算速度の差が諸に出た結果でしかない。
FSBの帯域が不足しているか否かを確認したいのなら、PenD840でテストするば良い。
帯域不足が原因ならピーク性能は頭打ちで差が出なくなる。
しかし、残念だけど現実は違い帯域不足説は真っ先に否定される。

高速に処理する部位と低速にしか処理されない部位の違いでしかなく。
2CPUで完全に並列化されていると考えるほうがおかしい。
現実のソフトだとマルチタスク化してもそれが完全に2倍の性能となるべく並列処理される訳ではない。
つまりAthlon64のSSE3が鈍足である為、結果的に2cpuでのマルチスレッド処理で2倍の性能が観測されたに過ぎない。

4デフォルトの名無しさん:2005/07/19(火) 13:18:37
4 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:26:36 ID:NPu5VQkJ
CPUでの処理を高速化する為にキャッシュが存在することは多くの人が理解済みだと思うのだが・・・
マルチスレッドソフトをマルチコアCPU(キャッシュ独立型)で実行した場合、キャッシュのヒット率1つで
大きな性能差を生む事例は幾らでも存在する。
つまりボトルネックが何なのかによると言う事です。
2CPUだから最大で2倍にしかならないと考えるのは、多くの場合正しいが例外もあることを忘れないようにしてくださいな。
--------------------------------
ここで面白い事実を挙げておく。

PenEX840はSSE3でのブーストとHT駆動により疑似4CPUでのブーストの恩恵がある。
もちろん、これらの恩恵は限定材料が多いがTMPEGENC等を実行すると諸にその成果を表す。
これらのブーストでたった3.2GHzでAthlon64 X2 4800+と闘える結果となっており
インテルが必死にクロックアップをしなくても良い状況を醸し出しているのは笑えてしまう。

商売は戦略上手が勝つということを思い知らされる結果であろう。

5デフォルトの名無しさん:2005/07/19(火) 13:19:24
5 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:27:00 ID:NPu5VQkJ
--------------------------------
さてと、処理スレッドが2つ並行して実行されていると仮定する。
Aスレッドは制御関係でありBスレッドはSSE3を使った変換実行用スレッドである。
ここで、CPUが2つある場合はBスレッドが並行動作可能モジュールなのでBスレッドのみを
2つ実行しAスレッドが1つB1とB2スレッドが各1の3スレッドになると仮定する。

1CPUの時の、Aスレッドの平均処理時間は1サイクル当りPenDで10分、X2で9分とする。(制御モジュールである為これを複数スレッドに分けることは不可能)
1CPUの時の、Bスレッドの平均処理時間はクロック依存なのて28/2.8=10分と28/2.2=12.7分となる。
処理は全部で10サイクル必要とし次サイクルへの移行はAとBのスレッドの同期を取る為に待ち合わせをする。

1CPUでの実行時間だと
PenD:(10+0)*10=100分
64X2 :(9+3.7)*10=127分
となりPenDが早くなる。

次に、2CPUでの実行時間だと
B1、B2サイクル供に=(28/2.8)/2となるから5分と6.4分となりどちらも制御スレッドより早く終わるので
PenD:(10+0)*10=100分
64X2 :(9+0)*10=90分
となりPenDが遅くなる。



6デフォルトの名無しさん:2005/07/19(火) 13:21:29
6 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 02:27:36 ID:NPu5VQkJ
--------------------------------
結局、君達の頭だと下記の結論を崩せるだけの反論ができないってことなんだろうかね♪

さてと、結論
PenDはSSE3が快速であり素直にその特性が表現されたCPUと言える。
X2はSSE3が鈍足であり、1CPU稼動だとモロにその影響を受けてしまう困ったCPUだ。

尚、PenDは2.8GHz、X2は2.2GHzでありX2をスカラー系の性能差で補正すると
X2は2.2×1.5(補正値)=3.3GHzとなることも伝えておく。
--------------------------------
テンプレ終了
--------------------------------

以上でテンプレは終了です

御感想・詰問・罵倒何でもお待ち致して居ります
7デフォルトの名無しさん:2005/07/19(火) 13:24:21
自作板へ帰れ
8デフォルトの名無しさん:2005/07/19(火) 13:40:39
>>7

それなら最悪板でしょ
9デフォルトの名無しさん:2005/07/19(火) 13:45:07
>アム厨
ガンダムヲタは帰れ
10デフォルトの名無しさん:2005/07/19(火) 15:06:44
ム板との接点がわからん
CPUの性能を議論するなら自作かハードウェア、もしくは電気電子系の板だろう
TMPEGEnc絡みでソフトウェア板もありうるがベンチマークとして扱っているのでやはり自作板
そもそも最悪板以外でスレタイトルにコテハンを入れるのは2ちゃんねるのパブリックルール違反なので削除対象
11デフォルトの名無しさん:2005/07/19(火) 21:33:00
22 名前: ◆TfQ2Y4QCss [sage] 投稿日:2005/07/19(火) 03:27:00 ID:NPu5VQkJ
やれやれ、結局最初から負け犬なんだよなぁ〜。
いい加減愛想が尽きたから、君達だけで遊ぶかいいさ。
                             ↑
                          かゆいのかw
12デフォルトの名無しさん:2005/07/19(火) 23:18:21
>>6がプログラムの話みたいじゃが、まったく意味不明ですな。
13デフォルトの名無しさん
あっ>>5ですな。