雑音先生に勝てるかな? Part32【がんばれアム厨】
--------------------------------
現在のお題
--------------------------------
TMPEGEnc3 X2/4200+
SSE3/1CPU 5分9秒
SSE3/2CPU 2分34秒
約2.01倍
Pentium D 820
SSE3/1CPU 4分57秒
SSE3/2CPU 2分47秒
約1.78倍
詳しく教えてください。
--------------------------------
SSE3はクロック依存が大きい命令の1つだ。
PenDはAthlon64 4200+よりも実クロックが高い為に
1CPUだとその差が諸に影響してPenDが早くなる。
で、2CPUだと並列処理が可能な為、SSE3のメリットは小さくなる。
つまりスカラー性能の違いが表面化してくるわけだ。
その為、PenDはX2より遅い結果となる。
まぁ、SSE3で高速処理をしても次の処理が待たされるなら無意味と言うことだな。
ここらは、CPUだけの問題ではなく、ソフト側のアーキテクチャにも大きく依存していることも伝えておくよ♪
--------------------------------
問題はそんなところにはない。
スカラー性能の差なんだよ。
つまりSSE3の処理速度とスカラー演算速度の差が諸に出た結果でしかない。
FSBの帯域が不足しているか否かを確認したいのなら、PenD840でテストするば良い。
帯域不足が原因ならピーク性能は頭打ちで差が出なくなる。
しかし、残念だけど現実は違い帯域不足説は真っ先に否定される。
高速に処理する部位と低速にしか処理されない部位の違いでしかなく。
2CPUで完全に並列化されていると考えるほうがおかしい。
現実のソフトだとマルチタスク化してもそれが完全に2倍の性能となるべく並列処理される訳ではない。
つまりAthlon64のSSE3が鈍足である為、結果的に2cpuでのマルチスレッド処理で2倍の性能が観測されたに過ぎない。
CPUでの処理を高速化する為にキャッシュが存在することは多くの人が理解済みだと思うのだが・・・
マルチスレッドソフトをマルチコアCPU(キャッシュ独立型)で実行した場合、キャッシュのヒット率1つで
大きな性能差を生む事例は幾らでも存在する。
つまりボトルネックが何なのかによると言う事です。
2CPUだから最大で2倍にしかならないと考えるのは、多くの場合正しいが例外もあることを忘れないようにしてくださいな。
--------------------------------
ここで面白い事実を挙げておく。
PenEX840はSSE3でのブーストとHT駆動により疑似4CPUでのブーストの恩恵がある。
もちろん、これらの恩恵は限定材料が多いがTMPEGENC等を実行すると諸にその成果を表す。
これらのブーストでたった3.2GHzでAthlon64 X2 4800+と闘える結果となっており
インテルが必死にクロックアップをしなくても良い状況を醸し出しているのは笑えてしまう。
商売は戦略上手が勝つということを思い知らされる結果であろう。
--------------------------------
さてと、処理スレッドが2つ並行して実行されていると仮定する。
Aスレッドは制御関係でありBスレッドはSSE3を使った変換実行用スレッドである。
ここで、CPUが2つある場合はBスレッドが並行動作可能モジュールなのでBスレッドのみを
2つ実行しAスレッドが1つB1とB2スレッドが各1の3スレッドになると仮定する。
1CPUの時の、Aスレッドの平均処理時間は1サイクル当りPenDで10分、X2で9分とする。(制御モジュールである為これを複数スレッドに分けることは不可能)
1CPUの時の、Bスレッドの平均処理時間はクロック依存なのて28/2.8=10分と28/2.2=12.7分となる。
処理は全部で10サイクル必要とし次サイクルへの移行はAとBのスレッドの同期を取る為に待ち合わせをする。
1CPUでの実行時間だと
PenD:(10+0)*10=100分
64X2 :(9+3.7)*10=127分
となりPenDが早くなる。
次に、2CPUでの実行時間だと
B1、B2サイクル供に=(28/2.8)/2となるから5分と6.4分となりどちらも制御スレッドより早く終わるので
PenD:(10+0)*10=100分
64X2 :(9+0)*10=90分
となりPenDが遅くなる。
--------------------------------
結局、君達の頭だと下記の結論を崩せるだけの反論ができないってことなんだろうかね♪
さてと、結論
PenDはSSE3が快速であり素直にその特性が表現されたCPUと言える。
X2はSSE3が鈍足であり、1CPU稼動だとモロにその影響を受けてしまう困ったCPUだ。
尚、PenDは2.8GHz、X2は2.2GHzでありX2をスカラー系の性能差で補正すると
X2は2.2×1.5(補正値)=3.3GHzとなることも伝えておく。
--------------------------------
テンプレ終了
--------------------------------
7 :
最低人類0号:2005/07/19(火) 02:31:05 ID:+o3VehlG
どうすんの?ここ使うの?プログラムに詳しい奴あまりいないようだけど。
使うとしたら「雑音先生のCPU講座、生徒を納得させることが出来たら
先生の勝ち」って感じかね。
8 :
最低人類0号:2005/07/19(火) 02:33:47 ID:+o3VehlG
つーかさ、この場合ソースコードのない議論なんて意味あるんだろうか。
件のエンコソフトが中で何やってるかわからんのに
いくら議論を重ねても意味ないような気がするんだが。
9 :
最低人類0号:2005/07/19(火) 02:39:42 ID:kdCgISqS
>TMPEGEnc3 X2/4200+
>SSE3/2CPU 2分34秒
>
> Pentium D 820
>SSE3/2CPU 2分47秒
この時点で答えが出てるな。
デュアルコアをわざわざ1CPUで使うことを前提とするような阿呆でもない限りは、だが。
830/840はどうせ熱ダレして、実質820だからこれより上は比較の必要もないしな。
10 :
最低人類0号:2005/07/19(火) 02:43:27 ID:+o3VehlG
ユーザー視点ならなにも議論する必要はないな。
金があるならX2買っておしまい。
>>9 そんなこと言われてもなぁ〜。
アム厨はバカだから2倍で優秀!勝利!
完璧なCPU!内部調停ばんざい!!!!
と叫んでいるのだが・・・・
12 :
最低人類0号:2005/07/19(火) 02:48:31 ID:JAx0vvA9
ttp://pc5.2ch.net/test/read.cgi/prog/1085882236/ より
797 名前:390 投稿日:04/06/01 08:45
>>791 ああ、それから、jisコードがアドレスに変わってるというのは嘘だね。
DATA sjis[0x100][0x100];だったなら、「テーブル先頭アドレスからのオフセット」
にはなってるけど。
800 名前:796 投稿日:04/06/01 08:47
自己レス
1エレメント2バイトだからテーブル0番地開始でもありえんのね。
スマソ
801 名前: ◆Rb.XJ8VXow 投稿日:04/06/01 08:50
>>795 何、今ごろ修正しているんだよ(笑
お前さんは、先頭から読んでいると言ってた筈だ。
しかも、連続でな(笑
802 名前:390 投稿日:04/06/01 08:50
>>800 録音ソースだと、配列のサイズが0xffなんで、1バイトでもありえないから大丈夫ですよ(笑
13 :
最低人類0号:2005/07/19(火) 02:48:51 ID:PGP9b9R6
雑音はプログラミングど素人だから妄想聞いてもムダ
でこのスレは 終 了
アフォは勝手にやっとれw
14 :
最低人類0号:2005/07/19(火) 02:49:02 ID:JAx0vvA9
803 名前: ◆Rb.XJ8VXow 投稿日:04/06/01 08:52
>>797 つまらんな。
私の残していたネタを勝手に暴くんじゃねぇ!!!!!!
ボケがぁ!
遊べなくなるじゃんけ!!!
805 名前:390 投稿日:04/06/01 08:55
>>803 間違っているんで、当たり前の事を指摘しただけですよ?
806 名前: ◆Rb.XJ8VXow 投稿日:04/06/01 08:55
ってことで、390君は、どうやら元々判ってたうえで嘘を吐き私を陥れようとし
墓穴を掘りそうになったので「軌道修正」して逃げ出したと言う訳だ。
愚かな奴決定だな(爆笑!
と、既に勝利しているのでどうでもいいですよ(ぷ
やれやれ、また荒らしだした・・・・
興醒めだよな♪
16 :
最低人類0号:2005/07/19(火) 02:50:52 ID:19gkq1RI
自ら立てたスレなので、スレタイにあるように「雑音」である事は間違いないと。
>>1でトリップも付いてるしなー
17 :
最低人類0号:2005/07/19(火) 02:56:09 ID:7kMnpS8n
最悪板に3回連続で自分のスレを立てるヤツも珍しいね
もう感覚がマヒしてるのだろうか
18 :
最低人類0号:2005/07/19(火) 03:01:16 ID:rAXD5xYM
皮肉 で 先生 と呼ばれてるのに、自らスレタイに使うくらいだからね。
単に厚顔無恥な奴なんだ。
誰も来ないのでぴころになりましゅ(^▽^)
新しいスレをたてた方はリンクを貼ってくだしゃい(^▽^)
21 :
最低人類0号:2005/07/19(火) 03:25:43 ID:FNzsxT4s
やれやれ、結局最初から負け犬なんだよなぁ〜。
いい加減愛想が尽きたから、君達だけで遊ぶかいいさ。
23 :
最低人類0号:2005/07/19(火) 03:27:14 ID:7kMnpS8n
終 了
スカラー性能ってなんだよ馬鹿
大体自作やってる人間でTMPEGEnc素エンコなんてやる連中の方が少数派だろ
すえんこのいみっわかってまちゅかー?
> それとも、全く私の勘違いであり、それらの知識や見識は、
> 仕事をする中で必然的に身に付くものなのでしょうか・・。
必然で身に付くものではありません。
本人がそれに関心を持ち、自分なりにそれを消化して初めて身に付きます。
そしてこの消化の度合いがどれだけ深く、どれだけ整理整頓し、多角的な関連付けを
行なっているのかにより技量の差が生まれる訳です。
単に記憶しているだけでは使いものになりませんし活用するには至りませんね。
26 :
最低人類0号:2005/07/23(土) 14:38:03 ID:xYW4LNzj
>>25 まるで消化出来ていない人間が言うと深みが増しますね。
27 :
最低人類0号:2005/07/23(土) 23:17:43 ID:TPMzAFz0
テンプレ漏れ分
制御という意味から、Aスレッドで処理する要素に不可欠なものとしてB1、B2からの報告がある。
これらの要素を元に次のサイクル動作に必要な演算をするのがAスレッドの役割ってことだ。
ここでヘボ君だとB1、B2からの報告を受け取るまで処理不能としてしまう訳だが・・・
それだとどうしてもAスレッドのオーバーヘッドが解消できない。
そこでAスレッドが行なう処理を見直すこととなる。
じっくり調べるとAスレッドが行なう処理にはB1,B2からの報告とは別に次のサイクルで使用する情報収集部位が
あることに気付く、そしてオーバーヘッドの殆どがこの情報収集に費やされているとすれば・・・
で、結論
X=A+B+Cを行なうとき、(A=B1からの報告値、B=B2からの報告値、C=次サイクルで使用する情報、X=次サイクル実行の為の情報)
AとBが未定だからCも未定にしておき、AとBが揃ってからCを計算するロジックがヘボ君でありオーバーヘッド解消は不可。
AとBが未定でも先にCを集計しておき、AとBが確定すれば直ちにXを計算し次サイクルへ移行すると供にその次のCの収集を行なうと
多くのオーバーヘッドが隠蔽できることになる。
29 :
最低人類0号:2005/07/24(日) 02:14:25 ID:imePoJKP
>PenD:(10+0)*10=100分
>64X2 :(9+3.7)*10=127分
ここの0と3.7がどこから来てるのかわからない。
30 :
最低人類0号:2005/07/24(日) 02:20:29 ID:imePoJKP
A→B1+B2→A→B1+B2→A→・・・という捜査をやり返すってこと?
それとも
A→
B→→
というのが
A→
B→
B→
って感じだろうか。
31 :
最低人類0号:2005/07/24(日) 02:22:20 ID:yDqUSzSF
>375 名前: ◆Rb.XJ8VXow [sage] 投稿日:04/09/03 03:48 ID:pJVHiP6X
>後藤弘茂氏もアム厨も頭が硬いなぁ〜。
>INTELのネットバーストは熱いからダメでデュアルコア化等は不可能!って思考に凝り固まっている。
>
>確かに90nmでクロックを当初通り上げようとすると発熱の問題に直面することは確かだが・・・
>D0ステッピングを見ても分るように、ほんの少し電圧を上げた設計をすれば十分発熱を押さえることが可能だ。
>もちろん、クロック向上は当初の予定通りには進まないがプレスコットの回路設計だと十分なキャパシティがあるので
>デュアルコア化でも4GHz程度までは可能と思われる。
>それで十分に65nmへ繋げる事が可能だろうね♪
先生!PenDの4Ghzはいつ発売ですか?
32 :
最低人類0号:2005/07/24(日) 02:27:31 ID:imePoJKP
>さてと、結論
>PenDはSSE3が快速であり素直にその特性が表現されたCPUと言える。
>X2はSSE3が鈍足であり、1CPU稼動だとモロにその影響を受けてしまう困ったCPUだ。
つまりSSE3はクロック依存処理だから単純にクロック数の高いPenDの方が有利というだけで快速とは言えないわけね。
それでデュアルになるとAスレッド?の処理時間がトロイPenDはX2に負けちゃうわけだね。
そこで気になるんだが28/2.8とか出してるけど28ってどこから来た数字なんだ?
もしコレが任意の数値なら、100とかにした場合はX2が遅くなってしまうんだけど。
33 :
最低人類0号:2005/07/24(日) 05:35:42 ID:Irm+sYzj
ちんちんみてまんまんおっき
34 :
最低人類0号:2005/07/24(日) 13:50:31 ID:4ihSl3a8
まんまんみてちんちんおっき
35 :
ルリルリ大好き:
全巻君みてるかなー