Llanoについて Llanoのプロセス ・32nm SOI / High-K + Metal gateプロセス。 第 2世代の液浸露光技術が用いられる。 Llanoの概要 ・4つのCPUコア ・DirectX 11対応GPU ・DDR3対応メモリコントローラ ・最初のサンプルは2010年上半期予定。 LlanoのCPUコア ・L2キャッシュを除いたコアのサイズは9.69mm2 ・1コアあたりのトランジスタ数は3500万以上 ・(1コアあたり?)2.5〜25Wの消費電力 ・3GHz以上の周波数 ・駆動電圧は0.8〜1.3V Bulldozerについて Bulldozer (Zambezi 4〜8コア) ・32nmSOIプロセス High-K/メタルゲート採用 ・3GHzを超えるクロック? ・1つのモジュールに2コアを内蔵 コア毎に独立した整数スケジューラとL1キャッシュ ・1つのモジュールに共有L2キャッシュ、L3キャッシュ、ノースブリッジ、128-bitのSIMD積和算ユニットを2基搭載 ・浮動小数点演算ユニットや命令デコーダなどのリソースを2つのコア/スレッドで共有 ※今後、増えていく浮動小数点演算のニーズをGPUで行うこと(ヘテロジニアス化)を見据えている ・クラスタードアーキテクチャ(HTよりマルチスレッド性能が高い) ※従来よりコア数を増やしやすい設計 ・AMD独自のXOP、FMA4、CVT16に加え新命令のAVXサポート ・2ch DDR3-1866まで対応 ・ソケット AM3(もしくはAM3r2) (チップセット890FX, 890GX、SB850が使用可能?)
Ontarioってバルクじゃないの?
団子はとっととGPUの鳥ソフトより性能高いの作れよ 口ばっかりで何も出来てねーじゃん ダセー 出来るまでここに書き込み禁止な
Bulldozer開発を中止して、LLanoのK10改コアで代替するプランを 6月ころに発表すると妄想
昔 1156(笑) 1366こそが最強! 今 1156\(^o^)/1366 intelのソケット変更ラッシュワロタ
K10は6コア版で多分、シングルチップでのコア数の限界に達してる
コア自体にコア数の限界なんぞない。 トランジスタ数と電力、インターコネクト次第。 キャッシュは手入れる必要あるか。
Nehalem-EXはQPIらしいけど 8コアのこれ程度でもリングバスの噂が立つくらいなんだよな バス込みのアーキにコア数限界はあるんだろう
Intelの研究用48コアチップでもPentium2個で1モジュールとして設計されてる 48個のコア全てをバスに繋ぐよりも、多少のレイテンシが生じてでも2個1のモジュールに してバスへの接続点を半分の24箇所にした方が現実的って事だろう アプローチがBulldozerに近いと思うね
>>14 AMDはもう結論出したけどintelはまだ出してないじゃん。
SCCとLarrabeeが並行してる時点でまだ総当りの途中。
AMDは結論出したというか諦めたというか難しいところだな・・・
>>12 ルネサスがSH-2の1000コアとかやってたな。
セガサターン500台分か。
別にbulldozerアーキテクチャがAMDのマルチコア化の結論じゃないだろう とりあえず10コア程度がハイエンドになる今後5年くらいを戦える物として製品化していそう その先のSCCのようなメニーコア向けにはまた別のアプローチをしてくるだろうね
>>5 そうやって並べられると
何だかLlanoの方がよさげに見えるな
>>20 どこに書いてあるんだか判らん・・・
しかし以前出てたソース(ってか誰かの英文コメ)では単にレイテンシ5ってあっただけ(のはず)だけど
整数で3維持なら朗報だ
way2倍容量1/4がどう転ぶか判らんけど
Intelは涅槃でレイテンシ4だったのにまた増えるのか?
何やらかしたんだか
>>21 だからシミュレータで実際のレイテンシ・スループット書いてあるの
表いる?
#ところでmixiのあれって倍率だけ増えていってるけど当選確率は変わってない(むしろ下がっていってる)気がするんだが
言い出しっぺがやれ
>>21 LSU-L1の間のバッファが深くなってるっぽいのよね。
ストアフォワーディングの機能で同じアドレスに対するストア→ロードのレイテンシはシミュレータの値より
小さくなると思われるので、性能への影響は軽微かと。
更に、ロードユニットが2本に増えてるぶんロードを先行実行できるから、コードシーケンスレベルでみれば
Nehalemよりトータル性能は上がってる印象。
また雑魚が来てるのか。鬱陶しいな。
最上位はいくらくらいかな?競合の価格次第?
ちょ団子さん。ここでCRZやってもw
CRZ・・・ホンダ製のコピペ&電波ハイブリッド?
31 :
えるえる :2010/03/07(日) 11:02:33 ID:hWGQNgmr
>>5 LlanoはK10改でOOO強化だからなあ。
わずかとはいえ同クロックでK10よりも速いはずだ。
それでTurbo付き。
32 :
Socket774 :2010/03/07(日) 11:05:25 ID:6PT1Qt+Z
33 :
えるえる :2010/03/07(日) 11:08:39 ID:hWGQNgmr
なにげにOOO関係のバッファ類の増加とTurbo/PGの導入とGPUとの融合ってあたりで K10→Llanoの改良はCore 2→Nehalemの改良トレンドに近い。 むしろAMDが対Intelとして後から用意した回答がLlanoであり、 Bullはやはりトレンドをやや見誤ったのでサーバ向けだろう。
34 :
えるえる :2010/03/07(日) 11:10:20 ID:hWGQNgmr
ソケットソケットいってるやついるけど、 ソケットはIntelもAMDもがんがんかわるよ、これからは。 いまどきソケット形状が同じで何がうれしいのか自分には理解できんけど。
LGAはやめてほしいな AMDがLGAにしたら自作やめるレベルできらいだわ
36 :
Socket774 :2010/03/07(日) 11:14:01 ID:6PT1Qt+Z
気になるのは一気に移行させるか 徐々に移行させるかだよ
37 :
えるえる :2010/03/07(日) 11:14:44 ID:hWGQNgmr
LGAはそれまでのソケットとちがって板ばねみたいな構造でCPUのピンをはさむのではなくて、 CPUとマザーボード側が面で接触するようになっている。 だから寄生インダクタンスの影響をうけにくい。 ほんとうはBGAのほうがいいが、BGAは接触面が球面なのでソケット化できない。 IntelもAMDも自作er向けにパッケージングやソケットを考えているんじゃないんであしからず。
38 :
Socket774 :2010/03/07(日) 11:17:25 ID:6PT1Qt+Z
39 :
えるえる :2010/03/07(日) 11:17:47 ID:hWGQNgmr
いやBGAも球面で接触してるわけじゃねーな。 BGAにしたかったけど無理があったからLGAのソケットになったってのは 話にあった。
40 :
えるえる :2010/03/07(日) 11:19:30 ID:hWGQNgmr
>>38 自作人にもいろんな価値観があるだろう。
自分の場合は無理なピンアサインとソケットの構造で
新しい世代の電気的な仕様を押し込むという路線はすきでない。
同じソケットでCPU交換するなんていまどきまったくやらないしな。
マザーがこれだけやすくなったのにWin95時代の価値観のやつが多くて困るわ。
41 :
Socket774 :2010/03/07(日) 11:21:41 ID:6PT1Qt+Z
>>40 ?
>自作人にもいろんな価値観があるだろう。
だから良いじゃんwソケット気にしてもw
42 :
えるえる :2010/03/07(日) 11:23:51 ID:hWGQNgmr
>>41 気にするのはかってだが、
ソケット厨みたいなのがいて
ソケットをかえるのはユーザ無視だとか、
被害妄想で切れ始める厨房がいるんでね。
まあそういうやつは不安定大好きの真性マゾだろうから
下駄でも自作して使ってればいいんだが。
43 :
Socket774 :2010/03/07(日) 11:24:27 ID:6PT1Qt+Z
>>37 AMDがZIFソケット使ってる理由ってのは
なんなの?メリットあるの?
45 :
えるえる :2010/03/07(日) 11:30:56 ID:hWGQNgmr
デスクトップは934pinのFM1、 ノートは722pinのFS1だな。 GPUを統合しているせいで、これからはGPUの世代にあわせて ソケットが変わる、形状がおなじでもマイナーチェンジで互換性がなくなる ということは普通に多くなるだろう。
AMDも鯖向けのやつはLGA使ってたが
メーカーはメーカーの損得勘定があるだろうし ユーザーにもそれぞれそんなのがあるでしょ
>>45 > デスクトップは934pinのFM1、
> ノートは722pinのFS1だな。
> GPUを統合しているせいで、これからはGPUの世代にあわせて
> ソケットが変わる、形状がおなじでもマイナーチェンジで互換性がなくなる
> ということは普通に多くなるだろう。
IntelはそうだがAMDでそれはないな
外部バスは今まではHTとメモリバスだけだったけど、今後はGPU内蔵でディスプレイ出力が増えるだけだからね
Fusion世代ということで映像出力バスを追加、HTバスもより高クロック対応など、
現行より多少強化したもので作っておけばメモリ規格の変更がない限りソケット変更は必要無くなる
FM1がまさしくそれじゃないかな
恐らくBulldozer世代も想定しているはずだから互換性はあるだろう
LlanoはPCIeBridgeは統合しないの? 今まで出ているダイ写真だと統合してないようだけど、 後藤記事には統合するのが本当のLlanoみたいなこと書いてるんだけど。
50 :
えるえる :2010/03/07(日) 11:57:35 ID:hWGQNgmr
まあソケットが変わらないのが良いと雑誌の読みすぎで信じ込んでいるやつのセンスは わからんな。 あとGPUを内蔵したことだけではなく、今後はTurboのような電力管理技術の進歩にともなって 電源の要求がかわってくるし、GPUの電源分もあるから信号だけ同じでも互換性があるものをだすのは 難しくなっている。
51 :
えるえる :2010/03/07(日) 12:03:34 ID:hWGQNgmr
ソケットをかえないということは、新しい世代では電源やGNDの数をケチったり 無理なレイアウトでの引き回しを許容してるわけで、なんでもかんでも古い世代をそのまま流用できるのがいいってのは間違い。 というかマザー1万前後の時代に実際CPUの交換してよろこんでるやつってどんだけいるんだろうなあ。 もちろんソケット同じで電気的な仕様が変わる場合も、電源などの要求仕様が新しいものにあわせてリファインされている わけでもありこれを安心と感じるか、ユーザ無視の仕様変更と感じるかは意見のわかれるところだろうな。
>>49 Pcie統合したらHTの役割って低くなるよなw
インテルはVGA専用の線ひいてたが
>>30 ああ、「小数点は削減するけどモノ自体は良くする」ってちらっと見たことあったけど
積和のことだったのか
SSEみたく「Intelが対応するからうちも」「しかし独自にやらせてもらう(扱う変数が1つ多い)」てことで
たしかレイテンシも大幅増だったしやはり手抜きだろうなあ
L1D Latency Bulldozer int 3 fp 5 Sandy Bridge int 5 fp 6 fp256 8
レイテンシや帯域だけでは性能を図る事は出来ないので 物が出てきてからでも良いじゃないですか
そうだね(笑) Bulldozer (v)addps 6 (v)mulps 6 Sandy Bridge (v)addps 3 (v)mulps 4
57 :
Socket774 :2010/03/07(日) 13:36:07 ID:hYrPtw3F
>>49 順当に考えたら、公開されているダイ写真がノート向けなんじゃね
一応スペック的には外付けGPU並みの性能がある訳だし
大多数のノートPCでは必要性がないって判断したのでは?
>>56 のように知的障害者が騒ぐ分には一向に構わないとしても
Intelだってそこを突いてくるだろうし
GPGPUが勝勢になる前からFPU/SSEを手抜きするってのは結構な冒険だよなあ
「手抜き」って言っちゃうから半可通は困るな レイテンシ増大の理屈は適っている
Bulldozerは2コアでデコーダを共有しているけど 本来は1コアだったものを、コア数を多く見せかけるために コアをモジュール、整数ユニットをコアと呼ぶことにしたのか?
積和融合演算器が単体の乗算器、加算器より深い演算パイプラインになること そしてパイプラインが深くなればその分命令のレイテンシが増えるのは明らかじゃないか そんなことも理解せずに手抜きといってしまうのはAMDの技術者に対する冒涜だな 逆に言うとマイクロアーキテクチャが変わらない限りレイテンシは改善されないね。 そもそも手など抜いてないから。
>>60 L1が二つだし、本来から2コアだよ
回路節約のため、共有できるものをくっつけた
GPUが糞なのでx86SIMDに賭けるIntel GPGPUで小数点・ベクタを賄いたいがx86SIMDの保険も忘れることができないAMD そしてあらゆるところに電波を潜り込ませようとする雑音
GPUなんて使ったらますますレイテンシが大きくなりますがwww
クラスタ構造を提案したAndyGlewによると、元はWillametteのHTTが遅くなるのを 改善するために二重化した部分をクラスタ、デコーダとか共有部分まで含めた全体をコアと していたらしい。 AndyGlewからすると、マーケティング上コア数を倍にするために呼び方変えたことになるらしい。
Bulldozerはそもそも2009年末の予定なのでSIMDユニットの構成がSandy Bridgeと比べて 見劣りしても致し方ない面もありそれを手抜きなどとは言う気は毛頭無いが 万年β版のStream SDKは明らかに手抜きだよな 1.0を完成させないまま2.0のβ(実質α)とかプロの仕事じゃない
というかBulldozerがダメなのは128bitSSEを共有にしたところだろうな。 まぁ、共有するしか無かったわけだが・・・
>レイテンシや帯域だけでは性能を図る事は出来ないので ↓ >そうだね(笑) と同意した直後からの雑音のこのレイテンシへのこだわりようは一体何だろう? x86SIMDやキャッシュの低テイレンシ構成だけでこの先生き残ろうとしているIntel信者らしくはあるのだが 反面、用途次第でGPUに100倍性能差をつけられてる事実や AMDがコアあたりのFPUを減らして手抜いている事実が全く見えなくなっている
128bitSSE、2パイプの共有じゃなかったっけ 違ったらすまん
>>67 だからコア数じゃなくてモジュール数で見れ。別に少なくないから。
元々はNehalem/Westmereの4C8TとBulldozerの4M8Cで対等以上に戦う予定だったんだから
十分妥当な数字だろう。
問題はSandy BridgeのSIMD性能を見誤ったこと。
いくらIntelのコアが無駄にデカいからって 「同じくらいの大きさになりそうなモジュール単位で比べろ」ってのもなあ HTで1コア2スレッドつっても 無駄に並列化して余ったリソースをバグなど気にせずがめつく使おうってだけのものだし
今日のプリプリフェフェフェッチくんは ID:2moEEfAj
2つの整数クラスタが物理的に独立した物でReverse-HT(笑)が理屈的に無理だと悟って 「コア」の新たな定義をすんなり受け入れてるのは笑うところだが その「コア」あたりの整数ALUが減った分はどうやって性能賄うのかな。 ただでさえSPECintでダブルスコアで負けてるのに、整数ユニットやL1Dキャッシュを減らしてる 余裕はないと思うんだが。 FPが少ないとか無茶言うなよ、 FP演算のアドレス算出にだって整数ユニット使うんだぜ 1「コア」あたりのデコーダも整数ユニットも減ってるのにFPUを増やすなんて現実的にありえない。 FMAで1ユニット当たりの理論性能2倍なんだからそれを受け入れた方が素直だろ
一時期「2コア1スレはどうしたー!」と名無しで散々喚いていたのはやはり雑音でした それについての特許やら ヨナからコンロでデコーダと実行パイプが増えたのにも関わらず整数スカラ性能が伸びなかったことやら 何度かスレで出てきたのに全部わすれで電波で穴埋め >FP演算のアドレス算出にだって整数ユニット使うんだぜ 雑音のレスを真に受けるのもアレだけど K7系がAGU3つもあるのはもしかしてこのためか
CPUから直接GPU出力するのかな? インテルみたいにFDIみたいにするのか。 どっちなんだろうか。
>>19 同一の製造プロセスでバクチ要素皆無のLlanoが
良く見えるという話は分からなくもない。
FPの演算ユニットがモジュール当たり2つしかないことがネックだとするならば 従来のFMISC/FSTOREが見あたらないことのほうがよっぽど実効性能上問題だよ もしこれらが積和ユニットに組み込まれてるとすれば、同時発行ができない。 行列積演算で必要なブロードキャストができないってこと。 その点でSandy Bridgeのfadd256, fmul256, fperm256の3ユニット構成は理に適っている。 vbroadcastss → vmulps → vaddps で8並列の行列積の1イテレーションが1サイクルで完結するからね。 ちなみに、同じコードならBulldozerは机上計算上3サイクルかかる(笑)かもね いや、単に図に書かれてないだけかもしれないので断定はしないけども
FSTOREは型変換とストア(とK10ではレジスタコピー)だけだった シャッフルはFADDとFMULに発行する
> vbroadcastss → vmulps → vaddps で8並列の行列積の1イテレーションが1サイクルで完結するからね。 あれ? それってレジスタ数多くないと意味なくね? SandyのSSEハードウェアレジスタ数何個か知らないけど、論理16本で足りるの?
IBMはPowerPCで、AltiVecでAppleやMotorolaと対立してたな IBMは「消費電力ではAltiVec有り300MHz(CPU)とAltiVec無し500MHzが同等、普段使いで考えると後者が良い」と言ったが 当時はマルチメディア全盛だったから結局押し切られた 結果PowerPC MACはPCに引き離され始めて敗退 当時の製造技術ではまだ128bitのSIMDは荷が重すぎた
中の人の情報だとレジスタコピーはスケジューラレベルで後続オペレーションと融合されるようなので専用ユニット不要 Storeも回路の最適化すれば要らなくなる気がする 2つの積和ユニット以外にvpermil2psをシングルサイクルで発行できるユニットがある場合 vfmaddps(128b)×2とvpermil2ps(128b)×1で16SP/cycleは維持できる。 勿論これにもAMD専用のコードを書いてやらないといけない。 CellのSPEと同じく転置行列積を使う方法になるので、Intelのデータのパッキング方法そのものが変わる。 (単純にmul+addをfmaに置き換えただけでは性能は出ない) 同じ方法で2ユニットなら10.6SP/clk、broadcast+FMAだと8SP/clkしか出ない。 ちなみにコア数で割るとその半分ね。
>>79 C = A×Bとすると、8本で8x8行列を構成Cに割り当てる。
残りの8本ににAとBを部分的に読み込ませる。
vbroadcastssでのロードは128bit分しか使わないので、2サイクルに1回はvmovaps (256) を同時発行出来る。
レイテンシはfmul+faddでも7なので何とか足りる。
いやそれめっちゃギリギリに聞こえるが…… みんなのレジスタを団子にちょっとずつ分けてやってくれ。
離れた場所のレジスタとかほんと無意味だよな
ぶっちゃけレジスタリネームあるんだからbroadcastss用のレジスタは1本あれば十分だよ。 残り7本はBに割り当てて、1列分はスワップすればいい。
【構成】 Bulldozer : 16KB, 4-way set associative Sandy Bridge : 32KB, 8-way set associative 【帯域】 Bulldozer : 32 byte? Sandy Bridge : 48 byte(32B Load + 16B Store)
>>80 IBMはSCEIにもCellの設計に関して忠告してたんだぜ
ローカルストアは使い勝手が悪すぎるからキャッシュにするべきと。
久夛良木氏と山崎氏によって結局押し切られたけど
CPUの設計に関してIBMはけっこう適切な助言をしてるんだな
相変わらずAMDの連想度は・・
次次期intel cpu は必ずBulldozerの設計思想をパクってくるな
SPEのローカルストアの得失はさておき、 > ローカルストアは使い勝手が悪すぎるからキャッシュにするべきと。 こんなのは「雨が降るから傘持って行きましょう」レベルの凡庸な「助言」だろ。
>>91 ユーザー減少率No.1の携帯キャリアの売り文句だもんな、満足度って
>>80 ------------------
当時はマルチメディア全盛だったから結局押し切られた
------------------
押し切られた?当時IBMはAltivecを実装したPowerPCを販売しませんでした。
そして、コード資産がたっぷり溜まったころに実装して、ゲーム機や自社のサーバー向け
で大儲けしています。
PPC970以来、POWER6, POWER7, PX (xbox360 CPU), PPE (Cell)、全てAltivecとその
後継ベクトル命令セットを実装しているという…
IBMと手を組むのは、悪魔と取引するのと変わらないですな(笑)
高クロック実装が困難になるくらいに1ステージに演算を詰め込みすぎたのは事実でしょ。 事実G5のVMXは命令のレイテンシがG4の2倍程度に伸びてる(が、それでもx86のクロックに及ばなかった)
だから、製造技術と集積度が上がった今ならやれるってことだろ。
>>95 -----------------
それでもx86のクロックに及ばなかった
-----------------
もしやPentium4と比べていませんか(笑)
NGワード推奨:レイテンシ 理由:パフォーマンスを追うりょせず、この言葉のみを使う人が大杉
Pentium 4と比べたら問題か? まさかAthlon 64に実効性能で勝ってたとでも?
キチガイの溜まり場と化してるな。
G5(PPC970)はx86でいうAGU相当のアドレス演算操作を汎用ALUでやらないといけないのに、 それが2本しかないから、一般的なワークロードでは同クロックのx86よりも実効性能は低めなのですよ。 SIMD使った場合はその限りじゃないけど、そもそもSIMDユニットのスループットを支えきれるほど 足回りが強くないので(以下略
>>101 -----------------
AGU相当のアドレス演算操作を汎用ALUでやらないといけない
-----------------
MMUとか、論理/物理アドレスとか知っていますか?
>>100 34スレ目にしてそれは今更過ぎるw
今夜はオタと団子が大暴れか
無理言うなよ PowerISAに簡単なベースアドレス+オフセット(レジスタor16ビットまでの即値)みたいな貧弱なアドレッシングモードしかないのはみんな知ってるから SIB + DISPみたいな指定は出来ないだろ
それが1命令で出来るのがはたして嬉しいのかどうかは 長い長い終わらない話になると思うんだが……
どの陣営もクロック向上に行き詰まりオペレーション密度を引き上げるために命令拡張を繰り返してるのを考えれば 利用頻度の高いメモリ操作の命令密度が最初から高いのはx86の強み いくらレジスタを増やそうともコンピュータとはメモリを読み書きするものだからね POWER7なんて一種の「内部CISC化」までやってるくらいだし
コテの隔離スレでも出来ないもんかねー
ここがそれです
>>104 -------------------
SIB + DISPみたいな指定は出来ないだろ
-------------------
RISC的にはどうせシンプル整数演算を行うなら、その分整数演算ユニットを増やせば良い
ということになります。3つの単純IUと1つの複雑IUを持つG4+は、そういった例ですね。
そういった点でIBMのアーキテクチャが良いかどうかは別の話かと。
むしろ
>>102 で書きたかったのは、メモリアクセスに当たっては「論理アドレス」を計算
すれば終わりというモノでは無いという話だったのですが…
糞コテども、せめてx86やAVXで騒げ Altivecなんかどうでもいい
> RISC的にはどうせシンプル整数演算を行うなら、その分整数演算ユニットを増やせば良い > ということになります。3つの単純IUと1つの複雑IUを持つG4+は、そういった例ですね。 んで、そんな馬鹿げた思想から脱却できないから全部を同時実行できないから 結局デコーダのスループットに縛られてx86に水をあけられるわけですよ。 32bitの即値をロードするのに2命令かかるとか馬鹿馬鹿しいにも程がある。 下手すると同クロックのAtom以下の性能ですね。
とはいえ可変長命令のデコードもまた無駄が多くてバカバカしいものの 一つだからねえ。そこは決着つかないよ。
おすすめの64bit即値を1命令でロードできるVLIWアーキテクチャがあるんだが
いやさ、そもそもG4+って3命令しかデコードできないんだからALUの個数増やそうが性能あがんねーわけで。 そもそも同クロックのPentium IIIの整数演算性能に全く勝ててなかったので解決策になってません。 > 良いということになります。 (笑) ジョブズのPhotoshopプラグインでのベンチ1項目で2CPU駆使して勝っただのと浮かれてた時代の マカーには常識は通じないのかね。 そもそも最大6μOPsを同時発行できるCore MAなんかと同等のクロック当たり性能を実現するには 単純に考えればRISC型のISAなら6命令かそれ以上を同時デコードしないといけないわけで、 仮にデコード出来たとして、依存関係をチェックしてスケジューリングするコストは命令数の2乗に比例して 大きくなるから結局破綻する。 んで高IPC路線では勝ち目がないからIBMはPPC970の後継製品を凍結して苦し紛れの高クロック路線と。
「AGUが2本のCore2は糞」とか言い出してるな
Load/Storeユニットの本数分だけあれば十分だよ まさかあるわけないと思うけど 3本あってもLSUが2基しかないから1本は必ず休むような マヌケ仕様なら3つある意味ないじゃん。
> まさかあるわけないと思うけど そのまさかと思われるようなマヌケ仕様があるらしい・・・ 確かスケジューラが糞だからこうなったとか言ってたなぁ・・・ ところが信者そのように理解しておらずリッチだと騒いでるらしい・・・
まさか、あるわけないじゃん 「デコード前にスケジューリングしてるからスケジューラが強力(キリッ」だとか? それって要するにμOPsレベルでの細粒度のスケジューリングはできてませんってことですよね んで、3本のALU毎にリザベーションステーションが独立とか? そりゃALU(+AGU)を冗長構成にしてやらないと性能を発揮できないわなwww 噂には聞くけど、そんな夏休みの工作レベルのポンコツCPUなんて本当に実在するの? 都市伝説のレベルだろ
>>118 都市伝説だと思うのだが世の中にはいろんな人がいてね。
こんな記事を書くひとも居たりするから・・・
セカンド・オピニオン
184 Core MicroArchitectureをもうすこし(8)
http://journal.mycom.co.jp/column/sopinion/184/index.html > ただK8については、上の特集でも説明したとおり、依存関係の解消を一度早い時期に行っている(Fetch→Pick→Decode 1 / Decode 2→Packの段階で、
> 一度依存関係の解消を行った上でMicroOpを生成しなおしている)から、ALUの直前のスケジューラのエントリ数が少なくてもそれほど不思議ではない。
> むしろこうした凝った構造をもつK8のパイプラインを見てしまうと、Core MicroarchitectureのスケジューラやROBが「こんなに単純で大丈夫なのか?」と思えてしまう。
大原www 馬鹿すぎて笑うしかねぇwww
「フェッチ=プリフェッチ」「データ並列=タスク並列」 なんて電波を四六時中発してる奴と 普通の人間で色々と情報に通じてる記者 どっちを信じるかと言ったら断然後者だな 推測ならともかく情報ならまず正しいだろうし K8では早い段階で依存関係を調べられるということは 「K8のスケジューラはろくに依存調べずにパイプに流す」とかいうのは電波で ↑の代わりに「パイプを雑にというか無駄に使う」要因となるのはキャッシュ性能の悪さってことになるのかな 2wayでは局所性の高い鯖ですらスラッシングが発生するらしいし
そうだね四六時中プリフェッチな君はバカすぎるから帰っていいよ
960T詳細まだ〜
大原君はSandraベンチみて「PhenomはL3が遅い。コア間の転送速度も遅い(キリッ」とか書いちゃう人だから CPUアーキについてはド素人
ん? PhenomのL3は遅いだろ? もちろんIntelと比較しての話だが。
キャッシュの影響を殆ど受けないソフトでも遅いんだよなぁ・・・ やっぱり大原は馬鹿だろ?
雑音の習性からすると
>>127 1行目の主語は「L3キャッシュ」
>125 L3遅いのは事実だし
遅いとか速いとかどうでもいいんだよ ここで注意する点は「雑音」
雑音とはAMDに不利な事実を語る人やニートに現実を語る人のこと 複数の人物を同一人物と思い込んだりする病気もちが連呼する言葉
雑音乙
>>135 PPUがPowerPC 970互換だったのは覚えてるが、
970はPOWER4ベースだ
もともと、POWER4はデュアルコアだったしね
もうPOWERがデュアルコア化して、10年経つのか〜
>>122 でもデコード段階で依存関係を調べられるとは思えないんだよな
K8のリザベーションステーションにはCoreと違って分解前のμopsが入ってる
最大でCoreの3倍のμopsが1エントリに詰め込まれている可能性がある
だからK8の8エントリが32エントリのCoreより著しく少ないとは言えないと思う
実際にK8のダイに占める3本のスケジューラの面積は大きい
机上で考えるだけならどれだけでも良いのが考えられる でも製品として出すには色んな制約があるわけで そこら辺を考えずに実際の製品を非難しても厨二思考でしかない ましてや後からなら何とでも言えるからな 団子うま
>>139 > ましてや後からなら何とでも言えるからな
全くその通りでベンチ結果を無視して適当に騒いでいるのが大原氏だよ。>119参照
現実的な物の見方をしてれば 厳密に言う「何とでも言える」というのは有り得ない 本当に「何とでも」言ってるのは雑音だけ そして常に笑われる
> to allow games to be remotely played via PCs, without > the need for enthusiasts to constantly reinvest in new hardware. 最新のGPUを持たないPCでリモートプレイ
無いよりは遠くにでもあるほうがマシだろう
ノートやネットブック利用者層をユーザーに加えられるなら美味しい仕組みになるな
1Gb/sで接続してもPCIeの速度の40分の1だがな。 USB3.0を振るスピードで接続しても8分の1。 現状じゃ廃エンドGPUが初代ゲフォ程度の性能に化けるってことだな。 それって誰得
NVIDIAの"Optimus"と同じ方向性だろ。
>>148 簡単じゃん。「1Gb/s」なんて低速で接続しなければいい。
外付けPCIe規格もあるし、なんでそんな低速を前提とするのか理由もわからん。
151 :
えるえる :2010/03/14(日) 14:07:18 ID:yTI07Xf+
は? このスレ大丈夫か?
152 :
えるえる :2010/03/14(日) 14:08:17 ID:yTI07Xf+
最新の動画圧縮技術を使用しているため、 最新のGPUでデコードしてくらはい。
こいつが居て大丈夫なわけがない
つか。
>>143 の記事を読んでみてわかったw
オレが全く見当違いのこと言ってるなw
155 :
えるえる :2010/03/14(日) 14:20:36 ID:yTI07Xf+
しかし、時間方向に圧縮しているはずなのに プレイヤーの入力でリアルタイムに生成される映像を どうやって遅延なしでエンコードして配信できるんだろうな。 この技術いつも疑問だ。
>>150 ほとんど密着に近いような外部接続PCIeじゃメリットがなくなるだろ
だったら最初から内臓でいいわけでは?
そもそも、これってあわよくばGPU能力を遠方からシェアできればって目的なんだろ?
まだ転送速度のボトルネックが大きすぎてリモートGPUをするには課題が多すぎるって話。
157 :
えるえる :2010/03/14(日) 14:23:20 ID:yTI07Xf+
むしろ売りは実際のサービス業者のサイトで宣伝されているように、 プラットフォームに依存しないことだろうね。 たとえばPCと携帯電話で同じゲームができてもおかしくない。 携帯側は解像度さげればいいだけ。
>>156 記事を読む限り、「GPUを遠方からシェア」ではなくて、
ゲームクライアントや何やらは全部遠方にあって、
その結果だけが帰ってくる感じだろ。
ぶっちゃけた話で、将来的にはPCではなくTVであっても、
ネットに接続できればそのままゲームができるような技術だろ。
その為のサーバーじゃね? 読み間違えてなければ。
>>157 それは理想であって、実際は操作性を
考えなきゃいけないからできないだろう>PCと携帯で同じゲーム
たとえば、PSPは「PSのゲームをそのまま移植できる!=ソフト資産が豊富」なのが
売りだったが、LRボタンが足りないせいか、Playstation archieveのソフトの
数はちょっとずつしか増えない。
PS2のゲーム至っては、LRだけではなくて、スティックの数も足りないから、
そもそも移植すら出ないことが多い。FF10とか、バイオ4あたりは
出てもおかしくないはずなのに。
ゲーム機でこれだから、携帯電話とPCで同じゲームなんて夢物語だろう(もちろん、ものによるだろうけど)
160 :
えるえる :2010/03/14(日) 14:34:01 ID:yTI07Xf+
クライアント側はプレイヤーの入力をサーバに伝えるのと、 サーバからストリームでくる動画データをデコードして表示する ってだけ。だからサーバ側でつくりこみがしっかりしていれば、 クライアント側の環境にはほとんど依存しない。 Webカメラでゲーム画面配信して、コントローラからの入力を インターネットにのっけっているだけってイメージ。
161 :
えるえる :2010/03/14(日) 14:35:14 ID:yTI07Xf+
>>159 ライトなゲームなら可能だろ。
なにもハードなFPSを携帯とPCで対戦しようなどとはいってない。
クライアント側のソフトの開発費は格段におさえられたうえで、
利用者をふやすことができる。
そうなのか(´・ω・`) Java以上に普及に困難を極めそうな話しだの
163 :
えるえる :2010/03/14(日) 14:36:14 ID:yTI07Xf+
まあでもエンコや通信遅延の問題があるから、この技術には限界があるだろうな。 ヘビーユーザの間ではやはりはやらないんじゃね?
あ。既知外えるえるがいるのか。相手にして楽しいのか?
>>159 ?
消える宣言したくせに、消えていないのはキチの典型例だし。
>>162 確かにそれはあるな。まぁ。でもネットワークが発展すれば、
さほど困難でもなさそうな気がするが…。
あるいは、インターネット仲介ではなくて、
ネットカフェやらで考えるならば、
半端に良いクラスのPCを買わなくてもいいとかなw
165 :
えるえる :2010/03/14(日) 14:42:55 ID:yTI07Xf+
しばらく消えるといっただけで永遠にきえるなんていってないぞ、 低脳くんよ。君のオツムでは理解できないから無理にこの件について議論しなくてOK。
ネットワークを通す場合、帯域はまだ増やせるけど、レイテンシを減らすのは困難なんですよ。
>>166 「レイテンシ」が「何のレイテンシ」を指しているかわからんが…。
アレか? ネトゲの"遅延"や"ラグ"みたいなものを言っているのか?
それはネットワークの"質"の問題では?
>>166 そうそう。物理的な距離の壁がどうしても
埋められないんだよね。
>>167 例えば、一度に遅れるデータを
1Mbitから100Mbitにするのは簡単だけど、
要求→応答までの時間を100msから10msにするのは
非常に困難。なぜなら物理的に距離が
離れてるから。クラウド時代になってから、
特に重要視されてる。
>>168 それならば"OTOY"みたいなゲームサーバーを、
地域ごとに複数台建てるしか解決法がないのでは?
でも、いまのネトゲだって、鯖が日本国内に複数台。
地域ごとにあるとは聞かないから大丈夫じゃない?
170 :
えるえる :2010/03/14(日) 15:01:46 ID:yTI07Xf+
レイテンシといっても 電気信号や光を用いて伝達することによる回線の遅延 ルーターなりハブなりの回路やファーム処理を通過する通信回路上の遅延 サーバ上でのソフト処理 と3種類くらいあるの混じっていってるのだが。 今回の方式の場合は、ストリームで提供されるから帯域が増える(レイテンシは直接関係ない)ってのと、 高い圧縮率でエンコードをするためには何フレームかデータをためる 必要があるのでそこでエンコードの遅延がある。 インターネット上のレイテンシの巨大さを考えれば、 クラウド(笑)なんていうのはコンピュータが情報処理の時間コストを死に物狂いで削減してきた歴史を まっこうから否定するような一過性の電波思想にすぎないので、あてにしてはいけないということだ。
話しの脱線に拍車をかけてしまった立場で言うのもアレだけど そろそろ脱線やめないか?
集金体系を考えるとクラウドに向かうのは必然だろう
あーはいはい、つまり割れの根絶の第一歩ってことね
That'sONかw
国内なら各県毎にゲームサーバーを持つとかすればいいんじゃないかな あるいは無駄にハイエンドなGPUを持ってる人が有償でマシンパワーを提供するとか
結局東京と大阪あたりにサーバ置いておしまい
1コア辺の性能比較するなら SpecIntの値見るのがいいんだっけ? 4CPUとか合計じゃなくて、1CPUの性能値 見たいんだけどどこかに無いかなぁ
AMDのOTOYの他にもゲームストリーミングサービスは何社かが始める予定だね これらはゲームソフト自体もサーバー側にあるから、お試し版なんかだとソフトのダウンロードすら無しに ホームページ開いてボタン1クリックでいきなりゲームを始められるらしい 正式版は認証ソフトぐらいは要るかもしれんけどね
OnLive見たけど、やはりレイテンシについては何も言及してないね。 サービスインの延期を繰り返すか、ごく僅かなユーザ数で既成事実を作り、 最後はトンズラかますに100void。 レイテンシが許容されるSLGとかRPGとかなら、UIはローカルで実行して、 レンダリングだけオフロードなんてのがありうるけど、アクション全部 ストリーミング化は無理。
レイテンシ云々言ってるアホは ネットでFPSの対戦出来ないって言ってるのと同じ事になるんだがなw
対戦ゲームは、パケットがすぐに届かなくても見た目不自然にならないように、 レイテンシやジッタを隠蔽する仕組みをゲームシステムの中に作りこんであるのですよ。 でもコントローラ操作→画面表示は隠蔽のしようがない。
>>178 イマドキのコンパイラは自動並列化で勝手にマルチスレッドコードを吐いたりするから、
SPECIntもシングルスレッド性能を表すとは限らないよ
>>183 はいはい。「レイテンシ」って言葉を使いたがっているのは理解した。
自分の発言を上と下で否定しあって何か楽しいのか?
これはきっと「画面表示は隠蔽しない」というお花畑だ
もしそうならば
>>182 の発言がせいかいだったな。
いやID:mcQhq8zAが言いたいのは 「レイテンシはプログラムで隠蔽出来るが画面表示は隠蔽しない だからアクション(全般)は×だが(対戦)アクションは○だ」 ってことだろ それが雑音てもんだ
動作に遅延が生じるのは確かだろうね だからこそゲームストリーミングサービス系の会社はどこも拠点を全国展開してる でも、遅延がある反面、対戦などでは『よけたはずなのに攻撃を喰らった???』という事は生じなくなるから良い点もある 何はともあれ、PCや家庭用ゲーム機などネット端末ユーザー全てに販売機会が生じるのは美味しい ネット関連企業やサーバーメーカーがあちこちにサービス拠点を建てる日が来るかもしれない 市場規模は5.5兆円で巨大な産業な訳だしね
>>178 SPECintで"Auto Parallel: No"と書かれている結果を
見るとよろし。
現状DX11レベルののグラフィックを処理できるハードは実質HD5000シリーズしかないからな、 何がどう転んでもAMDの独壇場になるんじゃないかな
GTX4系の発表までまだ二週間以上あるしな
>>183 こういうこと?
・絵作りをクライアントで行う
通信にラグがあっても、過去に受け取った情報と自キャラに対する操作情報だけを
基に嘘の表示を続けることができる。
敵や他プレイヤーの動きがラグることがあっても自キャラはラグらない。
・絵作りをサーバで行う
自キャラに対する操作をクライアント内で即時反映させることができないので
自キャラまでラグる。
>>193 横からだけど、それで合ってるんじゃないかな。
そのラグの度合いもサーバで絵作り→エンコ→配信だから、今より酷くなると思う。
操作もクライアントでデコードされたモノに対してだから、こっちも酷くなるんじゃないかな。
サーバが混むとラグくなるだけじゃなくて、紙芝居→バッファリング中…とかになる可能性が。
サーバ側も普通のストリーミングと違って各ユーザ毎に全て異なる絵を送る必要があるから
フロンとバックエンドの帯域も凄い事になるし、サーバの消費電力とラックスペースが
従来のタイプに比べて恐ろしい事になりそう。これまでと同じ値段では無理かと。
将棋とか花札なら問題ない(かもw)
>>193 描画機能の場所での区別の件なんて>183に書いてないだろ
30fps基本で、帯域によって解像度も個人個人で変わってくるんじゃないかな。 ゲーム開始時に環境調査で回線速度測って、プレイ可能な解像度やFPSを設定してから開始とかね 殆どのユーザーがVGA(640*480)で30fpsの設定になるんじゃないかな 将来動画圧縮技術が進歩していけばより高設定に出来そうだけど
圧縮自体は親機側のハードウェアでやればいいだけだし
199 :
sage :2010/03/15(月) 12:51:06 ID:0+CQ7iuY
>197 今更VGAで客は呼べないよ…… 携帯でならともかく。携帯専用にしてもいいけど、それじゃせっかくのプラットフォーム非依存のウリを捨てることになる。 かといって環境に余裕のある人は高解像度だったりすると、一方的に狩れるからゲームバランスが崩壊。 そのために解像度や視界制限したりすると、糞ゲ確定
環境設定出来るとゲームバランス崩壊・・・
帯域に見合ったオブジェクトを送ってやればいいだけじゃないかい ジオメトリだけ送って後は任せてしまうとかでもいいし サーバーでユーザーが関与できない範囲の物理演算を済ましてしまうとかも面白い
プラットホームフリーが形無しだな
ああリモートGPUの話なのか サーバーサイドレンタリングと勘違いした ゴメン忘れてくれ
レンダリングサーバーとか当の昔に普及しちゃって市場も出来上がってるじゃん。
>>199 > 今更VGAで客は呼べないよ……
別にVGAオンリーとか最高がVGAとかじゃないだが
全員が光でHD余裕とかなわけじゃなし、サーバー側のリソースや一般的な回線速度を考えるとってだけだ
> 携帯でならともかく。携帯専用にしてもいいけど、それじゃせっかくのプラットフォーム非依存のウリを捨てることになる。
何が非依存なんだ?
プラットフォームの違いなんか、解像度とデコード能力の差しかない
> かといって環境に余裕のある人は高解像度だったりすると、一方的に狩れるからゲームバランスが崩壊。
意味不明だな
高解像度になってもデテールが詳細になるだけでオブジェクトの数や位置関係が変わるわけじゃないよ
少なくともゲーム性に影響は全くない
> そのために解像度や視界制限したりすると、糞ゲ確定
世の中糞ゲしか存在しないのか
ID:IjRghQpWがゲームに対する見識が浅いことがよくわかった
207 :
えるえる :2010/03/15(月) 20:34:48 ID:BdHa7b/f
ワラタ。まだこのネタの議論やってんのか。
たぶんZの仕業
210 :
えるえる :2010/03/15(月) 21:59:50 ID:BdHa7b/f
AMDさんの技術力は世界一っぽい
なんとiPhoneでCrysisが!?ゲームストリーミングサービスにAMD勢の「OTOY」が参戦
ttp://beeep.jp/2009/092580.html ・iPhoneにCrysisをストリーミングさせて動作
・BioshockやGrand Theft Auto IV、World of Warcraft等がすでに動作しており、
・OTOYは1080pの60fpsでストリーミングが行われており、
快適なプレイが楽しめるネットワーク帯域幅として20Mビット前後が閾値になる
課金システムを構築できれば運用出来そうなレベルに仕上がってるみたいだw
世界中に拠点を作るのなら、夜や休日はストリーミングサービスをやって 昼は処理能力の何割かを企業にレンタルしたりとかも面白いかもね
予言…次レスに Fusionイラネって書き込まれる
雑豚はいつまでグダグダくだらねぇネタ引っ張ってんだウザイから消えろクズ
将来のゲーム業界のハードウェアはAMD(OTOY)が支配しそうだな ネットワークレンダリングのサーバーはRADEON+OpteronのOTOY コンシューマ機のGPUはRadeonの派生(DX11やOGL4世代) 携帯機の中身はSnapdragon(Radeonのサブセット) PCのディスクリートもRadeon DX11策定はAMD主導、それを真似たOGL4もAMDが先行 DX11ゲーム開発のほぼ全てに機材貸与などで関与 XBX360とWiiはRadeonのサブセット サーバー用のOpteronとATI Streamの総合プラットフォーム所持
盛り上がってまいりました!!!
なにげに、開発で分散レンダは重要だよな。
デュアル12コアOpteronに5970を4枚載せたサーバを125台ラックに納めて、 お値段$2Mだから、サーバ一台あたりは144万円。そんなもんかねえ。
>>221 わざわざ規制前の旧車買ったりする人には、面白くない未来予想だなぁ・・・
今の車に魅力を感じないように、PCにも魅力感じなくなっていくんだろうな・・・
たるさんは適当なことを都合のいい部分だけつなぎ合わせて もっともらしい(つもりの)言い回しで書き流してるだけですよ。
とりあえず誰かまとめて
何これ?有名な人なの? 自分のサイトで垂れ流してる分には勝手だが、 掲示板に書こうものならフルボッコ必至な斜め上の妄想。 ニュースやワイドショーのコメンテーター(wを彷彿とさせる。 訳知り顔で語り入ってるのが余計に痛々しい。
ウンコの発言なんて思い出すだけで多大な人生の浪費 そんなデメリットを覆い隠せるほど価値ある発言なのか?
>>221 オタクコアって言い得て妙だなあと思ってみてたら
オクタコアだった
>>138-139 RSのエントリ「数」は大した問題じゃないと思うんだけどね。
むしろK7整数パイプラインの弱点は、ディスパッチされたμOPがレーン変更できないこと。
独立した車線3つ(分散型RS)と、流れに応じて車線変更できる4車線(集中型RS)と、
どっちが渋滞しやすいかは明らかだね。
付け加えると、車とは違って命令の流れにはクリティカルパスがあるから、依存関係によって連鎖的にストールする。
メモリ操作1つとってもレイテンシは不定なのにデコード前段階で充填率高めるスケジューリングができるわけがないじゃん。
まあ、そもそもL1Dが2-Way Set Associativeだったり、スループットが上がらない理由は複数ありそうだけどね。
Bulldozerが構成を大きく変えてきたのはそのへんの反省点が伺えるけどな。
>>226 えーと、何言ったっけ?
XMLHttpRequestの活用方法すら新参のGoogleに負けてるようじゃさすが万年赤字だわなMSN部門。
これでいいかな?
口だけ番長キタ━━━━(゜∀゜)━━━━ッ!!
6コア発売はいつ?
4月末ローンチで5月中発売予定
233 :
えるえる :2010/03/16(火) 18:35:22 ID:uKI1c8qj
234 :
えるえる :2010/03/16(火) 20:25:16 ID:uKI1c8qj
RSがOOOのスケジューリングのためにある肝心の大リソースなのに デコードの段階で依存解決なんてO原電波にはワラタ。
ちまちまパーツ変えるのが好きなので、ソケット互換はありがたい。
>>236 まぁ確かに枯れてるけどな。今もAtomぐらいしか興味ないし。
>>229 >デコード前段階で充填率高めるスケジューリングができるわけがない
K8のパックバッファでは依存解消をできるわけがないから、空いてるレーンを詰めて充填率を高めてるだけじゃねって話では
Pentium 4があったんで忘れがちだけど、Athlonの整数演算性能って コアのサイズ半分以下のPentium III(ALU 2本)とどっこいだったろ。 その当時から3Wayの分散型RSにALU+AGUがぶら下がる構造だったよ。 FPクラスタ側は36エントリの集中型スケジューラで再度スケジューリングしてる。 (同クロックのIntelプロセッサよりもFP(x87)性能で優れていた理由はここにあると思われる) いずれにせよレイテンシ・スループット可変の命令が多い中で空いた演算ユニットに 臨機応変にμOPを振り分けるには集中型RSの方が都合がいいでそ。
パッド入力→サーバー→反応戻し(グラフィック返し)が、16msのローカル環境と、 それが10倍で足りるかも判らない反応速度のネットワークレンダリングでは、 遊べるゲームジャンルに隔たりがあるよねー。 シューティングとかアクションは無理でしょう。
ネットワークレンダリングの話は出てきてないぞ
デュアルコアPOWER4はAthlon64 X2が起源ニダ
>>234 ,240,243
雑音に特徴的な突発的電波
とりあえず大手町のIX(インターネットエクスチェンジ)近辺に住もうぜ! C:\>ping pc11.2ch.net (カリフォルニア州サンフランシスコ) Pinging pc11.2ch.net [207.29.253.145] with 32 bytes of data: Reply from 207.29.253.145: bytes=32 time=129ms TTL=51 Reply from 207.29.253.145: bytes=32 time=108ms TTL=51 Reply from 207.29.253.145: bytes=32 time=132ms TTL=51 Reply from 207.29.253.145: bytes=32 time=108ms TTL=51 Ping statistics for 207.29.253.145: Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), Approximate round trip times in milli-seconds: Minimum = 108ms, Maximum = 132ms, Average = 119ms C:\>ping clock.nc.fukuoka-u.ac.jp (福岡県福岡市) Pinging clock.nc.fukuoka-u.ac.jp [133.100.9.2] with 32 bytes of data: Reply from 133.100.9.2: bytes=32 time=32ms TTL=49 Reply from 133.100.9.2: bytes=32 time=31ms TTL=49 Reply from 133.100.9.2: bytes=32 time=31ms TTL=49 Reply from 133.100.9.2: bytes=32 time=30ms TTL=49 Ping statistics for 133.100.9.2: Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), Approximate round trip times in milli-seconds: Minimum = 30ms, Maximum = 32ms, Average = 31ms C:\>ping www.jpix.ad.jp (東京都千代田区) Pinging www1.jpix.ad.jp [202.90.10.90] with 32 bytes of data: Reply from 202.90.10.90: bytes=32 time=6ms TTL=56 Reply from 202.90.10.90: bytes=32 time=5ms TTL=56 Reply from 202.90.10.90: bytes=32 time=5ms TTL=56 Reply from 202.90.10.90: bytes=32 time=5ms TTL=56 Ping statistics for 202.90.10.90: Packets: Sent = 4, Received = 4, Lost = 0 (0% loss), Approximate round trip times in milli-seconds: Minimum = 5ms, Maximum = 6ms, Average = 5ms
このスレの雑音レッテル厨 == うんこ 何もかけないくせにうざいから雑音スレにすっこんでろw
たまにPentium 4にはL1Dが無いとかプリフェッチとか珍説を書くじゃないですか
>>240 >いずれにせよレイテンシ・スループット可変の命令が多い中で空いた演算ユニットに
>臨機応変にμOPを振り分けるには集中型RSの方が都合がいいでそ。
演算ユニットはパイプライン化されてるんだし、詰まるのは演算ユニットでなくRSのほうだろ
大規模共有RSから実行可能な3〜4μopsを1サイクルで選び出すなんて芸当はどれだけの資源を遣うんだろう
馬鹿の相手するなよ
失礼、途中で投稿してしまった これがBulldozerに実装されればFMUL×2, FADD×2の4ユニットとしても使える可能性がある。 結果、レガシーSSE性能は8コアでSandy Bridgeの6コアを越えうる・・・かもしれない。
透明あぼーんが日課になりつつあるなぁ。 コテをNG登録すれば最初から表示しなくなるんだっけ?
ああ、そうだね 電波系のコテはあぼ〜ん推奨
>>247 ・たまにPentium 4にはL1Dが無い
・たまにPentium 4にはプリフェッチ
なんか本気出してきたな
>>251 >Bridged Floating-Point Fused Multiply-Add Design
通常のFMA演算器は(独立した演算器と比べて)加算や乗算の性能が低下するが
BFMA演算器は加算器と乗算器をブリッジするので
加算と乗算の性能は落ちない(FMAの性能は落ちる?)
というのが主な内容ではないのだろうか?
いや、従来FMAと同等の性能は出るのでは むしろFMA+FAddでいい気がしてるんだが
Pentium 4のL1Dやプリフェッチの話題自体ここんところのスレで出なかったはずだから ちょっと解読のしようがない まさに突然電波
プリフェッチくんはとぼけるのがうまいねワロス
やっぱ団子のCR-Zって本田△にかけてるの?アンチ茸なの?
bulldozerってどのくらいの性能になるのかなぁ…。 神CPUになると期待してるんだけど、100GFlops超になるかな。
小数点をCPUに計算させたいんならせめてK10にしとけ
264 :
262 :2010/03/18(木) 12:00:00 ID:XeHK4JNA
>>263 Bulldozerは整数を犠牲にして性能をあげるんじゃなかったっけか??
Bulldozerは整数を犠牲にしてコア数を増やす。128bit前提で考えればコアあたりの Float演算器は変わらないから、コアが増えた分だけ浮動小数点演算性能は上がる、 という目論見、願望(あるいは妄想)。
無駄を省いて整数性能を上げるのがBull 細かいことは知らんけど既出の図なんかを見る限り128bitSSEは2基→1基 レイテンシもFP辺りは大幅に増えた
SSEは1モジュールで2基じゃねぇの?
1スレッドあたりの性能落とすなら モジュール化に+してHT実装くらいしないと戦う前から負けてね?
>>268 「1スレッドあたりの性能落とす」といっても、「理論値」を落としただけだしなぁ。
同クロックで比較した場合、CPUの機能をフルで使えるような、
「理想的なプログラム」を動かした場合は確かにK10の方が優れているが、
現実にはそんな「理想・妄想」プログラムが合致する時なんて、
ほとんど皆無に等しいから、効率優先をとったのはいい事だろ。
あと、"戦う前"から"何に負けているか"が疑問。
Bulldozerは1モジュールあたり128bitSSE×2基 片方のコアがSSEユニットを使用していないときは2基とも占用できるし、256bitSSEとしても使える
Bulldozerは物理的には、例えば4モジュール8コアなら128bitSSE×8基 でも使用状況によって振る舞いは異なる @4モジュール8コアが128bitSSEをフルロードで使う場合 →4モジュール8コアなら128bitSSE×8基 →コア当たり128bitSSE×1基 @4モジュール8コアが256bitSSEユニットを低頻度で使う場合 →4モジュール8コアなら256bitSSE×4基 →コア当たり256bitSSE×0.5基 B4モジュール8コアが128bitSSEユニットを低頻度で使う場合 →4モジュール8コアなら128bitSSE×16基 →コア当たり256bitSSE×2基 C4モジュール8コアが256bitSSEユニットを低頻度で使う場合 →4モジュール8コアなら256bitSSE×8基 →コア当たり256bitSSE×1基 D各モジュールが1コアしか使わない場合 →4モジュール8コアなら128bitSSE×16基 →コア当たり256bitSSE×2基 →4モジュール8コアなら256bitSSE×8基 →コア当たり256bitSSE×1基 特にSSEの充填率に空きがあるB・Cのようなケースでは恐ろしい処理能力になる
あうあう 長いの書いたらミスが・・・ @が2度出てくるが、2度目の@は正しくは↓ A4モジュール8コアが256bitSSEユニットをフルロードで使う場合 →4モジュール8コアなら256bitSSE×4基 →コア当たり256bitSSE×0.5基 あと当然ながら、BやCは物理的なコアの数を超越して1クロックあたりの処理能力が倍になるという意味ではない
どうせなら4モジュール8コアって言いかたやめて 普通に4コア8スレッドって言っとけばいいのにな
マーケティングの問題でしょ? あとは性能が伴うかどうか。
275 :
えるえる :2010/03/18(木) 19:11:55 ID:uW1Bs5L7
>Pentium 4があったんで忘れがちだけど、Athlonの整数演算性能って >コアのサイズ半分以下のPentium III(ALU 2本)とどっこいだったろ。 いや、むしコアの性能はAthlonのほうが上だが、 キャッシュの性能差で互角レベルまでなんとかもちこたえていたのがPenIIIだよ。 実アプリ全体がIntel系に最適化されているという現実考慮にいれると、 どう考えてもPentium IIIよりは格上です。
>>273 ttp://pc.watch.impress.co.jp/docs/column/tawada/20100311_353995.html > 他方、PassMarkの浮動小数点演算テストのように演算ユニットを
> フルに使っていることが原因と見られるHT有効/無効の差がない結果や、
> 同じく PassMarkのFind Prime Numbersのように
> オーバーヘッドが原因と見られるHT無効時のほうが
> 良好なスコアを出す結果が見られることも気に留めておきたい。
ttp://www.4gamer.net/games/084/G008477/20100310068/ > ゲームにおいては,HTTを無効化したほうがいい場面もしばしば見られる
無効と有効で大差ないHyper-Threadingを使ったIntelのNコア2Nスレッドと
仮にデコーダを常に2スレッドで共有するベタな構成だとしても
1スレッドごとにあたりK6-IIIを上回る(K6系はプリフェッチなどがないし、分岐予測などもチープ)
であろうBullのNコア2Nスレッドを同列に並べて売るほどAMDのCPU部門に余裕はないでしょ
(ある意味、低いIPCのNetBurstの高クロックにモデルナンバーをぶつけたのと同じ状況)
余裕があれば、同列にした上で
「IntelのNコア2NスレッドはNコアNスレッドと大差ない」
というネガキャンを打って戦う手もあるけど
いや、むしコアの性能はAthlon64のほうが上だが、 キャッシュの性能差で互角以上レベルでなんとかもちこたえていたのがCore2だよ。 実アプリ全体がIntel系に最適化されているという現実考慮にいれると、 どう考えてもCore2よりは格上です。
278 :
えるえる :2010/03/18(木) 19:41:22 ID:uW1Bs5L7
>>277 なにがいいたいのかよくわらかんな。
Core 2はもちこたえてるんじゃなくて、Athlon64に余裕でかってたからな。
Intelにキャッシュ周辺の性能差でまけたといっても半分以上は正解だよ。
279 :
えるえる :2010/03/18(木) 20:11:55 ID:uW1Bs5L7
AMD敗北の歴史は、 ・Intelに製造プロセスで遅れをとっている ・上と関連しているがIntelの高速/大容量のキャッシュにまけている ・そのくせアーキテクチャ的にメモリオーダリングが弱いまま が大部分の原因を占めているな。 あとは、実アプリにはIntel向けに最適化されてものが多いというのかオマケとしてある。
280 :
えるえる :2010/03/18(木) 21:04:42 ID:uW1Bs5L7
というのは軽いウソだ。 AthlonはALUが3つもあるのに、 Pentium IIIは2つしかない。 コアのトランジスタ数でみてもAthlonの方が多かったはず。 つまりコアはAthlonの方が気合が入っている。
低脳過ぎくそわろた
282 :
えるえる :2010/03/18(木) 21:27:47 ID:uW1Bs5L7
具体的にどこが低脳なのでしょうか?
高脳様
>>281 先生のAthlon vs Pentium III論
が聞きたいねぇ。
えるえるのレス数でみてもえるえるの方が多かったはず。 つまりレス内容はえるえるの方が気合が入っている。
285 :
えるえる :2010/03/18(木) 21:39:49 ID:uW1Bs5L7
なるほどそのとおりだな。 ゆえにAhtlonのほうが気合が入っている。 自信がないのか もっと具体的に体系的に説明してほしいね。
286 :
えるえる :2010/03/18(木) 21:45:23 ID:uW1Bs5L7
Katmai vs AthlonのときはAthlonがかっていたか Thunderbirdでは互角。 ThunderbirdのL2は64bit/clockの帯域だが、 CoppermineのL2は当時から256bit/clockだったんです。 つまりcacheの差でCoppermineが持ちこたえているという状況。
どうしてコテをつけるやつはこうもアレなんだ
テヘこないね 128bit品掴まされたから傷心旅行でも行って旅先で氏んだのかな
Pentium IIIはレジスタ-メモリ間オペレーションをComplex Decoderでしか捌けなかったから遅かった。 μOPs Fusionを実装したPentium Mでは同クロックのK7, K8と互角以上にやり合ってる。 要するにALUの数ではないということだ
実はSSSE3を使えばpmaddubsw→pmaddwd→pshufbだけでできるんだな。 pmaddubswの第2引数 __m128i vGSMultipler1 = _mm_set_epi8( ScaleR, ScaleG, ScaleB, 0, ScaleR, ScaleG, ScaleB, 0, ScaleR, ScaleG, ScaleB, 0, ScaleR, ScaleG, ScaleB, 0 ); pmaddwdの第2引数 __m128i vGSMultipler2 = _mm_set_epi16(1, 1, 1, 1, 1, 1, 1, 1); pshufbの第2引数 __m128i vSplat = _mm_set_epi8( 0xff, 15, 15, 15, 0xff, 11, 11, 11, 0xff, 7, 7, 7, 0xff, 3, 3, 3);
誤爆した
>>290 SSE5(現XOP)の仕様見たときものすごいAltivecぽいって思ったが・・・
たしかMACヲタ(笑)が言うにはAltivec/VMX(XOPでいうvpperm)vpermは
AIM連合が実装の特許を持ってるだとか云々
既にK6とK7の比較が散々されてきたのに 知的障害者が無意味にPen3持ち出したの図
と、わけのわからないことをわめきちらすプリフェッチであった
知的障害者が>293を理解出来ないのは K6が整数パイプ2本な件を散々言われてたことを瞬時にして忘れさっているからか それともやはり知能が最重度の障害を負っているためか
何を言ってもプリフェッチはプリフェッチ 頭は良くなりませんよ
297 :
えるえる :2010/03/19(金) 18:30:03 ID:6xAmJmLq
最近の馬鹿はスーパーパイプラインもしらんのか。 K6はP6/K7以降のスーパーパイプラインx86とは設計思想がかけ離れているから比較にならんよ。
298 :
えるえる :2010/03/19(金) 18:31:03 ID:6xAmJmLq
過去を忘れてしまった後藤はBobやBullとK6が似ているなどという怪電波をとばしているが、 Bob/Bullはスーパーパイプラインだろうね。
臭いぞプリフェッチ
もう3年ぐらいになるのか?この糞コテが芽生えてから
↓この電波発言(ようするにフェッチ=プリフェッチ)でも3年半前だからさらに前からコテ出してんなら4年はいくんじゃないの? 116 名前:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6 :2006/11/12(日) 22:49:24 ID:QMJBB7zy データロードの投機実行のことだからプリフェッチ以外ありえんよ、池沼の負け惜しみ乙
303 :
えるえる :2010/03/19(金) 21:01:36 ID:6xAmJmLq
>>299 パイプラインとスーパーパイプライン登場した時期と意図が異なるのだが、
そんなのも理解できないやつが増えたんだな。
ハイパーはIntel用語の域をでていないからまた別だが。
命令のレイテンシからしてBulldozerは高クロック指向が予想されるわけでしょ 長い段数を持ったパイプラインになりそうなもんだけど
305 :
えるえる :2010/03/19(金) 21:34:03 ID:6xAmJmLq
いや、NetBurst, POWER6, Cell のようなクロックで性能を稼ぐというアプローチは取らないと思うよ。 しかし、後藤のようにBull/BobのコアはK6と似ているというのはあまりにもナンセンスだな。 パイプライン処理っていうのはCPU内のリソースを時間方向にオーバーラップして実行するという考え (スループットを1命令1サイクルに近づける)という発想だが、 スーパーパイプラインっていうのは回路設計的な性格もはいって 高クロック目的でパイプラインピッチをさらに等分、最適化、多ステージ化した世代といえる。 これは今では当たり前の最適化であって、LRBのような例外をのぞきいまさら汎用CPUで 6ステージとかありえないね。
>>304 Power6は5とパイプライン段数一緒でクロック大幅増
その理由はインオーダ化のためとも言われたり
技術者はワットパフォーマンスのためのインオーダだと言ってたり(クロックに言及してないってことは上記は無いと)
真相は闇だけど
丁度>299リンク先の最後にスーパースカラとクロックの関係が載っている
コア全体のクロックなんてどこがボトルネックになっても上がらないもんだろうと思うから
パイプライン本数減らしたからって必ずクロック上がるもんじゃないだろうけど
しかし無駄を省いた設計は高クロックのためだろうね
「シングルスレッド性能で妥協しない」ってのは未だに重要だし
307 :
えるえる :2010/03/19(金) 22:00:33 ID:6xAmJmLq
308 :
えるえる :2010/03/19(金) 22:01:57 ID:6xAmJmLq
POWER6は低消費電力ともいいがたく、Bullの思想にはあってない。 POWER7のほうがOOOでありながら多数マルチコア向けになったといえる。
Bulldozerにもターボブーストを乗せてくると思うが CPU内部のクロックの区画はどのレベルで設けてくるんだろうね
310 :
えるえる :2010/03/19(金) 22:04:04 ID:6xAmJmLq
まあPOWER7の電力もでかいことはでかいが。
311 :
えるえる :2010/03/19(金) 22:06:59 ID:6xAmJmLq
>>306 まあ夢をぶちこわすようなマジレスは控えていたけど、
本当にシングルスレッドでも高性能なら、はっきり
「シングルスレッドでも従来のCPUよりも高性能だ」
といっているはずなんだよ。今言っといたほうがマーケティング得だからさ。
このあたりは、むしろこれからはGPUを統合するからどうのみたいなお茶を濁す発言でごまかされている。
312 :
えるえる :2010/03/19(金) 22:12:42 ID:6xAmJmLq
L1Dのサイズが小さくなったのは、 設計チームがリセットされて排他キャッシュの伝統をやめたと考えれば 半分以上は説明できるんじゃないか? レイテンシに関してはその分やりやすくなったと思う。
トレースキャッシュもどきは2コアで共用になるのかな それともコアごとに持つのかな
314 :
えるえる :2010/03/19(金) 22:14:57 ID:6xAmJmLq
もつとしたらコア毎だろうな。
・「パイプラインとスーパーパイプラインってのはそりゃもう根本的に違うんです 具体的にどう違うかってーと段数が違う」(反論してるようで同意している) ・「パイプラインは増えている!」Power6の図しか出さない ほんとコピペしか能が無い
316 :
えるえる :2010/03/19(金) 22:18:14 ID:6xAmJmLq
コテのときは25%までしか力をだしてはいけないのが えるえるルールなんです。
317 :
えるえる :2010/03/19(金) 22:20:01 ID:6xAmJmLq
まあコテたたきに余念がない連中も、 コテのスリルの中毒性にはまったら抜け出せないのは、 一度なのればかわるよ。
( ´д)ヒソ(´д`)ヒソ(д` )ヒソ
319 :
えるえる :2010/03/19(金) 22:48:54 ID:6xAmJmLq
>>306 POWER5,6のパイプラインの図くらいネットでちょいと検索すればこのようにすぐみつつかるんだから
すこしは確認してから書けという意図でしか貼ってない。
こぴぺしかできないとかなんとかいってるけど、何も証拠もしめさずにだらだら自分の妄想を書いているほうが
読んでいる側からすると不快なんだよ。まあ、自分の場合はわざと張ってないんだけどね。
>しかし無駄を省いた設計は高クロックのためだろうね
Bullはコアをややコンパクトにして電力性能比とスループットを稼ぐ
という考えでふつうに理解可能。無駄を省いたのはそのため。
電力をおさえられればクロックはあげられるが、
NetBurst, POWER6, Cellなどとはクロックの追求に対するスタンスは異なるだろうって話。
Bulldozerのコンセプトはコアあたりの性能を落とさないで軽量化だろ それにK6に似てるってだけで、K6そのものってわけじゃないだろ K10から3way→2wayのように過剰ユニット数を削って、スーパースカラやOOOとかの方式的なものは改良して、 トータルで性能維持、ダイサイズ小型化を目指していると思う その結果K10.5の軽量版、あるいはK6の現代風リニューアル版みたいなもんになっているんじゃないかと この現代版K6って意味合いで言ってるだけだろう ちなみに、BobcatはBulldozerの性能微減(-10%程度)でダイの小型化 BulldozerとはK10とK8みたいな関係かね
K10コア(L2まで含む)の中で整数演算器が占める面積って2〜3%で、ここからパイプラインを1本減らしても1%減るかどうか
スケジューラの方が面積取られるんでしょ。
この話の流れは、円柱を平面で切り取って 「真円だからAと似てる」 「楕円だしBでしょ」 「いや四角だからCだろ」 と言い合ってるようにしか思えん
いいや違う。 「K6-2とPen2はそっくりだけど Pen2とPen3は大違い だからAthlonと比べるならK6じゃなくPen3!Pen3に清き一票をおぉぉぉ!!」 などとSIMMSIMM泣いてる奴が独り居るわけだね♪
>>324 いや結局整数ALUの本数だけを見てK6世代だって言ってるアフォがいるから話が拗れるわけで。
K6アーキテクチャの特徴を見ると
・SIMD演算ユニットと汎用ALUが同一ポートにぶら下がっている
・24エントリの集中型リザベーションステーション
んで、ベースになってるNx586ではFPUは外部コプロセッサだったのでK6でもその名残で
x87ユニットは独立ポートになっていると。
一方K7以降はFPおよびSIMDユニットは別のクラスタに分けて汎用整数とは別個にスケジューリングされている。
http://www.thg.ru/cpu/19990809/images/k7-architecture.jpg この辺はAlphaAXP由来の設計思想であって、Bulldozerにも引き継がれている要素。
整数クラスタの構成が変わっただけで、基本設計はディスクリートパイプラインを特徴とする
K7の系譜は引き継いでいる。
(=汎用レジスタ-XMMレジスタ間のデータ移動はボトルネックであり続けるということ)
Bridge-FMAがBulldozerに採用されるとすれば相当強力だよ。 逆にこのタイミングしかないと思うよ。 主要アプリがAVX(特に256bitデータ長版)に移行した後だと旨味がない技術だし。
ALU 2→3 の比較はヨナ→コンロでも散々出たのに 「Pen2とは違うのだよPen2とは」とまで主張し必死にPen3を推す知的障害者 「Pem3!Pen3に清き一票を! 票が無ければウンコでも構いません!」」
プリフェッチ→Pentium III 被害妄想きわまれり
箱をあけるまで正しい解の出ない物を さもこれが正しいと言わんばかりに高説ぶってるアホウと そのアホウに粘着してるキチガイとでスレを幾つ消費してるんだね?
その指摘は的確すぎる
>>330 -------------------
箱をあけるまで正しい解の出ない物
-------------------
本気でそんな戯言を信じているなら、このスレッドに来ても腐れルーマーに騙されるだけで
無益ですよ。一般向けに販売されるような製品は、所謂"Rocket Science"とは訳が違うの
です。
Reverse-HTなんて影も形もない物が信じられてきたお花畑スレッドだもんな
>>331 ,332
何気ない反応の差で、そのアホウの中でも雲泥の差が有ることが判るな。
ヲタがマジで自分の無謬性を信じてる真性という事が判る。
>>333 こののヒト達は誰も引っかからなくて落胆した覚えがありますが、
当時のログでも探しましょうか?
団子さんもそろそろ若くないのですから、思い込みで根拠の無い話ばかり書い
ているとダメですよ。LarrabeeとかAVX 128-bit説とか、後ろ暗いことも多いでしょうに。
俺にはこの二人のうちの片方は雑豚なんだろうなくらいの判断はできたよ
>AVX 128-bit説 Sandy Bridgeも例外なく128ビットだよ 上下で別々のユニットだもの 上位と下位が同じポートにぶら下がってるだけで
「Super Shuffle EngineはIntelとAppleのクロスライセンスだ」と唱えた人もいましたね
両者のどっちでもいいから提案なんだが、スルースキルっていうものを実につけてはどうだね?
俺はsuicideスキルを推すよ
「他人に強烈に笑われるよりは自分同士でやんわりいがみ合って場を流す」
ってことで同一人物だろ
MADオタはソース貼り付けばかりで電波飛ばす(自分の考えを書く)こと自体少ないが
4 名前:MACオタ[] 投稿日:2008/01/03(木) 15:36:18 ID:0OGEg5J1
この一連のスレッドの初期にわ「AMDに次世代なんて無い」と書き続けたモノすけど、(会社の先行き
の不透明感わ別にすると)AMDの次世代の方向性もやっと明らかになってきたす。
年頭に当たってちょうど良い機会なので、簡単にまとめておくす。
■Starsコア(Barcelona/Phenom/K10/K8L)について
いまさら言うまでも無くK8Lわ単なるK8の延長す。K8パイプラインの限界わ、そのままK8Lの限界
すから、errataが修正されようが、多少プロセスの改善があろうが今後大きく動作クロックが向上する
ことも無いし、キャッシュの増量以外にIPC向上の要因も無いす。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
>K8パイプラインの限界わ、そのままK8Lの限界
K8は90nmで3.2G、K10は65nmで2.6G(だっけ?)
とちょっと考えただけで有り得ないことを平気で言う
他にも
>今後大きく動作クロックが向上することも無い
K10は現在3.4G
>キャッシュの増量以外にIPC向上の要因も無い
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20100215_348705.html (◎32nm版でのアーキテクチャ上の拡張)
そして三連ウンコは見ての通りMADに輪をかけて酷い
我慢が出来ない幼稚な性格なんだからスルーなんて大人の対応は無理だろ
コピペで自己紹介する奴はじめてみたわw
些細な訂正だけど、エラッタ修正前は2.4Gだっけか・・・
プリフェッチフェチの済む「あっちの世界」にはPen4にL1Iがないもんな
Pen4はL1Iの代わりにトレースキャッシュが載っていて あまりに機能が違うためにこれをL1Iだと認めてない人が ネットで検索すれば多数出て来ることがわかる これは現実世界の話 >247で突然出て来た「Pentium 4にはL1Dが無い」は 流石に現実世界の常識では考えられないと思われ
その理屈でいくとK7もプリデコードキャッシュだからL1Iじゃないんだな
正しい日本語に添削します Pen4のL1Iは事前に命令をデコードしμOPsに変換した状態で記憶するトレースキャッシュで構成されていて 機能は従来のL1IそのものなのにこれをL1Iだと認めてない約1固体がAMDの次世代CPUに巣食っていて ネットで検索すればその珍発言が引っかかる
ttp://www.ne.jp/asahi/comp/tarusan/main89.htm >わかりやすく言うと、「ここが命令の境目ですよ。」と あらかじめミシン目を入れておくようなやり方である。
>これにより、1つ目の命令デコード完了を待たずに、併行して2つ目、3つ目のデコードを行えるわけだ。
この理屈でいくと
・・・っていこうとしたら>348に「トレースキャッシュはL1Iそのもの」
μOPsキャッシュ=x86キャッシュとか書いてある
相変わらずやべえ
いやその特許は知ってるってww さて何度目かなこれ pshufbはSSSE3から実装されてるんだがなぜPenryn世代の実装でApple(笑)と交渉しなきゃならないの? そもそもpshufbのソースオペランドは2つであって特許のそれとは異なるね。 AMD XOPのvppermが酷似してるのは気になるし、IntelがAVXの仕様からvpermil2psを削除したのも興味深いです。
たるさん(笑)ってこの前俺が論破して記事修正させた相手なんだけど
> Execution Trace Cache:
> Advanced L1 instruction cache removes decoder pipeline latency, and
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> caches "decoded" instructions, thus improving efficiency and hit rate to
> cached instructions. The 12 Kμop portion of the L1 cache supplies decoded
> instructions into the processor pipeline. There is also an 8 KB data portion of
> L1 cache.
http://www.intel.com/support/processors/pentium4/sb/CS-007988.htm ~~~~~~
IntelがトレースキャッシュをL1I呼ばわりしてるからって 「μOPsキャッシュ=x86キャッシュ」が証明されたとか言っても 現実世界ではまず通用しない それにデータ並列=タスク並列とかいう電波で普通の人間を論破出来るのか?有り得ない
>>351 -----------------
pshufbはSSSE3から実装されてるんだがなぜPenryn世代の実装でApple(笑)と
交渉しなきゃならないの?
-----------------
自身で書いているようにpshufbはAltivecのvpermとは違いますよ。
-----------------
そもそもpshufbのソースオペランドは2つであって特許のそれとは異なるね。
-----------------
元の話題は、削除される前のAVXのvperm命令の話。削除後に書いたように話をすり替え
られても困るのですが…
お前がIntelがPenrynでSuper Shuffle Engineを実装したタイミングでその話題を持ち出したからだよ 当然PenrynにはAVXは搭載されていない
>>354 はちょっと別の記憶と混乱してました。団子さんが
>>338 で指摘したのは
Super Shuffle実装の頃の話題の方ですね…
ちょっと当時のログを漁って来ます。
先日の話題わAltiVec特許(群)の中でVPERMを扱う一つを挙げたすけど、一般に知的所有権わ 基本特許を膨大な周辺特許で固めているモノすから、Appleが持つAltiVecに関する権利がどの ようなものであるかを知らない限り、全てわ憶測に過ぎないす。 ...
なんで団子屋がMACオタの口調になってんの?
レスそのまんま引用した
IntelCPUの話はあっちのスレでやれボンクラ共 ここはAMD CPUスレだマヌケ共
[GDC 2010]Larrabee計画の延期が影を落とす,Intelの“グラフィックス最適化”セッション
http://www.4gamer.net/games/107/G010710/20100317030/ > しかし蓋を開けてみれば,その内容は「デュアルコアCore i7・i5・i3プロセッサに搭載された
>『Intel HD Graphics』と,同グラフィックス機能に向けた最適化の話題のみ」という,お寒い内容。
>ただでさえ閑散としたセッション会場を,早々に立ち去る参加者も目立ち,聴講者は筆者を含めて数える程度だった。
ヽ、.三 ミニ、_ ___ _,. ‐'´//-─=====-、ヾ /ヽ
,.‐'´ `''‐- 、._ヽ /.i ∠,. -─;==:- 、ゝ‐;----// ヾ.、
[ |、! /' ̄r'bゝ}二. {`´ '´__ (_Y_),. |.r-'‐┬‐l l⌒ | }
゙l |`} ..:ヽ--゙‐´リ ̄ヽd、 ''''  ̄ ̄ |l !ニ! !⌒ //
. i.! l .::::: ソ;;:.. ヽ、._ _,ノ' ゞ)ノ./
` ー==--‐'´(__,. ..、  ̄ ̄ ̄ i/‐'/
i .:::ト、  ̄ ´ l、_/::|
! |: |
ヽ ー‐==:ニニニ⊃ !:: ト、
おれたちはとんでもない思い違いをしていたようだ。これを見てみろ。
991 名前:ヽ・´∀`・,,)っ━━━━━━┓[sage] 投稿日:2008/02/25(月) 21:53:07 ID:YxY/EGHv
>>983 同じじゃん
pre = 事前
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
これによって「プリフェッチ=事前にフェッチしておく」
「プリデコード=すでにデコードは済ませた」
となり「フェッチ=プリフェッチ」「デコード=プリデコード」「μOPsキャッシュ=x86キャッシュ」が成立する
しかし地球の辞書を引いて欲しい
pre-[ pr-, pri- ] 「…以前の」「…の前部にある」
とあり「フェッチの前に行うこと」「デコードの前に行うこと」と訳すのが日本語だろう
(yahoo辞書には「あらかじめ」の意味も出ているが
これを例語に当てはめてみるとおかしいので割愛する
pre-quake あらかじめ揺れる?
pre-birth あらかじめ生まれる?)
プリデコードといえばこれを済ませたものをAMDはK5からL1Iに入れてたらしいね
Intelのほうはよく判らんけどCore2がプリデコード済みのx86命令をループ専用キャッシュに
i7でデコード済みのμOPsをループ専用トレースキャッシュに入れるようにしたことは判っている
今日もプリプリ
365 :
Socket774 :2010/03/20(土) 13:37:06 ID:1DV8azMB
デコード前のx86命令をキャッシュするのが普通のL1命令キャッシュ x86をデコード後のμopの状態でキャッシュするのがトレースキャッシュ (ヒットしたときは、デコーダーをスキップ) デコーダーの前か後か(x86命令か内部命令)の違いだけで 機能的にはまったく同じなんじゃないの?
言葉尻にやたら執着する自閉症の方には違う物に見えるらしいですよ
ふたりはプリフェッチ
>>365 んな大雑把に分けたらRAM全部一緒って言ってもおかしくなくなる
命令キャッシュにどうやってコードを詰め込むかを憶測交じりで考えると
普通のL1はway数に分けて塊で載せられる
L2以下のキャッシュやメモリのレイテンシと帯域がネック
トレースキャッシュはデコードしないと載らないからデコーダの数で塊が出来、ネックにもなる
L2以下からデコーダに命令フェッチするたびにレイテンシ掛かるとしたらかなり酷いことになりそう
>トレースキャッシュはデコードしないと載らないからデコーダの数で塊が出来、ネックにもなる
>L2以下からデコーダに命令フェッチするたびにレイテンシ掛かるとしたらかなり酷いことになりそう
アホすぎて腹いてぇwwwwwww
これってどこの会社のCPUのことだろうね?
> プリデコード・ビット
> x86命令のデコーディングは特に難しいが、その理由は命令が可変長であり、1
> バイトから15バイトまでの命令長をとり得るからである。プリデコード・ロジック
> は各命令バイトに対応するプリデコード・ビットを供給する。プリデコード・ビット
> は次のx86命令の開始点までのバイト数を表示する。プリデコード・ビットは、図
> 2に示す通り、各x86命令バイトの傍らの拡張命令キャッシュ内に格納される。プ
> リデコード・ビットは命令バイトと共に、それらが並列x86命令デコーディングを
> アシストするデコーダに引き渡される。
http://www17.tok2.com/home/taro/j20695h.pdf
もちろん〇〇〇社のCPUです♪ それ格納するのにパリティビットを利用してます。
ダンゴ学校休みなん?
>>369 「デコード=プリデコードだからAMDのもデコード済ませないとL1Iに載せられない」
って言いたいだけならもういいから
ヴァカは文章も読めないんだな 命令長検出はx86のデコードにおける最もコストの高い処理だ
そこで固定長命令っすよw
ちなみにK7以降は「IntかFP/SIMDどちらのクラスタに振り分けるか」の情報も格納している つまり命令の種類まで判定している。 オペランド以外のほぼ全ての情報はL1Iにフェッチする段階で事前デコードしてることになる。 プリフェッチくんの言うように「プリデコード=デコード」は半分正解。賢いねwwww もっとも、プリデコードタグに保持してるのは長さ情報とクラスタの区別くらいだから、デコーダを通すときに 再度プリフィクスバイトを読み直すことになるけどね。
>ちなみにK7以降は「IntかFP/SIMDどちらのクラスタに振り分けるか」の情報も格納している intかfloatか変数(オペランド)の型が判っている ↓ >つまり命令の種類まで判定している。 >オペランド以外のほぼ全ての情報はL1Iにフェッチする段階で事前デコードしてることになる。 オペランドが判る ↓ オペランド以外が判る 意味不明 詳しい人解説して
本当にドがつく素人だな >intかfloatか変数(オペランド)の型が判っている Operandなんてのはただの数字だが。 たとえばModRM.regフィールドに0が入っていたとして、それがXMM0かST(0)なのかAXなのかは それより前のopcodeによって決まる。 ただ命令長検出の段階では必要のない情報だ。 長さ情報を得るのにModRMはスキャンするがSIB, DISPの有無(長さ)情報だけを検出して 後の情報は読み捨てている。 ほぼ完全なdecode(解読)は行っているが、μOPsを生成しない代わりに
(続き) 本デコードで並列に処理しやすいようにタグを吐き出して格納している。 L1Iミスヒット時のペナルティならNetBurstと大差ねーよ。 x86は容量効率がいいから、64KBもあったら滅多にミスヒットしないけどな。
詳しい人ってのは知識をちゃんと理解してる人のことで
ゲフォがCPUみたいにスーパースカラ処理(SMT&アウトオブオーダ)してるソース持って来て
「だから全てがSIMDでスカラなんて無い」とか言ってるやべえ奴のことじゃないんだが
202 名前:,,・´∀`・,,)っ-○○○[sage] 投稿日:2009/07/22(水) 06:59:49 ID:3rqpGJeJ
ここでも読んでおきな
http://www.4gamer.net/games/050/G005004/20080614003/ 「SIMT」はCUDAのプログラミングモデルを詠ったマーキテクチャでしかなく
1つの関数の中身を書くときはベクトルじゃなくて、各要素に対する演算を定義するだけ。
GeForceのハード的には
・1つの命令ユニット(デコーダ)に対して、8つの連動して動く整数/単精度実行ユニットがある→それSIMD以外のなんでもないです
・スキャタ・ギャザーをサポートするロード・ストアユニット →LarrabeeのLSUは更に高機能
・プレディケートレジスタによる実行・不実行の選択ができる→Larrabeeはマスク値同士のビット論理演算もサポート
NVIDIAもマーケティング用語そろそろ変えてくる頃だと思うのだけど・・・
アウトオブオーダは違うか
メモコン2つあるんだからスロット2倍にしてくれよ
アウトオブオーダwwww 用語も正しく使えない奴に情報の真贋の判断を任せるほど無駄なことはない
>>375 K7以降は「IntかFP/SIMDどちらのクラスタに振り分けるか」の情報も格納している
これ本当?
ソースがある場合は頼まれずとも勝手に出すし 出さない時は2chがソースなうえにコピペ改変で内容グチャグチャ それによって「フェッチ=プリフェッチ」「データ並列=タスク並列」「μOPsキャッシュ=x86キャッシュ」 という素晴らしい法則の数々が生まれる てのがパターンだけどねえ
>>383 誤答か大原あたりが実装の概要を紹介してた気がしたが忘れた。
K7-K8の実装では1命令あたり5ビットであることが知られてる。
命令長に4ビット(x86の1命令長は規格上1〜15バイト)、更に1ビットでINTパイプかFPパイプかの情報を格納すれば
5ビットですむね。
x87命令の場合最初の1バイトを見ればFP命令だとわかるが、0Fで始まる2バイト命令は
スカラ命令もSIMD命令もマッピングされてるから結局最後のOpcodeまでみて判定しないといけない。
ちなみにこのタグ、K10から【1バイトあたり3ビット】になってるらしいけど詳細は不明。
んで実装の詳細は
http://www.patentstorm.us/patents/5819059/claims.html Intelがデコード段が高コストと知りつつCore MAで逐次デコードの方式を採ってるのは
AMDがこの特許持ってるからと思ってるが。
話が無茶苦茶過ぎて付いていけない。
アウトオブオーダ君をNGID登録すれば多少まともな技術論になるかもよ
駄目だコイツ
>>385 「5ビットのタグ」というのがどこの段階の何を指しているのか分からないorz
>>388 最初の3ビットのうち1ビットを「1バイト命令か、多バイト命令か」のフラグに割り当てて
残りを2バイト目以降を長さ情報に使うとかやれば足りるね。
誤答がいうには条件分岐命令か通常命令かのフラグビットも存在するらしいが
過去記事あさるのもメンドイ
現状のプリデコードタグのデータ構造は正味わからん K10アーキは256bit-命令ストリーム+160-bitのプリデコード情報なんて怪しい情報もあって (つまり1バイト当たり5ビット)
L1キャッシュに余計なビットつけたら、 x86のバイナリ効率の良さが殺されるんじゃないの。
それどころか命令専用キャッシュは読込専用だからパージ時にライトバック制御が必要がないというメリットまで 排他キャッシュ機構によって殺している
まだ居る
L1命令キャッシュまで排他……だと……? その発想はなかった。本当? AMDはんぱねえな。
初代Duron: L1I 64KB L1D 64KB L2 64KB 排他化するしかないでしょ。
逆に、そんなちょっぴりしかないなら、 L2はデータ専用って割り切ったってペナルティはごく僅かじゃん。 キャッシュに収まるコード量が64KBか64KB+αになるかだけの違いでしょ? αの分だけデータキャッシュ増えるんだから無駄じゃないし。
で、いまさらながら特許の請求事項を読み直してみましたけれど、特許用件としては
vector permute 用クロスバースイッチ自体に特許性は無いようで、むしろ
>>351 にある
ように3入力(入力2 + 位置指定)であることが入っています。
Super Shuffle Engine 自体には特にVPERM特許を侵害するモノでは無さそうでした。
かつては工場は全部日本にあって、労働者は全部正社員で、年功序列で給料もどんどんあがって 法人税も今より全然高かくて規制だって厳しくて、企業は株の持ち合いやっていて 社会党や共産党が強くて左翼ばっかりだったのに 株価も高くて日本はアメリカに次ぐナンバー2の地位にあった ところが、コストを削減して工場をどんどん海外に移転させて正社員を切って派遣にしまくって 法人税減税しまくって規制緩和しまくって企業の持ち合い株も売却しまくって 社会党や共産党は消滅しかかっててネット右翼ばかりになったのに 日経平均は暴落して先進国の地位から転落 狐につままれたような話だよな
>>401 んで、XOPのVPPERMは?
面白いことに引数フォーマットそのまんまAltiVec/VMXのVPPERM互換だよ。
(エンディアンの違いはあるけど)
あれこそまさにIBMのクロスライセンスの成果じゃないの?
>>403 -----------------
あれこそまさにIBMのクロスライセンスの成果じゃないの?
-----------------
製造プロセス以外でそんなニュースは聞いたことがないのですが?
日経平均なんて2004年頃の水準に戻ってるが
・VPERMと引数互換のVPPERM ・VSELそのものなVPCMOV ・要素毎に変量可変のビットシフト命令 ・同、ビットローテート命令 旧来SSEにはなくてAltiVecにある要素ばかりだな いつぞの電波説を当てはめるならこうなるのかな AppleがAMDにAltiVecの関連特許をライセンスした
Super Shuffle Engineが出てきたときはIntelとAppleの繋がり(笑)を説いたと思ったら AMDがAltiVecに酷似した命令拡張をしたら無視するんだな どんだけ歪んだApple愛だよ
>>406-407 ------------------
どんだけ歪んだApple愛だよ
------------------
Altivec特許はAIM三社に権利がありますから、 Appleの問題ではありませんよ。
>>405 年収150万以下の人口激増中じゃなかったけ?
>>408 んで、AMD XOPとAltiVec特許の関連性はどうなの?
質問変えようか?
仮にAMDがIBMらのライセンスを得ずにVPERMそのものなシャッフルユニット及び命令を実装したら
特許問題になるよな?
それはつまりどういうことだかわかるよな?
次世代CPUスレとなんの関係があるの?
XOPのルーツを話してるみたいだからいいんじゃない?
Bulldozerの話題です。 ・BulldozerにAltivecの引数互換の命令(XOP)を追加 ・POWER7にSSEライクな命令(VSX)を追加 これらの結果として、BulldozerとPOWER7とで、SIMD Intrinsicsレベルで記述されたコードの 相互移植が比較的容易になるんだよね。 まあ、POWER7について聞かれてもないのに嬉々と語ってたMACオタとしても 思考停止せざるを得ない罠。 「AppleがIntelにSuper Shuffle Engineをライセンスした」なんてトンデモ論は出てきても、 今回のMACオタは逃げ続けてるけど 認めるのが相当苦痛らしいな。
>>410 ---------------------
仮にAMDがIBMらのライセンスを得ずにVPERMそのものなシャッフル
ユニット及び命令を実装したら特許問題になるよな?
---------------------
なります。
しかし、それ以前にプロセッサ製造・販売事業でIBMの特許をひとつも使わないで商売が
出来る訳は無いのですが(笑)
そんな知識以前のことばかり強弁するから子ども扱いされるんですよ。
POWER7のVSXってSSEライクなんだ?
逃げずに認めたか。良い子良い子
というか、
>>401 で自分で言ってるから逃げられる訳がないよね。
ついでに
> Altivec特許はAIM三社に権利がありますから、 Appleの問題ではありませんよ。
AIM連合なんてのはとうの昔(Intel移行段階)に解消してるわけなんだが
Appleが未だに持ってる権利って一体なんだね
>>416 AltiVecはシャッフルなどのパターン指定に即値オペランドを取るような命令がなかった。
すなわちシャッフルパターンをソースレジスタにロードしてやらないといけなかった。
一方VSXではSSEのように即値フィールドでパターン指定出来る命令が追加された。
あとはスカラ-ベクタ間のデータをダイレクトに交換する命令とか
>>417 -----------------
AIM連合なんてのはとうの昔(Intel移行段階)に解消してるわけなんだが
-----------------
AIM連合という企業名は無いのですが…
Apple, IBM, Motorolaの三社が共に所有しているという意味が理解できないってのは『文字をあるがままにしか理解できない』という脳の構造の問題なんでしょうか?
>>349 でリンクした特許も"Asignee"の項目にAppleとIBMの名前がありますよ。
>>418 -----------------
AltiVecはシャッフルなどのパターン指定に即値オペランドを取るような命令がなかった。
-----------------
これは違いますね。VSXで汎用Permute命令を止めて、このようなやり方にしたのはレジスタ数を16個にすると、パターン指定用レジスタを用いる4引数の命令フォーマットが不可能になるというだけの話しです。
>レジスタ数を16個にすると
ここのコテハンの人はトリップつけないポリシーでもあるんだろうか。 まあ、3者の間では話の内容だけで相手の区別がつくのかもしれない。 雑音と呼ばれてた人=えるえる であってる?
オタとかはここに10年くらいいるだろ。 途中で別の人に変わってる可能性もあるが。 古参同士はトリップがなくてもお互いが認識できるんじゃね?
認識できる訳がない、トリップ付けて責任もちたくないんだろ
>>420 ご指摘感謝します。64個の間違いですね。
>>423 今回のSuper Shuffle Engineの件でも判る様に、昔のカキコミにも責任は持ちますよ。
そのために固定ハンドルで10年も書き込んでいる訳です。
427 :
えるえる :2010/03/21(日) 18:42:39 ID:HqEC309A
2ちゃんねるは名無しが主役だと思うけど、 CPU論をやるには全員にラベルが貼ってあったほうがやりやすいんだよな。 どっかにちょうどいい掲示板ははないのものか。 名無しは実力もなにもないのにえらそーなだけの馬鹿が9割りだからな。
実力?お
でもMACオタの偽者出たことナクネ?
430 :
えるえる :2010/03/21(日) 18:48:31 ID:HqEC309A
IDが一日で切り替えるのがね。名無し優遇すぎてやりにくい。 ラベルはデフォルトで個々に割り当ててほしいな。 なおかつ表や図が簡単に貼れて、匿名性の高い掲示板がベスト。 あればそっちに移行してた。
研究者になれ
トリ付ければいいじゃん
いくら笑われても瞬時に無かったことにして平然と暴れる痴呆には誰も敵わない
434 :
えるえる :2010/03/21(日) 19:05:07 ID:HqEC309A
まあコテに暴れてられいるだけ閑古鳥よりはましだろう。 後藤マンセースレなんか寒い話題で話が続かなくなったぞ。
>>425 > 今回のSuper Shuffle Engineの件でも判る様に、昔のカキコミにも責任は持ちますよ。
メールの到達性で寝言を言ってた気がするが、アレは訂正したのかね。
> そのために固定ハンドルで10年も書き込んでいる訳です。
Appleは愛してくれたかい?
appleいいよapple まだPC8001やMZ80Bのユーザーで対立してた頃、appleUユーザーは高見の見物状態だった。 CPUも6502で色は4色だったけどドットは細かかったし、ソフトも色々出てた。 その後ずっと関わる事は無かったけど、 ここ最近になってiphoneなるものを使っている。慣れると使い勝手もいいし、いい感じ。
437 :
えるえる :2010/03/21(日) 20:02:58 ID:HqEC309A
2ちゃんねるの固定ハンドルの機能は 身元を証明したり、肩書きを照合できるようなものではなくて、 単なるラベル機能にしかすぎないのだ。 だからいちいちムキになるようなことではない。 コテは同一人物が継続して書き込みする場合の目印程度の意味合いでしかないのに、 2ちゃんねるでは名無しがデォフルト設定でふつうはコテは名乗らないという文化なために、 コテというラベル機能を使っただけで異常人物と認められることになる(半分以上は正解だがw)。 しかし、同じネタを対象にして継続的に複数回、複数日にわたって書き込みを行う場合には、 ラベルがないと相手方から自分が継続して書いているということが伝わらないため、 実際のところ不便なことが多いのが現実。 というわけで複数日にわたって同ネタを続けるためには荒らしに都合がいいデメリットがあるわりに デフォルトが名無しという設定は不便さが付きまとうだけで、2ちゃんねるの名無し中心主義の文化は 不便さに対する信仰ともいえるだろう。 自動的にラベルを割り振り(継続するかどうかは各人の自由)、名前欄にハンドルがあるのがふつう という文化であれば議論はよほどやりやすいのに残念なことだ。
>>435 ------------------
メールの到達性で寝言
------------------
具体的な引用をお願いします。
MACオタや団子、近頃産まれた新種のえるえる辺りは、
このスレで電波飛ばしてまくっているみたいだが、
その自覚があるのかコテを付けている事は評価できる。
まぁ。トリ付けようと付けまいと、電波の強さに上下はしないが、
邪魔になる・ならないという観点からすると邪魔ににならなくできていい。
>>436 キモイ。
いいよ別に てかマシなレスなほう
次次世代あたりでCPUに統合されるのかな?
いろいろポリシーはあるのかもしれないけど、 本物と偽物の区別がつかないからトリップをつけてほしい。 初期の2chのログにトリップがないのは仕方がないけど。
MACオタが昔からここにいると自称してるけど、 途中で別の人に変わってるかもしれないしな。 まあ、発言内容からして、ずっと同じ人だろうけどw
>>419 そんなこと知ってるが
AppleがIBMとの提携関係を解消したのはYahooにも載ったニュースでもあるが
んで、君の大好きなAppleが未だに特許権を保持してるとして、
IBMだけでなくAppleもAMDにAltiVec特許の使用を認めたことになるわけなんだがその点どうですか?
(てかAltiVecとの関連性云々に関しては「SSE5」の仕様のときから指摘してるよ)
トリップ付けろと名無しに言われるとはおもわなんだ
#CR-Z
#CR-Z
きもい行動を自身でフォローしてんの見るのはもっとキモい
半分なんかじゃないな。2ch見始めてもう長いが例外が全くない。 実名や実名に準ずる名乗りを使った人以外では 該当しない人を見たことがない
451 :
Socket774 :2010/03/22(月) 08:28:05 ID:aRPuqwyd
>>447 448
mixi だろそれwwwwwwwwwwwwww
そうそうORE ORE詐欺
453 :
えるえる :2010/03/22(月) 12:03:20 ID:RM75LeZN
名無しならではの妄言だな。 たぶんここでコテ論を展開している名無しがコテを名乗ったら すぐに炎上して自身の異常さをさらけ出す結果になるだろうね。 2ちゃんねるのコテは所詮ラベル機能。 いつでも名無しに戻ることができる安易な自己申告のシステムだぞ。 偽者被害でコテ自身が困っているなら話は別だが、 中の人が同一人物であるかどうかに読み手側が異常執着するのは、 名無しは一日で同一人物であるか判別できなくなるがそれを容認している、 かつコテがいつでも名無しでまた書き込みできる、 という2ちゃんねるの仕組みからいって無意味なんだよ。 名無しで延々荒らし工作している人間の方が見えにくいだけで実際のところ数が多いだろ。
凡庸なのにMACオタと団子のキャッキャウフフに混ざろうと必死な勘違いが一匹いるな。
だな。 ケツ穴仲間であるオタと団子に混ざろうなんぞ3年早いわ。
何年続くか見物だなw
457 :
えるえる :2010/03/22(月) 13:31:09 ID:RM75LeZN
MACオタや-○○○は、 もともとmac板やム板かどっかから伸び盛りの自作PC板へわざわざ主張してきて その後住み着いた移民なわけで昔からずっと亜流にすぎないんだよ。 自身の板でCPUの話題を確立できなかったから自作PC板にやってきたんだが。 主流派の力を理解して無い名無し低能さんたちもコテのウォッチなんてしてないで、 もっとまともな書き込みできるようになりましょうね。
>>445 --------------------
AppleがIBMとの提携関係を解消したのはYahooにも載ったニュースでもあるが
--------------------
法的文書とニュース記事を同列に並べて、知的所有権の所在について知ったか振るから子ども扱いされるんだと思うのですが…
--------------------
IBMだけでなくAppleもAMDにAltiVec特許の使用を認めたことになるわけなんだが
その点どうですか?
--------------------
特許を含む開発成果に関して参加企業がそれぞれどのような権利を行使できるかは、契約文書に事細かに記されています。
契約書の内容を舐めてかかると、場合によっては参画企業の共同相手に売られてしますことすらあります。SCEI社員がSTIデザインセンターで行ったPPE開発の成果が、MSに売られてしまったのはその一例ではないでしょうか?
ひらがな四文字の人は真性のアレっぽいな
なかなかうまい具合に逃げたな これは頭が下がる、いやレイテンシも下がるわ
礼典示威は零点思惟ってか。
えっ
りこ
次世代もIBMの後追いですか?
ttp://alienbabeltech.com/main/?p=16214 >Phenom II X6 Six Core
>1090T Black Edition: 125(W), AM3 Socket, 9MB Cache, 3.2 GHz Freq @ 295 USD
>1055T: 125(W), AM3 Socket, 9MB Cache, 2.8 GHz Freq @ 199 USD
DステッピングだかEステッピングだか知らんけど結構頑張った感じだなぁ
X6 3.2GHzを125Wでだせるなら、X4 も3.0GHzより上で95Wに下がったのをだしてくれ
X6とi5どっちにすべきか
X6 1090Tが$300てことは、ラインナップを馬鹿みたいに増やさないと利益にならないってことだから、 100MHz間隔やX5やX4も細かく出てくるんだろうな。
馬鹿です
バカみたいにラインナップが増える前にバカが沸いた。
95w95wってよく見るが、どうせ石同じだし下げればいいだけじゃね それともデフォのゴミのような省電力機能が大好きなのか?
馬鹿です
>>473 個人的には125Wでも95Wでもどうせ"K10stat"辺りを使うが、
"K10stat"のようなソフトが永遠に使えるとは限らないし、
"Thuban"では使えないかもしれない。
そんなわけで、公式でうたっているかどうかを気にする人は多い。
それについては理解できるし、皮肉を言う気にもなれない。
むしろ気にしない奴の方が理解できない。
そんなにまで「ソフトウェアの万能性」を期待できるお花畑に。
絶望的観測しかできない人生を送ってる負け組に。
ああ、例の絶望的知能の串使いか・・・
X5をまとまって出せるほど生産すんのかね X6に使えないダイは全部X4に回るんじゃないのか 運が良ければアンロックしてX5やX6で使えるかもしらんな
>>478 > X6に使えないダイは全部X4に回るんじゃないのか
それもダメならX2に回るかも知れない
運が良ければアンロックしてX5やX6で使えるかもしらんな
でも俺は要らないw
雑音は自分のスレに帰れ
ちゃんとトリップ付けてるお
>>480 そんな可哀想なこと言うなよ・・・塵にでも還ってくれればそれでいいんだから
とっくにK10statは6コア対応してるし 上を伸ばすだけならAODでもBIOSでも使えるからな
>>484 漏れもそう思う。
OSに関係なく、MBのBIOS設定項目有無に関係なく、
元から低消費電力なのはメリット大きいと思う。
電気代で差額分の元を取れる値段なら欲しいな。 フルタワーケースなので熱はあまり気にしない。
単に95WまでしかサポートしないMBも 使いまわしたいだけなんだけどね。 起動からK10statなどの制御下になるまでに超えなければ問題は ないはずだが、精神衛生上よろしくない
PhenomII XVI
MACオタはトリップつけてほしいと思う(時がある)けど、他の人はどうでもいいな。
68000 XVI持ってたw 24Mhzにして遊んだなあ・・・。
>>475 は「いわゆる正論」だな
言ってることは別に間違いじゃないが的を射てもいないという
ソフト云々以前にまず石の個体差があるのに
_ ____ ミ川川川川川川川川川彡
/;;;;;;;;_,;;;;;;;;;,;;;;;;;__;;ヽ ミ
/;;;;;/ __ \ ̄ /__\;;) 三 とーちゃんとかーちゃんが
|;;;;;'ゞ_/__ヽノノ ゞ∠_ヽノ/ 三 オラたちの名義で借金して
,⊥、;;| くO 〉 〈.0 } { 三 パチンコに行ってるだけ・・
/ ゞ  ̄  ̄ ⌒ヽ 三 これが子供手当て・・!?
| U /二二ヽ } 三
\__ |'⌒'⌒V /. 彡川川川川川川川川川ミ
 ̄ヽ__ ゝ ニニノ/
【国民の名義で税収以上の借金して大量バラマキへ】
"新規国債、過去最大の44兆円" 2010年度予算が成立。総額過去最大92兆円
http://tsushima.2ch.net/test/read.cgi/newsplus/1269420683/l50
土居 そうですね。今とだいぶ違います。Phenom Iのときは、ぼくもすごくつらかったです。「これで何を話せってんだよ」って(笑)。 でもそこからPhenom IIががんばってくれて。
それでもcore2に追いつけませんでしたがw
>497 おまえPhenom II使ってないだろう? 雑誌レビューに踊らされているクチだな i7 > Phenom II > core2 こんな感じでしょ
PhenomIIvsCore2はAthlon64X2vsPenDの再現
>>497 情弱乙
ゲームするならレスポンスでPhenom II一択なんだが
へー(笑)
>500 おちつけww 愚か者相手にしても仕方なかろう、まともな親に育てられなかった奴を哀れむくらいの 余裕を持とうぜ。ありゃ家族揃ってみのもんたを信じてる口だw
2-Way Set AssociativeのL1キャッシュでスラッシング上等なPhenomUでレスポンスを言われてもなぁ・・・
i7も人づての話を聞く限りではかなりヤバイみたいだぞ リテールクーラーのままだとゲームをやる程度のCPU負荷かけたら80度超えて 勝手に再起動になるとか。 自作板のインテル関連スレッドではi7で温度30度(笑)とか平気で書き込んでるレスがいっぱいあるけど、 あれって明らかにリテールクーラー使ってないのに何を使ってるかは伏せてるんだよね。 もしかしたらそもそもi7そのものを使ってなくて、適当に書いてるだけかもしれないと邪推してしまう。
・nVidia rename technology ・Intel Socket change technolog
Intelはヤクザ Nvidiaは詐欺師
テヘ雑豚があちこちにガセ記事を書き込んでるって言うことは フェルミの悲惨さとX6の有望性が高いって事だな
AMD信者のニート脳の120%は妄想でできています
屁ルミの記事楽しみだな NVが公式に提灯ライターを選んで書かせるらしいし
くやしいのうwwwwwテヘ雑豚くやしいのうwwwwww
Fermiスレ見てるとワットパフォーマンスの重要さがね・・・ Bulldozerにも無難にワットパフォーマンスを改善してくる事を期待しとく
32nm SOIでHKMG採用でまあ悪くは無いだろう
Fermi…次が怖いな
NVはFermiの改良で、AMDのHD6xxxは新アーキテクチャ まったく逆の立場もあり得るから、好調なうちに稼いでおきたいよね
ATIも2900HTで壮絶に爆死した後にHD3870で反撃の狼煙をあげたからな 驕りは禁物だな
過去にもATIが何度か天下を取った事があるけど、いつも三日天下だったからねえ。 今回は天下が長すぎて不安になるw
ATiの天下っていつも短いよなw ブランドがAMDになって呪いが解けたか? ずっと昔から競争に脱落せずに生き残ってきたのは凄いと思う。 他のメーカーは転換期にどんどん脱落してるのに。
Intelに対抗できるのがAMDしかいないからね intelの独裁を少しでも抑えるために、俺らに見えないところで色んな企業や機関の助けが入っているんだろう
見えるよ
Intel独裁を抑えるためだけに応援していたつもりが、 だんだん情が移ってしまい、いつのまにかAMD贔屓に。
AMDの最大の魅力は今にも消えそうなのにけなげに頑張ってるところだ ちょっと古いが、2005年(Intel-Core系が出る前)の時価総額でIntelは18位、AMDは900番台 額にすると1/20以下
>>519 こういう妄想ができる陰厨は素晴らしいと思うw
AMDって実質IBMのx86部門だろ
屁ルミは数出るのかね?
葬式スレいけよ
汚名挽回 名誉返上
>>527 何だいきなり・・・
雑音の押入れは「汚物積上」だろ
油資本が入った時点で状況は多少変わってるものの ・プロセス開発はIBM主導 ・役員はIBM出身が多い ・SSE5(現XOP)は(以下略
・たまにPentium 4にはL1Dが無い(何だこりゃ)
AMDの人ってどれだけいるのかな 上の連中ってみんな他所から来たやつらだろ
>>530 ----------------
・役員はIBM出身が多い
----------------
ソースはいくらでもあるのですから、ちゃんと調べた方が…
http://www.amd.com/us/aboutamd/corporate-information/executives/Pages/amd-executives.aspx Dirk Meyer: DEC -> AMD (1995)
Chekib Akrout: IBM -> Freescale -> AMD (2008)
Rick Bergman: IBM(平社員) -> TI -> Exponetial -> S3 -> ATI (2001) -> AMD
Nigel Dessau: IBM -> StorageTek -> Sun -> AMD (2008)
Emilio Ghilardi: HP -> AMD (2008)
Ahmed Mahmoud: Kodak -> Dell -> AMD (2008)
Thomas M. McCoy: 法律事務所 -> AMD (1995)
Robert J. Rivet: Motorola SPS -> AMD (2000)
Thomas Seifert: Siemens -> Infineon/Quimonda -> AMD (2009)
Marty Seyer: NCR -> Penguin Computing -> AMD (2002)
Allen Sockwell: IBM(平社員) -> Compaq -> Crossroads Systems -> AMD(2002)
IBMでちゃんとしたキャリアを積んでいるのは、Akrout氏と Dessau氏くらいかと…
取締役権限を持たないレベルではもっと多いんじゃない? 事業部門の縦割り自体が、退任前にHester(IBMに23年勤務)の作り上げた体制じゃん。
FACオタ君はHesterがAMDに連れてきた元POWERのアーキテクトがどんな役職に就いているか 調べてみると良いよ
つうか人材的なIBM化であっても資本的なIBM化ではないだろw
団子解釈で言えばINTELはまるっきりフェアチャイルドってことにもなるぜw
>>529 そう思い込まないと、精神の安定が保てない。
何処の誰が役員や開発やっているかはどうでもいい IntelとNvidia以外の現実的な選択肢として存在することが重要
ぶっちゃけそうだな。IBMの手先だろうが、元Alphaの残党だろうがなんだろうが、 対抗勢力そして存在していることの方が、消費者にとっては遙かに重要。
>>535 --------------
HesterがAMDに連れてきた元POWERのアーキテクト
--------------
またソースを出せない適当な話を(笑)
そもそもPOWERのアーキテクトを引っ張って来る立場というなら、何故Akroutじゃ無いんですか?
資本はアブダビで人は寄せ集めが正解
企業解説スレなのかCPUのアーキテクトを語るスレなのかの閾が滅茶苦茶になってるな
アーキテクトならあってるジャン
脳味噌が滅茶苦茶なコテの庭なスレというのが正解
脳みそがお花畑なコテと電波陰厨が嵐スレだろ? その合間を縫って次世代CPU話をしている感じ。
>>541 お前「FACオタ」だったのか!衝撃の事実!
IBMが関係深いんなら 将来、AMDは中国資本の会社になる可能性もけっこう高いっちゅうこっちゃね
アブダビだろ 産油国は油枯渇後の金儲け手段を探してるんよ だから工場だけ買ったわけ
アブダビの投資家が投資活動したんだろ? 工場の運営権と投資をごちゃ混ぜにする人って・・・
投資家じゃなくて政府系投資会社だけどね 両方とも
ATICは別かすまんね AMD(Advanced Mubadala Development) とかいわれてたな
Abu dhabi Mubadala Developmentだったかな
ま。AMD本体はアメリカが売却許可を出さないだろうな。
556 :
MACオタ :2010/03/28(日) 21:00:11 ID:Xy1m3rTn
AMD版ターボブーストの仕様が出てきたようです。
http://lkml.org/lkml/2010/3/22/336 -------------------
Starting with F10h, revE, AMD processors add support for a dynamic
core boosting feature called Core Performance Boost. When a specific
condition is present, a subset of the cores on a system are boosted
beyond their P0 operating frequency to speed up the performance of
single-threaded applications.
-------------------
詳細はリンク先に書いてある powernow-k8 のパッチをどうぞ。
それCPB有無判別と有効無効を切り替えフラグに関するパッチ ソースみてもCPBの動作は全くわからんよ 実際の動作はUS20100058078に基くと思うけどさ
>>536 K8以降は製品自体、技術や機能がIBM化してますが…
>>558 ------------------
K8以降は製品自体、技術や機能がIBM化してますが…
------------------
具体的にどの辺でしょうか?
実性能はいいとしてもベンチでも勝てるの?
スライド見たら予想通りショボくてわろた
まーた煽り煽られの繰り返しが始まるのかよ
>>563 > 実性能はいいとしてもベンチでも勝てるの?
どうなんだろうね、これまでは同コア数の対決でダブルスコアで負けていたAMD
負けを取り返すぞと12コアとコア数を倍にしメモリの4チャネル化・他ソケットへの1ホップ接続に強化
そして得意のACP表記で105W、動作クロックは2.3GHzと大幅に抑えたけど価格も$1,386と安さ爆発の設定。
さて、Intelは対抗品を出して来ますかね?
私の想像だと無視して粛々とSandy Bridgeへのリリースを進めていくのだと思われます。
最初のsandyまで何ヶ月あると思ってんだよアホが
Sandy Bridge待たなくてもNehalem-EXに追い抜かれそうな予感がする SPECfp_rateは抜かれないかも知れないけど
Westmere 6コアの1.4倍もの巨大ダイで、更にクロック・電圧抑えてMCM化したものを 出血価格で売りますって話だからな。 それでもし真に優位が得られるとして、Westmereでも全く同じことが可能だろ? (むしろMCM実装に関してはIntelのほうが実績有り) 当然のことながらクロック落とした分だけシングルスレッド性能は落ちるし 既にNehalemで組んだシステムはWestmereへの移行コストがあまりかからない 故に価格・性能共に故に大した脅威にはならず、Intelが手を出す可能性は低い罠。 逆に言うと、Intelにとって採算性悪く馬鹿馬鹿しくてやらないことを、 AMDが敢えてやることで隙間の需要を狙うだけの話ですがな。 と、当たり前のことを言ってみた
おやおや どっかのGPUみたいですね
いいから「たまにPentium 4にはL1Dが無い」を解説しろ
Nehalem-EXはメモリ周りお化けやん そもそも鯖向けならfpよりintだし メモコン統合してない時代でもWoodcrest以降はまた食い荒らされてきたのにまだわかってないのかな
Magny-Coursの価格は衝撃的だが、Intelは焦土作戦に引き込まれたくは無いだろうね 放置するんじゃない?
>Opteron 6100がIntelが発表したばかりのWestmereコアのXeonに比べて 性能が同等以上で、消費電力が低く、かつ価格も安いということを強調した。 >Opteron 6100がIntelが発表したばかりのWestmereコアのXeonに比べて 性能が同等以上で、消費電力が低く、かつ価格も安いということを強調した。 >Opteron 6100がIntelが発表したばかりのWestmereコアのXeonに比べて 性能が同等以上で、消費電力が低く、かつ価格も安いということを強調した。
>>574 WestmereコアのXeonは最上位だと・・
X5680 6コア 3.33GHz 130W 6.4GT/秒 1663ドル
となるわけで、確かに価格は12コアの6176SEの方が安い($1,386)
としてACP vs TDPという歪ながら105W(ACP) vs 130W(TDP)対決でも6176SEの方が小さい値ではある。
問題は「性能が同等以上」ということだろうね。
シングルスレッド性能はX5680の圧勝なのは言うまでもないがマルチスレッド性能だとどうなんだろう?
私的には微妙な感じがする。
部分的に6176SEがX5680より上回るベンチは存在すると思うのだが・・・
全体的に比べるとどうなんだろう?
576 :
Socket774 :2010/03/29(月) 18:58:39 ID:WtVmhbws
シングルコア性能が一気に落ちる時代の到来か。
577 :
MACオタ :2010/03/29(月) 19:09:31 ID:lGKVl247
なんだ、1パッケージあたり >12 cores, 692 mm2 die, 19.6MB of cache on-die MCMだから当然か。
146 名前:Socket774[sage] 投稿日:2007/09/23(日) 02:16:45 ID:uqQtZWII
雑音あいかわらずいい味出してんなー。
148 名前:●テヘ権田●[sage] 投稿日:2007/09/23(日) 02:41:12 ID:/aojbA/5
>>146 > 雑音あいかわらずいい味出してんなー。
まぁな、バカは直ぐに低俗へと逃げて騒ぐから相手にしたくねぇんだけどまぁ偶には良いだろw
ぶっちゃけMagny-Coursは仮想化環境用だろう 仮想化環境では論理コアのHTが使えないから、物理コア数勝負になるが この分野ではMagny-Coursは最強だろう 4ソケット版の価格はXeonより段違いに安いから、この種のサーバーのハード面のコストを強烈に引き下げられる・・・かも
エラッタ30台のAMDCPUは鯖実用 エラッタ3桁のIntelCPUはベンチ(&暗蟻)用
> 仮想化環境では論理コアのHTが使えないから、物理コア数勝負になるが 一 体 ど こ の 仮 想 化 ソ フ ト の 話 で す か ?
>>583 もしかしたらAMD社製の非公開ソフトなのかもw
585 :
えるえる :2010/03/29(月) 20:37:00 ID:jmMLJ2Vr
X5570機ならHyper-Vで普通に16論理CPU使えてますよ。
XPもーどトカジャネ
588 :
えるえる :2010/03/29(月) 20:57:46 ID:jmMLJ2Vr
これまでより大分戦えるモノ出してきたな bulldozerも楽しみだわ
590 :
えるえる :2010/03/29(月) 21:01:21 ID:jmMLJ2Vr
まあこういうアーキテクチャが通用するのは、 あくまでもサーバの話でデスクトップでは無論へろへろなわけだが。
最近はエンコ用途でもクアッドコアで間に合っちゃうしなあ
2.2GHzつよすぎわろた
消費電力のってね〜
?? 12core対24core??
>>588 > 冷静にみると、Magny-Coourが速いのと、Istanbulが速いのと、Intelが速いのと
> 結構割れてるな。サーバも適材適所ということか。
どうかなぁ、実質24コア vs 12コア対決でその状態だし少し呆れてます。
1コアだけ最強いれて、のこり11コアをチープにすれば良かったのに。
597 :
えるえる :2010/03/29(月) 21:33:06 ID:jmMLJ2Vr
Intel Xeon W5680 6 130W 3.3GHz $1663 vs AMD Opteron 6176 SE 12 105/137W 2.3 GHz $1386 Intel Xeon X5670 6 95W 2.93GHz $1440 Magny-Coursの最上位であるOpteron 6176SEの位置づけが、 W5680の対抗馬だからな。コア数は問題ではない。AMDは身を削って安く売る方針だからなあ。 IntelのX5670はAMD的には格下の位置づけであるが、実性能はさておき、Opteron 6176SEのほうが安いようだね。
>>596 それだ
2coreをリッチにして他をシンプルにすりゃ
シングルもマルチも満たせるにゃ
ってIntelの目論見じゃねこれって
599 :
えるえる :2010/03/29(月) 21:34:29 ID:jmMLJ2Vr
Anandのベンチでレビューされているのは格下の6174だからさらに安いね。 価格的には完全に格上との比較になってるな。
>>596 > 1コアだけ最強いれて、のこり11コアをチープにすれば良かったのに。
さてOSはシングルスレッド動作時にその最強なコアを使用してくれるでしょうかw
システム単位で性能・価格・消費電力が良ければそれで良い
消費電力はきつそうですが
>>599 > Anandのベンチでレビューされているのは格下の6174だ
X5670も格下だから丁度よいのでは?
> 価格的には完全に格上との比較になってるな。
値段はAMD安いね。多分その価格でないで売れないと見越したうえでの値付けなんだと思われます。
通常で使う分にはOpteron 6164HEとシングルソケットのH8SGL-Fとの組み合わせがコストパフォーマンス的にはよさげだね
Nehalem-EXとの比較はないのか?
うわ いつもの知的障害者の集中豪雨的な串使いが凄ぇ
>Do remember that this is a completely synthetic benchmark. A 100% encryption performance advantage might translate in a very small performance advantage in a real world application え〜
>>604 1.7GHzだとちょっとまったりしてるけど12コアということでサーバーとしては良い選択肢なのかも知れませんな。
使う側からすれば、急激な速度低下は減ったけど最新のサーバーなのになんかまったりしてるよなぁ〜って感じか?
ボラクルを使うなら性能的にも価格的にもWestmere-DPがよさげだな。 24スレッドだろうが物理コア数12でカウントされるからコア係数0.5をかけて6CPU分。 Magny-Coursは特に係数が小さくなる特例がなければ12CPU分のライセンス料がかかる。
マニクールの存在意義はWestmereに勝つことじゃなく、
シェアの低下を抑えるために、コストやTDP無視で性能だけでも食らいつくだからな。
来年後半のBulldozer16コアまでなんとか戦えれば御の字
営業も、Bulldozerへのアップグレード込でマーケティングを行っているだろう。
まあ、結構健闘しているようで、これなら1年くらいはなんとかなるんじゃね?
しかしWindows完敗→Linux圧勝は笑えるw
ttp://it.anandtech.com/IT/showdoc.aspx?i=3784&p=7 win Lin
Op 6174(2.2G) 32s→18s
Op 2435(2.6G) 41s→27s
Xeon 5670(2.9G) 26s→32s
Xeon 5570(2.9G) 35s→33s
HD5870vsGTX480を見た後じゃ余裕w TDPや消費電力は普通のハイエンド、歩留まりもそれなり、ライバルと同時期 ダイサイズは3倍だけど、それ以外が常識の範囲に収まっているから普通に売れるだろう。
>HD5870vsGTX480 余裕でまけてんじゃん
>>612 GTX480お買い上げオメデトウw
あれはどう見てもGTx480の惨敗だろw
DX11は5割くらい速いけど+130Wって馬鹿すぎるだろw
>HD5870vsGTX480 ミドルとハイエンドを比べるな
RADEONの値下げないようだしFermiに競争力は無いんだろうなぁ
むしろHD58xx、HD5970があちこちで売れ始めてるな。 Fermi待ちしてた人たちが諦めてRADEONに走ったか
競争出来るだけの物量が全く無いからね 今や月間数十万個出荷していて尚品不足のHD5870に対し、 出荷数万のGTX4xxじゃ何の圧力にもならない。
アーキテクチャを別にしてダイサイズだけで話すとしても ある程度肥大化したらニコイチにするのが賢いね 500~600muでもまだワンチップに拘るとか小さいダイなのにニコイチにするとか また証拠書類改竄発覚でもしたのか?ってくらい意味不明
PCの出荷台数は年間3億〜台 サーバーは年間1千万〜台 PC用のチップを流用してサーバー専用チップ開発のコストを浮かせられることがメリットなんだろうね あと、MCMなら高品質品は高品質品と、低品質品は低品質品とペアにすることが出来るから、良品を作りやすいのかも
作るのは6コアCPUだけでいいわけか。 一般向けにはPhenomII X6として売って 鯖向けにはOpteron6コアか、2個MCMして12コアで売る。 2コア欠陥があったらPhenomII X4か Opeteron4コアか2個MCMして8コアで売る そういえばOpteronは全ラインナップで機能の差異がないことも売りにしてたな。 これも生産ライン1本化の知恵か。
MCMのコストが高いんだけどな
12コアの1ダイが出来上がるコストよりは安いんでしょ
これMACオタ?
新コテ誕生の瞬間
誰かが一瞬早く書き込んで数字ズレたらどうするつもりなんだろう
笑えばいいと思うよ
>>623 Westmere-EX(Beckton)のことだろうけど
XeonMPは巨大ダイに舵を切って以降、歩留まり向上のために全コア動くのは最上位だけに留めている。
出荷量が多いのは大概2コア殺し版だよ。
それでなくとも製造技術がこなれてから作るから大きいダイでもある程度高い歩留まりが保てる。
単価自体も高いしね。
件のNehalem-EXに関してはHPC向けに投入されるのはあくまで6コア版
じゃあこいつのどうしようもない脳味噌はどうすんだろ
BecktonってNehalem-EXのことじゃなかったっけか?
あえて釣り針に引っかかってみよう
>>623 はマニクールのことだろ
ベクトンなんかどうでもいい
うい まあこの分だとMPサーバ向けはしばらくNehalem-Westmereが無敵状態だろうし DPサーバ向けに限ればこんなもんでは Opteron-DP Xeon-DP 2010Q1 Magny-Cours 12C(MCM) Westmere 6C 2010Q2 | | 2010Q3 | | 2010Q4 | Sandy Bridge 6C 2011Q1 Bulldozer 8C | 2011Q2 | | 2011Q3 Bulldozer 16C(MCM) | 2011Q4 | Ivy Bridge 8C ※DDR4ローンチ? 2012Q1 | | 2012Q2 ? | 2012Q3 ? Haswell 8C + Larrabee3 ? 2012Q4 ? | ちなみにAMDの資料から察するにBulldozer 16コアは推定3GHz前後だぞ、と。
あれでしょ コアあたりのパフォーマンスで競っても・・・なんで 数で勝負っていう サーバーはそれでも良いんだろうけど クライアントはどうすんのかね 今後
>>632 SandyBridge6C/8Cは早くても2011Q2以降だろ、流石に2010Q4はない。
それじゃWestmereの寿命が短すぎて買うなって言ってるようなもの
それに、マニクールのように今後のサーバー向けはシングルとMCMを同時リリースになるだろうから
Bulldozer 8C/16Cは同時期だよ。
2012以降は正直予想不可能だろ
AMDはBull+HD6xxxのFusion
IntelはHaswell+Larrabee
どちらも両社の技術力を考慮しても困難さでは同等と見ていいからね
登場時期も互いの様子見で時期を結局あわせてくると思う
>>635 Dempsey「お前の優しさに全俺が泣いた」
Intelは8コアじゃ仮想化鯖でBulldozer 16C(MCM)に対抗できんだろ IntelもMCMやってくるんだろう
Bullは前世代プロセスK10のクロック+1GHzくらいかね?
641 :
えるえる :2010/03/30(火) 18:50:26 ID:+OLvBtq6
>マニクールの存在意義はWestmereに勝つことじゃなく、
>シェアの低下を抑えるために、コストやTDP無視で性能だけでも食らいつくだからな。
BulldozerのSandy Bridgeに対するポジションも現実的には同じ様な感じになりそうだよな。
Mangy-CoursはIstanbulとBulldozerのつなぎといういみでは、
スループット寄りになったわけでまあうまいところに収まってるな。
>>609 AMDのマーケティング部門はアフォなことに、
1モジュール1コアとしてアピールしていれば、ボラクルをはじめとするライセンス料が安く済んで、
身を削らなくてもすんだかもしれないのに、何を思ったか16コア-!!!とかいってるからなあ。
さき考えて無さ杉。
642 :
えるえる :2010/03/30(火) 18:52:41 ID:+OLvBtq6
今やサーバは本体価格よりも電気代のほうが高いというくらいの安物が主流だというのに、 今後はコアの数が多い=良いこと のようなマーケティングはサーバ用CPUとしてはライセンスのことを考えれば自殺行為なので廃れていくかも知れんな。
643 :
えるえる :2010/03/30(火) 19:05:53 ID:+OLvBtq6
というのは嘘。 今はソケット数のライセンスになっていたのだった。
644 :
えるえる :2010/03/30(火) 19:08:07 ID:+OLvBtq6
645 :
えるえる :2010/03/30(火) 19:09:57 ID:+OLvBtq6
なんだこれ。一貫性なさすが。 ボラクル糞だな。
仮想化鯖使うときに、仮想コア数が物理コア数を超えるとシステム全体の性能が落ちる だから物理コア数の多さは大きなアドバンテージ あとライセンスは今はどうなの?
648 :
えるえる :2010/03/30(火) 19:16:03 ID:+OLvBtq6
MCM高いと思ってるやつがいるようだが、 IntelはSmithfieldのPen DからわざわざPreslerだかなんだかっていうXeonだすときには、 わざわざMCMの設備に投資してまで、MCMにしてきたんだが。Clarkdaleみてもやすいのわかるだろ。 製造コストはダイサイズに対して指数関数的に増えるという基本を覚えているのならば、 数百平方mmいったら分けたほうが断然いいって想像つくだろうな。
649 :
えるえる :2010/03/30(火) 19:20:20 ID:+OLvBtq6
AMDはサーバ用ソフトベンダーにBullのライセンスを 有利に働かせるよう政治力が問われるわけか…。 個人的にはデコーダ共有しているのに、物理コア2つという計数は胡散臭いと思うが。
きもすぎる
651 :
えるえる :2010/03/30(火) 19:36:04 ID:+OLvBtq6
>>385 いまさらながら、
Pentium II〜IIIくらいの時代にK6系がそれなりにクロックあがって戦えたてのって
今思えばかなり善戦だな。
K6はOOO付で6ステージしかないのに10数ステージあるP6にくらいついていたのは、
プリデコード〜デコードの仕組みがかなり貢献してるのかもな。
FPUが残念設計だったから、まあ結局は勝てなかったわけだが。
>製造コストはダイサイズに対して指数関数的に増えるという基本を覚えているのならば、 ダイサイズが倍以上になっても冗長化して不良ブロックを殺すことを許すならばむしろ歩留まりは向上可能。 同様のことはCellが実際やってるしね。 んで、結合自体のコストだけどさ。。。 そもそもモノリシックダイなら内部結合ですむものを外部接続インターフェイスを使って結合しないといけないわけで。 L3間の調停にせよ、ダイを跨ぐ際に電気信号をパラレルからシリアル(実際には狭幅パラレル)に変換しないといけないしね。 単一のL3キャッシュにぶら下がってコヒーレンシを保ってるモノリシックダイと比べても圧倒的に調停コストは大きいぜ。 HTにせよ、Istanbulにはダイごとに合計4ウェイあるが、2ウェイずつをダイ間結合に使ってるので 外部結合に使えるのは結局パッケージあたり4ウェイ。
653 :
えるえる :2010/03/30(火) 21:15:08 ID:+OLvBtq6
冗長化っていうてもあるけど、 むしろサーバ用はMCM化を容易にできるようにI/Fを設計にして、 MCMでコア数を差別化したほうが開発費を考えたらいいかもな。 ぶっちゃけ数量ベースでみればあきらかにPCよりもすくないのに、 個別にダイを用意するのがばかげているよ。
654 :
えるえる :2010/03/30(火) 21:16:40 ID:+OLvBtq6
個別に専用ダイを用意しているのはIntelにしかできないような 超絶的力技なんでそれが当たり前だなんて思わないでね。 IBM, AMDクラスはMCMが現実的。
歩留まりと言うか良品率じゃないかな 単なる机上の計算だが・・・ 例えば10億トランジスタのチップを例えばクロックでA、B、C...Jまで10ランクに区分する 同じ製造技術で20億トランジスタの1チップを作ると Aランク:1/100、Bランク:3/100、Cランク:5/100....Jランク:19/100となる でも10億のチップ2個のMCMなら Aランク:10/100、Bランク:10/100、Cランク:10/100...Jランク:10/100となる
656 :
えるえる :2010/03/30(火) 21:46:10 ID:+OLvBtq6
まあデカダイがそんなにコストメリットがあるのならば、 Bulldozerも最初から16コアでつくってるよな。 たぶんCellのようにリングじゃないだろうし、冗長コア化が容易ではないのかもしれない。 MCMは基本的には基板にICをのっける実装技術の延長だから、 一度ラインができてしまえば機械がやるさぎょうで11個のせるか複数のせるかの差なので、 そこまで高くならんはずだよ。最初の実装装置の設備投資だけだな。
リングじゃないのと冗長性に何の関係が
>「経済が低迷する中、エンドユーザーはサーバの価値を見極め、低い投資で >最大限の効果を出したいと考えている。そうすることにより浮いたコストを、 >より優秀な人材の引止めや拡充などへ回すことが可能となるからだ。 >我々は、そうしたことが真に可能となるように、2ソケット向けCPUと4ソケット >向けCPUを同じ価格にし、より高い性能を低コストで実現できるようにした」 >と、4ソケット向けCPUのあり方そのものを見直したことを強調する。 >また、4ソケットサーバの市場シェアは10年前には10%あったが現在は >4%に減少、このまま行けば消えてしまう可能性があるとの見方もあるが、 >「こうした状況を抜本的に見直す必要があった。結果として、2ソケット >向けと同じコストで4ソケット向けを出せれば、市場に4ソケット向けの >パフォーマンスを生かそうと思う動きが出てくるはずと考えた」 ・・・・、要約すると MP向けをダンピング価格で提供しないとXeon DPと戦えません(><) ってことなんだよね?
660 :
えるえる :2010/03/30(火) 22:27:58 ID:+OLvBtq6
PhenomのX3の無効コアは、テストしてるのかそもそもなぞだな。
MP向けのCPUは高すぎて、4ソケットで組むぐらいならブレードサーバーで数を束ねる方が効率的だった
663 :
えるえる :2010/03/30(火) 22:43:33 ID:+OLvBtq6
AMDはリーマン・ブラザーズ見てからMagny-Cours開発はじめたんだっけか…。 まああまり気にするほど度も無い文章だけど。
664 :
えるえる :2010/03/30(火) 22:51:40 ID:+OLvBtq6
世の中はクラウドいってるようだが、 実態はサーバCPUも性能があがりすぎて、4S以下のローエンドサーバで ほとんどのニーズまかなえるようになってしまって、一部のニッチネタ以外は、 もはや人件費やら電気代やらのランニングコストでしか差別化できるネタがなくなってしまったってのが 本当のところなんだろうなあ。 クラウドはその辺の事情をうまく隠蔽してくれる魔法の言葉。 本当は安いサーバばっかにつないでるんだけどばれたらかっこわるいから、 顧客はサーバの種類や中身なんて考えなくていいからだまって委託しろみたいな。
665 :
えるえる :2010/03/30(火) 22:59:04 ID:+OLvBtq6
つーか、4S超のミドル以上のサーバがどんどん需要なくなってるのが事実だってのに、 クラウドで中央集権が復活するわけねーじゃん。クラウド厨糞杉。 Googleとかのスーパーニッチなんて参考にならねぇしな。 統合化のながれだってサーバの性能があがって、1つにまとめたほうが 維持費やすくなるのがわかったってだけだわ。むしろどう考えてもサーバは衰退にむかってるな。
利益は出るんだろうが、シェアの拡大に繋がるかどうかは厳しいかもしれんね
>>659 その文で要約がそれとか。頼むから日本語学校へ逝ってくれ。
>>659 MPのプレミア分をなくした価格設定は事実上サーバー屋に対する補助金
それにしてもこのところAMDの手を繰り出すペースが凄まじいな
つーか鯖需要ってまだあるの? 金融鯖はアレだし、CG用?
というかNehalem-EXとWestmereって登場時期同じくらいなのか intelはどっちメインで売りたいんだ?
>>674 Westmere-EPは2ソケットまで用でNehalem-EXは4ソケット以上用じゃないかな
Nehalem-EXは
>>672 を見る限りWestmere-EPより大分クロックが低いから、2ソケットまでなら演算能力ではWestmere-EPには及ばなそう
あとはなにより価格じゃね? ピークパフォーマンスではどうみても戦えないけど CPUのコストパフォーマンスで見れば 明らかにAMDに分がある
CPUの単価が製品の単価を大きく左右するのは「パソコン」まで。 ミッドレンジ以上のサーバーはCPU以上に高い部品なんてザラにあるし ソフトウェアのライセンスやサポート、その他人件費込み込みで考えると CPUだけの価格差なんて本質じゃなくなる。
AMDのメリットは、プラットフォームの息の長さだと思う。 と、うちのソケF鯖が申しておりますw
たとえばMagny-CoursはDDR3 4chだけど 3chに留めてるWestmere-EPよりマザボの単価安く済むでしょうか? このへんは常識で考えてね
つまりWestmere-EPは貧乏企業相手に売れるということだよね
知的障害者の発言はそれまでの流れと無関係なものを持ってくるうえに >CPU以上に高い部品なんてザラにある ↓ CPUより安いマザボの話 とそいつの中だけでも流れが無いうえに コピペすら現実と違えるようにしばしば変えてきたりとどうしようもない
WestmereはDDR3 1600MHzまで公式対応してるから十分でしょう。 Magny-Coursはなぜか1066/1333のみ対応にしてるけど(非公式には1600もいけるとか) ちなみに最大メモリ搭載量 Nehalem/Westmere-EP: 384GB Magny-Cours: 128GB
>681 名前:,,・´∀`・,,)っ-○○○@ ◆OhjIkO1O8o [sage] 投稿日:2010/03/31(水) 14:39:34 ID:swjCQpSQ [2/3] >たとえばMagny-CoursはDDR3 4chだけど >3chに留めてるWestmere-EPよりマザボの単価安く済むでしょうか? > >このへんは常識で考えてね こんなこと言った直後に、Nehalem/Westmere-EPの最大メモリ搭載量を自慢。 鳩山総理かよお前は。
>>686 CPUの安さに妥協しては最大限のパフォーマンスは得られないってことですよ
鯖用のWestmereってDDR3 1600MHzまで対応してるんだっけ?
ECC付きの1600MHzモジュールはまだまだ供給量少ないし、数の問題でしょ
AMDもIntelもメモコンはライセンスの関係でRumbus供与の同じコントローラーモジュールを積んでそうだが
高いよりは安い方が良いに決まってる ところでNehalem-EXが8コアで2.26GHzなことを考えると 12コアで2.3GHzなMagny-Coursって結構がんばってる気がする まあトランジスタ数は5億ほど違うけど
なんかレス番飛んでるけど気狂い湧いてる?
Nehalem-EXは600mm2級らしいからクロック上げるのは大変かもしれんね
6coreで240mm2なのに 8coreで600mm2なのかよって 45nmかい
そりゃNehalem-EXは45nmだが何か Xeon MPが1年遅れなのは昔からだろう
いや、単に意外だっただけさ
Magny-Coursは過熱すると自動クロックダウンする機構を付けることで2.3GHzのクロックを実現する。 要するに逆Turbo-Boostだな ちなみにNehalem-EX最上位のX7560はTBで2.66GHzまでブーストするが それを「2.66GHz」としては売らない。 姿勢の違いが出てて面白いな
ま、VIAだってnano U2250は自動クロックアップで1.6GHzで常時稼動してるけど1.3+GHzってしてる
TDP内で全コアフルロード出来る定格クロックの 2.26Gと2.3Gの差に いつもの知的障害でいちゃもんをつけるいつもの知的障害者
行列積みたいな全演算ユニットフルバーンなプログラム動かしたとき クロックダウンする可能性があるんだろ。
704 :
えるえる :2010/03/31(水) 20:51:49 ID:WK5FKTeA
まあMagny-Coursは2S向け主眼で、 対RISCサーバ色の強いNehalem-EXとは実際のところ狙いが違う製品なので、 そんなに競合しないわけであるが。
>>705 IntelがTDPの値を鯖読みすぎてて、そのままバカ正直に作った鯖は負荷がかかると
サーマルスロットリングやサーマルシャットダウンが動くCPUがあるよ。
もちろん、キチンとラッキングしてDCに置いててそうなる。
勤務先にそのモデルが残ってるw
発表資料を読む限りTDP通りに組むとMagny-Coursでもそうなるぞ
昔PentiumDあたりであったような話だな。
>>700 Magny-Coursって本当にAMD版のSmithfieldだよなあw
Smithfieldもライバル(Athlon64X2)に置いてかれないためのMCMだった
Clovertownみたいなライバルを突き放すためのMCMではなく
>>709 お前は"Smithfield"を全くわかっていない。
それは"Smithfield"を余りに擁護しすぎている。
>712 はいはい じゃなくて。 炭と一緒にされちゃMagny-Coursがかわいそうだ。 あれよりはずっと洗練されているでしょ。
>>700 それって単にファンが壊れたり、室内やケース内の温度が高くなって冷却能力を超えた場合に、
クロックを抑えて破損や停止を防止するってだけだろ。
環境が安定した状況での定格動作でも異常発熱する問題があるみたいな意味じゃあない。
まあ、Magni-Coursをバカにして貶めたいようだけど、
元から性能の真っ向勝負で勝てるとは誰も思ってないから意味が無いよ。
6コアだけじゃジリ貧だから、くっつけた12コアを取り敢えず作ってみましたってだけ。
取り敢えず、Westmere6cのスペックは分かったし、同じ32nmのSandybridge8Cのスペックも大体予想出来るな。 恐らく8C/16T 2.8G〜3Gが130Wだろう。(2コア増えてクロック一割引) 対するAMDは、Bulldozerが全く不明だから32nm Llano 4C 3G=60Wを元に適当に予想してみよう。 取り敢えず単コア性能はk10=Bull、TDPはK10 2C=bull 3Cだと仮定する。 K10 4コアが40Wとすると2コア 20Wだから、 Bull 3コア 20W→16コア 110Wになる。 キャッシュ他が20WとしてBull 16コア 3G 130Wでいけそうだね。 つまり8コア 3Gが65Wになるのかw 時期的にもBull 16C 3G vs Sandy 8C/16T 3Gが直接ぶつかるね。 来年後半はAMDvsIntelでガチの防御無視の殴り合いになり非常に面白そうだw
Smithfieldは2個のダイの間に全く通信路がなく、 チップセットを経由しないといけない、本物のニコイチ。 Magny-Coursは二つのダイがHTリンク二つでちゃんと繋がってる
350mm2のMCMと500MM2の製造コストはどっちが高いんだろうな。 サイズ比がHD5970 vs GTX480っぽいけど。 適当に計算してみた。 歩留まりは350mm2が60%、500mm2が40%位かね。 それぞれウェハから150個、100個のコアが採れるとして計算すると、 150*0.6で90個、100*0.3で30個採れることになるな。 MCMだから半分の45個分になるとすると、 1ウェハからマニクールが45個、X7000が30個ということか。 SOIの分コストが上がってもだいたい同程度のコストだな。 コスト一緒で多く採れる場合のメリットはなんだろう。
しかし、なんでここで淫照こと必死に書いてるのかなー?w 専用スレあるだろ?そっちでやれよ。
Magny-Coursは当初なんだそれと思ったが出てきた物を見るとそれなりにいい
>>714 違います。TDP枠に収めるための「省電力技術」として使ってます。
>>720 Windowsでパソコンどれがいいなんて話しをしていると
無理やり割り込んできてMac薦めてくる全く空気を読めないマカーと一緒なんじゃね?
MacをWinに、マカーをドザーにしてもいいw
>>722 意味不明だろ
定格が最高2.3GHz、異常温度時のクロック制限機能付き
まともな筐体や冷却機構、室温なら起こりえない非常事態に備えた機能だろ。
昔intelがPen4で実演した、ヒートシンクを外してもクロックや電圧を大幅に下げて動き続けるって奴。
あれのAMD版ってだけ。
まさか定格の2.3GHzじゃ熱暴走おこすとでも言いたいのか?w
C1Eが消費電力を抑える技術とは言ってるけどCoolSpeedは温度に関しての言及しか無いな 従来なら温度上限に達すると動作を停止してたのが、クロックと電圧を落として動作を継続するようになった 結果として性能/電力の効率が上がっている そういう意味で省電力機能(AMD-P 2.0)として一括りにされてるんだと思うけど
>>725 リンク先も嫁よ
http://blogs.amd.com/developer/2010/03/29/you-down-with-amd-p/ > AMD CoolSpeed technology is a capability that enables the processor(s) to automatically drop into a
> lower power mode if the processor thermal specifications are exceeded. Once the processor thermals
> return within specification the processor can automatically return to full performance.
要約:温度が下がったら自動的に元の電圧・クロックに戻ってフルパフォーマンス発揮できるようになりますよ
> まともな筐体や冷却機構、室温なら起こりえない非常事態に備えた機能
というのはどう考えても妄想の域を出ませんでしたとさ
何度も言うがこれは「逆TurboBoost」な
まさかTDP通りに組まれてればどんな負荷かけても2.3GHzで全コア動かし続けられるとでも思ったのか? ゆとりは資料を読む力もないんだな
730 :
Socket774 :2010/04/01(木) 04:57:05 ID:KhjlrTns
まるで車のブレーキは停車するためにあるのか減速するためにあるのかと議論してるようで滑稽だな。 頭の悪いコテに話を合わせると馬鹿がうつるぞ。
「どんな負荷かけても全コア動かし続けられるクロック」を定格にしたら2GHz止まりの製品しか出せないと思われ。 低負荷に限って2.3GHzで動く技術と考えれば確かに (CPUを異常発熱から保護する技術ではなく)電力効率を改善する技術とカテゴライズされても 違和感はないさね
そりゃファンが止まったり、窒息ケースだったり、室温がサハラ砂漠並に熱かったら定格も糞もないだろうさ。 定格ってのはどんな負荷を与えても、適正な冷却がされてれば問題なく動くってことだろ。 団子はセレロン用の貧弱なクーラーをつけてフルドライブみたいなアホな状況でも想定しているのか?w 異常発熱なんて天災か人災でしか起こらないだろうし、サーバーの管理者以外は気にすることでもないだろう。
だから屁理屈は「CoolSpeed」(笑)の本質を正しく理解してからにしてくれ AMDのイベントで中の人に質問してくればいいよ。 俺と同じ答えしか返ってこないから
Intelが「TDP内に収めるために省電力技術を使っている」からといって AMDもそれに当てはまるとは限らない TDPを正しく理解しているところはその「最大放熱量」という意味通りに定格を定め 省電力技術は通常運用での電力を省くために用いる そして三連ウンコの知能は相変わらず昆虫未満
また脱糞入りました
いや、そもそもShanghaiの3倍のコア数積んでなお2GHz台で動くことになんの疑問も持たなかったのかと。 高負荷がかかればCoolSpeed(笑)で電圧・クロック落ちるんだからTDP(熱設計消費電力≠最大消費電力)に収まるんですよ(笑) と、ミスリードはこのへんにしておいて まあ、AMDやメディアが「省電力機能」といってるのには、俺があげた物よりかなりもっともらしい理由があるんだが。 ヒント:低負荷のときでもCoolSpeedは発動するケースがある(むしろ低負荷だからこそ)
団子が何でTDPと絡めたがるかが分からないんだよなあ だいたいIntelだってThermal Monitor 2という同様の機能があるでしょ そっちも低負荷時のみ定格で動く機能と言い張るわけかね
真相はAMDのサイトにも載ってるとおりだよ。 もう少し(・´∀`・)スンスンしたいので敢えて場所は示さない。
「たまにPentium 4にはL1Dが無い」とかそんな無駄で高等な技術 いくら超巨大企業Intelでも有り得るわけ無いし
団子食べたい
昔は煽ればソース出してきたが団子も意地悪になってきたなw
>>740 はらこわすぜ?
>>737 今日はワタヌキの日だけどマジレスでヒント
たしかにIntelのTMと同様に熱ダイオードを使ってコア温度を計測しその閾値を越えるとクロックダウンする。
その基盤技術には変わりはないけど、主目的が違う。
(実際問題IntelがTMを「省電力機能」とうたったことは一度もない)
AthlonII X4 605eは4コア2.3GHzでTDP45W 単純に3倍すると12コア2.3GHzでTDP135W PhenomII X4 910eは4コア2.6GHzL3@6MBでTDP65W 単純に3倍すると12コア2.6GHzL3@18MBでTDP195W >いや、そもそもShanghaiの3倍のコア数積んでなお2GHz台で動くことになんの疑問も持たなかったのかと。 いつも通りで当たり前のことだが譫妄が激しい
なにその算数
みんな今日は4/1だ いままで団子がイチャモンつけてたけど今日は4/1だ あとはわかるよな
>>745 ほほう、だんだん本質に近づいてきたかもね♪
【最大のヒント】
ヒートシンクが外れたりファンが故障した場合確かにCPUの温度を下げる必要あるけどさ。
そんなことを解説するのに、なんでわざわざ「冷めたら自動的にフルスピードで動く」なんて
書く必要あるよ?
つまり、システムの障害ではなく平常動作時ですら閾値を越えてしまうケースを想定したもので
それがふにゃふにゃな理由で結果的に電力効率を向上させることになるわけ。
まあ定格よりも電圧・クロックが落ちればその分だけ消費電力減るのは確定的に明らかだが
TBのように忙しいコアのクロックをあげるならともかく、クロック落とすことで電力効率が改善するとは
とうてい考えにくいよね。クロック落とせば処理時間伸びるんだからさ。
つまり、逆に考えろと。
なんでわざわざ「冷めたら自動的にフルスピードで動く」と書いてあったのか。
現実世界の4/1は1年のうち1日だけで 年中エイプリルフールだなんてこの重度知的障害者以外誰もしない
また,,・´∀`・,,)っ-○○○@ ◆OhjIkO1O8oが捏造したのか
このスレに英語が読める奴がいないことはわかった
いや、冷却さえしっかりしてればいいだけの話だろ
うん
記事は正しいが:,,・´∀`・,,)っ-○○○@ ◆OhjIkO1O8oは捏造
冷却面が厳しくて上限温度に達しやすいのと、 CoolSpeedの効能は分けて考えた方が良いと思うけどな CoolSpeedの有無と冷却性能不足で上限温度に達しやすいかどうかは関係無いからね 団子はAMDのマーケティングに踊らされてる気がする 今は何でも省電力って声高に叫べば良い時代だし
C32マザーの情報ない? 次はこれ組みたいんだが。
アム虫がんばるなwww
>AMD CoolSpeed technology 日本AMDに問い合わせればはっきりするんじゃねーの つーか、そのうち2.3GHzおpを買った人が出てくるだろうから 長時間フルロードでクロックが最高のまま維持されるか試してもらうのもアリィィィ
・2.3GHzでACP105W、2.2GHzでACP80WがTDP詐欺になるかどうか ・現状の冷却装置でACP105Wを冷やし切れるかどうか これだけ考えれば何でもない ダイサイズでかくなれば同TDP・ACPでも更に冷却は楽になるし
日本はこれを大真面目にやってたからなぁ
どこでもやってるだろ 日本は、とかキムチ臭すぎる
事実だしw
>>717 12Coreと8Coreのラインナップ(ダイサイズ・トランジスタ数同一)
してある辺りMCM&死にコアの方がコストダウンは出来るでしょ
>歩留まりは350mm2が60%、500mm2が40%位かね。
全てのトランジスタエラーが0と言うことはない
例でいくと
(こなれた45nmプロセスだから70%は無いと思うけどね)
0.6^9=4.6%(6Core全部完動)
0.6^5+0.1*6=68%(5Core)
0.6^4+0.1*6=73%(4Core)
0.6^3+0.1*6=82%(3Core)
2Coreなら100%(理論値)
12Coreだけのラインナップなら歩留まりは5%に満たないけど
8Coreも含めると歩留まりは70%を超える
【訂正】 0.6^6=4.6%(6Core全部完動)
32nmと比べるなんて・・・
AMDはできることからやってるってかんじだな 45nmをちょっとずつ改良していってるんだろうか
>>768 intelがチックタックやってるみたいに
製造キャパがない分慎重にやってるね
確実なプロセスで新回路設計するし
新たなプロセスではこなれた回路で製品実現してるからね
>>766 とはいえ前のページで6174がX5650にコテンパンにやられてるところを見ると、
消費電力が同程度じゃ全然魅力的に見えんだろ。価格も6174のほうが高いし。
まあ使ったベンチマークがあまりスケールがよろしくないソフトってのもあるんだろうけどね。
>>766 こういう結果を見ると
HTTによる論理コアも「あり」なんだよな。
物理的に12コア用意するのは
消費電力的に分が悪すぎる。
LightWaveとかまったくコア数が生かされてないな もっとマシなベンチを用意できなかったのかw
>>771 そこら辺を最適化するためのBulldozerなんじゃない
世にあるソフトがマルチスレッドへの最適化が進んだ物ばかりではない以上仕方ないじゃろ。 Lightwaveはメジャーなタイトルだし。
ブルドーザーはシングルスレッド性能を落とす代わりに、 それ以上にダイサイズも削減することで、ワットパフォーマンスとダイサイズパフォーマンスを 追求するんだっけ。 楽しみだなぁ
CoolSpeedが働くのが前提だとベンチの結果がもっとばらつきそうだな
AthlonII X4 605eが 2.3G 4コアで45W 3倍の12コアで135W。 コアの改良とか考えればなんとかなりそうだね L3キャッシュの差? AthlonIIX2 250(3GHz) 65WとPhenomII X4 945(3GHz) 95Wのように、 L3+コア倍増でも大した差が生じないことを考えるとどうでもよさげ。
>>735 適当に検証したら12コア 2.3G は全力でもなんとかなりそうです
>>775 > ブルドーザーはシングルスレッド性能を落とす代わりに、
> それ以上にダイサイズも削減することで、ワットパフォーマンスとダイサイズパフォーマンスを
> 追求するんだっけ。
>
> 楽しみだなぁ
ちょっと違う
シングルスレッド性能を向上しない代わりにダイサイズ削減して電力性能やサイズ性能を追求。
同等性能で最適化して小型化と言った方がいいかな。
団子のいうことが正しい場合 2.3G動作→熱暴走→クロック低下→冷却→2.3G動作→熱暴走→の無限ループ 普通にありえない動作だと思うが 高負荷で頻繁にクロックが上下して性能の変動が激しいですとか、 一般PCとしてすら願い下げなのに高負荷当たり前なサーバーやHPCでこんなのをベンダーが認める訳ない。 正常に動くクロックで作って供給しろと言われるだけ。
>>779 後藤タンの記事しか読んでないけど、
同時実行可能命令数を2/3に削減するから、平均IPCは2/3よりはいいだろう
けど確実に下がるんでは。
そのかわり2コアを1モジュールに融合させてトランジスタ効率と電力効率を向上。
モジュールを複数搭載してマルチスレッド性能向上。
ダイサイズ50%増でパフォーマンス80%増というのはこのあたりを指してるんではないかと。
落ちたシングルスレッド性能はX6で導入したようなターボブーストで一部モジュール
のクロックあげることで対応するんじゃないのかな。
ウンコのいうことが正しい場合 たまにPentium 4にはL1Dが無い→たまにPentium 4にはL1Dが有る→たまにPentium 4にはL1Dが無い→の無限ループ シングルスレッド性能なんて整数スカラはとうの昔に寸詰まりで 小数点というかベクタで伸ばしてるだけというのが大方の見方 ウンコが>Bulldozer 16コアは推定3GHz前後 とか言ってたが これがもし万が一本当だとするとBullは並列度を下げる代わりにクロックを上げて シングルスレッド(整数スカラ)性能を上げる目論見だろう ただしマルチスレッドベクタ性能は激減しそうだけど
>>742 買った人が計測すればいいだけの話だろ。
ありえないと思うことがありえない
【だんごやさん用しおり】 ここまで(・´∀`・)スンスンした --------------------------------------------
団子暇なの?
>>781 >
>>779 > 後藤タンの記事しか読んでないけど、
> 同時実行可能命令数を2/3に削減するから、平均IPCは2/3よりはいいだろう
> けど確実に下がるんでは。
ほとんどの処理は2wayで十分、極稀に3wayなときもある程度
そんな時は2clk使って処理すればいいだけ。あるいは2コア使って処理するとか。
だから、下がる場合もたまにあるかもねって程度だよ
> そのかわり2コアを1モジュールに融合させてトランジスタ効率と電力効率を向上。
> モジュールを複数搭載してマルチスレッド性能向上。
> ダイサイズ50%増でパフォーマンス80%増というのはこのあたりを指してるんではないかと。
世の中にはHTTで性能低下するプログラムと言うのが少なからずある。
それは論理コアが実コアよりも低性能なところから来ている。
だったら物理コアだけでいいじゃんというのがBulldozerのコンセプト。
ちなみにk10コアはk8から継ぎ足しで拡張しまくって効率が悪い。
だから新設計をして同性能で小型化したと考えたほうがいい。
AMDのスライドの性能予定はコアあたりの性能も上がってないと達成できないんだがな シングルスレッド性能も上がるって事だ
>>787 >ちなみにk10コアはk8から継ぎ足しで拡張しまくって効率が悪い。
>だから新設計をして同性能で小型化したと考えたほうがいい。
実際はK7から脈々続く拡張だからね
元々K7 DEC技術者からの思想からすると全然間逆になってるしね
>>788 その辺は、「回路をシンプルにする分クロック上げやすくなる」
って事だろうと思いますよ
単純に計算しても、ブルは今と同じ45nmプロセスでも20%くらいダイサイズ 小さく出来るよね 更に32nmで作ったら相当小さくなりそうだ。
結論言うと、まーだ誰も解ってない
平常動作時もクロックダウンしうるってのは中の人も認めてる動作になるけど
クロックダウンそのものが省電力機能じゃないからね♪
(
>>751-752 あたりが実は最大のヒントかも)
でBulldozer(笑)だけど・・・
整数演算性能が2/3になるなんてのはALUが3つ同時に稼働できる場合に限った話で、
現実には、単純にポラックの逆法則を適用すると、クロックあたり平均整数演算性能は
√(2/3)≒81%程度ってことになる
これもコードシーケンスが常にALUに作用する命令ばかりという前提だけどね。
そもそもK7〜K10のALU稼働率を過大評価しすぎなんだよ
特に、SPECintでNehalemにダブルスコアで負ける現状少なくとも半分も使い切れてない
ことは明らかだろう。
Load/Store単独命令をはじめALUを使わない命令の比率を考えれば、ALUの利用率なんて
ベストケースでも7割もいかない。極端な話、たとえば
mov eax, [esi]
mov [edi], edx
sub ecx, 2
みたいなシーケンスだと、(L1にヒットする前提で)3命令同時発行できるがALUは1個しか稼働しないし
それっでなくとも分散型RSは動的なリソースアロケーションに弱い。
RSが集中型になるならむしろALUの実効稼働率は改善するだろう。
てなわけで現実には整数コアあたりのクロックあたり整数演算性能は、K10比でトントン〜
多くとも1割落ち程度と予想。
どっちかというとキャッシュ容量心配した方がいい鴨ね
> 世の中にはHTTで性能低下するプログラムと言うのが少なからずある。
> それは論理コアが実コアよりも低性能なところから来ている。
またソースも出せないテキトーなことをwwww
VTuneでパフォーマンス分析してみれば理由はわかるよ。
大概、HT無効時よりもL1キャッシュミスが増加してることがわかる。
1スレッドあたりのキャッシュ容量が少なくなるから当然だね
しかし、サーバ用のCPUでこんなにコメントが付くとは、相当注目されてるんだな。 2010/04/01(木) 11:40 | URL | LGA774 #-[ 編集] 本来は自作とは関係ないカテゴリーだから少しコメントが付くくらいなんけど、自作出来そうなくらい安いから興味が出た人が多いんだろう。 2wayマザーが5万くらいなら、4180(2.6G 6コア $188)2個と組合せて10万円で買えるんだぜ? 2.6G 12コアが一式10万円とか本気出しすぎだろw 97コメント乙
>ポラックの法則(ぽらっくのほうそく)とは、『プロセッサの性能はそのダイサイズの平方根に比例する』という経験則(ウィキペ) ALUユニット数=ダイサイズ いつも通りの特濃電波キタ
>>796 先に書かれてしましましたか…伝言ゲームの顛末が楽しみということで(笑)
テープアウトしたの?
>>796 これは・・・・・・どのくらい本気にしていいの?
とりあえずごく初期のサンプルチップぐらいは仕上がってるんじゃない
携帯なのでみれね
>>759 級の記事がでることを願うよ
コードネームだけの比較だから、コア数教えてくれないとな・・・w
あれだけ前フリ文がありゃどっかに書いてあると思うけど たしかinterlagosは古いロードマップによれば鯖用ネームで8コアとそのニコイチ zambeziはDT用8コア 実コア数はIntelとAMDで倍違うけどコアサイズも倍くらい違いそうだから以下略
Interlagosが16コアでZambeziが8コアじゃね InterlagosのPower Consumptionいいな
4KBトレースキャッシュ・・・
これが同一コア数であるならマルチスレッドもシングルスレッドもNehalemを超えることになるな。
メモリバンド幅が凄い広がってるけど、なんかバンド幅広がる変更ってあったっけ?
ネトウヨ「糞民主のせいで失われた10年が20年になる」 現実 日本株、東証1部騰落レシオが過去10年で最高 株価暴騰
811 :
えるえる :2010/04/01(木) 18:28:10 ID:jQuibCAl
Bullすげーな。正直予想外。 2ALUのショボではなかったか。
外人参政権と郵貯限度額引き上げの時点で既にクソ ミンスに入れる奴は低脳認定
813 :
MACオタ :2010/04/01(木) 18:35:21 ID:Xb5zlDzT
結局のところ、世の中に『情報弱者』とか『情報強者』とかいうのが存在するわけでは無く、自分に都合の良い、うまい話に飛びついちゃうヒトってのがいるだけなんですね…
予想外すぎて信じられませんな
FPのパフォーマンスがNehalemと差がついてないところを見ると Bridge-FMA(2 FADD + 2 FMULとしても使える)は見送られたのかな。 んでもってSSE整数の性能が劇的に挙がってる理由はこれか。 > The integer execution units - arithmetic logic units (ALUs) and address generation units (AGUs) > - are organized in four pairs - one per instruction pipeline. They can execute both x86 integer code, > memory ops (also for FP/SIMD ops) and, which is the biggest change, can be combined to execute > SSE or AVX integer code. This increases throughput significantly and frees the FP units somewhat. > The general purpose register file (GPRF) has been widened to 128 bit to allow for such a feature. > The registers will be copied between GPRF and the floating point register file (FPRF) if an architectural > SIMD register (the registers specified by the ISA) is used for integer first and floating point later or vice versa. > Since this doesn't happen often, it has practically no impact on performance. Instead the option to use the > integer units for integer SIMD code (SSE, XOP and AVX) the overall throughput of SIMD code increases dramatically. まあこれだとSIMD整数演算命令使用後に同じレジスタでFP演算命令を発行する場合に性能低下すると思うけどね
>>813 じゃあ全部疑ってかかれってか
つまんねー人生だな
エイプリルフールネタでしょ?
以下ループ
エイプリルフールの企画でも喜んで騙される方が楽しい
今日は4/1 Bulldozerの記事も疑ってかかったほう気が楽かもな
822 :
えるえる :2010/04/01(木) 18:55:14 ID:jQuibCAl
でもモジュール内のコア毎にクロック変更があるというのは ほんとだとしたらまさに2コアと胸を晴れる夢のある話だよなぁ
826 :
えるえる :2010/04/01(木) 19:02:36 ID:jQuibCAl
つか書くのが5時間くらいはやいよお前ら。 ノリ悪すぎ。
はいはい わたぬき わたぬき
Barcelonaの時も数字を1.5倍しただけの情報に釣られたのを思い出した。
アメリカにもエイプリールフールってあるのか?
えげれすにしかないと思ってたか? エイプリールヵゎぃぃ
むしろアメリカの方が悪乗り盛んだぞ インターネットの世界だとジョークRFCがあがったりするのが今日 かなり前のだと、伝書鳩を使った通信プロトコルとかなwww
> Thursday, 01 April 2010 01:01 これは酷い
833 :
Socket774 :2010/04/01(木) 20:30:18 ID:qyUfcwWe
BulldozerX6(2GHz)が3万円ぐらいだと思う。
ネタっぽいな
ネタとしては完成度高いと思う
くそわろた
>>837 世界中からアクセスされることを考えれば、話題集めやアクセス数稼ぎに
必死な商用ニュースサイトなら、これぐらいの手のこんだネタを作っても
おかしくはないよ
840 :
えるえる :2010/04/01(木) 20:47:43 ID:jQuibCAl
MACオタが一番みなの演技にだまされたということで終了ですね。
841 :
えるえる :2010/04/01(木) 20:51:01 ID:jQuibCAl
まあIntelがばりばり特許をとりまくっているTrace Cacheを AMDがまんま同じ名前と実装で使ってくるわけ無いのだが、 ブロック図も減点だな。
Nice ApriI
ま。4/1だし。
Bullすげーな。正直予想外。 2ALUのショボではなかったか。
不本意にも雑音の気持ち悪さを再認識してしまった
どこまでがホントでどこからがネタなんだろうか グラフはネタでも、団子も騙されて納得するほどリアルな嘘だったのは驚嘆するな ネタだと理解した今でも実際もこのくらいなんじゃないかと見る度に思うw SSEやゲームなんか多少の性能アップでリアルだし、 コア数が倍になるマルチスレッドでもコア数位の差になってる。 消費電力も45nm SOI→32nm SOI HKMGだから8コアでも大分低くなる。
録音テープとテヘは同じ人物なの?
849 :
MACオタ :2010/04/01(木) 21:40:29 ID:Xb5zlDzT
オタの期待とは裏腹に 普段から海外記事よんでてエイプリルフールネタ楽しんでる 連中がだまされるわけねなかた。
>>796 これが本当だったらPentium4→CoreMAの衝撃なんて笑い話にしかならん…
実はベンチは本物で、エイプリルフールだよーんという情報が嘘。
Sandraによる演算ユニットのスループットの整合がちゃんと取れてるから面白いんだよな。 この記者ただ者じゃねーわ。明らかにプロの犯行すぐる。 ちなみにInteragosが3.2GHzってのはおいらのスペック予想値と大体当たってる。 (AMD発表資料の推定スループットから逆算) 逆にIntegerのスループットが高すぎたあたりでこれはないと気づいた。 そもそも今更SIMD整数をIntegerパイプでの実行に戻すわけがないよ。 3ソースオペランドに対応した命令スケジューラをFMAだけに使うのは勿体ないので IMACやPCMOV, PPERMなどのオペレーションも並行して実装する意味が生まれる。 隠し球があるとして例の「ブリッジFMA」じゃね? Bulldozerで実装してくるのならFPクラスタは潜在的にクロック毎に2ソースオペランドの 4オペレーションを同時発行可能ってことになる。
>>853 世代的に実質"K9"と"K10"がキャンセルされているので、あり得ない話ではない。
だけどなぁ。まぁ。エイプリールフールだろ…さすがに。
K10はPhenomだろ
はやくX6のベンチ結果出ないかなー 噂のように4月末頃発売なら、もうベンチ出てきてもいいはずなんだが
昨日のBulldozerのページがデリートされているね
脱糞って言われるの気にしてたんだな コンプレックス刺激しちゃったんだな
ID:SFrIv+ox 3連ウンコの24連電波 「単純にポラックの逆法則」で逆算すると1ウンコにつき8電波 zambeziに対抗してるようで気持ち悪い
869 :
Socket774 :2010/04/02(金) 10:31:35 ID:Tcp8tAIQ
>>868 各モジュールのカーネルからの独立度が
linuxのほうが高いから
当たり前と言えば当たり前
独立度が高いと何でバグプロセッサはゴミ顕在化するの?
日本語でおk
>>869 Linuxだからで説明できるのは上の二つだけでは?
コンパイラが違うから Win64版がVisual Studio 2008でLinux版がGCC
ついでに言うとGCC x86-64のデフォルト最適化オプションが-march=opteronじゃなかったっけ -march=core2とか-march=noconaあたりで再ビルドしてみると面白いことになると思う
団子が指摘するまでもなく、>868の結果はWin→Linuxで性能が大きく劣化しているXeonの結果が異常であることは明白ですな
877 :
えるえる :2010/04/02(金) 23:21:19 ID:HT+CHtp7
そろそろAMD系の有力(?)なコテでてこないかなあ。
878 :
えるえる :2010/04/02(金) 23:50:00 ID:HT+CHtp7
戦闘能力 団子 20 MACオタ 20 AMD次世代CPUスレ住人平均 5 アム厨 1 くらいでFA?
879 :
えるえる :2010/04/02(金) 23:51:14 ID:HT+CHtp7
団子 20 MACオタ 20 テヘ 10 AMD次世代CPUスレ住人平均 5 アム厨 1
880 :
えるえる :2010/04/03(土) 00:06:08 ID:HT+CHtp7
>>876 Intelの手があまり及んでいないLinuxの領域では
AMDのコアが有利ということですね。
GCC自体AMD贔屓というか、x86-64で先鞭をつけたAMDに利があるのは前から言われてたこと つか、ソース見る限りだと素のC/C++だから、コンパイラの差がもろに出る。 特にsource/kernel/gen_system/GEN_Matrix4x4.cppあたりとか、SSE Intrinsics使ったら いくらか性能改善できそうだな。
882 :
えるえる :2010/04/03(土) 00:31:39 ID:LOba9y8y
まあIntelがAMD64で先をこされたときのその後のEM64Tの完成度の経過をみるかぎり、 命令セットで他社にさきをこされるというのはかなりの打撃のようだね。 そういう中で長年いきのこってきたAMDの実力はシェア2割りのメーカーとしては奇跡に近いな。
883 :
えるえる :2010/04/03(土) 00:33:19 ID:LOba9y8y
>>881 コンパイラの差というのは予想の域をでてないけどね。
というか団子さんは計測なり検証したのならちゃんと結果を貼るべきですよ。
884 :
えるえる :2010/04/03(土) 00:47:02 ID:LOba9y8y
Magny-Coursでの低クロック動作をみてもわかるとおり、 Bulldozerの小コア化の由来は電力が厳しい中で低クロックにしないための方策 というのがひとつ示されたといってもいいかもしれない。
団子がしったか連発してて笑える
>>880 >
>>876 > Intelの手があまり及んでいないLinuxの領域では
そんな領域x86採用してない分野くらいしか無い
携帯電話とか組込みとか
Xeon 5570/5670ってAMD64に最適化したコアってIntelが言ってたよ マクロ何とかが64bitに対応して劇的に性能アップ!!って誇らしげにね。 GCCは変な最適化とかしない素直なコンパイラってイメージがあって、Xeonのこの劣化っぷりは、 アーキテクチャや設計が歪で、カリカリに最適化しないとロクでもないって事を示してるんじゃないかな。 コア、キャシュ、バスのどれをとってもOpteronより優れているXeonのダメっぷりを見るとそう思う。
団子 20 MACオタ 20 AMD次世代CPUスレ住人平均 5 アム厨 1 (・´ω`・) テヘ 0(捏造工作員の為価値無し)
じゃあOpenMPライブラリの差か?
>>883 いや、実際吐き出すコードシーケンスに差が出るんだから仕方ない。
>>887 > GCCは変な最適化とかしない素直なコンパイラってイメージがあって、
お前の思い込みなんて参考にする価値は微塵もない
そもそも12コアが6コアに負けることが恥ずかしいんだが。
高クロックデュアル(Core2)と 低クロッククアッド(Phenom)が良い勝負だった話を思い出すな 値段も2コアと4コアが同じぐらい 電力?触っちゃいかん
ライブラリでAMDがIntelに勝てる訳ないだろw というか、環境、サポート、ソフトウェアのどれをとってもIntelは遙か上をいってる この辺が明らかに弱いからさんざん叩かれているのがAMDなんだが
>>891 >
>>887 > > GCCは変な最適化とかしない素直なコンパイラってイメージがあって、
> お前の思い込みなんて参考にする価値は微塵もない
>
> そもそも12コアが6コアに負けることが恥ずかしいんだが。
Opteronに負ける以前に、4コアと6コアで性能差が1秒しかないのは明らかにおかしいだろ
それに、コアの性能差とクロック差が大分あるから、
論理コア数が同じならHTTの効率の悪さを差し引いてもOpteronとは互角以上にはなるはず。
>えるえる あとこれは余談だが たとえばさ、最適化をしすぎるとHTの効果を得にくいわけだけど、逆に HT環境下で最適化を強めにすることで、緩い最適化よりかえって性能が落ちる ケース(-O3で-O1や-O2より遅くなるとか)があるんだわ。 たとえば、1スレッドだけで1コアのリソースを専有する場合、3基のALUを同時可動させるために、 3命令かかる操作を5命令くらいに展開したりするような最適化がよく行われる。 しかし、HT環境下では2スレッドで演算リソースをシェアするので、見た目の命令の レイテンシ・スループットは約半分になる。 んで、むしろ命令数の増える最適化はかえって逆効果になる。 んで、Intelコンパイラには「HT用の最適化」のスイッチが存在する。 他のコンパイラなら、簡易的には、コードサイズが増える最適化を抑止する -Os オプションが有効かもしれないね。
>>883 それっぽいデータあるぞ。Harpertownの頃のベンチだが
http://www.univ2000.com/intel/index.html このグラフをIntelコンパイラを基準に正規化してみると面白いよ。Xeonでは
Intel C++>Visual C++>GCC>Apple版GCC
になってるからww
#つか、俺もMacで確認したことあるけどAppleビルド版GCCって何故か自前でビルドした本家GCCより性能悪い。
まあLinuxのGCCがAMD有利ってのは実情そうなんだから仕方ない。
社内業務でパッチ書いてるくらいだし。
中の人名義のコミット数見てみ。AMDが圧倒的に多いから。
もちろんIntelにも最適化ノウハウをGNUに提供する権利はあるが、
自社製コンパイラの市場も守らないといけない。
プロプライエタリ契約ができるMSにはVCに最適化情報を提供しても
オープンソースであるGCCには最低限度の情報しか出せないんじゃね?
実際問題Intel陣営(?)でまともにコミット活動してるのってH.J.Luくらいだし
>>887 > GCCは変な最適化とかしない素直なコンパイラ
それで性能が大きく劣化しているのなら糞コンパイラでしか無いわけだがw
常識的に考えて存在価値はほとんど無い。
互いに性能を引き出せる方を使えば良いというだけの話 Opteron 6174 18s(Linux) Xeon 5670 26s(windows)
GCCが糞での存在意義が無いとかww
ギミック使った特殊演算強いので、それを多用しないと強さが発揮できないのかねえ。 サーバ用途というよりは、ゲームマシンでカリコリと最適化しているイメージに近いのかも。
qn24bだが、一応コンパイルオプションの変更でこの程度は性能変わる 【-march=opteron】 $ ./qn24b_openmp 16 qn24b OpenMP version 1.0.0 2004-04-21 There are 9844 tasks ============================================= qn24b OpenMP version 1.0.0 2004-04-21 problem size n : 16 total solutions : 14772512 correct solutions : 14772512 million solutions/sec : 4.627 elapsed time (sec) : 3.193 ============================================= 【-march=core2】 $ ./qn24b_openmp 16 qn24b OpenMP version 1.0.0 2004-04-21 There are 9844 tasks ============================================= qn24b OpenMP version 1.0.0 2004-04-21 problem size n : 16 total solutions : 14772512 correct solutions : 14772512 million solutions/sec : 4.801 elapsed time (sec) : 3.077 =============================================
>>900 > GCCが糞での存在意義が無いとか
ほとんど無いと思うぞ。
実行速度が極端に低下するようなバイナリーを生成するコンパイラは糞と呼ぶにふさわしいのではないかな?
万能なCPUは作れないのが実情であり、その為に色々と制約が課せられているのが実情だ。
その制約に従いつつ、出来るだけ高速に処理をする実行コードを生成するのがコンパイラの役割であって
性能が極端に低下するような実行コードを生成するコンパイラはゴミでしかない、害悪だなw
コンパイラの役目は高級言語で記述したソースから動くバイナリを生成することでしょ。 速度は優先順位2番目。
優先順位高いなw
905 :
えるえる :2010/04/03(土) 08:52:31 ID:LOba9y8y
まあどれも想像の範疇を出ていない意見だな。 当のAnandの説明では、 Intel系ではベンチの後半はCPU負荷が数割までさがったけど、 Opteronでは100%が持続したって書いてあるな。 そもそもAlpha版だし、まともに動いているかどうかすらよくわからんというオチ。
906 :
えるえる :2010/04/03(土) 08:54:14 ID:LOba9y8y
あと、Win版はよりもLinuxのほうが速い結果がでているのに、 これでGCCがわるいとかいったら、MS Cはいったいなんなんだよと。
>906 対抗する相手のパフォーマンスを下げるのに必死で、 自分のとこのが少々下がっても仕方ないというオチだったりして。w
6コアって言っても12スレッド処理できるわけだし 団子それちょっと苦しくないか
下らない話は次世代コンパイラスレでも立ててやってくれ
みんなアセンブラで作ればいいのに
GCCてlinuxで一番有名でユーザーが多いコンパイラだろ? それ使って性能出ないような糞CPU作る方が問題だろうw
ICCもLinux版は無料だから結構利用者いるだろ
>>908 SMTの性能向上率なんてせいぜい2〜3割あれば御の字ですが?
>>907 なんでMicrosoftがAMDと対抗する必要があるんだ?www
Intelと勘違いしてるようだが現状SPECintのスコアみてもICCがAMDにとっても最速のコンパイラなくらいだし
要するにAMDとMSの連携不足なんじゃね?w
まあ、コア規模は同等だし、
Opteron: 2.3[GHz] * 12[core] = 27.6
Xeon: 3.2[GHz] * 6[core] * 1.3[HT] = 24.6
トランジスタ数倍注ぎ込んで、むしろ勝てるほうが当然なんだが。
ごめんX5680は3.33GHzだったね 3.33 * 6 * 1.3 = 25.974
Sandyって1コア辺り30mm2位だから、8コアで240mm2、アンコア含めて300mm2位かな? 45nmのK10がL3付き6コアで約300mm2、シュリンクしたら6がけで180mm2。 K10 6コアと Bull 8コアが同じくらいなら、Bull 8コアも180mm2、せいぜい200mm2。 Sandy 8C/16T は 3GHzで130Wだろうな。 Bull 8Cは3Ghzで65W程度で、Bull 16Cは130Wかな。 Bull 3Gを1、コアの性能比1.3倍、HTT効率1.3として130W時の性能を適当に比較( Sandy 8C/16T 3G =1.3*8*1.3=13.52 Bull 16C 3G = 16 Sandy 8C 300mm2とBull 16C 200*2=400mm2 300mm2と200mm2 2個ならコストは同じくらいだろう。 団子の言うとおりなら、AVX使わない限り価格帯でかぶるBulldozerには数割レベルで負けることになるな。
L1キャッシュが小さくなったことで性能低下するアプリを考慮に入れなければそうなるかもね
>>914 IntelとMSの最適化技術の差だろ
自社で最適化と他社のを最適化と言う違いでもある
そしてその数ヶ月後に出るIvyBridge 8コアに撃沈ですね。わかります。
で、Bulldozer+HD7xxxにry
>>914 X5680は32nmだろ、45nm換算で450〜500mm2相当になる。
Op 6174 は700mm2だから、差としてはせいぜい5割程度だろう。
シュリンクによる低電力化も加味すれば、
マニクールとWestmere-EPに性質的な差は無いに等しいよ。
マニクールを32nmにシュリンクすれば350mm2/3GHz位になるだろうしね。
> マニクールを32nmにシュリンクすれば350mm2/3GHz位になるだろうしね。 ぷはwww 1ノードのシュリンクでダイサイズ半分になってたのって一体いつの時代の話だよwwww 高クロックプロセスで素直に半分に縮小できるのは熱密度の小さいSRAMほか アンコア部のアクセス頻度の小さいブロックくらいですよ ダイサイズの大半がSRAM/アンコアで構成されるIntelプロセッサなら兎も角 Magny-CoursはもともとSRAM面積比小さいからガッカリしますよ。 てか君は数字の予想はしないほうがいいよ。
>>919 その数カ月後にBull 8C + HD6750に撃沈か、短い生涯だったね。
AMDのハイエンドロードマップはこんなもんか?
CPU
2011/下 32nm Bull 8C(200mm2)/16C
2012/上 32nm Bull 8C + HD6xxx (300mm2)
2012/下 22nm Bull 16C(200mm2)/32C
2013/上 22nm Bull 16C + HD7xxx (300mm2)
2013/下 22nm 想像つかんww
Intelはこんなもん
2011/下 32nm Sandy 8C (300mm2)
2012/上 22nm Ivy ミドル以下
2012/下 22nm Ivy 16C (300mm2)
2013/上 22nm Has 8C + Larra (300mm2)
2013/下 22nm Has 16C (300mm2)
なんというか、内蔵GPGPUを手に入れた今プロセス世代の差は意味がなくなったっぽい
>>923 それっぽい係数使った適当な予想だから気にすんなw
Larrabeeで盛大に自爆したお前に言われたくないよw
それにマニクールはLisbon 350mm2のMCMで約700mm2だけど、
今は約300mm2のThubanがあるから、それ使って32nm 12コア 350mm2は可能だろう。
>>922 たしかに日本語が少し変だなw
細部まで理解している自分で作ったハードのソフトを自分で作るのと、
よく分らん他人が作ったハードのソフトを説明されながら作るのじゃ、
最終的なソフトの性能に差ができるのは当然だろうってこった。
CELL作った時のプロセスが腐っているという話もあるが、シュリンク時のゲート高速化を織り込んで 高消費電力のゲートを低消費電力のゲートに置き換えたら、高消費電力のゲート数が1/3がか1/4になって チップサイズ、消費電力共に予定以上に小さくなったといっていたな。 まあ、同一クロックが満足できればおkの世界という裏もあるが…。
たかだか2-issueのシンプルRISCだしな。 プロセッサの動作限界は消費電力よりも熱密度に支配される
>>926 ほう、GCCが事実上のAMD純正コンパイラのポジションを兼ねてる事実を踏まえて聞くと面白い意見だ
(前ならPathScaleがあったけどNVIDIA陣営に行ったし)
GC2にはまたATIのシールが貼られるのか
とりあえず適当に作っても性能がそれなりに出るのがOpteron、 気合入れてカリカリにチューニングしないとろくに性能もでないXeon
933 :
Socket774 :2010/04/03(土) 21:45:10 ID:vSggtOuV
>>905 >Intel系ではベンチの後半はCPU負荷が数割までさがったけど、
>Opteronでは100%が持続したって書いてあるな。
俺の読み間違いかな.
"Intel系"ではなくてOpteron 6174をWindowsで使った場合
と書いてあると思うんだけど.
>>933 その訳であってると思うよ
つかMSVCがIntelに荷担してるとか笑うしかねぇwww
Anandの分析どおりなら、単純にVCのOMPLIBがタスク分割の粒度粗いだけかもしれんがね Xeonはスレッド数が少ない場合に演算リソースを1スレッドで専有できるし Turbo Boostで一部のコアのクロックをブーストできる。 したがって、ワーカースレッド数が減っても性能が低下しにくい。 Magny-Coursは24スレッド均等に処理を分割してやらないとフルに性能を発揮できない。
> Magny-Coursは24スレッド均等に処理を分割してやらないとフルに性能を発揮できない 非常に大きな弱点だな。用途によってはゴミになる。
INTELがコア数を生かせられないだけでは?
938 :
えるえる :2010/04/03(土) 23:09:43 ID:LOba9y8y
>>936-
>>937 団子の説明はわかりにくいが簡単な話。ようするにAMDはコアが多いので、
たとえば12スレッドが早々仕事おわっちゃって、ほかの12スレッドの仕事がおわるのをまってるような状況が発生する。
今回のBlenderのベンチマークではWin/Linux間でベンチの後半で顕著に違いとして出てきたという感じ。
コンパイラとかライブラリとかの処理系だけじゃなくてBlenderで何をレンダリングしてるかでも変わりそうだよ。
これはスループット志向/多数コア志向の設計で共通の問題だからな。
コア数が少ないほうが全コアが休み無く動き、性能を発揮しやすいというのは当たり前。
939 :
えるえる :2010/04/03(土) 23:29:09 ID:LOba9y8y
あと熱密度(笑)は物理用語風誤答語なのであまりつかうのはおすすめしないよ。
Power Densityで十分。
796+1 :えるえる [↓] :2009/06/20(土) 19:15:15 ID:KQ8pkTrR (9/17)
Quadの話はあくまでもLynnfieldとの比較で言ってるだけだが。
あと、熱密度なんて後藤only用語を未だにつかっているやつがいるが、
当の後藤記事を読めば、
http://www.watch.impress.co.jp/pc/docs/article/20010206/kaigai01.htm http://www.watch.impress.co.jp/pc/docs/article/20010206/kaigai01.jpg 熱密度(笑)はCore 2以降、殆ど上がっていないことが理解できるだろう。
798+1 :[Fn]+[名無しさん] [↓] :2009/06/20(土) 19:18:27 ID:xt/N5PGQ (7/10)
>>796 熱密度がCore2以降上がってないというのではなく、
熱密度が限界になってクロックが抑えられてしまってる
ってのが本当のところ
799+1 :えるえる [↓] :2009/06/20(土) 19:19:58 ID:KQ8pkTrR (10/17)
>>797 >BloomFieldやLynnfieldのリーク情報見てる限り、パフォーマンスワット(特にアイドル)が芳しくないのが問題だといってる
Gainestown vs Harpertown
Core 2 Quad vs Lynnfield
双方の計測において、ロード時は同等、アイドル時は、Nehalem系が勝っているよ。
Bloomfieldはあれは、Xeonなんだよ、プラットフォームの設計が。
その経緯をしらないやつがNehalemは特別電力消費が大きいと勘違いして正確ではない情報を蔓延させてきたのだ。
802 :えるえる [↓] :2009/06/20(土) 19:22:52 ID:KQ8pkTrR (12/17)
>>798 ちゃんと人のレスと、リンク先の後藤記事よんだか?
後藤が勝手に熱密度(笑)と呼んでいるのはPower Densityであって、
電力値をダイ面積で割ったモノだよ。
熱密度(笑)が本当に大きくなっているかどうかは、
Nehalemの消費電力をダイサイズで割って、Pentium 4やCore 2と比較してみればいい。
804 :えるえる [↓] :2009/06/20(土) 19:25:15 ID:KQ8pkTrR (13/17)
>>801 改めて検索するとトップの方に後藤記事が来るな。
よい子は熱密度なんてえせ物理用語は使わないように注意しましょう。
>熱密度?
941 :
えるえる :2010/04/03(土) 23:39:40 ID:LOba9y8y
>>940 それはたまたま使ってしまったレベルだね。熱密度なんていう言葉は一般にはない。
Power Densityならぐぐればいくらでもでてくるがね。
942 :
えるえる :2010/04/03(土) 23:41:27 ID:LOba9y8y
>>935 >>936 >>938 CnQ(OpteronはPowerNowだっけ?)知らないの?
負荷が低いコアはクロック落として省エネになるんだよ?
それにターボって少スレッド時に数百Mhzアップするだけだし、
2割以下しか性能は上がらんよ、いわば気休めってだけw
そもそも何Wayも使って数十スレッド処理がメインのXeonやOpteronで、
シングルや少スレッド性能競っても仕方ないだろw
>コア数が少ないほうが全コアが休み無く動き、性能を発揮しやすいというのは当たり前。
その結果Blenderでは性能が低いですじゃ意味がないw
WindowsでCoolSpeed Technology(笑) が発動している説
>>943 > そもそも何Wayも使って数十スレッド処理がメインのXeonやOpteronで、
> シングルや少スレッド性能競っても仕方ないだろw
いやシングルスレッド性能も重要だろ。
社員A「AMDの最新CPU搭載サーバーに変わってから空いている時間帯でももっさりするようになったね、なんか何時も反応が鈍いよ」
社員B「そうだね、だけどさピークの時間帯での激重は解消されたんだし・・・」
社員A「おれピーク時間帯は使わないから無関係」
・・・
一般エンプラ用途にせよHPCじゃないんだから常に忙しいわけじゃないし むしろタスクは質量ともにばらつく 少ないスレッドを高速に捌けるソリューションも必要だよ。 現にSunなんて見向きもされない
947 :
えるえる :2010/04/04(日) 00:35:46 ID:+AxBO11k
サーバでシングルスレッド性能が必要ないってのはCPU屋のいいわけだよな。 サーバがコア数しか増えないならもうサーバにはなんの未来も無いよ。 ひたすら安くなって、それでも台数いらなくなっていく運命。 シングルスレッド性能がないとあたらしいことってほとんどできないからなあ。
TBって大半のコアをアイドル如何にして少数のコアをちょっとOCする機能だろ? 12コア中10コアとかがアイドル以下になるとか普通ありえない バラつくっていっても、マルチスレッドが基本なんだから全部にそれなりの負荷はかかる そもそも少スレッドの性能が欲しけりゃ4コアや6コアの高クロック品を使えばいい。 それにTBの向上率はせいぜい2割以下なんだから、大して高速には捌けないよ。
バカジャネーノ? 2GHz台よりは3GHz台のほうが確実に速いだろ
>>948 いやシングルスレッド性能そのものが大きく差がある、ダフルスコアで負けているのは看過できないw
951 :
えるえる :2010/04/04(日) 01:01:54 ID:+AxBO11k
まあ今のロードマップ上の持ち駒からいくと AMDが勝つためにはなにかの拍子でeDRAMをIntelよりも一足先に導入してしまうとか 突飛なことがおきないかぎりは難しいな。 やはり結局、Llanoの後継がどうなるかがいちばん気になるところである。
まあ選ぶのは消費者だからな Turbo Boost VS CoolSpeed(笑)
まぁ、AMDの今の技術力だと正面対決してIntelに勝てる要素は殆ど無いから隙間だけでも優位にしておこうとすると シングルスレッド性能を捨てて多コア化に進むのは寧ろ自然だろ。
もし本当に全コア常に忙しいなら ACP(笑)なんていう消費電力の二重の目安なんて必要ないし CoolSpeed(笑)も必要ない(それ相応の熱設計・クロック数に最初から収まってれば本質的に不要な機能)
955 :
Socket774 :2010/04/04(日) 01:23:58 ID:oems6CJn
>>952 CoolSpeedってOSの対応が必要なのか.
そうだとしても対応はまだなのでは.
Turbo Boostの発動条件を解説しているところってある?
そんなに敏感には変化しないと思うんだけど.
956 :
Socket774 :2010/04/04(日) 01:28:46 ID:NS+SUC9k
ID:w2IUsqCK よくわからんが、必死杉www
そりゃ速いけどさ、ターボで1GHzとか倍に向上とかするわけじゃないだろ? 6コア最上位 X5680 定格 3.3G/Max Turbo 3.6G 差は1割弱の300MHz 6コア最下位 X5650 定格 2.6G/Max Turbo 3G 差は1割強の400MHz 1/2コアのみで他コアをアイドルにするMax時ですらこの程度、どうみても気休めでしかない… そもそもの発端のBlenderは全コア使うタイプのソフトだろ? なんでシングルや少スレッドの性能がちょっと上がるだけのTurboにそんなに持ち上げるのか シングルスレッドじゃクロックも効率も違いすぎてハナから相手にならないのはわかってるよw マルチスレッドで性能出ないのがおかしいだろって言ってんのよ、こっちは
リテールクーラー装着だと団子のTripcode Explorerを走らせたらCoolSpeed Technologyによってクロックダウンする可能性大だな… という懸念から団子は必死なんだよ
>>958 あー、思い出した
アフィニティ固定モードはNehalem対策な(HTで2スレッド同じコアで走らせると性能が落ちる)
というかBudweizerとやらはスレッド少ないときにシングルスレッド性能あがるんかね
962 :
Socket774 :2010/04/04(日) 01:48:28 ID:oems6CJn
Opteron 6100シリーズはMCMの片方を休ませてもう片方をブーストという程度でいいから
Turbo機能入れて欲しかったな.
>>961 Budweizer ?
ちょうどF1みてたからちょいボケてみた
964 :
えるえる :2010/04/04(日) 01:54:45 ID:+AxBO11k
平常時にリテールクーラー使って性能落ちるとかAMDが企んでもIBMやHPが許さんだろw
>>961 大きな釣りだなw
Thubanとllanoに付いててバドワイザーに付かない理由が思いつかないw
967 :
えるえる :2010/04/04(日) 02:09:02 ID:+AxBO11k
AMDはL1IもDも32B幅なのに Intelはいまだに16B幅だったのだ。 Blenderはそういうことかねぇ。
>>967 Xeon同士でも同一クロックで4コアと6コアの性能差が1秒しか無いのは、そんなもんが原因じゃないだろ
969 :
えるえる :2010/04/04(日) 02:18:59 ID:+AxBO11k
>>966 Thubanのはコアを半数(3コア)殺して残りをBoostみたいなやつなんだね。
Power 7みたいだな。
970 :
えるえる :2010/04/04(日) 02:21:14 ID:+AxBO11k
まあThubanはAPMないから柔軟性はなさそうだし、Power Gatingもないだろうから、 本格的にはLlano以降かもなあ。
本格的じゃないけど400〜500MHz向上するんだぜ。 本格的になったらどれだけ向上するんだか。
972 :
えるえる :2010/04/04(日) 02:29:21 ID:+AxBO11k
殺してという表現は誤解されそうだな。 半分が名前のとおりIdle(C-state)でクロックアップかな。
なんで1人3役やってんの?
974 :
えるえる :2010/04/04(日) 02:32:21 ID:+AxBO11k
>>971 クロックの幅だけじゃなくて、
コア数の刻みとか、変化するクロックの刻み、時間的粒度(反応速度)、透過性
などの完成度があるので。IntelだってIDAのときはほとんどはたらかなくて糞だったろう。
なぁ団子はTripcode ExplorerのGPGPU版作らんの? HD5870CF環境だけどGPUにやらせると300Mtrips/sと馬鹿速なんだわ これからは使い分けないといかんね
>>974 デュアルコアしか使わないようなゲームとかだと有効だろう
Intelのターボは知らんが、AMDのは3コア単位だから結構使いどころは多いだろう。
クロックの刻みは500MHzアップするかしないかの二択だけ。
条件は3コア以上Idle、3コア以下高負荷。
>>975 > HD5870CF環境だけどGPUにやらせると300Mtrips/sと馬鹿速なんだわ
そんなソフト既にあるのか?、URL張ってくれ。
一人3万だせ。話はそれからだ。 乞食は要らん。
すっかり金の亡者か 偉そうにしてるがお前のやつ遅いじゃん 前述のソフトにおまけで付いているCPU動作にさえ追い付けないぞ
それがどうかしたか?
>>979 つーかさ、>978があるなら不要じゃん?
てか俺がそんなことに時間使うこと自体が不要
>>981 残念ながらトリップの桁数の関係で完全動作しないのだよ
指定できるのは8桁まで14桁トリップなんてのにも対応しない
とりあえず作ってみました程度のものらしい
いつから14桁トリップなんてできたんだ? 興味ないから知らなかった。
>14桁トリップなんてのにも対応しない この部分削除
Be付ければいいじゃん トリップ必要なくね?
989 :
◆////////HQ :2010/04/04(日) 04:30:17 ID:6z9Y4H3d BE:4214743698-PLT(65754)
Beもあるけどトリップの方が見た目がよろしいので
要らんな
件のソフトが8桁までしか検索出来ないのは 酉バレを防ぐためなのかもしれないね 10桁程度ならそれほど時間をかけなくても検索出来そうだもの
もともとトリップなんて無価値だろ
匿名掲示板で同一性を確認できる道具 文章で確認させてしまう人もいるが使い方による
それこそBeで十分じゃねーか コテ名乗る度胸もない奴がトリップとか烏滸がましいな
まぁ私は常時コテハンでもないですし、書き込み数が多い方でもないですけどね 一人用キャップ→トリップ GPGPU絡みならそれほどスレチじゃないと思って話題を振ってみただけですよ
test
hoge
998
999
1000ならAMD倒産
1001 :
1001 :
Over 1000 Thread