>>595 倍精度が結構いいね。
でもNVは最終的にはCPUを作りたいのかね?
Co-processingとかいうのをきくと。
完全に汎用なCPUの事なら、それはないだろ。 CPU云々ってのはIntelがチップセットを作るのに必要なバスのライセンスをもう出さないって ところからそう言う推測が出てきてるだけで。
598 :
デフォルトの名無しさん :2009/10/01(木) 10:09:11
実世界で本当にCUDAコンピューティングの時代が幕を開けそうだな
>>588 > それ否定したらLarrabee以外選択肢なくなる
え?Cellは?
新型PS3にlinuxがインストールできないと知ったときのああやっぱりね感
思いっきりLarrabeeの方向に振ってきたな AMDだけが遅れてるwww まあオートンが居なくなった頃に散々言われてたがな
LarrabeeよりさきにGT300がでそうね ということでLarrabee終了のお知らせ お勤めご苦労さん>intel
MPMDっても高々16カーネルが同時に走るってだけだし、larrabeee程の 柔軟性はなくて、bill dallyの言うstream computingなプログラミング スタイルでないと効率は出ないと思う。
ニコイチAMDなんて有難がってたのはベンチ厨だけだろ
>オートンが居なくなった アーキテクトがいなくなった時点で進歩するわけがないわな
FPU,Intが別になったんね ECCもいいね
SPで1.5Tflopsっぽい(1.5GHz)
で?
>>607 whitepaper読み終わった。すごすぎる。
Using this elegant model of dual-issue, Fermi achieves near peak hardware performance.
の一文が頭に残っている。早く使いたいです。
CUDAの問題点を調査してゼロから設計したんだな。
後藤さんのレポートもこれをもとにしたようで合わせて読むとわかりやすい。
4.8TF確定だな すげーなNVidia
いや、fpなら1.5tflops辺りだよ ただし、実行効率が某A社とは段違いなだけで
intは4.8T確定?
ちがうだろ
AMD終わりだなこりゃ
自作PC板ではR800の登場でGTX300追悼とか言われてんのに こっちでは全然評価が違うんだねぇ
ECCも使えないものを、なんで評価できよう
>>618 自作板はもんもんとかいうホモ集団が
幅利かせてるし。バカVIPPER出入りしてるし
理解できないんだろ
自作板住人は開発者とイコールではないからな。
A社のは、x, y, z, w tの5つのユニットで一組のALUを構成するVLIWで それが16個連なって超並列SIMDプロセッサを構成してる。 x, y, z, wは座標軸で、3Dでも実質3軸分しか稼働しない。4軸目はたまに使う程度。5軸目は稀に使う程度。 2D処理に落とし込むと遊びが増える。使って1〜2Way。 VLIW-SIMDは実効性能は低いけど演算ユニットを高密度で搭載できるから トランジスタ数あたりのFLOPSを大きく稼ぐことができる。 でもそれを引き出すためのスケジューリングは骨が折れる。 結局の所ATIのやってることはPentium 4の空回りGHzと似たようなモン。 NやIntelはフラットなSIMDで、X, Y, Z成分を分解して別々のベクトルに再パッキング(AoS-SoA変換)して 並列処理する。 だから3次元より2次元のほうが相対的に得意だったりするし、動的なスケジューリングがやりやすいから 演算ユニットの利用効率を高めることができる。 カタログスペックより実効効率にフォーカスしている
NV謹製のGPGPUベンチでGeForce負けてるんだが
また低効率自慢したいのかatiは 頭が幼稚だから、何でもベンチに見えるようだし
ATIは実際のスペックじゃ 450GFもでないぞ
ベンチはIntelとNvの十八番なのに 次は体感でも語ってくれるのかな
ヤクルトが特大ヤクルトになっても 胸焼けするだけ
いまだにVLIWが夢のアーキテクチャだと思ってる人いるのね Intelが2度も大失敗してるのに ダイナミックスケジューラを積まない代わりにその分だけ演算ユニットを大量に積むことで 性能を引き出すアプローチ。演算ユニットの分だけ性能が出るわけではない。 実効性能を高める機構を省いた分を演算ユニットの物量でカバーしてるだけ。 Efficeonは10基の演算ユニットを持ち最大8命令を同時発行できたが 実効性能は額面最大スループットが半分以下のPentium Mの足下にも及ばなかった。
次期CPUをVLIW互換でやるといって AMDはアホだろw
>>628 すごいあほな質問だけど、Atiってスケジュラーなしでどうやって制御するの?
Nvidia Cudaばかり使ってるとなんだか感覚かずれる。
CPUとしてみるとVLIWは微妙だけど、アクセラレータとしては決して悪くはないだろ
>>630 Radeonは複数命令列をインターリーブして流し込む単純な機構しか備えてない。
CellのPPEやAtomがやってるFGMT、あれだ。
Efficeonは自分自身で中間コード(x86コード)をネイティブコードにコンパイルできたが。
動的スケジューリングの代わりになる機能があるとすれば、それはCPUでVLIWを動的に生成するだけにすぎない。
もちろんEfficeonやJavaみたいなフィードバックコンパイルは出来ない。
じゃあLarrabeeは動的スケジューリングができるのかっていうと、もちろんソフト的にやる。
x86を使ってね。
いや、もちろんGPUとは意味が違う。Larrabeeそのものがx86プロセッサだから
自分自身でダイナミックコンパイラ・VMを動かすことができる。
LarrabeeもGT300もいつでるんだよ・・・ もう煽るの飽きてきたよ・・・
Geforce 4.8TF Larrabee 6.2TF
多くのアプリけしょんで問題になる デバイスメモリと共有メモリ間の転送や カーネルの立ち上げ(全体の同期)とかは この新しいアーキテクチャで問題が解決されるの?
>>663 力抜けよ
ディスクリート版が何時でようが3〜4年後にはHaswellの1構成要素だ。
GMAが売れる分だけは売れる。
シェアを狙うのに性能で勝負する必要なんて最初からないのさ。
MMXやSSEが普及したのと同様の原理で、LarrabeeのISAは浸透していく。
逆にx86を持たないがゆえに性能でしか勝負できないNVIDIAは必死だけどさ。
Larrabee側はGPUらしい固定機能ハードは積んでないからゲーム用に別のディスクリートGPU積んで
Larrabeeは物理演算プロセッサとして使ってもいいんだぜ。
そしたら共存できるじゃん。
でも、なんだかんだで「Celeronにも載ってるハードウェア」となれば費用対効果は最強だから
ゲームGPUとしてのニーズすらソフト開発者がこぞって流れる可能性はあるがな。
一ヶ月ほど前に東工大のTSUBAME2.0が単精度6PFLOPS倍精度3PFLOPS目指すけどGPUを使うって言ってたのはちゃんと宛てがあったんだな
東工大の学食は安くて旨かったなあ
つーかベンチ以外に使ってやれよ
>>636 2世代ほど交代したらIntel CPUにLarrabeeが統合されるから最強だよな >シェア的に
Larrabee自体がSSEに変わる命令セットの実装例だから統合するのは予定路線。
>>637 東工大はGT200でワットパフォーマンスの検証してたけど
Gt300はそれを超えてくるからな
642 :
デフォルトの名無しさん :2009/10/02(金) 03:29:18
実世界で本当にCUDAコンピューティングの時代が幕を開けそうだな
643 :
デフォルトの名無しさん :2009/10/02(金) 04:57:34
なにげにintのパフォーマンスに興味津々
Nvidia fakes Fermi boards at GPU Technology Conference
http://www.semiaccurate.com./2009/10/01/nvidia-fakes-fermi-boards-gtc/ The board has wood screws crudely driven through it. The vents on the end plate are blocked.
The DVI connector is not soldered to anything, The SLI connectors are somewhat covered by a heat shield.
The 8-pin power connector is connected to nothing. The 6-pin connector is connected to the PCB with glue, not pins and solder.
The board is crudely chopped off with power tools. The 8-pin connector that should be there is not.
The 6-pin connector that should be there is cut. The mounting holes are too close to the edge.
There are also likely many more flaws, but this should be enough to prove a point.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
If you watch the video here, he says, "This puppy here, is Fermi". Bullshit.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
wwwwwwwwwwww
650 :
デフォルトの名無しさん :2009/10/02(金) 17:15:14
必死の活動ごくろうさん でも、出るのがたとえ1年遅れても ATIが追いつくには4-5年掛かりますから それだけ差のある構造なんだよ 演算に関しちゃATIは、何処からも全く期待されていないし
ま、パクればすぐか 得意のw
652 :
デフォルトの名無しさん :2009/10/02(金) 17:45:27
板はそれを通して木ネジを生のままで動かさせます。 エンドプレートの上の通気は妨げられます。 DVIコネクタは何にもはんだ付けされないで、SLIコネクタは熱シールドでいくらか覆われています。 8ピンのパワーコネクタは何にも接続されません。 6ピンのコネクタはピンとはんだではなく、接着剤でPCBに接続されます。 板は電動工具で生のままで切り離されます。 そこにあるはずである8ピンのコネクタは、そうではありません。 そこにあるはずである6ピンのコネクタは、切られます。 取付け穴があまりに縁の近くにあります。 おそらくもずっと多くの欠点がありますが、これは、主張の正しいことを示すために十分であるべきです。 結局、あなたがここに持っているものは、見せかけられたフェルミ委員会です。 ジェン-Hsunは詐欺のカードを上げました。 あなたがここでビデオを監視するなら、「ここのこの子犬はフェルミです。」と、彼は言います。 ナンセンス。
せめて機械翻訳を参考に意訳する位の事はしたら?
そんなことできるのはエスパーくらいだろw
ぱくったところでAMDに開発環境やサポートの期待なんて出来るわけもない
fermi自体は粒度大きくして実効効率落としているだろ。
w
理論ベクタ長を変えずに物理ベクタを増やしたら 演算に要するサイクルは?
Warp内で32のままなら32CudaCoreで処理するには1cycleってことか 分岐粒度は変わらないが、サイクルは縮むわけだ Intel larrabeeが理論16の物理16で1cycle ATI r600-rv870が理論64の物理16で4cycle
L1増量でサイクル稼がなくても良くなったのか? あ、リードオンリーじゃなくなったんだっけか CPU-GPU間転送もバックグラウンドで可能とか
カーネルプログラムのマルチスレッドも可能
偽物ボードワロタwww
スクラッチパッドでなくてマジでキャッシュなんか? だとしたら、ずいぶん無駄なことをしてるように思うが。
どっちでも処理内容次第で無駄はでるんじゃない。 システム、というか、デバイスの外から見た平均的な スループットが重要なわけで、限定条件下での処理速度はどうでもいい。
つまりATIは問題外
64kb Configurable L1
4cycleで走るスレッド数 gt200 : 30 cypress : 20 fermi : 64
そういやGT200やFermiが600MHz台で4800や5800が1GHzに達せんばかりのクロックである事を考えると、 Pen4とCoreの対比とダブるな。 AMDはこれから苦しくなる?
Geforceはシェーダーが1GHzオーバーで動いてるだろ まあそこは先進的で、ポジティブな部分だが
int,fp並列可能なfermiは命令数でもcypressを上回るな(4cycle) cypress : 20*5=100 fermi : 16*2*4=128 あと、実際には演算パートのクロックは2倍程度違うしな
ATI換算だとGT300は6.1TFだってな
>>668 糞ビスタのせいで買い控えされてたPCが
7の発売と同時に更新される。
超性能ではなくとも、年末に製品をそろえたラデが一人勝ちする。
その後はまた買い控えが始まるので、そのころ出すゲフォは苦しくなる。
収入がなくなれば開発は進まなくなる。
年がら年中苦しいAMDは変わらず。
673 :
デフォルトの名無しさん :2009/10/03(土) 11:58:13
>>671 どうやって計算したらそうなるの?
SFUの演算を20倍するとか?
>>672 TSUBAME2.0とかの大量納入の話が無かったらnVidia積んでたよな
将来的に一番苦しいのはNVIDIAだろう インテルのララビーとAMDのラデに挟撃され、 さらに、将来はCPUにGPUコアが取り込まれる予定 インテルはチップの動作デモを行った GPUなんてGeForce9600あたりで、ほとんどのゲームが出来るんだし ミドルレンジ以下のGPUは売れなくなる可能性だってある HPC分野で見ても、ララビーやセルに勝てるのか微妙だし
676 :
デフォルトの名無しさん :2009/10/03(土) 17:15:37
一番どうでもいいのはAMDだからw CPUもGPUも取りえが無い
正直RV870を見て、AMDへの興味はゼロになりました。
おなじく
>>677 RV870のおかげで
GT300は250ドル以下だぞ
なんで潰れる潰れないの話になるんだろ。 投資家の方ですか?
>>679 をCPUで置き換えてみよう
Phenomのおかげで
Corei7は250ドル以下だぞ
あほかGT300を$250っていくらなんでも貧民向けに出すからといってそんな値段でだすと倒産するわ ベンチとってEvergreenや自社旧製品と比べてあとは歩留まりやダイサイズを加味した値段でおそらくごく少数が出回るだけだろうね すごいすごいと言われても結局はミドル以下に弾を出せないと意味ないけどね
Intel上級研究員「AMDにつぶれてもらっては(司法省との絡みで)困る」
なんか必死すぎてウザイ
AMDはインテルを超えるマルチコア技術を持っているし、先行きは暗くない 対してNVIDIAは将来売る製品がない どっちがやばいのかは明白 大体、GT300発売は来年夏ぐらいだろ そのころにはAMDのラデオンの新作がハイエンドからミドルレンジ、ローレンジまで 展開しているし、ララビーも製品化されている可能性もある さらに後1年以内には、AMDもインテルもGPUをCPU内部に統合した製品を出すだろう 一般人どころか平均的な性能で満足する大部分のゲーマーだって、性能的にはこれで十分なんだよね NVIDIAはもう終わりだよ
自作板でやってもらえませんか
>AMDはインテルを超えるマルチコア技術を持っているし >AMDはインテルを超えるマルチコア技術を持っているし >AMDはインテルを超えるマルチコア技術を持っているし 増量ですねw
NVIDIAが唯一先行しているのがGPGPU しかし、GPGPU分野もインテルのララビーから激しく追い上げられるし 対して金になる分野にも思えない 消費電力だってCellに完敗 GPGPU向けに無駄な改良をしてしまったためにGPUとしても不恰好で AMDの製品群に追い詰められつつあるNVIDIA もう完全につんでいます
>>689 GPGPUの成長予測だとあと5年もすれば
10億ドル市場になるっていわれているけどね
5年後の市場がそうでも、そこへの投資が早すぎてGPU市場がおざなりになったらVoodooの二の舞になるぞ IT産業で5年ってシェアがひっくり返るには十分過ぎる時間だからな
>>690 CPUにGPUコアが封入された時点でゲームセット
わざわざグラフィックのために何万円も出してGPUを買う時代が終焉する
ゲーマーだって、大部分はミドルレンジクラスのGPUでゲームをやってるんだよ?
実際には、GPUに金なんてかけなくないの
安くてゲームがそれなりの性能で切るんならそれで我慢する
だいたいGPGPU分野ではキラーアプリが存在しない
だれがGPGPU向けの製品を買うの?
693 :
デフォルトの名無しさん :2009/10/03(土) 21:46:57
GPGPUのキラーアプリはソフトウェアレンダラー
何か的外れなこと言ってる奴がいるね ララビーはいまだ実用化にいたらず苦戦中でしょ GPUとしての性能がGeforceやRadeonには勝てず、 将来的にも当分は勝負にならない Cellなんか個人のPC用途では、土俵が違うし
>>694 ララビーは既にサンプルが主要メーカに配られてる
製品化は近いと考えられる
性能はトップの製品に劣るとみられているけど、メインストリームでは
NVIDIAやAMDの脅威になりうるし、ここを奪われたら致命傷になる
Cellは個人用PCでは使われないが、現状ではGPGPUだってそれは同じこと
「GP」GPUのスレで的外れなことを言ってるね
でかくて消費電力も馬鹿食い、それでいて性能も微妙に劣る それがララビー
何か勘違いしているようだけどAMDなんか元々注目されていないから むしろRV870とGT300の発表を以って終了致しましただから Larrabeeが争ってるのはGT300だから 現実と妄想の壁は厚いのよ
今日もハリボテ信者が発狂してるなwwww
勝負とか言ってるけどGT300じゃLarrabeeに勝てないよ
Larrabeeは2012年に 今のノート用のCorei7をシュリンクしたものを最低64個 搭載するけどね 普通に特定用途なら16TFぐらい余裕
じゃあ2012年になったらLarrabeeがどうとか言い出せよw
NVIDIAがかわいそう過ぎる GPGPUを意識しすぎてGTX300なんて作ろうとしちゃってさ 得意のグラフィック用のGPUを作っていれば、滅びることのなかったのに GTX300が出る来年夏ごろまでには、グラフィックス市場はAMDが制しているだろうね NVIDIAはハイエンド専業メーカとして生き残るしか道はないのかな 売り上げは今の10分の1ぐらいになるだろうけど
おまいらいいかげん自作板カエレ 人に迷惑掛けるなと幼稚園でおそわっただろ?
ClearSpeedの呪い
ATiの戦略って、 そこそこのコアをマルチチップ構成にして ミドルからハイエンドをサポートするって感じかな? 個人的には悪くないと思うなぁ。 つーか、GPUにC++サポートとかそういうリッチな機能必要? FORTRANやHLSL程度が走ればいいんじゃないの?
オンボードのシェアばかり拡大していくのが市場の宿命です。 いつまでもゲームはディスクリートGPUの需要を引っ張らない。 ゲームってさ、ハイエンド前提で作るんじゃなくて、普及価格帯のGPUを Larrabeeはディスクリート版だけではなく、GMA後継としてPC用GPUとして 最底辺の性能をもって、かつCeleron, Pentium DCのチップの隣に混載という 無敵の最高普及レンジに君臨するわけよ。 どうなるかわかるだろ? PCゲームソフトメーカーは自分たちのタイトルのグラフィックパフォーマンスの 最低性能の底上げとして、いやでもLarrabeeに特化した最適化をやらざるを得なくなるわけ。 いやでも使いこなせるようになるわけ。 GPUとしての性能が低いってのも有る意味確信犯だよ。 GMAを抜いたPCゲーム市場なんて縮小するばかりでジリ貧でしかないからな。 GPUがでかくなってもソフトメーカーは儲からない。 だからこそNVIDIAはDirectXの最新API対応なんぞに見切りをつけ ごく小数の商用ソフトメーカーに支援をして架空のGPGPUブームをでっちあげ、 ニーズを補填しようとしてるわけ。 ただゲームソフト市場が今後使えない市場という認識だけはあるらしいが もう尻に火が付いてるから動かざるを得ない。 NVIDIAですらGPGPUをやるのに前向きな理由なんてないんだよ。 しかしまあそのGPGPUという市場すら、CPU側のSIMD性能が向上して GPGPUでやるのが馬鹿馬鹿しいって雰囲気になったら終息に向かう。 もしSandy Bridgeで1コアあたりのSIMD性能が3倍程度になるなら、 GPGPUでの相対的な性能向上効果は1/3になるってことだからな。
行くも地獄、戻るも地獄のNvidia…
3dfxの呪い Voodooの呪い
GPUって FPSでHeadShotして「ィヤッホウ!」言ってる層しか買わないもんだと思ってました
アホか 今のゲーム業界はIntel GMAなんてまるで無視してるじゃん
もう既にGMAでも動くライトなゲームのほうがマーケット大きいけど?
LarrabeeがGMAの後継か、インテルの貪欲さがよくわかるね
くやしかったの?
自分自身が既にPC用GPUの50パーセントのシェア持ってるんだ。 そりゃ置き換えるだろう。 NVIDIAはNVIDIAで まだエンドユーザーはDX9で遊んでるのに、 DX11とか立ち上げるのはゲームソフトメーカーいじめだ とかわけのわからないことを言ってるし
>>714 なにそれ?
具体的なゲームの名前挙げてみてよ
聞いたことないんだけど
Geforceの〜〜以上とかそういうのが時期を経て
GMAでも動かせるようになってきただけだd路
>>717 Nvidiaにとって
DX11はチューニング難しいからな
かなり苦慮してるし
続々生まれてる韓流(笑)基本無料オンラインゲームは昔からGMA程度で動くが。
>>715 それ、失敗の呪文にしか聞こえないんだがw
>>720 有名どころのリネージュ2とかThe Tower of AIONとかは
GeforceやRadeonでしか動かなかったけど
そもそもM$様も@pple様もIntel様も AMDの糞野郎ですら ゲーム市場は毎年200億円ずつ市場規模が縮小していって 価値のない分野として見捨てはじめてるんだよ
売り上げの3分の1を占めるチップセット市場で、インテルとAMDに締め出しを暮らし 死亡が確定 GPU自体もハイエンドの一部ユーザーにしか見向きがされなくなりつつあり GPGPUもCPUのマルチコア化、SIMD命令の強化で微妙になりつつある NVIDIAはこれから先どうするんだろうね
お前ら至急葬儀会場にお戻りやがれw
ゲロビディアはチップセット事業の 撤退で来年以降200億円近く損失が発生する GPUでどうにかして補填しないと後が無い状況になる 資金調達やばいし
つまりSandyやFusionが今後のトレンドになるのは確定的に明らか
AMDちゃんとFusionsしたい
来年の事を云うと鬼が笑う、ってな。 とりあえずGPGPUスレの人間としては、現状ではまだ市場に存在しないLarrabeeや動く実装を提供しないAMDではなく NVIDIAを使うしかない。 メーカーの先行き予測論争なら板違いだから、まとめて自作PC板にでも行ってくれ。
>>731 >来年の事を云うと鬼が笑う、ってな。
まぁそれはいいけどwGPGPUで資金調達失敗しているという
事実はどうするんですかね?評価下がるかもって予測あるし
動くものだけを追いかけていると、良い成果は得られないよ
まあ潰しのきかない技術に見切りつけたいって人はいるんじゃないかと。 鳴る物いりで登場したCellのスレは今お葬式モードだし。 あそこの英語プログラミングマニュアルが出たときの盛況っぷり知ってるからな 俺は現世代飽きてSandy Bridgeのシミュレータで遊んでるような人種だからな
良い成果とはこのスレに転がってるどうでもいい御託のことか?
>>755 まさかCorei7のシングルスレッドとCUDAを比較し、CUDAが有利と
頭に蛆がわいてるレベルの論文の方が有用だと言いたいのか?
>>736 多くの大学の研究室は貧乏なんだぜ
NVIDIAはGPGPUの宣伝のためなら端金に糸目は付けない
Intelは黙ってても売れる製品の販促なんてやらないが
GPGPU自体の将来性も怪しいけどな CPUがメニーコア化したらすぐに終わるんだが ソフトウェアの対応がないから、一般向けでは 最大で4コア以上は、提供しなさそうな感じだし HPC研究者的には、なんとも先の読めない面倒な状況だよね
目にーコアかしてもCPUじゃぱふぃーが悪いかん。 今現在でも4コアいじょいら年じゃね除隊
>>741 後藤さんのインテル技術者へのインタビューでも4コア以上は提供しないっぽいことを
インテルの技術者がいってるしね
代わりに、GPUコアの搭載とチップ面積の小型化を選択したようだ
GPU Technology Conferenceに行ってきたが、かなりひどかったね。 CPUとの比較はほどんどが、シングルコア。かたやTeslaときたもんだ。 NVIDIAもこんな発表させるなよと思うが、そういう発表も無いよりましだから仕方が無いか。 まあ多くのケースでTeslaの方が速いのだが、マルチコアとだとインパクトが下がるしなあ。でもCPU使うならせめてOpenMPくらいは使えよと思う。
>>731 来年のこととはGT300のことですねwww
>>731 現状ではNVIDIAのCUDAを使うのがベストなのは分かるが
性能を出すための勉強を今してもGT300が出ると無駄になる
かもしれないと考えると、やる気がなくなるよな
並列アルゴリズムの勉強を一生懸命したほうがよさそうだ
現在、Larrabeeに備えて何を勉強しておけばいいの?
Larrabeeを汎用演算に使うって要するにx86ベースのCPUをそのまんまCPUとして使うってことだからな 【組み込み関数派】 *mmintrin.hで書いたSSEプログラムをLarrabee Prototype Libraryに移植 【高級言語派】 Ctを予習しておく 【OpenCL派】 とりあえずCUDAでもなんでも使っとけ 【アセンブラ派】 だんご食べる? 生産性とパフォーマンスのバランス的に美味しいのはCtじゃないかと思う。
Ctはインテル特化の技術 つぶしを効かしたいならOpenCL
CtはLarrabeeに限らずx86 CPU用のSIMD/マルチコアを包括するフレームワークだ。 SSEからAVX, Larrabeeおよび今後のIntel SIMD拡張命令及びマルチコアに対応するコードを透過的に記述出来る。 Cコンテナに対する演算の記法がC++のテンプレートそのものなのである意味で再利用性はある。 かたやOpenCLは事実上のGPU専用言語。 普通のCPUでも動くコードが書けるってのはメリットに見せかけて、再帰すら書けなかったり、 Cと比べて制約が多い。 CPUでだけ使う場合に既製のコードをOpenCLに移植するメリットが基本的に無い。 潰しがきくのはどっちかは明らかだと思うが。
NV自体CPUとの連携が重要と言っているのに CPUどうするのかというプランが具体的に明らかに されていない点が一番危ないな。 結局CPU内蔵する方向に行くしかないのに。 ARMでいくのかね。
CADソフトやBlenderなどはGeforceじゃなきゃ話にならんよ 一部のゲームもな 結局互換性で勝つ
>>749 CUDAとかでCPUコードを書くのはデバッグのためでしょ。
>CPUでだけ使う場合に既製のコードをOpenCLに移植するメリットが基本的に無い。
何を自明なことを
>OpenCLは帰起さえ書けない じゃ団子が帰起を使えるようにいろいろ改良したOpenCL+を作れば良いんだ
あ × 帰起 ○ 再帰
OpenCLで再起実装できないでしょ Applesも現時点のいずれのアーキテクチャ でも不可能だって諦めてるし
と言うかopenCLを走らせるようなマシンで再帰使うのって効率的にどうよ? そもそもGPUでまともに再帰使えるんか?
>>733 > 鳴る物いりで登場したCellのスレは今お葬式モードだし。
Cellスレどこよ?見つからないんだが。
OpenCL自体が劣化CUDAだろ
CUDAはNV製品に特化して作られた言語 OpenCLはそれをベースに、汎用的にどのGPUでもそれなりに動いてくれるように作られた言語 そりゃ、後者が機能で前者に劣るのは当然
性能出るようにOpenCLを作り直せばいいじゃん
>>756 無理
ワープ単位で命令ポインタが同じ方向にしか動かせないから
似非スカラを辞めない限り無理
言語レベルで分岐があればネイティブコードレベルではプレディケートで両方のパスを実行
とろくさいこと山の如し
LarrabeeはベクトルをC++的なあのベクトルとして扱ってるからいざとなればスカラに落とし込むことで
再帰を表現可能。
もちろんその時同じハードウェアスレッド内の要素は並列処理じゃなくて逐次処理になる。
extactps rcx, xmm0, 0
call procN
extactps rcx, xmm0, 1
call procN
extactps rcx, xmm0, 2
call procN
extactps rcx, xmm0, 3
call procN
↑はSSEの4並列処理の場合 スカラに落とし込むときのイメージとしてはこんな感じね
末尾再帰をループにするくらいじゃね。 文法上再帰を許しても、ループに出来ない場合 コンパイル時にエラーが出るとか。
RadeonはR600以降で32段までの関数呼び出しが可能
ループの場合って、ハード的にはそれぞれ終端に達した要素からプレディケートレジスタのビットを落としていって 最終的に0になったときに全部一緒に抜けるんだよな
Larrabeeなんて2年以上選択肢からは外れるのは確定的なんだから 今Larrabeeの話しなんかしててもしょうがない 現状ではnVidia一択 今後AMDやIntelが良くなればそのときに買い換えればよい グラボなんて別に高くないし、取り替えられるのだから
いいね 金持ちは
>>767 Larrabeeはハードを140ドル未満で投入してくるぞ
>>768 じゃあ、貧乏人だったらLarrabeeを今買うか?
そんなの不可能だろう?
貧乏人であってもLarrabeeなんて不毛な話だよ
>>769 いやだからそれは2年後に考えればいいということだろ。
将来性とか考えずに今現在の時点で費用対効果を考えればnVidia一択であると
>>767 は言ってるんだから。
>>771 >>769 の主張だと足並み揃う2年後でよくねって思うけど
NVidiaがドカタ言語に仕上げてくれるなら今から取り組む価値はあるけど
だんごと一緒にLarrabeeのシミュレータで遊んでいたほうが
有意義だと思う
larrabeeがIGPに組まれれば 他社製品は意味をなくす
larrabeeなんて今の段階では商品になるかどうかすら危うい シミュレータで遊ぶにしても2年は長い
NVidiaしか選択肢がないと言ってる人間多いけど 実際GT300って今年中に出るの?
>>775 多分来年の春ごろ
夏ごろになる可能性もある
それまではAMDがグラボ市場の覇者
そして、再来年の春にはGPU搭載CPUが発売され
ゲーマーがGPUを購入する時代が終焉する
今のGPUはGPGPU用のアクセラレーターとしての価値しかなくなる
ちなみに、NVは売り上げの3分の1を占めるチップセット市場からも
撤退を余儀なくされている
数年以内にNVはまともの売れる製品がなくなる
さよなら、NV
,,,
( ゚д゚)つ┃
鬱陶しいから帰れ
どうせintelが残るだけ
今は性能でAMDが優位といってもGPGPUに限れば開発環境などの関係で、 実質的にnVidiaしか選択肢ないんだよ 悲しいことに
性能で優位なんて初耳
デベロッパーが扱いづらい今のRadeonをCPUに統合しても何もいいことないんじゃない? 平行で新設計のGPUでもつくってんのかね?AMDは
fusionでcpuと一体化する分、さらに単純なアレイプロセッサ化していくんじゃねぇの?
半精度・単精度変換命令をCPU側に実装する分GPU側の回路削られそうだな
そんな回路ゴミみたいなものだろ。 bit切り出しと単純な例外処理だけじゃない。
そうか。Larrabeeがコア毎に持ってるけどそんな密度じゃないのね。 Intelがやる理由はキャッシュ容量・メインVRAM帯域の節約のためらしいが。
このスレでさえGPGPUの未来について希望的な観測がないのかよ
なんせ逆神Fixstars様がついておられるからな
N社はモックアップをESだと言っちゃう悲惨な状況だからねえ Larrabeeでさえデモやってるのに
OpenGLとかDirectXはLarrabeeでも使えるんですか?
何でも使えるだろソフトなんだから それこそglideとかHEIDIもやろうと思えば
LarrabeeにとってはGPUはアプリケーションだからな PCSX2のGSエミュとかやらせたらフレームレートと再現度両立できそうだって 開発者が言ってたりする
あれ、だんごって一時期はララビ批判してなかったっけ しばらくこの板来てなかったから記憶が定かでないが
してねーよ 批判してるのは先見性の無い奴だけ 方向性は正しいだろ まあAMDがBulldozerをあっさりAVX互換化したくらいだし FusionがLRBni互換になっても何ら不思議じゃない
団子は一流のセールスマンになれる 転職をおすすめしとく
団子って、何歳? まだ20代だったらお友達になって欲しい。
俺顧客サポートの仕事やってるけど
先見性があっても出なかった製品なんぞいくらでもある SEDとか
また出会い厨かよ
技術要因だけで市場を制することはできん。 ゲーム業界には、前世代で圧倒的な勝利を飾ったのに後継機種で会社傾けるほどの大赤字 なんて例もあるからね。 ただIntelはマーケティングを含めて隙がなさ過ぎる。 Intelは22nmが順調に微細化できれば2〜4コア+Larrabee 8コアくらいの統合チップ出してくるだろうよ
MACヲタってどうなったの?
それなら普通に10〜12コアのCPUを出すほうがよくね? で、いつものゴミオンボつけて売り出す 情弱向けに誇大広告うてば勝手に売れてく いつものパターン
>>802 獲物のアム厨がレッドブックに載ったので名無しに戻ったらしい
>>804 なんじゃそりゃ。
Cellとともに滅びたのかと思ってた。
>>803 そのゴミオンボの後継がLarrabeeなんだが。
SIMD以外はシンプルにしないと10〜12コアなんて載らないよ。
8コアくらいでも22nmになれば70〜80mm²になる。
これは32nmのSandy Bridgeに載るGPUと同程度。
オンボ用にカットした物なんて性能低いじゃん そんなものは今までGPUだった分のトランジスタも活用できる程度でしかない TSMCも1年遅れ程度になってきたからあまり優位に立てないのもあるが CPUはもう限界だしそんなに速くなくてもGPU(Larrabee)があるし…とIntel自身が白状している Larrabeeは全方位アクセラレーターだ
日本語でおk
設計良くてもTSMCがどうにかならん事にはなあ。 外注受けてるとこでここより技術が上なのはGFしかないし。
GFが上とかwww
SOIにしろ、金だけ払ってIBMに丸投げしてるだけなんだけどな
>>807 その上でだ。
Larrabeeは8コアあればNVIDIA換算で128SPくらいだよな。
2009年9月18日 (金)
PixeluxとAMD、Digital Molecular Matterエンジン向けのOpenCLアクセラレーションを開発
ttp://khronos.jp/news/2009/09/pixeluxamddigit.html PixeluxはAMDと共同で、Digital Molecular Matterエンジン向けのOpenCLアクセラレーションを開発しています。
Pixeluxはルーカス・フィルムで特殊効果制作に使用された Digital Molecular Matterエンジンを開発しています。
ってことはクローズに数千ドルの融資を獲得したから
オープンにしてレッドオーシャンで戦う必要はないんだな
intel Ctのプレゼンで16コアとか25コアが出てくるんですが あれいつの話になるんですかね?
出てくるときに32コアといううわさもある
ドイツでラトナーが32コア2GHzと明かしたな
>>815 来年ならデモ機レベルで64コア出せるって言ってるよ
ディスクリートの方はその位で出すでしょ 「GPUとして」GTX280レベルを出すならその位要る
脳内ソース来ました
例えNVより効率悪くても、プロセス技術に物言わせて超高回転化でカバー可能だからきついな
>>820 同意。
俺もCPUの論争で散々言ったが、Intelはプロセス技術にもの言わせてるだけだよな。
団子がPPCのヘタレっぷりとVLIWのItaniumを槍玉に挙げてx86最強とか、
未だにRISCだのCISCだのニュースの記事を鵜呑みにしたような事を言っているのを聞くと、
それは違うんじゃないかと言いたくなる。
PPC G4が【同クロック】のAtomに負けてもそう思うか?
はいはい負け惜しみ負け惜しみ
少なくともAtomに関してはSoC製造をTSMCに委託できるように契約してるし キツキツにチューンしてるわけではないようだが。 デコーダ側が2命令/clkなのにLoad + 演算 + Storeを同時発行できるのは 少なくともRISCみたいな2〜4バイト固定のフォーマットじゃ出来ない芸当だ。 あと、Itaniumは例外視すべきじゃないよ。最強のプロセス技術をもってしてアレなんだろ? 逃げるのはただの詭弁でしかない。
未だにRISC信者いるのがきもい
整数演算性能に関していえばRISC ISAは前世紀に事実上死んでる
当時のSPECint見てみればわかるが、所詮はキャッシュメモリの容量で
性能稼いでただけのハリボテということが露見している
---------------------------------------
Model Name: TDZ300
CPU: 200MHz Pentium Pro Processor
FPU: Integrated
Number of CPU(s): 1
Primary Cache: 8KBI+8KBD / Secondary Cache: 256KB(I+D)
SPECint95 8.04 / SPECint_base95 8.04 ※95年12月登録
http://www.spec.org/cpu95/results/res9512/p040.html Model Name: RS/6000 43P-140
CPU: 200 MHz PowerPC 604e
FPU: Integrated
Number of CPU(s): 1
Primary Cache: 32KBI+32KBD on chip / Secondary Cache: 1MB(I+D) off chip
SPECint95 7.79 / SPECint_base95 6.99 ※97年4月登録
http://www.spec.org/cpu95/results/res97q2/cpu95-970414-01779.html ----------------------------------------
浮動小数だけはレジスタ本数とオペランド数ないと性能稼げないから
スタック形式のx87は圧倒的に不利だったが(その点でLarrabeeには死角はない)
整数性能に関して言えばIntelの対RISC性能はP5で肉縛しP6で追い越し
NetBurstで大きく引き離した
肉薄orz
インテルのはいつも都合いい数値しか出さないからなぁ。 実効性能ではPPCのが上でしょ。
pu
ここGPGPUスレだから Larrabeeすら関係無いIntel賛美は他でやれ
>>827 中立な数字出したら完全敗北なのが
>>825 なんだが。
AppleのIntel移行すら未だに認められない糞マカ乙
RISCは命令セットを単純にしてクロック上げやすくすることで 結果性能向上をはかるもので、命令あたりの演算の密度は犠牲にしてる。 同クロック・同命令発行数なら、CISCに性能で勝てるわけがないだろ。 ついでにいうとGPUも命令あたりの演算処理単位からいえば一種のCISCだ。
だってさ
x86の命令でなんか演算密度高い命令とかあったっけ?
主記憶がレジスタと同じ応答性とスループットになればRISCが勝つよ
>>833 ぶっちゃけメモリアドレスをオペランドにとれる命令全部。
ベースアドレス+インデックス×スケール+即値によるアドレスの算出と
ロード操作を1命令に含めることができる。
同じ命令内のオペレーション間で依存関係が決まってるから
スケジューリングもしやすい。
んで、アドレス演算のルールに特化した特殊な演算ユニット(AGU)で
解決することで性能向上を図ってる。
RISCだとアドレスの算出すら整数命令で、汎用の整数ユニットを使って
計算することになるから、そこで大きな性能差が生じる。
x86の強力なアドレッシングモードはLarrabeeのパワーの源と言ってみる 事実GeForceはワープ内の要素ごとに独立にメモリアドレス計算やってたり、 メモリ周りの命令に関してはかなり効率悪いし fermiのSPは浮動小数と整数が2並列発行できるようにして 浮動小数演算をやりつつアドレス計算もできるようになってるが それまでのGT200まで整数と浮動小数は排他動作だったから 読み書き対象のアドレス計算のたびに浮動小数演算の発行が止まってたわけで 実効性能を下げる要因になってた。
>>827 この板にもベンチマークとかシミュレーターの意義がわからない馬鹿が居たんだな
>>838 全然解決してねー。
サイクルあたり2命令しか発行できないのに
アドレス生成だけに1命令分取られるだけでも大きなロス
Larrabeeのほうは、アドレス生成つきロードを伴うマスクつき積和算と
スカラ命令あるいはストア操作を同時にデコード・発行できる。
つまり1クロックあたりの実効オペレーション数で水をあけられる可能性がある。
? int,fpって並列可能なんだよね? 2つのIU使って16spに命令出すの? fermiって
>>835 で、そんなアドレッシングがどれだけ使われるわけよ?
おまえらGPGPUのネタがないからって自作板化するなよ
>>839 GPUの場合、メインになる大規模配列へのアクセスなんかだとアドレス計算なんかは
コードで明示しなくてもハードで自動でやるんでなかったっけ?
俺821だけどさ、RISCなんか微塵も擁護してないわけよ。 PPC含めていろんなアーキを触るのは楽しいけれど、 x86が現実的に俺が金を出せる中では最強だと思っているわけよ。 でもRISCとかCISCじゃないでしょ?と言いたかったんだ。 現にAVXではデコーダが軽くなるように変更してるでしょ? 今までの実装に負けを認めてるわけよ。 でもそれはRISCに負けたわけじゃないし、CISCが勝っているわけでもない。 Intelは今まで割と酷いアーキだったと思うんだけど……分かんないかなあ。
捨ててまた拾うなんてこの世界じゃ常識なのに 負けを認めただの何だの 典型的なIntelアンチですね
11月25日GT300発売決定しました
>>843 ソースレベルと機械語レベルを混同してる
>>844 なにが勝って何が負けたの?
x87もMMXもSSEも潰さずに新たなSIMD命令を追加出来るのはまさに可変フォーマットたるCISCのメリットだろ
命令長の縛りで好きにOperand空間を拡張したりできないのがRISCだよ。
360のCPUなんか、SIMDレジスタを128本に拡張した分、4オペランド命令や1バイト単位の操作命令が
削られてたりする。
それから君はAVXを根本的に理解していない。
まあ俺に言わせればABCDの4レジスタの時代から1バイト、もう1バイトと継ぎ接ぎしていった 伝統的CISCアーキテクチャの新たな1ページですよAVXにしてもLRBniにしても 可変アドレッシングモードがある限りx86はどこまでもCISCだ。 add eax, ecxみたいな1バイト命令がたとえば4バイト固定に変わりますか?なりません。
>>841 どっかのプログラムをテキトーに逆アセンブラかけてみろ。アホみたいに使われてる。
AMDのCPUがALUとは別個にAGUを3つも装備しちゃうくらい使われてる
あとついでにいうと32ビットとか64ビットとかの即値を命令ストリームからダイレクトに供給できることも
パフォーマンス要因として大きい。
どっかの情けないCPUには32ビットレジスタに16ビットずつにわけて即値ロードする命令があったりするけど
パーシャルライトのレイテンシで氏ねる。
メモリ空間が広がるほど、即値のビット幅に対する要求がシビアになる。
CellのSPUなんて直接アドレッシングできるメモリが物理的に256KBしかないから即値フィールドが16ビットもあれば
左に2ビットあればロード命令の即値フィールドとしては十分だが、
特化型じゃない普通のCPUでは4GB以上に対してアドレッシングするわけで。
論理メモリ空間が広がるほどRISCは使えなくなる。
8バイト固定長のRISCにすればいいだろって?
氏ねばいいと思うよw
結局、CISCの利点のおかげで儲かったおかげで、プロセスルールに投資できて、 それがIntelの優位性をより伸ばした。そんな説がありえるのか?
>>851 Fab商法がうまくいったからだろ
アーキテクチャ云々より
Fab1個丸ごと単一商品の生産工場っていう
資金回収能力が凶悪過ぎる方法実現できているだけ
コード資産の継承って点で可変フォーマットであることに助けられてきたのは確かだね。 ステート切替によって複数の命令セットのフォーマットを混在できるARMはCISCに分類する学者さんもいるし ハイエンドRISCが死に絶えるなか公共事業で生きながらえてるIBMのPOWERですら BCDアクセラレーションや8バイト命令モードなど既にRISCのポリシーから逸脱してる
強い者が勝つのではない、勝った者が強いのだ
なるほど、勝ったものが強いか・・ん?
ARMがSHやMIPSを凌ぐほどになったのは2バイト形式のThumb命令入れた当たりからだよ それはそうとNVIDIAの経営相当厳しそうだな
ジレンマがあるよね 現状はNVIDIAしかないし、将来はNVIDIAきつそうだと言っても AMDに乗り換えてもすぐIntelの天下になる可能性もあるし かといって、今Intelは製品がないから乗り換えようがない
そう言えば、昔Itaniumなんてのもあったね LarrabeeもItaniumの匂いがするなw
俺に言わせればFermiのほうがItaniumっぽいけどな
面白いのはItaniumを倒したのはXeonなんだよなw 勝ったXeon軍の首領もEMCに行っちゃったし
というかそもそもItaniumは失敗したと言うより Itaniumが狙った市場が消滅した。ってのが正しいんだが・・・ そもそもx86サーバーとかの市場は、元々Xeonの管轄だったわけで・・・ x86サーバーの市場が、そのままかつてSparkやPPCやAlphaがあった市場を喰った。 それだけのこと。
なるほどNVIDIAは自爆街道まっしぐらと
ま、AMDは最初から蚊帳の外だがw
>>860 Xeon以前にNehalemが出るまでIntel史上最大の脅威と言わしめたOpteronが遠因だろ
あれの存在があったからこそ、苦戦を強いられながらもXeonを64ビット対応せざるを得なかった。
IA-64 vs x86-64(AMD64)で雑誌の特集組まれてたくらいだし
x86の有用性を自社以外が示してしまったのは皮肉だよな。
毒を食らわば皿までとはよくいったもので、OpteronはIntelの何かに火を付けてしまったようだ
全プロセッサ市場x86化計画の始まりだよ。
XScale捨ててAtom、結果大成功。
GPUもこのノリでx86化したいらしい。
Larrabeeがx86なのは統合を成功させるための手段であって目的ではない
demo x86布教運動してたゲルシンガーが居なくなっちゃったね
最近のオレゴンチームがアレだったからなぁ。 不要論でちゃって、組織統合と同時に退職させられたのかな。
え?Nehalem-EPで絶好調だったよ 企業のIT予算減ってるとか言われてたのにモバイルよりサーバーのが回復してた まあクビって感じじゃないよな
破格の条件で抜擢されたっていわれてるけど
AtomってPen4より遅いんでしょ?
トランジスタ規模相応の性能。 てか性能よかったら棲み分けにならない。
プログラム板のこのスレに何人のプログラマーがいるのか疑問だ 言ってることがITmedia並みで笑える
単純な疑問なんだがATIの場合分岐粒度って64 "pixel"で nvidiaの場合って32個の"32bitデータ"?(8pixel相当?)
Intelは16wideで1cycle : 32bitの16個 nvidiaは8spで4cycle or 32spで1cycle : 32bitの32個 ATIは16shader(16*5=80sp)で4cycle : 64pixel(32bitの256・・・)
526 名前:Socket774[sage] 投稿日:2009/10/07(水) 14:11:06 ID:jGgZ/LK7
>>496 の大雑把な内容
Nvidia kills GTX285, GTX275, GTX260, abandons the mid and high end market
Full on retreat, can't compete with ATI
ttp://www.semiaccurate.com/2009/10/06/nvidia-kills-gtx285-gtx275-gtx260-abandons-mid-and-high-end-market/ 285は既にEOL、260は11or12月にEOL、275は2週間以内にEOL、295も終わりそう。
ハイエンド、ミドルレンジから脱落する。
Fermiの派生モデルはテープアウトすらしていないので、少なくとも2Qは掛かる。
Fermiはダイサイズあたりの性能が低く派生モデルを作ってもフルラインナップで価格競争力で劣る。
ハンダの欠陥問題、G212の失敗、G214の大失敗、G215の遅延、G216とG218の壊れたGDDR5コントローラ。
救世主となるチップはない、プランBはない、全て失敗した。
赤字販売を続けるか、撤退して少ない赤字を出すかしかない。
資金が尽きる前に開発の問題を修正し競争力のある製品を出せるかが問題。
1月にはローエンドからも脱落する。
Nvidiaは全てのパートナーから憎まれており助けてくれるパートナーはいない。
Nvidiaに必要なのは経営陣の総入れ替えだが、その出て行くべき奴らは株主なので起こりそうもない。
ゲームオーバー。
ジェンセンは年俸1ドルでも貰い過ぎである。
Intelは16wideで1cycle : 4pixel nvidiaは8spで4cycle or 32spで1cycle : 8pixel ATIは16shader(16*5=80sp)で4cycle : 64pixel
α値があろうがなかろうが5Way ALUで1ピクセルずつしか割り当てられないのがRadeon R, G, Bで別のベクトルに再パッキングして並列処理できるのがLarrabeeとGT たとえばLarrabeeはRGBなら 16/3 pixelな
>>881 > α値があろうがなかろうが5Way ALUで1ピクセルずつしか割り当てられないのがRadeon
4ピクセル割り当てられますが?
グレースケール乙
4サイクルで4ピクセルとか言うなよ
>>881 アルファを出力しないでどうやってブレンディングするんだよ。
ブレンディングが行われるのはプログラマブルシェーダの後段だぞ。
Larrabee : 4pixelであってる。
あとグレースケールってのはFetch4というかGatherのことを言ってるんだろうが、
あれは読み込みであって出力が4つ同時に出来る訳じゃないぞ。
グラフィックス用途の場合大抵シャドウマッピングでソフトシャドウやるときに都合がいいってだけの機能だ。
>>882 どうやって?MRTとか冗談言い出すんじゃないだろうな?
だから分岐粒度の話だろ。 RGBだろうがRGBAだろうがSoAに変換して処理するんだから16並列だ
まさか RGBA RGBA RGBA RGBA で4ピクセル処理するとか思ってないよな? VPUは水平加算もなければ、128ビット単位×4でマスク実行するためのビットマスク生成命令も存在しない。 Larrabee Prototype Libraryを読み直してこい
>>887 失礼。粒度に関してはこちらの勘違いだった。
ただGeForceはチャンネル毎にスレッド立ててるってソースが見つからなかったんだけど何か知らないか?
>>850 なんか即値最強みたいに言ってるが、浮動小数点数のロードも命令に埋め込むつもりか?
おいおいトンデモ意見が出たな ロードアドレス算出用のディスプレースメントって「即値」以外のなんなの? リニアなメモリ空間アドレッシングするのに4バイトくらいないと実質的に使い物にならん。 変量がそんなに必要ないときは1バイトdispモード、そのものが必要ないならdispなしモードでいいし あーSSE4には汎用整数レジスタにXMMレジスタの浮動小数値を転送する命令(あるいはその逆)が あったりするけどあれって何のためにあるかわかるよね? まあLarrabeeとは話がそれるが。
ロードユニットが忙しいときにしたいときに、単精度の定数を汎用レジスタ上に即値モードで転送して movdとかinsertpsで挿入とかよくやるテクニックじゃん
ロードユニットが忙しいときにロード命令節約したいときに、ね
せめて小分けにして書くな
団子が忙しいときに推敲命令節約したいときに、ね
俺は頭で考えてレスなどしない
餓鬼ですね。
無我の境地というのだよ
僕らのアイドル ダンゴリオン
atiの分岐粒度がデカ過ぎるのは判った
で、Larrabeeはいつ出るのかね?
5年後くらいにCellの6割くらいの性能で。
Sandy Bridgeの4コアが200GFLOPSオーバーだから意味ねーよ。 Haswell世代だとやはりCPU4コアだけで300〜400GFLOPS
コンシューマで画処理以外の何に使うのかなぁ?
粒度的にはレイトレ向き
レイトレのデモができる段階なんだから一年以内には出るだろ その点GT300なんてハリボテ模型だからな。 量産できないアーキなんてペーパーアーキもいいところだ。
レイトレも画処理だろう。。
>>900 ハリボテ展示する会社の製品よりは早いだろうなwww
http://www.4gamer.net/games/098/G009883/20091007054/ Larrabeeは計画破棄が濃厚だね。
Larrabee計画の顔役ともいえるPatrick P. Gelsinger(パット・ゲルシンガー)上級副社長が,
IDF 2009の直前にIntelを退職するという“事件”もあったが,
業界内にはLarrabeeについて,後ろ向きな情報が飛び交っている。
「IntelがLarrabee計画を中止する」といったものまで含まれていたほど。
「Gelsinger氏とともに,主要エンジニアもIntelを去った」という情報もある。
>>833 たとえばここの
http://www.ddj.com/architect/217200602?pgno=5 vcmpgtpi k2, v3, [rsi+Edge1TrivialRejectCornerValues4x4+rcx*4]{1to16}
っていう命令は何やってるかっていうと
(1) ベースポインタ(rsi)にメンバのオフセット定数(Edge1TrivialRejectCornerValues4x4)
を加算、さらにインデックス値(rcx)を4倍して加算
(2) 得られたアドレスに対して32ビット値にロード
(3) さらにその値をSIMDテンポラルレジスタの16要素にブロードキャスト
(4) その値と、ベクトルレジスタ(v3)の各要素のほうが大きいかどうかを比較し、
それぞれの要素の真偽値をマスクレジスタ(k2)に格納
こんな複雑な操作をLarrabeeでは1命令でしかもパイプラインで1サイクルのスループットで実行できる。
AGU -> LDU -> PERM -> VPU のパイプライン実行だ。
同じような操作を疑似RISC ISAで書くと6命令とかかかるわけ。
shl $offset, $idx, 2
addi $offset, $offset, Edge1TrivialRejectCornerValues4x4
lqa $vtemp, $addr, $offset
rotqby $vtemp, $vtemp, $addr
shufb $vtemp, $vtemp, $vtemp, $ptn
cmpgti $k2, $v3, $vtemp
SPUの命令セットに似てる?気のせい気のせい。
同じ操作を1サイクルのスループットでこなすには6命令同時発行できないといけない。
6命令なんて、POWER6+ですらやってない。
デコーダから実行ユニットまで少ないトランジスタ数で実装できるRISCは
トランジスタリソースの限られた組み込み向けとしては今でも有効だが
数千万〜数億トランジスタが当たり前となった今となっては
パフォーマンスを追及する向きじゃない。Cellもぶっちゃけ効率悪いし。
>>908 Larrabee楽しみにしてたのに。GPUとして売ろうとしたのは時期尚早だったのかな。
自演つまらん
団子は言っていること無茶苦茶だな。 NVのATIに対する利点は再パックしなくても 効率があまり落ちないところにあるのに。 ATIの場合スカラ演算で少ない命令の場合に 1つ分ではALUの無駄が多すぎるが、 命令が多い、スカラを4つパックして入力するなど工夫をする事で 処理命令数を増やせば、5とはいわずとも平均3-4命令は埋まる。 ここまで出来れば素の演算性能で上回る事例も多い。 まあ、レジスタのxyzwをいい感じで指定して、 バンクコンフリクトを排除する必要もあるから かなり面倒ではある。 ILの仕様が糞で、どのバンクを使うかを明示しなきゃならんから コンパイラが最適化する余地が無いしね。
で、ここまでしたうえなら、扱う粒度が大きくなるから データ毎に処理が分かれるような対象では 効率が下がりますねという話になる。 ただ、この辺は演算規模が大きい場合には殆ど問題にならない。 CPUで出来る程度の演算負荷の少ない処理を GPUで代替しようとするときにはかなり大きな問題になる。
>>912 高級言語レベルの話とネイティブマシン語レベルの話を混同するなよ
CUDAはgather/scatterをラップしてるだけにすぎない。
32WayのSIMT(SIMD)でX, Y, Zをどれでも等しく操作するってのは
要するにロード・ストアの度にAoS/SoAの変換をやってるから。
Larrabee C++ APIはラップせずにSIMDをSIMDとして直接見せてるだけ。
ピクセル毎のプレディケートさえ必要なければ文字通り再パックしないまま
つまりRGBA RGBA RGBA RGBAの構造のまま効率的に処理する方法も
提供されてる。32ビット4要素毎にSwizzleする命令もあるし。
OpenCL経由の場合はGatherがデフォだろうが。
>>912 > 処理命令数を増やせば、5とはいわずとも平均3-4命令は埋まる。
固定機能再現するだけでも2-3な訳だが。
> ILの仕様が糞で、どのバンクを使うかを明示しなきゃならんから
ATI ILでどれだけxだのyだの指定してもISAにしたときは無視されるぞ。
C/C++からネイティブコード触れるのはLarrabeeの特権だな
ppp
>固定機能再現するだけでも2-3な訳だが。 固定機能のエミュに終始するならDX9使ったらって話 それでも2/5-3/5、64pixel中何pixelに適応になって、shaderが何個空転するのか
>>918 それがどうしたの?DX9使っても結局ドライバのなかで同じシェーダが生成されるんだぞ。
効率低いことに変わりはない。
? DX10以降でDX9以前の固定機能相当の処理はshaderでの置き換えが必須だが de9でDX9以前の固定機能使うんならshader自体使う必要がないわけだが
話がかみ合わないなぁ
つまり、Larrabeeは出るのかね?出ないのかね?
つまり、地球は丸いのかね?平たいのかね?
海の水はどうしてですか?
> ECCがサポートされました。宇宙線が多い日も安心して使えます。 これか?
>>915 doubleでxyとzwのペアじゃないと
加算をペアリングしてくれないぞ。
FermiはShared Memoryとキャッシュで切り替えられるのが良いね。 Cellのようにキャッシュがないとデータ転送が面倒だし、かと言ってx86の様に全てキャッシュだと最適化が面倒になるし。 ただ、キャッシュの方式が気になるところ。あと欲を言えば、もっとサイズが大きければいいのだが。
>>930 Larrabeeは普通にコヒーレント無視でロードストアできるオプションあるがな
スカラ風の命令セットに見せかけるためにネイティヴのSIMDすら抽象化されてて
直接触れないCUDAで最適化も糞もない
>>929 それは仕様にそう書いてあるから。そして趣旨がずれてる。
ATI ILでxyで倍精度加算を書いてもISAではzwで加算されたりする。
LarrabeeのTDPって300Wなのかよ。 縛熱だな。Fermiどころじゃないじゃん。
そりゃ電源ピンのところでぶった切られてて物理的に電源供給できないFermi(模型)は0Wだからな。
また脳内ソースで書き込む時間が始まるお…
Larrabee頓挫の危機
危機ってことにしないと都合が悪いんだなゲホ厨は 512SP止まりじゃクロックあたりのピークFLOPS数すらLarrabeeに並ばれるからな
Sunday, July 6 2008
Cellの32コア版もSPARCも計画後退してるし 明らかに性能出ない設計の上、模型しかできてないFermi 遅れに遅れたLarrabee、なぜか競合製品までことごとく頓挫して命拾いしてるよなー
みんな注力している領域なのに、これだけ苦労してて、ひょっとしてこの道は 間違っているんじゃないだろうかとふと思うよね。 結局、半導体メーカーの都合で作っちゃっているからこうなっているのかな。 でも、生みの苦しみであって、なにか大きな変革が本当に起きることだってあるとは思って、 個人的に期待しているんだけど。
トップ500システムのメインプロセッサの地位をXeonをもって8割がた制圧しちゃったIntelにとっては、 今はHPC分野は攻める市場じゃなくて守る市場。 Larrabeeなんて必要ないんだよ。攻めてくる競合製品がなければな。 じゃあ無意味なのかっていうとそうでもなくて ただ、未完成ながらも実働デモをして競合他社にプレッシャーを与え続けてるだけでも十分効果はあると思うのです。 当然ながらRV770を倍増して毛が生えただけのGPUを投入したATIは競争には加わっていない GPUとしては優秀だがGPGPU的なマーケットにはことごとく相性が悪い。
>>941 ほんとそう思うよ。
結局超並列の計算が果たしてどれだけ必要なのか疑問に思ってきた。
周りを見渡しても必要用とされているのはほとんど研究用用途ぐらいしかないし、それだと金にならない。
結局今までのスパコンの市場を食っただけで拡大していないのではないか?と思ったりする。
ちょっと前なら金融工学のシミュレーションが伸びてきたりしていたけど、今の金融危機でそういうのも、
余り受けていないようだし。半導体のシミュレーションとかだったら今のFPGAに置き換えられるかもしれないけど、
そうなると大規模なシミュレーションをするために新しいCPUやGPUを開発する→以下ループになって手段が目的かするような気がする。
何か身近なもので大きなイノベーションでもあればいいんだけど。
Sonyの久多良木は失敗し、 Intelのゲルシンガは失脚し、 Nvidiaのフアンは久多良木以上に暴走している。 一方、AppleのジョブズはCellを否定し、Intel化で成功し、 任天堂の岩田は高性能はいらないと入力デバイスの進化で大成功を収め、 AMDは純GPU路線で、順調にシェアを伸ばしている。 ストリームコンピューティングの将来は一体…。
>>942 ずいぶん弱気になったねw
今まで散々「出す出す詐欺だろ」とか「Itaniumの二の舞だろ」
「どうせ性能では勝てないんだし、中止だろ」みたいに言われても
先見性がないとか、GMAで絶対勝つるとか何とか言ってたのに
結局「未完成でもいいんです。発売しなくてもいいんです。
プレッシャーを与えるだけで良いんです」ってかw
結局、先見性があったのは団子ではなく、「どうせ出ないだろ」と 言ってた連中のほうだったなw
馬鹿だな 守るべき市場だからこそ壁役が必要なんだよ 敵がいないのに出してどうする。Xeonと共食いじゃ利益にならんぜよ。 Fermiが出てきたとして倍精度600GFLOPS程度だぜ。しかもまだ模型しか作れてない。 肩すかしにも程がある。 それどころかNVIDIA自体が倒産しそうな勢い。 結局倍精度1TFLOPSなんて必要なかった。とんだ肩すかしだろ。 Intelは用意周到ゆえに肩すかしを喰らいまくってるからな。 「Phenom II-FX」を警戒してXeonと同じLGA1366をデスクトップに含めて投入したのに フラグシップですら最低レンジの920にすら及ばぬ性能じゃな。 噛ませ犬はCore 2 Quadでも十分だった。 なんにせよ費用対効果ってのものがある。
Skulltrailとかもあったな〜
ワンチップ倍精度1TFLOPSを実現するのに Larrabeeは予定通りのスペックのものを2GHz動作で出せばよい。 4GHzのCellだと64コア必要。まだ32コアすら出てきてない。 Fermiなら768SP版が必要だ。しかしそれ以前の問題だ。 SPARC?あばばばば こんな状況だぜ。 結果として及ばぬ性能どころか大幅に勝ちすぎたわけだ。 現時点で他の陣営は量産にほど遠い。
この分野では団子さんの言うとおり、インテルが一番有利だね。 なんだかんだでXeonのクラスタを沢山くめばいいわけだがら。 何GFlopsとか、何TFlopsとか言っても、実際そこまで出せるのって 結局レジスタにのった場合でしょ。 CPUの速さはもうほどほどにして、インテルもメモリの方に投資して、 メモリアクセス数cycleとかのDRAMを開発したらいいのに。 1TFlopsでメモリのレイテンシが400〜800cycleよりも、 256GFlopsでメモリレイテンシが10cycleだったら、実アプリにおいてはは後者の方が上何じゃない?
ワンチップ倍精度1TFLOPSを実現するのに Fermiは予定通りのスペックのものを2GHz動作で出せばよい。
(注) larrabeeって言い張ってた、あのショボイレイトレquakeもはたして実機なのか 既存のCPUでの動作なのか、非常に疑わしい ゲルシンガーが居なくなって立ち消えになるんじゃないかと思われる AMDはどうでもいいw
日本語で
larrabeeも張りぼて AMDはカス でOK
私はゲロ大好きです でOK
いいえ、カスが大嫌いなだけです でOK
ま、あの画質で あの程度の動き あの程度のカクカクっぷりだと corei7あたりでも出来そう
> Larrabeeは予定通りのスペックのものを2GHz動作で出せばよい。 これ、予定通りに出せたとしても理論値でしかなく、実効値は3〜4割にしかならんでしょ? どうせインテルだし。
rv870は実行5%くらいだがな
リアルタイムレイトレーシングだっけ すでにAMDがデモ公開してたような
レイやトライアングルが少なければCPUでも出来る 問題は
AMDは映画製作会社とかと共同で ライブラリつくりまくってるからな 公には一切公開できない成果たくさんあるよ
GPGPUの分野ではnVidiaがだめでもAMDが出てくるのは確実だし、 ライバルがだめそうだからLarrabeeを出さないとか言ってるのは 理屈が破綻してるな
これに関してはAMDはintelの犬だろ
>>964 お前AMDをディスってんの?
どう考えても犬とかアリエン・ロッベンだろ
誇り高きコバンザメだよ
ローカルなL2断片(256KB)に載っかる部分までなら上り計64KB/clkの帯域が得られるとのことなので そこでスカラ命令側でベースアドレス/インデックス更新とループカウントしつつ SIMD命令側では3rdオペランドはノンテンポラルモードでのメモリアドレッシングにす これで実効効率も9割以上は堅い。 ちなみにFermiはロード・ストアユニットを2アクティブワープで共用という、致命的なパフォーマンス阻害要因がある。 レジスタ間でこね回す演算でないとどうやっても性能が出ない。 積和算をやりながらだと残り1命令しか発行出来ないって仕様も致命的。 FermiはRISCライクなんだよね
>>951 シュリンク率考えればあり得ないな。
GF9800GTX+が1.8GHzとか、SPが128基程度でメモリ帯域も狭かったりとTDPに余裕があったからこそだろ
NVIDIAは40nmでまだ製品を投入してない。
ダンゴや また自作板で万人に解らん API使ったネタ話すの自粛するんだ
わかんなくても「ヘーそんな事も出来るんだ」程度に楽しんでるから別に団子はそのまんまでいいよ 金払うに値する次のトリッパーを期待しつつ待つ
アプリのGPU化が進むと、インテルもAMDもCPUの存在価値がなくなるから、 基本的にやる気ないだろ。 NVIDIAには頑張ってもらいたいな。 もうCPUはOSが動けば十分なのでAtomクラスで十分w
>>971 >CPUの存在価値がなくなるから、
とてもGPGPUスレ住民の意見とは思えん
AtomクラスでいいならGPGPU系技術も必要なかろう
そこまでなるとCPUとGPUは同じダイで充分だよな。
x86命令を解釈するGPUアーキテクチャでも作らないとな。
統合プロセッサのコードネームは「Haswell」ってのはどうだろう?
>>971 身の程を知れバーカ
CPUの速度向上が遅くなったからこそのGPGPUだというのに
ところが、GPGPUで賄えるような演算ほどSIMD・マルチコア化での速度向上率も高いんだよね。
素人目には、CPUの方がとか、GPUの方がとかじゃなくて、 CPUもGPUも両方活用すると 演算スピードが鬼速になると思ってしまうんだが、そうじゃないの?
>>975 まあ、GPUはスーパーメニーコアプロセッサーとでも表現できるものだからね
SIMD化はもちろん、マルチコア化でどんどん差を縮められる
ただ、サーバー用途以外の一般デスクトップでは、
4コアを超えるマルチコア化の予定がキャンセルされてるけどね
まして、ノートだと2コアのままで当分は行くらしい
CPUへの統合化が進んでからが本番田世なぁ 今はメーカーによって作りがまちまちやし手法も微妙に違うからいまいち手が出しにくい
>>976 GPUは処理を並列してこそ意味があるわけで、
そのために大量のデータをGPUに転送しておかないと
いけない。
ただPCI-Expのバス帯域が狭くて転送コストが
馬鹿みたいに高い。
だから同時にCPU+GPUというのは理想だけど難しい。
だから、コンシューマで、 画像処理以外何に使うのかがよくわからない。
GPU動かすのにCPU時間も使うんだよ。
素人目には、GPGPUは使い途が無さ杉る。 まだやっていたのかっていう印象。
NVIDIA曰くCUDAユーザー人口は世界6万人とかいうレベルだからな 水増ししてるだろうからもっと少ないと思うが
あなたもその一人じゃん
だんご of 6万か・・・ すげぇな。
>>983 それってCUDA関係の資料ダウソした
人数ってだけだから信じるなよw
じゃ、6万未満ってことか
ここはアンチスレか。
全世界で6万? なんというかまぁ可愛らしい数字だな
俺5000人位かと思ってた
まあなんというか NVIDIAもこんな不確かなものに命運かけなきゃいけないんだからな
そう?
個人的にはSIMDすらも使い用途が無いと感じる。 SIMDを駆使すれば、1Tflopsですよ〜っていわれても 画像処理など特定の用途じゃなければ、自然にC++のソースに 組み込むのは難しいし、 (例えば、SoAをAoSにしたり、プリフェチを埋め込んだり、 C++のソース的には不自然だよなこーいうの) 結局組み込めないのなら、無駄なスペックと感じる。
特定の用途には有効なんだろ。 何屁理屈こねてるんだよ。
>>994 例えば、そのリソースを使って
1.5倍速のFPUが作れるならそっちの方がいい。
作れればの話しだけど。
結局、4並列、8並列すれば、カタログスペックもx4、x8するけど
俺のアプリはx1のままだ。
どうやら知能が低いらしい
CPUは高性能 プログラムを組む奴が低知能 どうにもならんわなw
つーか、CPUにSIMD必要? SIMDが発揮出来るような用途は、必ずGPUとかち合うし、必ずGPUに負けるっしょ。 つまり、GPUが載ってるPCじゃ、CPUのSIMDなんて使われず終いじゃん。 結局、カタログスペックの為のセールス的意味しかないと断言。
>>996-997 いや、考えてもみろよ。
例えば、AoSでどうやって組むんだよ。OOPのクラスと真っ向からかち合うよ?
おかしくね?C++プログラマに、OOPと衝突するような組み方要求する機能って。
外部プロセッサじゃデータ転送のレイテンシもスループットも話にならない。
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。