2 :
デフォルトの名無しさん :2009/03/21(土) 19:20:36
このスレッドは天才チンパンジー 「アイちゃん」が 言語訓練のために作成したものです。 アイと研究員とのやり取りに利用するスレッドなので、関係者以外は書きこまないで下さい。
そうか
だんごやさんだよ
しょぼいNECマシンでも刺せるnVIDIAグラボってことでQuadro FX570を導入して、 SETI@homeの計算をさせたんですけど、画面表示能力が著しく低下するし、 CPUの1コア分より計算時間がかかるという現象が起きるのですが、 誰か他にも同じようなことになってませんか? それとも私の設定がおかしいのでしょうか?
FX570って、8600GT相当のFX1700のメモリ少ない版じゃなかった? どう考えても、CUDAは「動かせる」だけで実用になるとは思えないんだけど。
それって、今だったら9400GT並み? 普通に9600GTが1万円も出せば買えるのに……
8 :
5 :2009/03/23(月) 19:09:53
泣きたくなった。てかQuadroはCADとか3Dレンダリングとかに 使えるのが売りなのに、たぶんこれ刺しても意味ないと思う かといって、9600GTはワット数に多少の不安があると思うし、 FX570を走らせた感覚からして9600GTを走らせた場合 たぶん最適化かけたAstropalseにはかなわないんじゃないかと (スコア的な意味で) そこの所どうなんでしょう? ちなみに自分はValuestar M(Gタイプ)でCore2Quad2.66GHz使ってます。
QuadroFXの売りは、NVIDIAが品質を保証しているために価格が馬鹿高いことだよ。 別にQuadroFX用にチップを用意しているわけじゃないからCADに最適化されているわけでもない。 NVIDIAの営業氏の言う処の「アキバ的思想」でいいならGeForceで充分。
10 :
5 :2009/03/23(月) 22:44:20
VALUESTARの電源にMAX250Wって書いてあったwww このマシン最大で246W食うってマニュアルに書いてあるから FX570が動くのがやっと...ってかすぐはずさないと電源やられちまうかも
11 :
デフォルトの名無しさん :2009/03/26(木) 06:08:51
なぜGPGPUスレでValuestarが出てくるのww GPGPUやる前にPC構成を頭に入れろよww順番間違えてるよww あ、高校生でしたか・・・すいませんでした。
>>9 VGABIOSレベルでOpenGLの性能が段違いだったような気がするが
過去の話か?
まぁGPGPUだったらGTX295買っとけば問題無いな
あ、
>>13 は同等チップのGeforceとQuadroを比べた場合ね
さすがにQuadro FX570なんてゴミじゃ遅いw
やっと2GのRadeon出たな
買い?
ATI Streamは2010年のQ2以降まで OpenCLに対応不可能らしい なんでか知りたい
その頃にはLarrabee出るやん ATI STREAMオワタ
ラビがでなくてもストリームは既に終わってる
AMDは本当に駄目な子・・・
大人の事情、じゃね?
最近OpenCLのhavok clothやってましたが なにか?
そういやPPUって58gflopsだったらしいな で、実パフォーマンスは9600GT(312gflops)をphysx専用に使った場合と同じ
>>27 それずれた
29日にスキンヘッドのおっさんショーに行って
聞いてみなよ
で、いつになったの?
そろそろATIはCUDAに敗北宣言出すね
atiのってHPCへの採用事例とかあるんだろうか。
>>32 無いね海外でも採用事例作れないらしく
切り捨てるかもって話だね
性能出したかったらILで書けってのがまずいんだろうか。 その辺nの方はどうなんか知らんけどさ。 遊びで弄る分には低レベルなところを見れるのは面白いんだがな。
>>34 実用上、ILで書けば早いよ!なんてのは使い物にならん
それが通るならCellももっと普及したはずだしな
CUDAの強みはほぼCの構文だけで書けて、かつ理論値と見比べても悪くない性能を出せること
まぁブラックボックスが多すぎて、最適化がむずいって問題はあるんだが
最適化を頑張るより、新しい高性能グラボ買え!ってことなんだろう。
報いを受けなければならんね
ATIはOpenCLのサポート作業が 暗礁に乗り上げててリリース不可能と言われてるしなぁ
OpenCL自体がCUDAベースだし、ATIがサポートするのはきついだろうな 同じ土俵でどっちが早いのか気にはなるから頑張っては欲しいけど
そもそもATIのGPUって性能あんまり 出ないしOpenCA化しても性能全然発揮できなくないか?
>>40 絶対性能ならそうだろうけど、電力やコストとの兼ね合いもあるからそこまで悪くはないと思われる
性能だけならHPCに力入れてるnVidiaが強いけど、実用用途じゃ電力だとか色々制約もあるのよ
>>41 でも現実的にそうだとしてもVLIW系のアーキテクチャで
並列性上げるってそうとうつらくない?
資金無限にあるように見えるIntelですら投げ捨てたものでしょ?
>>42 それについては結局演算の割り当てとかを考えながら最適化していく事になると思うよ
CUDAでブロックサイズ変えたりアライン変えたりしてるみたいにね
その辺も含めて試してみたいし期待してる
確かにVLIWで性能だそうと思ったら、アプリケーションも限られてくるし実装も相当面倒くさくなりそうだけど
悪くとも「32コアの64ビットx86プロセッサ」としては使える
>>43 結局それだと、HavokClothのためにRadeon使います
か各アプリ用に無理にでもRadeon使うって感じですよね。
ダンゴさまが得意なララビーでも待とうかなぁ
OpenCAとか暗号関係にCUDA使いたかったけど
普通の数値演算以外適合力無さ過ぎて途方にくれているw
難しい難しいって言うけどさ、実際そんなに難しいのか? VLIWのコード最適化なんてもう数十年も研究されてるし、科学技術計算 や信号処理用の商用機だってそれなりの数が出てるわけでさ。 性能が出ないのは単にコード書く人間の調査不足って事はないんだろうか。
>>45 CUDAは並列性が高くないと性能出せないからね
暗号みたいに、次々チェインしていくようなルーチンには根本的に合わない
>>46 歴史は長いけど、その割には普及してないでしょ?要はそういうこと
すっごい頑張れば、すっごい性能出るよ!ってのは一部の人間(HPC分野)にはウケが良くても
結局実務じゃ使い物にならないのよ
んで、数が捌けないと値段も下がらないし、次も出てこない
>>46 効率の良い扱いの良いVLIWをどうやって最適化するかという
文献はあるけど、既にある特定の分野に特化したVLIWを
多目的に最適化するという技術論文は見当たらないなぁ
あるなら欲しいのでリンク教えていただけますか?
>>49 R700のVLIWアーキテクチャて具体的にはどの辺が特定の分野に特化してるわけ?
Itanium(EPIC)がOOOで爆速になるというネタが昔あったな
3-issue(9バンドル)をOoO実行することで80%性能向上だっけか?ww いまのx86は命令エンコーディングそのものを演算の依存関係の解決に使う方式をとってるから 絶対性能的には微妙かも
そういえばIntelはPolarisでまたVLIWのプロセッサ作ってるんだよな 65nmプロセスで1TFlops, 98W, 275mm2 こういうのも検討した上でLarrabeeでの保守的な選択がある 示唆的だね
9-issueの3バンドルだな、間違い
結局この分野でも、実用性はnVIDIAに軍配が上がるのか
>>50 塗絵
結局OpenCLでHavok Clothやっても自社4 core cpuよりパフォーマンスが劣っていて
GW前のイベントでは1体はGPU,3体はCPUで動かし、
(モーション止めた状態で、CPUに切り替えたがドレスは微妙に動いていたわけで、CPUに切り替えたとたん軽くなったw)
GPUでやるのが良いと言うわけではないとか苦しい言い訳してたよ
VLIW以前に、R600系はG80系よりも演算粒度がでかすぎ
1アレイでshader 16個並んでるけど物理演算だとそのほとんどが遊んでる
メモリ帯域依存の設計なんてやめてしまえばいいのにね SMあたりのキャッシュメモリを数百KB確保してワークセット数減らしたほうが 明らかにキャッシュが無いせいでVRAM読み書きせざるを得なくなり、更にそのレイテンシ隠蔽のために ワークセット数をアホみたいに増やさないといけない。 どんな悪循環だよ。 物理演算エンジンとしてもCellのほうがまだマシなレベルじゃね?
CPUで十分動く程度という時点で仕事が小さすぎるんだよ。 元々GPUがメインターゲットとしているのが、CPUでやると 10倍100倍時間がかかるからセットアップに多少時間がかかっても 元が取れるような処理なのだから。 GPU処理のときにメッシュ数が16倍になって より滑らかになりますみたいなデモのやり方をしないと GPUのメリットは出にくい。 まあ元々GPUのメリットをアピールするための デモではなかったということだな。
DX11世代ではメモリ周りが大きく変わると思うんだ
62 :
デフォルトの名無しさん :2009/05/19(火) 22:56:14
失礼な奴だな
>>60 python用のライブラリなんかあるんだな。
何故かVSでbrook+コンパイラが動かないんでそっちに行ってみるか。。。
こないだラデスレに投下されたやつか
この論文と参照論文見ながら 作ってるけど同じ数値にならんなw 俺腐ってるぜw
R700のISAの解説、R600のより微妙に分かりやすくなってる気がする。
>>67 の事ならamdの公式リファレンスの話だが、日本語の解説があるとは知らなかったな。
ありがてぇ。
>>68 のリンクみて
自分の理解不足発見wktkしてきた
だがしかし、月曜日が近づいてきた
どうしよう会社どうしよう
やめちゃえよ じひょうをかいて やめちゃえよ ちなみにヒラ社員は退
72 :
デフォルトの名無しさん :2009/06/13(土) 04:10:23
OpenCLの政治力不足で DirectX11に負けそう
科学技術計算とかのGPGPU用途ならOpenCL一択だろ。
>>74 金と開発力の関係が
急速に悪くなっててやばいんだよ
OpenGLとDirect3Dみたいに棲み分け……られるのか?
>>75 仕様はともかく実装はベンダー任せじゃないの?
OpenGLよりも棲み分けし易いんじゃね。 コンシューマ用途じゃ、扱う問題が小さい+レスポンス重視だから GPGPUが有効な物でも実力の10%程度しか出せないものが殆ど。 GPGPUが本当に有効に働くのは、スパコンでやるような 大規模な科学技術計算みたいなものなのだから
使えるとしてPhysXやHavokみたいなゲーム物理ぐらいだからね まぁDirectXとのInteroperabilityがもっと上がったら、テクスチャ動的生成とかに使えそうな気はするけど
結局後出しで競争も激しいCopmute Shaderの方がパフォーマンスで勝りそうな予感
Windows最強ってことだなうん
まあある意味では真なんだろうなあ でもMSって対抗馬がいないと頑張らないからMSファンにとってもOpenCL重要
DirectXとOpenGLの関係と同じで、WindowsだとCompute Shader、 他のOSではOpenCLって感じに棲み分けができるんでは? 最終的にはPhysXとHavokもDirectXに統合されるんじゃないかね。 GPUメーカー依存の規格は最終的には滅ぶ。
>>83 いやそれは無い
Intelが新しいGPUの代理店募ってるし
既存のチャンネル潰してIntelに振り分ければ
報奨金出るから、今後の情勢として代理店レベル
開発者レベルどの層でもIntelとMSの独自規格で
占められるはず。
ECに目を付けられているから報奨金はもう出ないでしょ ○万個ただであげるとかだよw
nVidiaは近く廃れると思う
つってもATiは昔から新規格ブチ上げたりデモしたりするのは早いけど普及がダメダメじゃん。 StreamとかHavokとか。OpenCLも発表だけは早かったけど今はNVに水あけられてるだろ? IntelはATiを上回る糞ドライバっぷりで、ららびーが出た時点ではまともに動作するのかも怪しいし。 NVの優位はそう簡単には覆らないんじゃないの? NVが大ポカして、なおかつATiとIntelが驚異の改善でもしない限り。
現状GPGPU技術ではnVidiaの一人勝ち感があるなぁ。 Intelがもうちょっと別方向のアプローチで頑張ってくれるといい競争になると思うんだけど。 ATIにはもう期待しとらん。。。
LarrabeeのドライバとGMAのドライバは帰属するグループが異なるから何とも言えん 先日WindRiver買収したけどここのコンパイラがヘボでもICCダメって話にはならんわけで
なんでATIが出てくるんだ? HavokはIntelだしOpenCLはAppleですよ?
>90 ATiはHavokと契約してライセンスうけとるよ あとOpenCLは名前の通りオープン規格だし、規格策定にはAMD、nVidia、Intelを含む主要メーカーが参加してる 別にApple専用規格じゃない
>>89 Larrabeeのドライバは元ATIとNvidiaのエンジニア
で構成される主力部隊で開発しているから
完成度は従来よりも高いよ
93 :
89 :2009/06/16(火) 20:35:11
>>92 実物が出てないので判断は保留ということで
>>93 9月後半か10月中旬に配られるから
大丈夫順調順調
>>88 >現状GPGPU技術ではnVidiaの一人勝ち感があるなぁ。
しかし、GPGPU自体が、全然勝ち感がないね。。
現状、GPUを跨いだ規格であるCompute ShaderやOpenCLがテスト段階だからね。 いわば始まってもいない状態で、勝ち負けを語る段階にない。
>>96 90%Compute Shaderって言われてるよ
1社で1500億円投入すると言われている
OpenCLは集金がもう破綻していて
そろそろ予算尽きる
とはいってもCompute ShaderがWindows専用品であるDirectXの一部である以上、 OpenCLは計画が幾ら遅延しようとUNIX系列やその他のOS用に開発は続行されるだろう。
GPUで何かやろうって考える人の方が稀だ。
HPC分野だとUnix/Linux優勢だから(クラスタとかの兼ね合いでね)Compute Shaderの一人勝ちは無いと思うよ もちろん、nVidia PhysXみたいなコンシューマ用途に限るのであればCompute Shaderが優位だとは思う
Ctのほうが好みだな
大量の並列数値演算をする用途じゃないとGPGPUのメリットがない 中途半端だとVRAMとのメモリ転送などがあるからかえって遅くなる だから一般アプリではあまり用途がないんだよね
その辺のCUDA2.2の取り組みは面白いな
>>105 それを書いてる奴の文章が、有り得ないくらい糞だから読解しづらいけど
要約すると「動画再生とか一部の用途に限ってはIONでAtomを補えるが、それ以外では役に立たない」ってことでしょ
で駄文の読解はそこまでとして、GPGPUは向いてる用途(ベクトル化、並列化がしやすくてかつ重い)に関しては十分な性能を持ってる
ただ、まだまだGPGPUに移植するのが面倒なのと、その上で性能を出すのが面倒だから今一はやらない
Google Scholarで、GPGPUとか「GPU acceleration」とかで検索かければ山ほどヒットするはずだから
興味有るなら自分で読んでみるのがいいと思うよ
CALでQ-Learning解いたサンプルないっすか?
105です。レスありがとうございます。 なんだかアンチマックかGPGPUを憎悪しているのか 希望の光を遮られていたような気分でしたが、 ちょいとホッとしました。まだまだこれからですね。
GPUは良くも悪くもただの並列計算機。 それもすごくシンプルな。 並列化しにくい問題や分岐が厳しい問題には向いていない、というか使えない。 ごく一部の処理は速くなるけど、IONがあるからといってAtomがCore 2 Duoの性能になるわけじゃない。
そもそもオンボッボのnForce9300の並列計算能力が、 Core2QuadのSSEに負けるからなぁ。
2 issue発行のロード・ストアアーキテクチャでSPの積和算とSFUの乗算のスループットを足してるから 最大スループットの理論値自体がかなり無茶なんだよ。 Cell SPEですら一応は積和算を発行しつつロード・ストアが並列実行できるような設計になっている。
windows以外のGPGPU用途が果たして必要なのかと
>>112 ですよねーGPGPUなんてバカネタですもんねー
>>105 GPGPUはともかく、その掲示板って天下の京大生が書いてるとは思えない
APPLE製PC だとか IONがそもそもGPGPUとは違うだとか
アホの巣窟みたいだ
>>115 激しく同意。
叩かれてるやつの態度はともかく言ってること自体は比較的マシで
他のやつの理解度とレベルが低すぎるだけだなぁとか思いながら読んでた。
>>116 文章が読みづらくはあるが、書いてることは概ね的を得てるからな
周りが京大生の掲示板とは思えないレベルの低さ
マカーきめぇwwwww
京大でも大半は18〜24の若造だが、これは年齢相応と言うには度を越してる
京大って強姦魔いるところだろ?
つか、京大も東大も、 バカは本当にバカだぞ。 圧縮解凍ソフト界隈は、東大の連中が多いが、 本当にどうしようもない奴もいる。
>>121 バカっていうより下半身だらしない奴が多い
!Kubotar思い出した あの人は京大だったよな
APPLE製PC 俺も欲しいwwwwwwwwww PC君 とマック君のCMがあったけど 融合したってことか?wwww
>>121 WINNYで逮捕されたのも東大だったような・・・・
強盗で逮捕された関西のK大もそうだがお勉強は出来ても
人格的に問題ある奴多そう
と、cabos愛好家の俺が言ってみるテスト
スレチガイスマソ
ny作者は東大出じゃないと思ったけど
学歴話はヨソでやれ
use calc::gpgpu; みたいにするだけで計算力うpするライブラリまだー?
ゆとり教育世代を舐めんな!! 想像を絶する馬鹿さ加減だぞ。 新人教育担当が馬鹿の壁にブチ当たって、 次々と鬱で休職に追い込まれてる。
OpenCLってやっぱりAppleが仕様を 俺俺仕様にならないことに難色を示していて どうやら1.0の正式版がリリースされるのは 2010年半ばのようだな
ついさっきNVIDIAのドライバリリースのニュース見たが・・・
AMDはDX11に集中的リソース投入するから OpenCLはほぼ進展させないみたいだね 投資も引き上げるのほぼ確定気味だし
オープンオープンと声高に叫んで結局その程度だったか
高い金払ってその程度に満たないものも多いがな。
AppleとかM$とかガチガチclosed体質企業に、Open〜とか無理。
OpenCLはAppleがOKを出さないと だめだからなぁ
msがclosedとか馬鹿も休み休み言え。
まあ、MSは昔よりはオープンになってきたよな。 Googleとは好対照な感じだわ。
どっちにしろDirectXはオープンじゃないけどね
interfaceと仕様のオープンで十分。実装までオープンしろとか言ってる奴はコピペ厨。
Win32APIもhiddenだらけ
143 :
デフォルトの名無しさん :2009/06/26(金) 06:35:37
Open Sourceに非らずは、Openに非らず--R.M.S
要出典
RMSが「オープンソース」についてそんな発言するなんてありえんだろ。 free(自由)にあれだけこだわるんだから。
MSがクローズドなんて、一度IBMと仕事で関わってから言えw
Oracleのサポートに関わるとMSのサポートは神対応に思えるね。
NvidiaがAMD向けのチップセット出さなくなると AMD用のマザーボードでGeforceが動作しなくなるそうだ
それは驚きだな
たぶんnForceのこと
乞食うぜっwww
メインサポが終わってDXCSも使えないXPはスルーで良いでしょ
>>152 先生ATIは見限っても大丈夫ですよね?
はやりませんよね?
SSEとかの延長で考えるならLarrabeeが一番楽
実際にSSEライクなshader(Centaur設計)を搭載した S3 Chrome400/500の実行効率は半端無いね
choromeの内部構造公開されてるならリンクくれ
お粗末過ぎて笑う気にもならん
なにが?
また神奈川hi-hoが暴れてるんだろ
トリップの計算って確かにGPU向きだね とっくにあるのか?
>>166 それCALで本当に書いてる?
リバースしてるけどそんなにCAL使ってるようには見えない
知らんがな。 作者にメールでもして聞け。
>>168 もう何回も出してるけどエラーしか返ってこない
VIPPER用語使って素人を演出してみたけど無理だった
brookでベース書いて、手でcal ilの最適化してる
AMDってオープンオープンうぜーだけど ソース開示してくれって言っても全然開示してくれない 自分たちが見せたいものだけ見せるって ただの変質者じゃねーか
Intelに対抗するためのリソースを奢って欲しいだけだからな 乞食
CALで文字列ってどうやって扱うの? strlenだけでも実装してみたい
>>176 CUDAをそっくりそのままパクルらしく
Nvidiaの中の人訴訟だっていってたぉ
nvってほんと馬鹿だな
>>177 ソース
つか、GPUのハードウェアアーキテクチャの話でプログラム言語を
パクるって話がどうして出てくるんだ?
>>179 CUDAにほぼ近い言語用意するために
今回ハードのアーキテクチャ一部変更するでしょ
DX11のCSに対応させれば自然とGPGPU向け強化になるし 現状のCUDAハードの機能的上位互換にもなるだろう。 アーキテクチャ的にはそんなに変える必要は無い。 VLIWのままでも必要ならば演算粒度は16分の1まで下げられるだろ。
訴訟起こして、CUDAそのものを採用させることで和解?
必死だな
消えるcudaになんて対応させたってなんになる
OpenCLとかなんてCPUでもDSPでも適当なハードで動くし
>>185 Radeonじゃ動かないよ
AppleがGeforceびったりだし
それをIntelが支援してる
おやおや、必死ですね うんうん、Dell,HP,Appleはnvしかないよね 間違っても欠陥が原因で排除なんてしない
>>187 来年からDELLもHPも
デスクトップ向け製品で
AMDのCPU搭載製品出さないよ
AMD商売下手でバカだからさ
来年NvidiaはAMD向けのチップセット生産できなくなるし
(笑)
自作板でやれ
Intelの上級幹部も GPGPUはAMDは端にも棒にもひっかからないと明言してるしな
AMDというかATiは新技術のプロモーションは早いんだけど製品化が上手くいかなかったり、 DirectX7.1とか8.1とか出してはNVIDIAがついてこず自爆とか、 NVがゲーム最適化のために時には数日間隔で拙速ともいえるドライバアップデートをする事があるのに対して 月刊Catalystでアグレッシヴさに欠けるし、カタログスペックだけメーカーって印象が強いんだよな。
まぁ少なくともGPGPU分野での出遅れと低品質は明白なんだよな……
なんか必死ですね
GPUのアーキテクチャ自体 Nvidiaのパクリだしな Athlon->Pentiumのパクリ ATi->Geforceのパクリ
邪魔
DX11対応のATIのSDKって API全部一新されるんでしょ?
ATi も nVidia も ArtX も元は SGI スピンアウトなんだから、似るのは仕方ないかな。
ひっし
RV870品質問題で出荷不可能かもな
201 :
デフォルトの名無しさん :2009/07/23(木) 02:12:02
ATIは何もリリース無しオワタ
ATIはgoogleからも見捨てられたw Windows7もNvidiaに期待していると声明出される始末だしw
なんか痛い人がいるな
ATI、nVidiaという観点で貶し合ってる大半がそんなだ。 自作板帰れとつくづく思う。
あまいな。 それがゲハ厨のPS3(nVIDIA)とXbox360(ATi)の代理戦争もあったりするから 更にタチが悪い。
どうせ有名な神奈川か群馬のゲフォユーザーだろうな 板をわきまえないFUDがそっくり
211 :
デフォルトの名無しさん :2009/08/06(木) 03:38:14
まだGPU使えないとか・・
なぁなぁ GPGPUで計算したら面白そうな課題って 何かないですか?
CPU代わりに使う
>>211 コンパイルもできないなこれw
終わってるw
1.xすら正式版がまだ出ていないのに2.0β2って流石過ぎる
AMDは期待の斜め上行き過ぎだなw 2.0はGPUで全然うごかねーしw
GPGPUのSDKじゃなくてCPU・GPU・DSPをターゲットにしたOpenCLのSDKだからな>Stream SDK2.0β
いみねぇ・・・ とりあえず、MODドライバでCUDA対応させる話に期待する方がマシじゃねぇの? マジでうちのRADEON4850の山盛りシェーダーが仕事無くて泣いてるぞ。
というか9月にローンチされるRadeonって 構造がほぼそっくりGeforceと同じなったよなぁ CUDAがやっぱりGPUの限界なんだろうな
構造は全然違うだろ。 同じような構造であんなトランジスタ効率が良いわけ無い。
アーキテクチャは確定してないぞ
AMDはどんどんダイサイズ増加させて 2012年までにほぼ完全にCUDA向けの アーキテクチャに移行するよ
CUDAというか今のNVIDIAの実装って無茶苦茶トランジスタ効率悪いだろ。
GPUモードとCUDAモードが分かれていて モード切り替え時に処理がぶちきられるとか効率悪すぎ
R800 Hemlock 300mm2 x2 RV870 Cypress 300mm2 RV840 Juniper 181mm2 RV830 Redwood 120mm2 RV810 Cedar ― GT200 576mm2
つかWin7ではGPGPUインターフェイスをまともに作ってないのか 互換性を完全に無視したのか分からんけど CCC以外では使えないと言う
相変わらず、ぬび太が馬鹿な発言を繰り返してるね
コンパイラに組み込んで自動的にGPGPUに処理振るようにしちゃってよ。 規格乱立・しかもいつまでたっても実装が出てこなくて、なんかめんどくさい。
Nvidia、CUDAだけでいいじゃん Radeonコスパ悪すぎだし
Ctだけでいいよ
バカだなー 競合が無かったらこんなに安くならんだろw
中身読んでないのがバレバレだな
>同社は同四半期にノートPC向けGPUとチップセット(MCP)のダイ/パッケージング素材セットの問題に対する対応費用として1億1,910万ドルを計上しており、これが業績に大きな影響を与えた。この費用を差し引いた、非米国会計基準では3,770万ドルの純利益を出している。 >同四半期はTeslaやTegraといった新製品の出荷が順調に伸びており、社長兼最高経営責任者のジェンスン・フアン氏は「当社の業績は回復基調にあり、当社製品に対する需要も改善している」と述べている。 どこが赤字だw その1億って単なる経費で、純利益は黒字じゃねぇかwww
Teslaって単価高い上に結構売れてるからな あれで黒字にならん方がおかしい
都合のいいときだけ欠陥を持ち出すよねnvって で、dell,apple,hp,sonyなんかにチャンと対策してるのかよw
結構売れている(笑)
常時ファンを全開にするのが対策だそうで
マキーノがGPUをディスりはじめたなw
>>242 kwsk
kwsk
kwsk
kwsk
kwsk
kwsk
kwsk
日誌とか雑文とか見れ
わからんw
"jun makino"でググれ
やはり1チップに1024個も演算プロセッサ搭載している アーキテクチャの方が優れてねーか? GPGPUって眉唾もんだろ?
`コアのことか?
だんごやさんだよ
252 :
デフォルトの名無しさん :2009/08/10(月) 21:49:36
なんなのコイツ
だんごやさんだよ
マジでうぜえ。
トリップおかしくね
こうかな
GPGPUってビジネス領域で使えそうな技術ですか? 例えばMySQLとかのデータベース処理を早くできるとか
そう言う用途はCPUの仕事 GPGPUじゃ手に負えない
>>intel インテルが発売する製品は可能だって 神様が言ってたよ
だってあれNiagaraみたいなもんじゃん
>>261 うん
CPUのことで神様嘘つかないし
GPUも同じでしょ
今のGPGPUだとやっぱり科学計算とかシミュレーションとかにしか向かなくて 一般業務アプリケーション領域には向かなさそうですね
どれも向かないよw
俺がぱっとES評価したかぎりだと RV870は灼熱だね RV830は消費電力少ないが性能はすごい悪い
何で消費電力じゃなく熱なの?
GRAPE-DRの方が素晴らしいわ
なんだと><
えっと、なんだっけ、おはようビーム、だっけ、それ
スマイルビームじゃね?
おはようビームってライデンがマッチ開始直後に仕掛けてくるレーザー攻撃?
GRAPE-DRは消費電力が秀逸 プログラムも書きやすい GPGPUはどうかな?反論できるかな?
完敗ですな
速さは力
開発速度ですねわかります
まあ、GPGPUには口はないからな
GT300今年にはでなさそうだな 本格的にオワルnvidia
279 :
デフォルトの名無しさん :2009/08/17(月) 16:06:52
>>267 > GRAPE-DRの方が素晴らしいわ
おいしいの?
280 :
デフォルトの名無しさん :2009/08/17(月) 21:54:55
というかNVIDIAってGeForce8000系から全然進歩してないよね? あいつらいったい何やってんの? 死ぬの?
Geforce最強 CUDA最強 AMD最低
nVIDIA最高 ATi最高 AMD最低
それには同意せざるをえない
ATi買ったのがIntelだったら良かったのに…(無理です
元々は、 Intel & ATi AMD & nVIDIA って感じだったのにね。
>>284 Intelの会社のロードマップとしては
2014年までにATi部門買う予定は
ずっと変わってないよ
ただ法律などでうまくいってないだけ
IntelにATiもぎ取られたAMDがNVIDIAと合体してハルマゲドン? ららびーはどうすんのよ
>>288 GPU関連のシニア設計エンジニアをかなり高級な年俸打診して
引っこ抜いてるみたいだよ
人材の引き抜きはやってるけど会社そのものを買う気はないだろ
今更感はあるよな
そもそもAMDも。。
Radeon 5xxxは標準で250W 最大で350Wなんだなw 使い物にならねーだろw
294 :
デフォルトの名無しさん :2009/08/24(月) 13:32:13
>293 流石にそれはない 脳内妄想乙
295 :
デフォルトの名無しさん :2009/08/24(月) 13:33:58
nVidia最低 Intel悪党
つまり勝者はIntel
HPC分野でGPGPUに一番強いベンダーはやっぱりNECですか?
なんでやっぱりなの?
HPC屋さんでGPUの経験があるのって、PowerVRのNだけだから、とか?
NECって過去の会社でしょ。
NECって、家電とかPCには降りてこないで欲しいよ ゴミばっかで迷惑だから スパコンだけ作ってろ
NECって、PC98くらいしか思い出ないわ。 まだパソコン関連にいるのか・・・。 ケータイもパッとしねーし、家電も陰薄すぎだし 何で稼いでるんだろう・・・。鯖ももHPやDELLやIBMとかと張り合うような市場じゃ全然駄目だし スパコンもトップ以外は関係ないしなぁ
ケータイのCPU周辺チップは稼いでるよ NECエレだけど
EMMA
日本の電機屋にそんな甲斐性があればとっくにIntel抜いてるわ
日本はOS作ってもソフト作ってもツブされるからな
日本は来年中国とソフトウェアに関する条約締結するでしょう
日本はOSにしてもCPUにしても圧力でつぶされてきたんだが
しかし超漢字が世界の標準OSになれたかというと、疑問だな 組み込みTronはよく使ったけどさ
圧力に負ける国力の無さを恨むがよい まあ仮に生き延びていたとしても、最終的には英語圏の巨大な開発力に押し潰されていたと思うけどね
先進国のITは日本の10倍ぐらいの人口と平均1.73倍の 知能の高さを誇る業種だからねぇ おバカJAVAスクール生はどこの国でも今仕事がなくて 大変らしいけどw
>>310 アホか
力がありすぎて潰されたんだぞ
理由は外交下手
黒字貿易と引き換えにされただけだ
当時経済力国力ともに世界一だった日本に
何が国力がないだ笑わせんなw
あまりのスレチに思わず違うスレ開いたかと思った
今からでも遅くないだろ 道路作る金の半分をつぎ込めばIntelにも勝てる そんな公共事業は日本ではありえないけどw
HPCスレかどこかで相手にされなくてスネてる厨房だろ
intelに勝てるって何で勝つんだよ。x86のライセンスなんか受けられないぞ。
OSX10.6のOpenCLはGeforce限定でしか動作しないね。 RadeonはやっぱりOpenCL無理なんじゃないのかなぁ Radeon5870見てそうおもったよ
319 :
デフォルトの名無しさん :2009/08/26(水) 02:21:27
情報源明かせないけど 来月のRadeon 5xxxシリーズ発表後の2週間後に もしかするとAMD OpenCLのGPU版リリースされそう
乙。 期待しないで待ってるとしよう。
Q3の予定だから9月中には出るだろう。
富士通のHPCの偉い人によると「10TFlops位あればHPCって感じ」らしいが、 カタログ値だけなら今度のATiの最上位機種を2枚挿ししたPC5台で出るんだよな。
富士通のHPCの偉い人って誰?
高帯域高消費電力GDDR*に依存してる今のGPUアーキテクチャから脱却しない限り現実として無理だな。 家の中に発電所が必要になるwww
6年後のことなんか誰にもわからんよ 今NVが必死だってことは誰にでもわかるけどw
8800GTX出してから3年近く殆どアーキが進化しておらず、消費電力だけは増え続けた。 残念ながら、570倍の性能を発揮するにはGWクラスの電源が必要になりそうだという推測しかできない。
3年後とか6年後とかよりLRBへの対策を講ずることの方が重要だと思うんだが。今どうなってんの?
唯一の可能性としては 消費電力を増やすだけでしかない共有VRAM帯域依存のアーキテクチャから脱却し、 コア毎にローカルでそこそこの容量のメモリを持つ分散メモリ形式に切り替えることで 電力あたりのFLOPS数を引き上げることができる。 Larrabeeの方向性そのまんまだよ。
いまのGeforceのSPはトランジスタ効率があんまりよくないから、そのへんの再設計をするんじゃないかな 発熱と消費電力が形容できないレベルになってきてるのも確か
Grape-DR最強
>>332 ダメCPUのCellに似てるんだが。
大失敗に終わったCellの方向へ行くわけ無いだろ・・・。
だーかーらー Grape-DRが唯一絶対なの
>>335 別にスクラッチパッドメモリでなくてもキャッシュでもいい。
誤解してるようだがGeForceはソフトウェアフレームワークが比較的マシなだけで、
更に狭いスクラッチパッドメモリと更にワイドなSIMDで、ハードの特性はCellより遙かにピーキーだ
分散型メモリってのはGRAPE-DRも同じ方向性だ。
メモリ帯域はGPUどころかCPUより狭い。
重力演算に最低限必要なスクラッチパッドメモリで演算を繰り返す仕様。
大量の演算ユニットのスループットを生かすには相変わらず高帯域のメモリは必要なんだが
伝送距離が増えるとそれに比例して電力消費が増えてしまう。
同じGPUでもChromeはタイルレンダを上手く駆使してメモリトラフィックを削減しつつ
スループットを稼いでる。
Larrabeeは共有分散型キャッシュメモリでタイルレンダに特化したGPUってことになる。
レイトレーシングとかは重力演算と一緒で演算結果の再利用頻度が高くなるからな。
Cellの駄目なところは、犠牲にしたものが大きいわりに ピークパフォーマンスが高くないところだろ。
キャッシュ制御を自前でやらないと使い物にならない速度でしか動かないようなのは 勘弁して欲しい。キャッシュに乗り切る用にプログラムサイズ調節したりとかもしたくない。
Grape-DR最高
>>339 そういう手合いにはCPUが最高のソリューションだ。
CellがGPGPUが万能の利器であるかのように言うのは過ちであって
そういう努力が出来る人間が適切な用途に使ってこそ効果を発揮するものだ
なんだよそれ。じゃあGPGPUもCellと同じで役立たずな技術なんじゃないか。 誰でも簡単に使えて高パフォーマンスを得られるものを目指すべきだろ。
>>342 そんな夢のような話は、それこそ夢のような製造技術が実用化されないと現実になりません。
馬鹿には使えない = 役立たず ってwww
>>342 みたいなのは馬鹿でも困らない仕事だけしてればいいよ
346 :
名無しさん@そうだ選挙に行こう :2009/08/30(日) 05:25:09
>>337 なんで伝送距離が増えると消費電力が増えるの?
GDDR系にはイコライザの類いはないと思うのだが。
348 :
名無しさん@そうだ選挙に行こう :2009/08/30(日) 09:31:45
GPGPUなんて使えない。NVIDIAはそれしかないからプッシュしているだけで 少し知識があれば一番高いPentiumを買うのが一番頭がいい。
CPU=マイコン GPGPU=劣化FPGA
>>346 理屈考えろよ
電子を遠くに流そうとすればするほど電力のロスは大きくなる。
一方演算ユニットとかってそんなに消費電力食う訳じゃない。
ローカルのキャッシュメモリあるいはスクラッチパッドメモリを作って
ALU間の電子の移動を最小限にしたほうが良い
少なくともVRAMとの間を何度も往復するよりはよっぽど改善される。
現行のGDDR5帯域当たりの消費電力は1Gbpsあたり0.5Wだ。
GPUの消費電力の何割占めてるかわかるだろ。
ついでに言うとコントローラそのものが熱源になるから熱密度の制約が出てくる。
莫大なトラフィックを捌くコントローラにトランジスタ割くよりも、演算ユニットの数を増やして
同じトランジスタでも熱密度の制約が比較的少ないSRAMの大容量化を行い
メモリ帯域をセーブした方が健全。
レイテンシが小さくなって命令のインターリーブ数も抑えることができる。
レンダリング方法はタイルレンダ主体になるが。
今更GRAPEとかイラネ
>>348 CPUとGPU両方使えば、より性能が伸びるだろ。
なんで片方しか使わない事になってるんだよw
言っているだけで物は出ない(笑)
OSX10.6でOpenCL使ってるんだが なんかいまいちなんだけど
どんな感じよ?
もうOpenCL使える実装あんの?
>>358 10.6ならRadeonとGeforce使ってOpenCLできるよ
なんと! ちょっとSnow leopardかってくる!
>>354 スタンフォードの教授だって言っても大学の研究資金って企業からの金で成り立ってるわけだから
決して公正客観だとは思わない方が良い
グラフィックって大雑把に言って点の数だけ並列化できるからトランジスタ分だけ性能が伸びるのは当たり前。
GPUの性能進化なんて野はグラフィックという用途に絞った話で、様々なプログラムを
好き嫌いなく動かさないといけないCPUとは全然土俵が違う。
同じ土俵で戦わせたらどうなるか?
知っての通り、GPGPUがCPUのタスクを全部肩代わり出来るかって言うと全然そうじゃない。
性能以前に動きすらしないプログラムの方が多い。
逆にCPUにGPUの仕事やらせれば同じようにスケールするだろう。それがLarrabeeなわけで。
>>350 伝送距離の話ではなくて、伝送帯域の話では?
DDRはドライバで、電圧が決まっているから、伝送距離が増えてもレシーバ端で受信電圧が下がるだけで、消費電力は変わらないと思うけど。
このあたりはアナログ回路のはなしなので、スレ違いすまん。
ちなみにRadeonなら CPUシミュレートではあるが、一応LinuxとWindows上で HelloOpenCL作れたよ。 9月10日にAMDから発表あるから その後すぐに、ネイティブで実行できるんじゃないのかなぁ
>>363 無論物理的距離ではなくインターコネクトのコストが最大の問題だ
さっさとWindows向けのOpenCL実装出してよね! 話ばっかで疲れちゃったよ。
出力電圧一定で負荷が増えているのに 消費電力が増えないと思えるのが不思議だ。
>>368 スレ違いなので、最後。
出力は一定とは言っていない。
負荷が大きくなると受信側での電圧が下がる。つまり電流が減るということ。
だから消費費は変わらないと思うと言っただけ。
>>369 考えて見たら、送信側って定電流であることが多いから、電力は増えるね。最近高周波の勉強してるから、勘違いしてしまった。
アホですまん。
どんまいける
ワラタ 伝送距離が長くなったら、配線の抵抗分で流れる電流が減るので、 消費電力はわずかだが減ります。 こんなの中高生レベルで理解できる話だ。オームの法則すら理解してないんだな。
インピーダンスを理解してない中高卒は黙ってろ
インピーダンスや高周波を知らないから、 オームの法則だけで理解、説明できるような話を勘違いしてるんだろう。 所詮設計とかやったことない奴の妄言だなあ。
中学生相手にマジレスすんなよ
わかってないのは、
>>373 ,
>>375 。
インピーダンスという言葉を知っているだけで中身を理解していない。
たらったらったらったインピーダンス♪
OSX 10.6 OpenCLで同じプログラムを動作させた場合 Nvidiaの方が処理速度100倍高速だね
顔文字忘れてるぞ
>>372 厳密に言うと、外付けメモリの配線抵抗なんて、DDRの内部終端抵抗に比べれば、
小さいし、抵抗のバラツキも大きいから気にすることないんだけどね。
でっていう
Windows7のGPU評価に専用グラフィックメモリと共有システムメモリとは別に 専用システムメモリ(当然0MB)ってのがあるけどこれってVistaにもあったっけ? DX11世代カードだとVRAMをGPGPUプログラムのメインメモリとして扱えるようになるのかな
カード上にスワップ用のDDR*が載るのかとオモタ
いっそGPUに直接HDDをつけられるようにしてくれ。 スワップし放題っw
>>382 正体判明。
GMAみたいなオンボードチップではグラフィック用にメインメモリの一部が固定的に割り当てられる。
GMAの場合専用グラフィックメモリ0MBで、専用システムメモリ32〜64MBくらいになる。
RADEON HD5870、825MHzで1600SPだとよ。 5870x2なら1ボードで倍精度1Tだぜ。
GPUのflops表記に意味は無い
>>389 の脳細胞の数に意味が無い如く、と言うわけだな!
そう、幾ら数が増えようが 元の効率がだめなのと、すべてのSPを使いきれるわけではないからな ATIのは そういった意味でプロセッサとしては Centaur設計のshaderを擁するS3に及ばないと言い切れる
1つの命令をうん百並列の演算ユニットにブロードキャストして命令発行するのに小回りきくわけないば SSEはたかだか4並列、AVX〜Larrabee世代ですら8〜16並列に増える程度だ 汎用性を左右する演算粒度が違いすぎる。
>>391 S3のGPUのプログラミングアーキテクチャを云々できる資料って公開されてたか?
されてるのならクレ。
AMDはOpenCL取り止めか? DirectXだけに注力するのか?
UNIX系OSのために、OpenCL対応はほぼ義務の状態にある。 Stream廃止というなら話は分かるが。 でもPhysXやHavokに相当する統一規格がないんだよな。 BulletがCompute Shaderベースになるといいんだが。
ないだろ。 *NIX自体のマーケットが小さいし、そこに割って入る中立なAPIを作ろうという第3の組織もない。 ならCUDAなりATI Streamなりの元々の独自APIで十分というわけだ
CUDAとOpenCLとDXCSの3つが 競合する規格になるのかな?
OpenCLとDXCSは競合しない。 DirectXとOpenGLの様に棲み分けられる。 CUDAはどっちともぶつかるからきついね。
こういう時Intelは静かに仕事こなすな
珍テルだからな
AMDはSDK作っても原則無償提供だから人件費の分だけ赤字 そんなに人員割けるわけがない 片やIntelはソフト開発者だけで3000人体制だからな。 ハードだけでなくコンパイラやVTune売っても金を生み出せる企業だから
AMDのSDK作ってる人2人だけだよw
力の1000万パワーと技の1000万パワー、二人合わせて2000万パワーズ。 力と技のコンビネーションでさらに倍の4000万パワー。 大丈夫だ、2人でも1万パワー3000人相手なら十分に戦える。
とりあえず480gflopsが、35.2gflopsに迫られるのはどうかと思いました(マル)
動画貼るだけなら、自作板でやってろ。
得意の描画でもこんなもんか
いやぁ、数式だなんて高級な言葉知ってるインテリさんには敵わないやw
1600SPってことは よくてarray 20で粒度変わらず 悪くてarray 10で粒度倍
結局今年もGrape-DRが最強ってことで決まりだな
ATIだけ汎用性とは逆方向に進んでるな
>>399 テクスチャをフィルするだけで8秒って
インタプリタ言語でベタに書いたってそんなには
かからないだろ。
デバイスドライバが動いてないのかな?
>>415 いや違う。
RadeonはOpenCLが苦手だから
処理がとてつもなく遅いらしい
そもそも2.0betaはRadeon使ってない。 x86で計算しているだけ。
そ、おなじCPU処理で8万倍の差があるの AppleとAMDでは When I run it on ATI Stream SDK 2.0 beta on Windows, I got terribly slow performance: around 8 secs per frame! (On SnowLeopard OpenCL(CPU version) it runs around 0.0001 secs per frame)
419 :
デフォルトの名無しさん :2009/09/13(日) 04:00:36
>>ATIだけ汎用性とは逆方向に進んでるな これはある意味正しい選択では 使い物にならないGPGPUに力入れてコスト上げるより 低コストのままベンチスコア上げるほうが売れるだろうし 短期的にはね そのまま行けばサウンドカードと同じ運命だろうけど
まあ、CPUの仕事はGPUじゃなくてCPUにやらせりゃいいじゃんというのは、妥当ではあるさね
>>418 それAMDの掲示板で質問してるやつ
いたけど削除されたよなw
もしかして今のバージョンのATi ILてVLIWの中身を明示的に指定できないんだろうか? ざっとリファレンスを読んだだけなんで、俺がやり方を見落としてるだけかもしれないが。
>>422 ISAで書いてcalclAssembleObjectを使う。
424 :
デフォルトの名無しさん :2009/09/13(日) 14:16:37
GPUやCPUのGFLOPS値の一覧があるサイトはありませんか?
>>423 thx 結局底まで降りるわけか。まあ、面白そうだからいいけどさ。
仕事なんかでやらされる奴はたまらんだろうな。
AMD終わったなw
ゲーハーかと思った
今更言うことでもない
430 :
デフォルトの名無しさん :2009/09/14(月) 21:36:42
やっぱりCUDAは捨てるんだな。手を出さなくて正解だったぜ。
>>430 それは負け惜しみw
超並列化の苦労に比べればプラットフォーム間の移植などものの数ではない。
CUDAで50倍高速化させたら快適すぎる。
CPU版が止まって見えて、元に戻れない。
>>431 なあ、教えてくれ。
なんでCPUに比べて50倍も速くなるんだ?
例えばGTX280とかって240SPだろ?
今の標準的なCPUは4コアだけど、GPUのクロックより2,3倍速いし、しかもSSEだと各コアで4並列できるだろ。
あくまでも単純計算では、5-7.5倍くらいにしかならないようにおもえるのだが。
メモリ帯域に関してもCPUはでかいキャッシュがあるし、仮にキャシュが効かないアプリとしても、
10倍程度だと思うんだ。そういうアプリなのかね?それともCPU版のコードがへたれなのか?
教えてくれ。
>>431 ではないが横レス。
IPCとかスループットとかメモリ帯域とかもっと多くの要因があるからそんなに単純な話ではないが、
例えばSSII09のチュートリアルでは行列積の場合512x512で24倍速いだとか言ってたな。
具体的な実行環境は失念。
SIFTのデモはCPUだと2〜3FPSしか出てないのが100FPS超えてたりとか、
問題とか条件によってはそんくらい行く。
まぁ、4coreだからって全部使って演算されたら堪らんからな。 CPUより速いとかよりも、CPUの負荷を減らせることも魅力だし。
CPUとGPUの比較をしてもあまり意味がなくて、結局、GPUはアクセラレータとして捉えるのが良いってことか。
>>432 CPUはクロックが速くてもメモリ帯域が遅すぎる
処理によっては100倍どころか2000倍も存在する
437 :
デフォルトの名無しさん :2009/09/15(火) 11:32:38
経験上その手の数字は信用できないんだよね。 GPUベンダーに都合のいい数字だけを言っているだけで 前提となる条件が一切不明。ソースだせと言いたい
GPUに適した処理が、50倍とか100倍超になるのは事実。 でもGPUに適した処理、っていうのは、画処理とかの、 大データに対して同一の演算を行うものだから、 CPUが行っている様々な処理の種類なかでは少数。 重たい処理ではあるけど。 そもそも、GPUの性能が50倍とかにならないのなら、 そもそもPCにグラフィックスチップいらないわけで。
そもそも、が被った。orz
そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもぞもぞもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも そもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそもそも
>>436 良い事考えた。コア毎に独立した爆速メモリ積んで、その容量内で処理が完結するように
すればいいんじゃね?100%近いキャッシュヒット率を稼ぎ出せればCPUでも
>>441 これはすごい
NVIDIAとCUDA終わったな
>>441 サンダーテクニカルなアーキテクチャにされるよりはいいよ。
>>438 >大データに対して同一の演算を行うもの
ここは少し誤解があるような。
CUDAはもっと柔軟性があるよ。
カーネルコードにスレッドIDに依存する処理を入れても遅くならない。
if文も遠慮なく使っていい。
粒度のアンバランスがあってもwarpSize=32がなんとかしてくれることが多いw
CUDAが使えないのは、スレッド間で依存関係があるとき
(あるスレッドが別のスレッドの結果を使うようなとき)
だけでそれ以外は何とかなる。
スレッド間でデータ独立でループが長く、
スレッド数=数百、グリッド数=数百以上とれれば性能を出すのは簡単。
さらに共有メモリー(スレッド間で共有する配列)が使えるアルゴリズムのときは
100倍超の爆速になる。
食わず嫌いの人は、ドキュメントとサンプルコードと格闘してくれ。そうすれば何とかなるよ。
>>445 嘘言うな。if文なんて最適化のときに削るべき対象だろうが
branch(特にdivergent branch)が増えると明らかに速度が落ちるし
tid使って分岐させる場合、ハーフワープ単位で揃えないと遅くなる
100倍速くなるってw CPUにどれだけ糞コード食わせているんだって言うwww
>>447 CPUに十分最適化されたコード食わせていたとしても、物によっては100倍のオーダーも有り得るぞ
ただ、よっぽどCPUに不向きでGPUに向いてるアルゴリズムの場合に限られるが
普通は10倍〜だな
でもATIの実装は雪豹の2万倍遅いので 意味がないというわけですね やっぱりIntelに期待するしかないのですね ワカリマス
>>446-447 ネガティブなことを言うときりがないから。
性能はアルゴリズムによるから人それぞれ。
糞CPUコードって自己紹介か?
とにかくやってみろということだよ。
まぁ、CUDA限定の話はほどほどに。
50倍でも100倍でもいいけど、今後の最適化ポイントを探す参考にしたいから実例を挙げて欲しいなあ。 プロセッサはピーク性能出し切ってようやく10倍でしょ。 メモリはそもそも10倍も速くないでしょ。 メモリの性能に依存するなら10倍未満って事になるよ。 CPUがきちんと最適化されているならGPUが100倍になる理由なんて無いんだけど。 テーブルを引いてくる場合とかかな? CPUだとテーブルを引く瞬間はSIMD化出来ないから。
CPUに8MBも高速低レイテンシのキャッシュ載っかってるのにそれが有効に使えてないってのはそれはそれで 問題外なような。 ローカリティとか意識してればGPUの1/50なんてことにならないぞ しかしふと思った やっぱCUDAって学生が力学とかの宿題解く分にはそこそこ有効なのかね。 書店でHPCプログラミングの本立ち読みしてたら、ああまさに大学生の宿題の応用だなと
455 :
デフォルトの名無しさん :2009/09/15(火) 23:00:27
GPUのプロセッサー性能は最新のCPUの1/5くらい。 それが240スレッドで動くから、結局50倍という計算。 もろもろのマイナス要因はあるが、バンド幅の大きさ、レジスタの多さなどの プラス要因もあるから、うまく行けばトータルでその程度は出るという話。
>>453 GPUもGatherは遅いぞ
Half Warpぶんのベクトル長(512bit)に載っかるデータだけに関しては1サイクルのスループットで読み書きできる
> GPUのプロセッサー性能は最新のCPUの1/5くらい > それが240スレッドで動くから、結局50倍という計算。 はぁ〜?
1.3からdoubleがサポートされたが、ピーク性能はfloatの1/10だけど、 実際はいろいろなものに隠蔽されるから、速度低下は1/3-1/4くらいかな。 コンパイル時に-arch=sm_13が必要。 doubleがどうしても必要なときはためらわずに使ってもいい。
>>453 キャッシュラインの操作(GPUの場合は共有メモリだから厳密には違うけど)が明示的にできるか否かや
バス構成の違い、プロセスがTDMで走るかとかアーキテクチャそのものが違うわけで
アーキテクチャが変われば当然、適した問題も変わってくる
そういう2つを比較するんだから、単にデータシートから求まるピーク性能だけを持ってきても意味ないでしょ
OpenCLは文字列処理に向いてるのかね?
GPUを使う以上、文字列操作に向いてるって事はないだろう SIMD的に規則正しく処理できるようなものならいけるかもしれないけど 普通、文字列操作ってifの塊だし
SSEならchar型16個を並列処理することができるし SSE4.2でテキストサーチ用の命令が強化されてる。 GPUは1エレメントをchar*4のSIMDとして扱うような芸当はできないから 基本的に32ビットに拡張して扱うしかない ハッキリ言って向いてない。 Larrabeeも整数は32ビット単位でしか扱えないようになってる。 汎用CPUと差別化してきてるね。
文字列処理は検索とコピーくらいしか並列化しようがないから、スカラの逐次処理との切替が素早くできる CPU内蔵のSIMDで高速化するのが一番効率的なのです
だからデータシート云々言うんだったら実例挙げてごらんよ。 それが正しければへぇ、ってなるし、間違ってれば俺なり団子なりが訂正してやんよ。
スカートのチラリズムを計算したいんだが 方程式しらね ?
CPUで動くあるコードを持ってきたとする。でもそのままコンパイルするだけでは動かない。 結局、GPUを使う場合は、多少なりともGPUを意識したコードになり、 必然的にある程度最適化していると言うことで、同じ土俵ではないということ。 前とある学会であった発表で、GPU(G200)を使った結果がQX9650よりも8倍高速化されたというものだったが、 比較がなんとシングルコア。これだったらGPUを使わないでCPUを最適化してMPIでも使えと思った。 でも両方使えばもっとウマーだな。そういうことを考えていくとLarrabeeなりに行き着くのかな。
Cell Speed Challengeの参加者のレポートもそんなんばっかしだよ。 Core 2 QuadのSSEなし1コアに比べてCell(SPE6個・SIMD最適化)でこんだけ速くなりましたとか
まあ、がんばって最適化してみたら、思うように性能が出なくて、 仕方なしにリファレンスを変えるのは上等手段だしね。 やってきたことを如何に大げさに言うかが重要だからね。 嘘は言っていないから。
まあ、Core 2のSSEの性能と比較したらよっぽど都合が悪かったんだろうなぁと解釈した。 問題自体がCell向きとは言い難かったし。
両方使うというのは理想だけど メモリ転送が遅すぎてどっちかでやったほうが速い。 これは並列化するアルゴリズムにもよるから 一概にはいえないけども。
>>466 ,470
実際にOpenMPとCUDAを併用して高速化を行った論文もあるぞ
CPU処理の初期データ生成を並列化するだけというものだから
俺たちからしたら知ってるよぉ!レベルの話だが
連投になるけどOpenCLはCPUやDSPのコードも書けるから どっちも使うコードがメインになるのかな
CPUの場合も OpenCLでやれば、SIMDの組み込み命令がどうだの プリフェチがどうだの、考えなくていいんでしょ? それに、CPUでfloat4やfloat4x4を扱うとき どの環境も決定性に欠ける面もあるし、 OpenCLには期待しているのだけれど、、 とりあえずWindowsXPで動いてくれよ
>>471 CellやCUDAをきっかけにHPCに興味を持っていろいろと調べたり勉強しているのだが、
結構しょぼい論文が多い気がする。
コンピュータサイエンスにおけるHPCって以外とレベルは高くないのかな?
(そんなことはないと反論を希望したい。)
まあ、今までは特定の研究者しかさわれない分野が最近は一般レベルに落ちてきたら、
これからもっと発展するのか・・・な?
>>474 HPCってTOP500に代表されるように国際競争の場だから
外部の人間が自由に見れるような論文は当たり障りの無い内容が多いよ
TOP500の上位マシンは企業製で国家機関の管轄だし
このスレ的には例えば東工大が来年7月完成予定のTSUBAME2.0にCUDA採用を決めてて
その前段階としてベクトルマシンとGPUクラスタのワットパフォーマンスとかやってたけど
詳細な論文出てたっけな…
少なくとも私の業務は企業機密に属するから紹介できないがな。 実装運営部隊ではOpenMPは嫌われていてpthreadで実装したがるのだが、 研究部隊であるうちではOpenMPもcudaもなんでもありで実験に使っている。 勿論、intelにも協力してもらっているのでtbbを意識した最適化も行なっている。
478 :
デフォルトの名無しさん :2009/09/16(水) 07:47:28
TBBで書いておくと勝手にGPGPUしてくれるライブラリってない?
>東工大が来年7月完成予定のTSUBAME2.0にCUDA採用を決めてて 無駄なことをするもんだ
スパコンではなくGPGPUでという前提だと、現状ではCUDA以外に使えるもんがないからしょーがないべ
その前程自体がおかしい
>>477 「自称エリートのR&Dが糞コードを書く」の法則ですね
馬鹿ほど法則を乱造するの法則
メタすぎっぞオイ
ああ、メタメタやな
メメタァ
>>475 思うに、そういった狭い範囲での競争だから余り飛び抜けた様な内容があるのかな?
どちらかというとお金をかけまくって、ハードの進歩に依存しているような気がする。
スパコンベンチマークにしても未だにLINPACKとかでやっているのがそういったことを
表している様な気がしてならない。そろそろ、HDエンコードxxxxxxxxxxxMfps!とか
やってみた方が一般人には分かりやすいのではないかな?
一般人が使ったり知る必要がない気がする。 動画のエンコ・デコードや、3Dゲームですら、 PCユーザの中では少数派だし。 ましてや、プログラミングするわけでもないし。
そのとおり
GT300は4.8TFなんだなすげーな
理論値でなく実効値?
>>491 それが本当だとすると出回ってるダイサイズのデータと考え合わせると、
単位チップ面積あたりのFlops数が大体R870と並ぶ事になるわけで、
噂どおり、かなりアーキテクチャを弄ってるようだな。
>>492 ないない。
G300のスペックの情報なんて見たことないが
英語だとそれなりに出てくる。まあ、噂話レベルだが。
4.8TFlopsったらGT200の5倍弱だろ? 演算性能の水増しが簡単なラデでさえあの性能で300平方超えてるのにそんな真似できるんか?
サンプルチップの良品率が2%を切っているという愉快な噂も流れているし、 40nmで余裕が出来た発熱マージンを全部使い切った超巨大チップにしてるんじゃないの?
GT200の時点でGPGPUメインの「時代が付いて来い」設計だからなあ
GPU会社だけあってGPUの将来が見通せてたんだよ お絵かきだけじゃもたないってさ
ATIはオートンが居なくなってから 2000,3000,4000,5000と4世代もアーキ更新なしか AMDは本当にモノを作れない会社だな
4.8TFってすげーよな でもこれってデュアルなんじゃねーの?
502 :
デフォルトの名無しさん :2009/09/19(土) 01:59:06
シェーダユニット数だけ見ると, AMD の圧倒的優勢に見えるんだけど... RadeonHD一万円級 : 800 units GeForce最上位 : 320 units GeForce はなぜメモリバス幅が 448bit と中途半端なんだ?
AMDとかいうウンコの話はこのスレでは必要無い
504 :
デフォルトの名無しさん :2009/09/19(土) 02:10:38
>>503 げふぉとかいうクソの話はこのスレでは必要無い.
アンチラデ厨がいるぞ.
デコーダに連なるユニット全て1コアとカウントすれば ラデオソ・・・ワイドSIMD×VLIWの10コア GT200・・・ワイドSIMDの30コア
R800世代でも20coreか nvは非x86のlarrabeeになりそうだし 方向性としてはモノを作れないAMDだけが明後日方向を向いてとりこのされてる感じだな カークの言葉を借りれば、粗悪な大量のピクセルを目指して 次世代以降もIntelとnvidiaのにらみ合い AMDは蚊帳の外
508 :
デフォルトの名無しさん :2009/09/19(土) 10:29:44
GeForce GTX 280の演算性能は933GFLOPS、Radeon HD 4870は 1.2TFLOPS(1200GFLOPS)であり、このスペックだけを見ると Radeon圧倒的優勢に見えるが、一般的なGPGPUアプリケーションは GeForceアーキテクチャの方が高効率に演算リソースが利用され ハイパフォーマンスが期待できる。それではRadeonがダメなのかというと、 そんなことはなく、うまくSIMDユニットをフル活用するように アプリケーションを構成できさえすれば、1.2TFLOPSの性能が発揮できることだろう。
お絵かき専門のどうしようもない代物だということだな
>>508 VLIWじゃ無理
RadeonはGeforceと同一の
アーキテクチャにしないと負ける
一般的なGPGPUアプリケーションってシェーダ効率以前の問題で、 GPU側で処理する粒度が小さすぎて、足回りの差が出ているだけ。 演算性能の殆ど無駄にして、CPUよりは速いレベルで喜んでいるのが殆ど。 50倍、100倍速くなるもともとGPGPU向けのアプリケーションの場合 逆に演算の汎用性なんか殆ど関係なく、最適化すれば 単純に素の演算性能に見合った実効性能がでる。 でかい密行列同士の積とか、Nbodyみたいな奴ね。
じゃあGrapde-DRでいいじゃん
Grape-DRは、素の演算性能が低いから メイン用途のNbodyでGPU相手に太刀打ちできそうにない。 で、GPGPUより汎用性高いとかいう理屈で正当化する 必要に迫られたわけだ。
GPGPUなんてプログラムまともにかけねーじゃん
メモリ帯域狭いしな 利権・・・じゃなかった理研の人的にはLarrabeeはそれなりに前評判良いらしいけど
ATIは粒度でかすぎ 16*5*4=320 nv 8*4=32
charが計算できないものはゴミ
intelとnv まだ両者とも物が無いんだよな
Larrbeeくれんの?
>>520 俺は評価キット貸してもらえる
いいだろ?
NDAに抵触しない範囲でレポよろ
http://lucille.atso-net.jp/blog/?p=907 追記
Visual Studio 2008 を使っているのですが、デバッグ -> デバッグ開始だととても遅くなる模様(Release ビルドでも).
デバッグ -> デバッグなしで実行だとそれなりの速度でうごきました.
んー、なにか変な実行時デバッグチェックが、OpenCL ドライバかどうか分かりませんが、入っているのですかね.
ちなみに「デバッグなしで実行」でも、0.05 secs くらいかかりました.
(SnowLeopard の 0.0001 秒に比べるとまだ遅い)
つかAMDが作ったSDKをIntelCPUで動かして遅いって SSE2・3がAMDで遅いのと同じレベルの話だよな 釣りなのか本気なのか
>>525 ちなみに同じプログラムを
6コアのOpteronで動かすと19秒もかかるんだぜ?w
団子がレビューしてくれよ。 すげー、かっけー、じゃなくて 書きやすさとかを実例でもってさ。
当然申し込んでるよ
とりえあずgoogleのメアド3000口分応募しておいた
GPUでFM音源作ってたころが懐かしいな。 PS1.1縛りであれこれやってたなぁ。
俺もgmailで4500口分応募した
>>531 あんたここに居たのか
・・・まぁ居るわな
>>530 そういうのってスパム扱いでアウトなんじゃなかったっけ?
HD5800の正式発表来たな。 Streamを早々に放棄してCSとOpenCLに任せ、 Havokを打ち棄ててスタンスフリーなBullet(CUDAアクセラレーションも行っている)と手を組むとは 実にエレガント。 成功するかどうかは知らんけど。
いっそのことCUDAを乗せられたら大成功だったと思うんだがな。 さすがにそんなことはできないけどw HD58x0系のThread Execution Managerの仕組みとか気になる
今回もRadeonのdoubleは無効なのかね
無知が来た
>>536 Rouge Wave次第だから意味ない
実際人のよさげなあのおっさん管理職なだけで
無能だし
結構いい選択だと思う。 Streamは腐ってたし。 次のATIの実装が腐ってないという保証もないけど。
int8は無いのかね?
型名の後の数字はベクタ長だろ。
>>543 FireGLでないRadeonのGPGPUモードで有効になってるのかなって意味で。
GeForceより演算器数多いから期待してるんだけど。
使えたけど使用可能な組み込み関数が少なくて使い物にならなかったような 64bitOSのせいか?
551 :
デフォルトの名無しさん :2009/09/25(金) 01:53:20
>>516 > ATIは粒度でかすぎ
> 16*5*4=320
> nv
> 8*4=32
大は小を兼ねるんや!!!
ああ、そういえばRV870でも結局でかいままだったな
グプグプゥ
HD5870x2、500ドル以内だとよ。 倍精度1TFを5万でデスクサイドに置ける時代が来るとはな。
エアTF
GT300は1コアで4.8TFだからな Radeonなんて足元にも及ばん
ここまでソース無し
GT300は250軽く超えるだろ
ATIは鈍足だなw
なんの意図でその絵を貼り付けまくってるのか知らんが ラデオソの低効率を広めたいのかな?
さて5870買ったが OpenCLがGPUモードにならないで 何時までもCPUモードなんだが どうゆうことなのか説明してもらおうか
CPUメーカーに将来統合される暗示です
CPUですら遅いライブラリしか出来ないのに いはんやGPUをや
ラデ対応版Bulletの現物マダー ATiって新規格ブチ上げるのはいつも早いけどそれがまともに動くブツを出さないから いつまでたってもNVIDIAに勝てないんだよ
>>563 Snow Leopardじゃそもそも画面すら
写らんよ
ぐぷぐぷっ
570 :
デフォルトの名無しさん :2009/09/29(火) 15:20:51
OpenCLでCUDA潰して、BulletのOpenCLベース化をサポートしてPhysXを潰す、と。 スマートな発想だが、いつもの如くAMDのOpenCL対応がgdgdで画餅と化すに万札2枚賭けよう
結局のところCPUと共食いしちゃうようなアクションを本気では起こせないから これからはOpenCLだDirectComputeだって言って、 とりあえずCUDAのマインドシェアだけ落としておきたいんだろう OpenCL実装のやる気のなさを見てるとそんな感じに見える
AMDがいまさらHalf Floatの変換命令をCPUサポートする計画を立てる意味ってどこにあると思う? どうやらシェーダの前処理としてデータの再パッキングをCPUでやらせたいらしい。 GPUの柔軟性のなさをCPU側で補いつつ、グラフィック性能を追求する方針なんだろうね。
SDKの中のDirectCompute_Release_Note.txtに Open the registry editor in the window Start -> regedit Click at the very top icon labeled "Computer" in the Registry Editor Search for D3D_39482904 the string. If found, delete it from the registry. There should be about 2 instances of this registry key って操作があったのでやってみたら、190.38beta以外ではネイティヴ動作しなかったDirectX SDKの一部のCSサンプルが 191.03でも動くようになった。
んでもマルチプラットフォーム展開するBulletとしては実験中のCUDA対応をぶん投げてOpenCLにシフトするのは確実だろうし、 そうなればAMDの実装が腐っていようがBulletがPhysXに勝利するんじゃないか。 AMDがOpenCLをまともに実装すればプラスになるし、最悪の場合(実装断念)でもマイナスにはならない。
Bulletってどんなゲームに採用されてるの
>>571 そのOpenCLもNVIDIAに水を開けられている罠。
http://www.fudzilla.com/content/view/15741/1/ Nvidia to show DX 11 Fermi today
We expect that Nvidia CEO Jensen Huang will demonstrate the card at the GTC keynote that should start at 1.00 PM Pacific time or roughly 10 PM Central European time.
Fermi has a lot of cache and supports instructions that use to be common only for CPU
and many people believe that this is a hybrid between a graphics card and a CPU.
This might be the direction that Nvidia will be heading.
GT300は4.8TF確定で 11月に公式発表するって
┌────────┬────┬────┬────┬────┬────┐ │ │GTX 380 │GTX 360 │GTS 350 │GTS 340 │GTX 285 │ ├────────┼────┼────┼────┼────┼────┤ │SP数 │ 512. │ 480. │ 320. │ 256. │ 240. │ ├────────┼────┼────┼────┼────┼────┤ │ROP数 │ 64 │ 56 │ 48 │ 40 │ 32 │ ├────────┼────┼────┼────┼────┼────┤ │コアクロック │ 700MHz│ 650MHz│ 675MHz│ 625MHz│ 648MHz│ ├────────┼────┼────┼────┼────┼────┤ │シェーダクロック... │ 1.6GHz..│ 1.4GHz..│ 1.7GHz..│ 1.5GHz..│1476MHz.│ ├────────┼────┼────┼────┼────┼────┤ │メモリクロック │1100MHz.│1000MHz.│ 900MHz│ 800MHz│1242MHz.│ ├────────┼────┼────┼────┼────┼────┤ │メモリバス │ 512bit . | . 448bit │ 384bit . | . 320bit │ 512bit . | ├────────┼────┼────┼────┼────┼────┤ │メモリタイプ. │ GDDR5 | GDDR5 │ GDDR5 | GDDR5 │ GDDR3 | ├────────┼────┼────┼────┼────┼────┤ │消費電力 │ .225W. │ .195W. │ .165W. │ .140W. │ .183W. │ └────────┴────┴────┴────┴────┴────┘
単にC++で書いたような普通のコードも走りますよって話じゃねぇの? Bill DallyのMerrimacはクラスタに1つMIPSコア持ってるようだし、 Fermiもシェーダクラスタに1つARMコアでもついてるのかもな。
OpenCLにDirect3Dとの相互運用性はないけど、PCゲームに進出するシナリオってあるの? 普通にOpenGL使うんかな
いまんとこゲームでGPGPUってあんまり聞かないなぁ 流体計算とか、ゲームの中で重要度はまだそんなに高くないし、 OpenGL/Direct3D共にシェーダ言語が意外と多用途に使えるし。
まだまだこれからだし、物理計算なんて作り手の知能が高くないとスクラッチできないし。 ミドルウェア屋さんが実装して、ディベロッパーがそれを使うって形になるんじゃない? あとCPUに命令投げるみたいに普通にGPUにも命令飛ばせないと根本的な使い辛さは解消されないよね。
CPUなら1つの演算ユニット動かすのに1命令だが、 GPUでは1つの命令投げると何十も同じ動きしやがるんだよ。 それ否定したらLarrabee以外選択肢なくなる
foreachとかTBBのparallel_forだったらどうにかならん?
Bulletの中の人的にはBlenderでGPUが使えればそれでいいやー、ってとこか
Bulletの中の人からしたらOpenCLは本命だろうしね あとはAMDがいらん世話焼いてかきまわしたりNVIDIAが横槍入れたりしなければ 遠くないうちに対応版が出るでしょ とりあえずユーザーとデベロッパには利益しかない
詐欺の常套句出ました
Bulletってどんなゲームに使われてるの?
でもCS対応の方が需要あると思うんだけど。 DirectXとOpenGLの速度差を考えるとOpenCLよりDirectComputeの方が速いんじゃない? QuadroはOpenCL特化でGeforceはCS特化とかやりそうだし。
なんか、穏当な拡張で済ませてきたな>Fermi
>>595 倍精度が結構いいね。
でもNVは最終的にはCPUを作りたいのかね?
Co-processingとかいうのをきくと。
完全に汎用なCPUの事なら、それはないだろ。 CPU云々ってのはIntelがチップセットを作るのに必要なバスのライセンスをもう出さないって ところからそう言う推測が出てきてるだけで。
598 :
デフォルトの名無しさん :2009/10/01(木) 10:09:11
実世界で本当にCUDAコンピューティングの時代が幕を開けそうだな
>>588 > それ否定したらLarrabee以外選択肢なくなる
え?Cellは?
新型PS3にlinuxがインストールできないと知ったときのああやっぱりね感
思いっきりLarrabeeの方向に振ってきたな AMDだけが遅れてるwww まあオートンが居なくなった頃に散々言われてたがな
LarrabeeよりさきにGT300がでそうね ということでLarrabee終了のお知らせ お勤めご苦労さん>intel
MPMDっても高々16カーネルが同時に走るってだけだし、larrabeee程の 柔軟性はなくて、bill dallyの言うstream computingなプログラミング スタイルでないと効率は出ないと思う。
ニコイチAMDなんて有難がってたのはベンチ厨だけだろ
>オートンが居なくなった アーキテクトがいなくなった時点で進歩するわけがないわな
FPU,Intが別になったんね ECCもいいね
SPで1.5Tflopsっぽい(1.5GHz)
で?
>>607 whitepaper読み終わった。すごすぎる。
Using this elegant model of dual-issue, Fermi achieves near peak hardware performance.
の一文が頭に残っている。早く使いたいです。
CUDAの問題点を調査してゼロから設計したんだな。
後藤さんのレポートもこれをもとにしたようで合わせて読むとわかりやすい。
4.8TF確定だな すげーなNVidia
いや、fpなら1.5tflops辺りだよ ただし、実行効率が某A社とは段違いなだけで
intは4.8T確定?
ちがうだろ
AMD終わりだなこりゃ
自作PC板ではR800の登場でGTX300追悼とか言われてんのに こっちでは全然評価が違うんだねぇ
ECCも使えないものを、なんで評価できよう
>>618 自作板はもんもんとかいうホモ集団が
幅利かせてるし。バカVIPPER出入りしてるし
理解できないんだろ
自作板住人は開発者とイコールではないからな。
A社のは、x, y, z, w tの5つのユニットで一組のALUを構成するVLIWで それが16個連なって超並列SIMDプロセッサを構成してる。 x, y, z, wは座標軸で、3Dでも実質3軸分しか稼働しない。4軸目はたまに使う程度。5軸目は稀に使う程度。 2D処理に落とし込むと遊びが増える。使って1〜2Way。 VLIW-SIMDは実効性能は低いけど演算ユニットを高密度で搭載できるから トランジスタ数あたりのFLOPSを大きく稼ぐことができる。 でもそれを引き出すためのスケジューリングは骨が折れる。 結局の所ATIのやってることはPentium 4の空回りGHzと似たようなモン。 NやIntelはフラットなSIMDで、X, Y, Z成分を分解して別々のベクトルに再パッキング(AoS-SoA変換)して 並列処理する。 だから3次元より2次元のほうが相対的に得意だったりするし、動的なスケジューリングがやりやすいから 演算ユニットの利用効率を高めることができる。 カタログスペックより実効効率にフォーカスしている
NV謹製のGPGPUベンチでGeForce負けてるんだが
また低効率自慢したいのかatiは 頭が幼稚だから、何でもベンチに見えるようだし
ATIは実際のスペックじゃ 450GFもでないぞ
ベンチはIntelとNvの十八番なのに 次は体感でも語ってくれるのかな
ヤクルトが特大ヤクルトになっても 胸焼けするだけ
いまだにVLIWが夢のアーキテクチャだと思ってる人いるのね Intelが2度も大失敗してるのに ダイナミックスケジューラを積まない代わりにその分だけ演算ユニットを大量に積むことで 性能を引き出すアプローチ。演算ユニットの分だけ性能が出るわけではない。 実効性能を高める機構を省いた分を演算ユニットの物量でカバーしてるだけ。 Efficeonは10基の演算ユニットを持ち最大8命令を同時発行できたが 実効性能は額面最大スループットが半分以下のPentium Mの足下にも及ばなかった。
次期CPUをVLIW互換でやるといって AMDはアホだろw
>>628 すごいあほな質問だけど、Atiってスケジュラーなしでどうやって制御するの?
Nvidia Cudaばかり使ってるとなんだか感覚かずれる。
CPUとしてみるとVLIWは微妙だけど、アクセラレータとしては決して悪くはないだろ
>>630 Radeonは複数命令列をインターリーブして流し込む単純な機構しか備えてない。
CellのPPEやAtomがやってるFGMT、あれだ。
Efficeonは自分自身で中間コード(x86コード)をネイティブコードにコンパイルできたが。
動的スケジューリングの代わりになる機能があるとすれば、それはCPUでVLIWを動的に生成するだけにすぎない。
もちろんEfficeonやJavaみたいなフィードバックコンパイルは出来ない。
じゃあLarrabeeは動的スケジューリングができるのかっていうと、もちろんソフト的にやる。
x86を使ってね。
いや、もちろんGPUとは意味が違う。Larrabeeそのものがx86プロセッサだから
自分自身でダイナミックコンパイラ・VMを動かすことができる。
LarrabeeもGT300もいつでるんだよ・・・ もう煽るの飽きてきたよ・・・
Geforce 4.8TF Larrabee 6.2TF
多くのアプリけしょんで問題になる デバイスメモリと共有メモリ間の転送や カーネルの立ち上げ(全体の同期)とかは この新しいアーキテクチャで問題が解決されるの?
>>663 力抜けよ
ディスクリート版が何時でようが3〜4年後にはHaswellの1構成要素だ。
GMAが売れる分だけは売れる。
シェアを狙うのに性能で勝負する必要なんて最初からないのさ。
MMXやSSEが普及したのと同様の原理で、LarrabeeのISAは浸透していく。
逆にx86を持たないがゆえに性能でしか勝負できないNVIDIAは必死だけどさ。
Larrabee側はGPUらしい固定機能ハードは積んでないからゲーム用に別のディスクリートGPU積んで
Larrabeeは物理演算プロセッサとして使ってもいいんだぜ。
そしたら共存できるじゃん。
でも、なんだかんだで「Celeronにも載ってるハードウェア」となれば費用対効果は最強だから
ゲームGPUとしてのニーズすらソフト開発者がこぞって流れる可能性はあるがな。
一ヶ月ほど前に東工大のTSUBAME2.0が単精度6PFLOPS倍精度3PFLOPS目指すけどGPUを使うって言ってたのはちゃんと宛てがあったんだな
東工大の学食は安くて旨かったなあ
つーかベンチ以外に使ってやれよ
>>636 2世代ほど交代したらIntel CPUにLarrabeeが統合されるから最強だよな >シェア的に
Larrabee自体がSSEに変わる命令セットの実装例だから統合するのは予定路線。
>>637 東工大はGT200でワットパフォーマンスの検証してたけど
Gt300はそれを超えてくるからな
642 :
デフォルトの名無しさん :2009/10/02(金) 03:29:18
実世界で本当にCUDAコンピューティングの時代が幕を開けそうだな
643 :
デフォルトの名無しさん :2009/10/02(金) 04:57:34
なにげにintのパフォーマンスに興味津々
Nvidia fakes Fermi boards at GPU Technology Conference
http://www.semiaccurate.com./2009/10/01/nvidia-fakes-fermi-boards-gtc/ The board has wood screws crudely driven through it. The vents on the end plate are blocked.
The DVI connector is not soldered to anything, The SLI connectors are somewhat covered by a heat shield.
The 8-pin power connector is connected to nothing. The 6-pin connector is connected to the PCB with glue, not pins and solder.
The board is crudely chopped off with power tools. The 8-pin connector that should be there is not.
The 6-pin connector that should be there is cut. The mounting holes are too close to the edge.
There are also likely many more flaws, but this should be enough to prove a point.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
If you watch the video here, he says, "This puppy here, is Fermi". Bullshit.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
In the end, what you have here is a faked Fermi board. Jen-Hsun held up a scam card.
wwwwwwwwwwww
650 :
デフォルトの名無しさん :2009/10/02(金) 17:15:14
必死の活動ごくろうさん でも、出るのがたとえ1年遅れても ATIが追いつくには4-5年掛かりますから それだけ差のある構造なんだよ 演算に関しちゃATIは、何処からも全く期待されていないし
ま、パクればすぐか 得意のw
652 :
デフォルトの名無しさん :2009/10/02(金) 17:45:27
板はそれを通して木ネジを生のままで動かさせます。 エンドプレートの上の通気は妨げられます。 DVIコネクタは何にもはんだ付けされないで、SLIコネクタは熱シールドでいくらか覆われています。 8ピンのパワーコネクタは何にも接続されません。 6ピンのコネクタはピンとはんだではなく、接着剤でPCBに接続されます。 板は電動工具で生のままで切り離されます。 そこにあるはずである8ピンのコネクタは、そうではありません。 そこにあるはずである6ピンのコネクタは、切られます。 取付け穴があまりに縁の近くにあります。 おそらくもずっと多くの欠点がありますが、これは、主張の正しいことを示すために十分であるべきです。 結局、あなたがここに持っているものは、見せかけられたフェルミ委員会です。 ジェン-Hsunは詐欺のカードを上げました。 あなたがここでビデオを監視するなら、「ここのこの子犬はフェルミです。」と、彼は言います。 ナンセンス。
せめて機械翻訳を参考に意訳する位の事はしたら?
そんなことできるのはエスパーくらいだろw
ぱくったところでAMDに開発環境やサポートの期待なんて出来るわけもない
fermi自体は粒度大きくして実効効率落としているだろ。
w
理論ベクタ長を変えずに物理ベクタを増やしたら 演算に要するサイクルは?
Warp内で32のままなら32CudaCoreで処理するには1cycleってことか 分岐粒度は変わらないが、サイクルは縮むわけだ Intel larrabeeが理論16の物理16で1cycle ATI r600-rv870が理論64の物理16で4cycle
L1増量でサイクル稼がなくても良くなったのか? あ、リードオンリーじゃなくなったんだっけか CPU-GPU間転送もバックグラウンドで可能とか
カーネルプログラムのマルチスレッドも可能
偽物ボードワロタwww
スクラッチパッドでなくてマジでキャッシュなんか? だとしたら、ずいぶん無駄なことをしてるように思うが。
どっちでも処理内容次第で無駄はでるんじゃない。 システム、というか、デバイスの外から見た平均的な スループットが重要なわけで、限定条件下での処理速度はどうでもいい。
つまりATIは問題外
64kb Configurable L1
4cycleで走るスレッド数 gt200 : 30 cypress : 20 fermi : 64
そういやGT200やFermiが600MHz台で4800や5800が1GHzに達せんばかりのクロックである事を考えると、 Pen4とCoreの対比とダブるな。 AMDはこれから苦しくなる?
Geforceはシェーダーが1GHzオーバーで動いてるだろ まあそこは先進的で、ポジティブな部分だが
int,fp並列可能なfermiは命令数でもcypressを上回るな(4cycle) cypress : 20*5=100 fermi : 16*2*4=128 あと、実際には演算パートのクロックは2倍程度違うしな
ATI換算だとGT300は6.1TFだってな
>>668 糞ビスタのせいで買い控えされてたPCが
7の発売と同時に更新される。
超性能ではなくとも、年末に製品をそろえたラデが一人勝ちする。
その後はまた買い控えが始まるので、そのころ出すゲフォは苦しくなる。
収入がなくなれば開発は進まなくなる。
年がら年中苦しいAMDは変わらず。
673 :
デフォルトの名無しさん :2009/10/03(土) 11:58:13
>>671 どうやって計算したらそうなるの?
SFUの演算を20倍するとか?
>>672 TSUBAME2.0とかの大量納入の話が無かったらnVidia積んでたよな
将来的に一番苦しいのはNVIDIAだろう インテルのララビーとAMDのラデに挟撃され、 さらに、将来はCPUにGPUコアが取り込まれる予定 インテルはチップの動作デモを行った GPUなんてGeForce9600あたりで、ほとんどのゲームが出来るんだし ミドルレンジ以下のGPUは売れなくなる可能性だってある HPC分野で見ても、ララビーやセルに勝てるのか微妙だし
676 :
デフォルトの名無しさん :2009/10/03(土) 17:15:37
一番どうでもいいのはAMDだからw CPUもGPUも取りえが無い
正直RV870を見て、AMDへの興味はゼロになりました。
おなじく
>>677 RV870のおかげで
GT300は250ドル以下だぞ
なんで潰れる潰れないの話になるんだろ。 投資家の方ですか?
>>679 をCPUで置き換えてみよう
Phenomのおかげで
Corei7は250ドル以下だぞ
あほかGT300を$250っていくらなんでも貧民向けに出すからといってそんな値段でだすと倒産するわ ベンチとってEvergreenや自社旧製品と比べてあとは歩留まりやダイサイズを加味した値段でおそらくごく少数が出回るだけだろうね すごいすごいと言われても結局はミドル以下に弾を出せないと意味ないけどね
Intel上級研究員「AMDにつぶれてもらっては(司法省との絡みで)困る」
なんか必死すぎてウザイ
AMDはインテルを超えるマルチコア技術を持っているし、先行きは暗くない 対してNVIDIAは将来売る製品がない どっちがやばいのかは明白 大体、GT300発売は来年夏ぐらいだろ そのころにはAMDのラデオンの新作がハイエンドからミドルレンジ、ローレンジまで 展開しているし、ララビーも製品化されている可能性もある さらに後1年以内には、AMDもインテルもGPUをCPU内部に統合した製品を出すだろう 一般人どころか平均的な性能で満足する大部分のゲーマーだって、性能的にはこれで十分なんだよね NVIDIAはもう終わりだよ
自作板でやってもらえませんか
>AMDはインテルを超えるマルチコア技術を持っているし >AMDはインテルを超えるマルチコア技術を持っているし >AMDはインテルを超えるマルチコア技術を持っているし 増量ですねw
NVIDIAが唯一先行しているのがGPGPU しかし、GPGPU分野もインテルのララビーから激しく追い上げられるし 対して金になる分野にも思えない 消費電力だってCellに完敗 GPGPU向けに無駄な改良をしてしまったためにGPUとしても不恰好で AMDの製品群に追い詰められつつあるNVIDIA もう完全につんでいます
>>689 GPGPUの成長予測だとあと5年もすれば
10億ドル市場になるっていわれているけどね
5年後の市場がそうでも、そこへの投資が早すぎてGPU市場がおざなりになったらVoodooの二の舞になるぞ IT産業で5年ってシェアがひっくり返るには十分過ぎる時間だからな
>>690 CPUにGPUコアが封入された時点でゲームセット
わざわざグラフィックのために何万円も出してGPUを買う時代が終焉する
ゲーマーだって、大部分はミドルレンジクラスのGPUでゲームをやってるんだよ?
実際には、GPUに金なんてかけなくないの
安くてゲームがそれなりの性能で切るんならそれで我慢する
だいたいGPGPU分野ではキラーアプリが存在しない
だれがGPGPU向けの製品を買うの?
693 :
デフォルトの名無しさん :2009/10/03(土) 21:46:57
GPGPUのキラーアプリはソフトウェアレンダラー
何か的外れなこと言ってる奴がいるね ララビーはいまだ実用化にいたらず苦戦中でしょ GPUとしての性能がGeforceやRadeonには勝てず、 将来的にも当分は勝負にならない Cellなんか個人のPC用途では、土俵が違うし
>>694 ララビーは既にサンプルが主要メーカに配られてる
製品化は近いと考えられる
性能はトップの製品に劣るとみられているけど、メインストリームでは
NVIDIAやAMDの脅威になりうるし、ここを奪われたら致命傷になる
Cellは個人用PCでは使われないが、現状ではGPGPUだってそれは同じこと
「GP」GPUのスレで的外れなことを言ってるね
でかくて消費電力も馬鹿食い、それでいて性能も微妙に劣る それがララビー
何か勘違いしているようだけどAMDなんか元々注目されていないから むしろRV870とGT300の発表を以って終了致しましただから Larrabeeが争ってるのはGT300だから 現実と妄想の壁は厚いのよ
今日もハリボテ信者が発狂してるなwwww
勝負とか言ってるけどGT300じゃLarrabeeに勝てないよ
Larrabeeは2012年に 今のノート用のCorei7をシュリンクしたものを最低64個 搭載するけどね 普通に特定用途なら16TFぐらい余裕
じゃあ2012年になったらLarrabeeがどうとか言い出せよw
NVIDIAがかわいそう過ぎる GPGPUを意識しすぎてGTX300なんて作ろうとしちゃってさ 得意のグラフィック用のGPUを作っていれば、滅びることのなかったのに GTX300が出る来年夏ごろまでには、グラフィックス市場はAMDが制しているだろうね NVIDIAはハイエンド専業メーカとして生き残るしか道はないのかな 売り上げは今の10分の1ぐらいになるだろうけど
おまいらいいかげん自作板カエレ 人に迷惑掛けるなと幼稚園でおそわっただろ?
ClearSpeedの呪い
ATiの戦略って、 そこそこのコアをマルチチップ構成にして ミドルからハイエンドをサポートするって感じかな? 個人的には悪くないと思うなぁ。 つーか、GPUにC++サポートとかそういうリッチな機能必要? FORTRANやHLSL程度が走ればいいんじゃないの?
オンボードのシェアばかり拡大していくのが市場の宿命です。 いつまでもゲームはディスクリートGPUの需要を引っ張らない。 ゲームってさ、ハイエンド前提で作るんじゃなくて、普及価格帯のGPUを Larrabeeはディスクリート版だけではなく、GMA後継としてPC用GPUとして 最底辺の性能をもって、かつCeleron, Pentium DCのチップの隣に混載という 無敵の最高普及レンジに君臨するわけよ。 どうなるかわかるだろ? PCゲームソフトメーカーは自分たちのタイトルのグラフィックパフォーマンスの 最低性能の底上げとして、いやでもLarrabeeに特化した最適化をやらざるを得なくなるわけ。 いやでも使いこなせるようになるわけ。 GPUとしての性能が低いってのも有る意味確信犯だよ。 GMAを抜いたPCゲーム市場なんて縮小するばかりでジリ貧でしかないからな。 GPUがでかくなってもソフトメーカーは儲からない。 だからこそNVIDIAはDirectXの最新API対応なんぞに見切りをつけ ごく小数の商用ソフトメーカーに支援をして架空のGPGPUブームをでっちあげ、 ニーズを補填しようとしてるわけ。 ただゲームソフト市場が今後使えない市場という認識だけはあるらしいが もう尻に火が付いてるから動かざるを得ない。 NVIDIAですらGPGPUをやるのに前向きな理由なんてないんだよ。 しかしまあそのGPGPUという市場すら、CPU側のSIMD性能が向上して GPGPUでやるのが馬鹿馬鹿しいって雰囲気になったら終息に向かう。 もしSandy Bridgeで1コアあたりのSIMD性能が3倍程度になるなら、 GPGPUでの相対的な性能向上効果は1/3になるってことだからな。
行くも地獄、戻るも地獄のNvidia…
3dfxの呪い Voodooの呪い
GPUって FPSでHeadShotして「ィヤッホウ!」言ってる層しか買わないもんだと思ってました
アホか 今のゲーム業界はIntel GMAなんてまるで無視してるじゃん
もう既にGMAでも動くライトなゲームのほうがマーケット大きいけど?
LarrabeeがGMAの後継か、インテルの貪欲さがよくわかるね
くやしかったの?
自分自身が既にPC用GPUの50パーセントのシェア持ってるんだ。 そりゃ置き換えるだろう。 NVIDIAはNVIDIAで まだエンドユーザーはDX9で遊んでるのに、 DX11とか立ち上げるのはゲームソフトメーカーいじめだ とかわけのわからないことを言ってるし
>>714 なにそれ?
具体的なゲームの名前挙げてみてよ
聞いたことないんだけど
Geforceの〜〜以上とかそういうのが時期を経て
GMAでも動かせるようになってきただけだd路
>>717 Nvidiaにとって
DX11はチューニング難しいからな
かなり苦慮してるし
続々生まれてる韓流(笑)基本無料オンラインゲームは昔からGMA程度で動くが。
>>715 それ、失敗の呪文にしか聞こえないんだがw
>>720 有名どころのリネージュ2とかThe Tower of AIONとかは
GeforceやRadeonでしか動かなかったけど
そもそもM$様も@pple様もIntel様も AMDの糞野郎ですら ゲーム市場は毎年200億円ずつ市場規模が縮小していって 価値のない分野として見捨てはじめてるんだよ
売り上げの3分の1を占めるチップセット市場で、インテルとAMDに締め出しを暮らし 死亡が確定 GPU自体もハイエンドの一部ユーザーにしか見向きがされなくなりつつあり GPGPUもCPUのマルチコア化、SIMD命令の強化で微妙になりつつある NVIDIAはこれから先どうするんだろうね
お前ら至急葬儀会場にお戻りやがれw
ゲロビディアはチップセット事業の 撤退で来年以降200億円近く損失が発生する GPUでどうにかして補填しないと後が無い状況になる 資金調達やばいし
つまりSandyやFusionが今後のトレンドになるのは確定的に明らか
AMDちゃんとFusionsしたい
来年の事を云うと鬼が笑う、ってな。 とりあえずGPGPUスレの人間としては、現状ではまだ市場に存在しないLarrabeeや動く実装を提供しないAMDではなく NVIDIAを使うしかない。 メーカーの先行き予測論争なら板違いだから、まとめて自作PC板にでも行ってくれ。
>>731 >来年の事を云うと鬼が笑う、ってな。
まぁそれはいいけどwGPGPUで資金調達失敗しているという
事実はどうするんですかね?評価下がるかもって予測あるし
動くものだけを追いかけていると、良い成果は得られないよ
まあ潰しのきかない技術に見切りつけたいって人はいるんじゃないかと。 鳴る物いりで登場したCellのスレは今お葬式モードだし。 あそこの英語プログラミングマニュアルが出たときの盛況っぷり知ってるからな 俺は現世代飽きてSandy Bridgeのシミュレータで遊んでるような人種だからな
良い成果とはこのスレに転がってるどうでもいい御託のことか?
>>755 まさかCorei7のシングルスレッドとCUDAを比較し、CUDAが有利と
頭に蛆がわいてるレベルの論文の方が有用だと言いたいのか?
>>736 多くの大学の研究室は貧乏なんだぜ
NVIDIAはGPGPUの宣伝のためなら端金に糸目は付けない
Intelは黙ってても売れる製品の販促なんてやらないが
GPGPU自体の将来性も怪しいけどな CPUがメニーコア化したらすぐに終わるんだが ソフトウェアの対応がないから、一般向けでは 最大で4コア以上は、提供しなさそうな感じだし HPC研究者的には、なんとも先の読めない面倒な状況だよね
目にーコアかしてもCPUじゃぱふぃーが悪いかん。 今現在でも4コアいじょいら年じゃね除隊
>>741 後藤さんのインテル技術者へのインタビューでも4コア以上は提供しないっぽいことを
インテルの技術者がいってるしね
代わりに、GPUコアの搭載とチップ面積の小型化を選択したようだ
GPU Technology Conferenceに行ってきたが、かなりひどかったね。 CPUとの比較はほどんどが、シングルコア。かたやTeslaときたもんだ。 NVIDIAもこんな発表させるなよと思うが、そういう発表も無いよりましだから仕方が無いか。 まあ多くのケースでTeslaの方が速いのだが、マルチコアとだとインパクトが下がるしなあ。でもCPU使うならせめてOpenMPくらいは使えよと思う。
>>731 来年のこととはGT300のことですねwww
>>731 現状ではNVIDIAのCUDAを使うのがベストなのは分かるが
性能を出すための勉強を今してもGT300が出ると無駄になる
かもしれないと考えると、やる気がなくなるよな
並列アルゴリズムの勉強を一生懸命したほうがよさそうだ
現在、Larrabeeに備えて何を勉強しておけばいいの?
Larrabeeを汎用演算に使うって要するにx86ベースのCPUをそのまんまCPUとして使うってことだからな 【組み込み関数派】 *mmintrin.hで書いたSSEプログラムをLarrabee Prototype Libraryに移植 【高級言語派】 Ctを予習しておく 【OpenCL派】 とりあえずCUDAでもなんでも使っとけ 【アセンブラ派】 だんご食べる? 生産性とパフォーマンスのバランス的に美味しいのはCtじゃないかと思う。
Ctはインテル特化の技術 つぶしを効かしたいならOpenCL
CtはLarrabeeに限らずx86 CPU用のSIMD/マルチコアを包括するフレームワークだ。 SSEからAVX, Larrabeeおよび今後のIntel SIMD拡張命令及びマルチコアに対応するコードを透過的に記述出来る。 Cコンテナに対する演算の記法がC++のテンプレートそのものなのである意味で再利用性はある。 かたやOpenCLは事実上のGPU専用言語。 普通のCPUでも動くコードが書けるってのはメリットに見せかけて、再帰すら書けなかったり、 Cと比べて制約が多い。 CPUでだけ使う場合に既製のコードをOpenCLに移植するメリットが基本的に無い。 潰しがきくのはどっちかは明らかだと思うが。
NV自体CPUとの連携が重要と言っているのに CPUどうするのかというプランが具体的に明らかに されていない点が一番危ないな。 結局CPU内蔵する方向に行くしかないのに。 ARMでいくのかね。
CADソフトやBlenderなどはGeforceじゃなきゃ話にならんよ 一部のゲームもな 結局互換性で勝つ
>>749 CUDAとかでCPUコードを書くのはデバッグのためでしょ。
>CPUでだけ使う場合に既製のコードをOpenCLに移植するメリットが基本的に無い。
何を自明なことを
>OpenCLは帰起さえ書けない じゃ団子が帰起を使えるようにいろいろ改良したOpenCL+を作れば良いんだ
あ × 帰起 ○ 再帰
OpenCLで再起実装できないでしょ Applesも現時点のいずれのアーキテクチャ でも不可能だって諦めてるし
と言うかopenCLを走らせるようなマシンで再帰使うのって効率的にどうよ? そもそもGPUでまともに再帰使えるんか?
>>733 > 鳴る物いりで登場したCellのスレは今お葬式モードだし。
Cellスレどこよ?見つからないんだが。
OpenCL自体が劣化CUDAだろ
CUDAはNV製品に特化して作られた言語 OpenCLはそれをベースに、汎用的にどのGPUでもそれなりに動いてくれるように作られた言語 そりゃ、後者が機能で前者に劣るのは当然
性能出るようにOpenCLを作り直せばいいじゃん
>>756 無理
ワープ単位で命令ポインタが同じ方向にしか動かせないから
似非スカラを辞めない限り無理
言語レベルで分岐があればネイティブコードレベルではプレディケートで両方のパスを実行
とろくさいこと山の如し
LarrabeeはベクトルをC++的なあのベクトルとして扱ってるからいざとなればスカラに落とし込むことで
再帰を表現可能。
もちろんその時同じハードウェアスレッド内の要素は並列処理じゃなくて逐次処理になる。
extactps rcx, xmm0, 0
call procN
extactps rcx, xmm0, 1
call procN
extactps rcx, xmm0, 2
call procN
extactps rcx, xmm0, 3
call procN
↑はSSEの4並列処理の場合 スカラに落とし込むときのイメージとしてはこんな感じね
末尾再帰をループにするくらいじゃね。 文法上再帰を許しても、ループに出来ない場合 コンパイル時にエラーが出るとか。
RadeonはR600以降で32段までの関数呼び出しが可能
ループの場合って、ハード的にはそれぞれ終端に達した要素からプレディケートレジスタのビットを落としていって 最終的に0になったときに全部一緒に抜けるんだよな
Larrabeeなんて2年以上選択肢からは外れるのは確定的なんだから 今Larrabeeの話しなんかしててもしょうがない 現状ではnVidia一択 今後AMDやIntelが良くなればそのときに買い換えればよい グラボなんて別に高くないし、取り替えられるのだから
いいね 金持ちは
>>767 Larrabeeはハードを140ドル未満で投入してくるぞ
>>768 じゃあ、貧乏人だったらLarrabeeを今買うか?
そんなの不可能だろう?
貧乏人であってもLarrabeeなんて不毛な話だよ
>>769 いやだからそれは2年後に考えればいいということだろ。
将来性とか考えずに今現在の時点で費用対効果を考えればnVidia一択であると
>>767 は言ってるんだから。
>>771 >>769 の主張だと足並み揃う2年後でよくねって思うけど
NVidiaがドカタ言語に仕上げてくれるなら今から取り組む価値はあるけど
だんごと一緒にLarrabeeのシミュレータで遊んでいたほうが
有意義だと思う
larrabeeがIGPに組まれれば 他社製品は意味をなくす
larrabeeなんて今の段階では商品になるかどうかすら危うい シミュレータで遊ぶにしても2年は長い
NVidiaしか選択肢がないと言ってる人間多いけど 実際GT300って今年中に出るの?
>>775 多分来年の春ごろ
夏ごろになる可能性もある
それまではAMDがグラボ市場の覇者
そして、再来年の春にはGPU搭載CPUが発売され
ゲーマーがGPUを購入する時代が終焉する
今のGPUはGPGPU用のアクセラレーターとしての価値しかなくなる
ちなみに、NVは売り上げの3分の1を占めるチップセット市場からも
撤退を余儀なくされている
数年以内にNVはまともの売れる製品がなくなる
さよなら、NV
,,,
( ゚д゚)つ┃
鬱陶しいから帰れ
どうせintelが残るだけ
今は性能でAMDが優位といってもGPGPUに限れば開発環境などの関係で、 実質的にnVidiaしか選択肢ないんだよ 悲しいことに
性能で優位なんて初耳
デベロッパーが扱いづらい今のRadeonをCPUに統合しても何もいいことないんじゃない? 平行で新設計のGPUでもつくってんのかね?AMDは
fusionでcpuと一体化する分、さらに単純なアレイプロセッサ化していくんじゃねぇの?
半精度・単精度変換命令をCPU側に実装する分GPU側の回路削られそうだな
そんな回路ゴミみたいなものだろ。 bit切り出しと単純な例外処理だけじゃない。
そうか。Larrabeeがコア毎に持ってるけどそんな密度じゃないのね。 Intelがやる理由はキャッシュ容量・メインVRAM帯域の節約のためらしいが。
このスレでさえGPGPUの未来について希望的な観測がないのかよ
なんせ逆神Fixstars様がついておられるからな
N社はモックアップをESだと言っちゃう悲惨な状況だからねえ Larrabeeでさえデモやってるのに
OpenGLとかDirectXはLarrabeeでも使えるんですか?
何でも使えるだろソフトなんだから それこそglideとかHEIDIもやろうと思えば
LarrabeeにとってはGPUはアプリケーションだからな PCSX2のGSエミュとかやらせたらフレームレートと再現度両立できそうだって 開発者が言ってたりする
あれ、だんごって一時期はララビ批判してなかったっけ しばらくこの板来てなかったから記憶が定かでないが
してねーよ 批判してるのは先見性の無い奴だけ 方向性は正しいだろ まあAMDがBulldozerをあっさりAVX互換化したくらいだし FusionがLRBni互換になっても何ら不思議じゃない
団子は一流のセールスマンになれる 転職をおすすめしとく
団子って、何歳? まだ20代だったらお友達になって欲しい。
俺顧客サポートの仕事やってるけど
先見性があっても出なかった製品なんぞいくらでもある SEDとか
また出会い厨かよ
技術要因だけで市場を制することはできん。 ゲーム業界には、前世代で圧倒的な勝利を飾ったのに後継機種で会社傾けるほどの大赤字 なんて例もあるからね。 ただIntelはマーケティングを含めて隙がなさ過ぎる。 Intelは22nmが順調に微細化できれば2〜4コア+Larrabee 8コアくらいの統合チップ出してくるだろうよ
MACヲタってどうなったの?
それなら普通に10〜12コアのCPUを出すほうがよくね? で、いつものゴミオンボつけて売り出す 情弱向けに誇大広告うてば勝手に売れてく いつものパターン
>>802 獲物のアム厨がレッドブックに載ったので名無しに戻ったらしい
>>804 なんじゃそりゃ。
Cellとともに滅びたのかと思ってた。
>>803 そのゴミオンボの後継がLarrabeeなんだが。
SIMD以外はシンプルにしないと10〜12コアなんて載らないよ。
8コアくらいでも22nmになれば70〜80mm²になる。
これは32nmのSandy Bridgeに載るGPUと同程度。
オンボ用にカットした物なんて性能低いじゃん そんなものは今までGPUだった分のトランジスタも活用できる程度でしかない TSMCも1年遅れ程度になってきたからあまり優位に立てないのもあるが CPUはもう限界だしそんなに速くなくてもGPU(Larrabee)があるし…とIntel自身が白状している Larrabeeは全方位アクセラレーターだ
日本語でおk
設計良くてもTSMCがどうにかならん事にはなあ。 外注受けてるとこでここより技術が上なのはGFしかないし。
GFが上とかwww
SOIにしろ、金だけ払ってIBMに丸投げしてるだけなんだけどな
>>807 その上でだ。
Larrabeeは8コアあればNVIDIA換算で128SPくらいだよな。
2009年9月18日 (金)
PixeluxとAMD、Digital Molecular Matterエンジン向けのOpenCLアクセラレーションを開発
ttp://khronos.jp/news/2009/09/pixeluxamddigit.html PixeluxはAMDと共同で、Digital Molecular Matterエンジン向けのOpenCLアクセラレーションを開発しています。
Pixeluxはルーカス・フィルムで特殊効果制作に使用された Digital Molecular Matterエンジンを開発しています。
ってことはクローズに数千ドルの融資を獲得したから
オープンにしてレッドオーシャンで戦う必要はないんだな
intel Ctのプレゼンで16コアとか25コアが出てくるんですが あれいつの話になるんですかね?
出てくるときに32コアといううわさもある
ドイツでラトナーが32コア2GHzと明かしたな
>>815 来年ならデモ機レベルで64コア出せるって言ってるよ
ディスクリートの方はその位で出すでしょ 「GPUとして」GTX280レベルを出すならその位要る
脳内ソース来ました
例えNVより効率悪くても、プロセス技術に物言わせて超高回転化でカバー可能だからきついな
>>820 同意。
俺もCPUの論争で散々言ったが、Intelはプロセス技術にもの言わせてるだけだよな。
団子がPPCのヘタレっぷりとVLIWのItaniumを槍玉に挙げてx86最強とか、
未だにRISCだのCISCだのニュースの記事を鵜呑みにしたような事を言っているのを聞くと、
それは違うんじゃないかと言いたくなる。
PPC G4が【同クロック】のAtomに負けてもそう思うか?
はいはい負け惜しみ負け惜しみ
少なくともAtomに関してはSoC製造をTSMCに委託できるように契約してるし キツキツにチューンしてるわけではないようだが。 デコーダ側が2命令/clkなのにLoad + 演算 + Storeを同時発行できるのは 少なくともRISCみたいな2〜4バイト固定のフォーマットじゃ出来ない芸当だ。 あと、Itaniumは例外視すべきじゃないよ。最強のプロセス技術をもってしてアレなんだろ? 逃げるのはただの詭弁でしかない。
未だにRISC信者いるのがきもい
整数演算性能に関していえばRISC ISAは前世紀に事実上死んでる
当時のSPECint見てみればわかるが、所詮はキャッシュメモリの容量で
性能稼いでただけのハリボテということが露見している
---------------------------------------
Model Name: TDZ300
CPU: 200MHz Pentium Pro Processor
FPU: Integrated
Number of CPU(s): 1
Primary Cache: 8KBI+8KBD / Secondary Cache: 256KB(I+D)
SPECint95 8.04 / SPECint_base95 8.04 ※95年12月登録
http://www.spec.org/cpu95/results/res9512/p040.html Model Name: RS/6000 43P-140
CPU: 200 MHz PowerPC 604e
FPU: Integrated
Number of CPU(s): 1
Primary Cache: 32KBI+32KBD on chip / Secondary Cache: 1MB(I+D) off chip
SPECint95 7.79 / SPECint_base95 6.99 ※97年4月登録
http://www.spec.org/cpu95/results/res97q2/cpu95-970414-01779.html ----------------------------------------
浮動小数だけはレジスタ本数とオペランド数ないと性能稼げないから
スタック形式のx87は圧倒的に不利だったが(その点でLarrabeeには死角はない)
整数性能に関して言えばIntelの対RISC性能はP5で肉縛しP6で追い越し
NetBurstで大きく引き離した
肉薄orz
インテルのはいつも都合いい数値しか出さないからなぁ。 実効性能ではPPCのが上でしょ。
pu
ここGPGPUスレだから Larrabeeすら関係無いIntel賛美は他でやれ
>>827 中立な数字出したら完全敗北なのが
>>825 なんだが。
AppleのIntel移行すら未だに認められない糞マカ乙
RISCは命令セットを単純にしてクロック上げやすくすることで 結果性能向上をはかるもので、命令あたりの演算の密度は犠牲にしてる。 同クロック・同命令発行数なら、CISCに性能で勝てるわけがないだろ。 ついでにいうとGPUも命令あたりの演算処理単位からいえば一種のCISCだ。
だってさ
x86の命令でなんか演算密度高い命令とかあったっけ?
主記憶がレジスタと同じ応答性とスループットになればRISCが勝つよ
>>833 ぶっちゃけメモリアドレスをオペランドにとれる命令全部。
ベースアドレス+インデックス×スケール+即値によるアドレスの算出と
ロード操作を1命令に含めることができる。
同じ命令内のオペレーション間で依存関係が決まってるから
スケジューリングもしやすい。
んで、アドレス演算のルールに特化した特殊な演算ユニット(AGU)で
解決することで性能向上を図ってる。
RISCだとアドレスの算出すら整数命令で、汎用の整数ユニットを使って
計算することになるから、そこで大きな性能差が生じる。
x86の強力なアドレッシングモードはLarrabeeのパワーの源と言ってみる 事実GeForceはワープ内の要素ごとに独立にメモリアドレス計算やってたり、 メモリ周りの命令に関してはかなり効率悪いし fermiのSPは浮動小数と整数が2並列発行できるようにして 浮動小数演算をやりつつアドレス計算もできるようになってるが それまでのGT200まで整数と浮動小数は排他動作だったから 読み書き対象のアドレス計算のたびに浮動小数演算の発行が止まってたわけで 実効性能を下げる要因になってた。
>>827 この板にもベンチマークとかシミュレーターの意義がわからない馬鹿が居たんだな
>>838 全然解決してねー。
サイクルあたり2命令しか発行できないのに
アドレス生成だけに1命令分取られるだけでも大きなロス
Larrabeeのほうは、アドレス生成つきロードを伴うマスクつき積和算と
スカラ命令あるいはストア操作を同時にデコード・発行できる。
つまり1クロックあたりの実効オペレーション数で水をあけられる可能性がある。
? int,fpって並列可能なんだよね? 2つのIU使って16spに命令出すの? fermiって
>>835 で、そんなアドレッシングがどれだけ使われるわけよ?
おまえらGPGPUのネタがないからって自作板化するなよ
>>839 GPUの場合、メインになる大規模配列へのアクセスなんかだとアドレス計算なんかは
コードで明示しなくてもハードで自動でやるんでなかったっけ?
俺821だけどさ、RISCなんか微塵も擁護してないわけよ。 PPC含めていろんなアーキを触るのは楽しいけれど、 x86が現実的に俺が金を出せる中では最強だと思っているわけよ。 でもRISCとかCISCじゃないでしょ?と言いたかったんだ。 現にAVXではデコーダが軽くなるように変更してるでしょ? 今までの実装に負けを認めてるわけよ。 でもそれはRISCに負けたわけじゃないし、CISCが勝っているわけでもない。 Intelは今まで割と酷いアーキだったと思うんだけど……分かんないかなあ。
捨ててまた拾うなんてこの世界じゃ常識なのに 負けを認めただの何だの 典型的なIntelアンチですね
11月25日GT300発売決定しました
>>843 ソースレベルと機械語レベルを混同してる
>>844 なにが勝って何が負けたの?
x87もMMXもSSEも潰さずに新たなSIMD命令を追加出来るのはまさに可変フォーマットたるCISCのメリットだろ
命令長の縛りで好きにOperand空間を拡張したりできないのがRISCだよ。
360のCPUなんか、SIMDレジスタを128本に拡張した分、4オペランド命令や1バイト単位の操作命令が
削られてたりする。
それから君はAVXを根本的に理解していない。
まあ俺に言わせればABCDの4レジスタの時代から1バイト、もう1バイトと継ぎ接ぎしていった 伝統的CISCアーキテクチャの新たな1ページですよAVXにしてもLRBniにしても 可変アドレッシングモードがある限りx86はどこまでもCISCだ。 add eax, ecxみたいな1バイト命令がたとえば4バイト固定に変わりますか?なりません。
>>841 どっかのプログラムをテキトーに逆アセンブラかけてみろ。アホみたいに使われてる。
AMDのCPUがALUとは別個にAGUを3つも装備しちゃうくらい使われてる
あとついでにいうと32ビットとか64ビットとかの即値を命令ストリームからダイレクトに供給できることも
パフォーマンス要因として大きい。
どっかの情けないCPUには32ビットレジスタに16ビットずつにわけて即値ロードする命令があったりするけど
パーシャルライトのレイテンシで氏ねる。
メモリ空間が広がるほど、即値のビット幅に対する要求がシビアになる。
CellのSPUなんて直接アドレッシングできるメモリが物理的に256KBしかないから即値フィールドが16ビットもあれば
左に2ビットあればロード命令の即値フィールドとしては十分だが、
特化型じゃない普通のCPUでは4GB以上に対してアドレッシングするわけで。
論理メモリ空間が広がるほどRISCは使えなくなる。
8バイト固定長のRISCにすればいいだろって?
氏ねばいいと思うよw
結局、CISCの利点のおかげで儲かったおかげで、プロセスルールに投資できて、 それがIntelの優位性をより伸ばした。そんな説がありえるのか?
>>851 Fab商法がうまくいったからだろ
アーキテクチャ云々より
Fab1個丸ごと単一商品の生産工場っていう
資金回収能力が凶悪過ぎる方法実現できているだけ
コード資産の継承って点で可変フォーマットであることに助けられてきたのは確かだね。 ステート切替によって複数の命令セットのフォーマットを混在できるARMはCISCに分類する学者さんもいるし ハイエンドRISCが死に絶えるなか公共事業で生きながらえてるIBMのPOWERですら BCDアクセラレーションや8バイト命令モードなど既にRISCのポリシーから逸脱してる
強い者が勝つのではない、勝った者が強いのだ
なるほど、勝ったものが強いか・・ん?
ARMがSHやMIPSを凌ぐほどになったのは2バイト形式のThumb命令入れた当たりからだよ それはそうとNVIDIAの経営相当厳しそうだな
ジレンマがあるよね 現状はNVIDIAしかないし、将来はNVIDIAきつそうだと言っても AMDに乗り換えてもすぐIntelの天下になる可能性もあるし かといって、今Intelは製品がないから乗り換えようがない
そう言えば、昔Itaniumなんてのもあったね LarrabeeもItaniumの匂いがするなw
俺に言わせればFermiのほうがItaniumっぽいけどな
面白いのはItaniumを倒したのはXeonなんだよなw 勝ったXeon軍の首領もEMCに行っちゃったし
というかそもそもItaniumは失敗したと言うより Itaniumが狙った市場が消滅した。ってのが正しいんだが・・・ そもそもx86サーバーとかの市場は、元々Xeonの管轄だったわけで・・・ x86サーバーの市場が、そのままかつてSparkやPPCやAlphaがあった市場を喰った。 それだけのこと。
なるほどNVIDIAは自爆街道まっしぐらと
ま、AMDは最初から蚊帳の外だがw
>>860 Xeon以前にNehalemが出るまでIntel史上最大の脅威と言わしめたOpteronが遠因だろ
あれの存在があったからこそ、苦戦を強いられながらもXeonを64ビット対応せざるを得なかった。
IA-64 vs x86-64(AMD64)で雑誌の特集組まれてたくらいだし
x86の有用性を自社以外が示してしまったのは皮肉だよな。
毒を食らわば皿までとはよくいったもので、OpteronはIntelの何かに火を付けてしまったようだ
全プロセッサ市場x86化計画の始まりだよ。
XScale捨ててAtom、結果大成功。
GPUもこのノリでx86化したいらしい。
Larrabeeがx86なのは統合を成功させるための手段であって目的ではない
demo x86布教運動してたゲルシンガーが居なくなっちゃったね
最近のオレゴンチームがアレだったからなぁ。 不要論でちゃって、組織統合と同時に退職させられたのかな。
え?Nehalem-EPで絶好調だったよ 企業のIT予算減ってるとか言われてたのにモバイルよりサーバーのが回復してた まあクビって感じじゃないよな
破格の条件で抜擢されたっていわれてるけど
AtomってPen4より遅いんでしょ?
トランジスタ規模相応の性能。 てか性能よかったら棲み分けにならない。
プログラム板のこのスレに何人のプログラマーがいるのか疑問だ 言ってることがITmedia並みで笑える
単純な疑問なんだがATIの場合分岐粒度って64 "pixel"で nvidiaの場合って32個の"32bitデータ"?(8pixel相当?)
Intelは16wideで1cycle : 32bitの16個 nvidiaは8spで4cycle or 32spで1cycle : 32bitの32個 ATIは16shader(16*5=80sp)で4cycle : 64pixel(32bitの256・・・)
526 名前:Socket774[sage] 投稿日:2009/10/07(水) 14:11:06 ID:jGgZ/LK7
>>496 の大雑把な内容
Nvidia kills GTX285, GTX275, GTX260, abandons the mid and high end market
Full on retreat, can't compete with ATI
ttp://www.semiaccurate.com/2009/10/06/nvidia-kills-gtx285-gtx275-gtx260-abandons-mid-and-high-end-market/ 285は既にEOL、260は11or12月にEOL、275は2週間以内にEOL、295も終わりそう。
ハイエンド、ミドルレンジから脱落する。
Fermiの派生モデルはテープアウトすらしていないので、少なくとも2Qは掛かる。
Fermiはダイサイズあたりの性能が低く派生モデルを作ってもフルラインナップで価格競争力で劣る。
ハンダの欠陥問題、G212の失敗、G214の大失敗、G215の遅延、G216とG218の壊れたGDDR5コントローラ。
救世主となるチップはない、プランBはない、全て失敗した。
赤字販売を続けるか、撤退して少ない赤字を出すかしかない。
資金が尽きる前に開発の問題を修正し競争力のある製品を出せるかが問題。
1月にはローエンドからも脱落する。
Nvidiaは全てのパートナーから憎まれており助けてくれるパートナーはいない。
Nvidiaに必要なのは経営陣の総入れ替えだが、その出て行くべき奴らは株主なので起こりそうもない。
ゲームオーバー。
ジェンセンは年俸1ドルでも貰い過ぎである。
Intelは16wideで1cycle : 4pixel nvidiaは8spで4cycle or 32spで1cycle : 8pixel ATIは16shader(16*5=80sp)で4cycle : 64pixel
α値があろうがなかろうが5Way ALUで1ピクセルずつしか割り当てられないのがRadeon R, G, Bで別のベクトルに再パッキングして並列処理できるのがLarrabeeとGT たとえばLarrabeeはRGBなら 16/3 pixelな
>>881 > α値があろうがなかろうが5Way ALUで1ピクセルずつしか割り当てられないのがRadeon
4ピクセル割り当てられますが?
グレースケール乙
4サイクルで4ピクセルとか言うなよ
>>881 アルファを出力しないでどうやってブレンディングするんだよ。
ブレンディングが行われるのはプログラマブルシェーダの後段だぞ。
Larrabee : 4pixelであってる。
あとグレースケールってのはFetch4というかGatherのことを言ってるんだろうが、
あれは読み込みであって出力が4つ同時に出来る訳じゃないぞ。
グラフィックス用途の場合大抵シャドウマッピングでソフトシャドウやるときに都合がいいってだけの機能だ。
>>882 どうやって?MRTとか冗談言い出すんじゃないだろうな?
だから分岐粒度の話だろ。 RGBだろうがRGBAだろうがSoAに変換して処理するんだから16並列だ
まさか RGBA RGBA RGBA RGBA で4ピクセル処理するとか思ってないよな? VPUは水平加算もなければ、128ビット単位×4でマスク実行するためのビットマスク生成命令も存在しない。 Larrabee Prototype Libraryを読み直してこい
>>887 失礼。粒度に関してはこちらの勘違いだった。
ただGeForceはチャンネル毎にスレッド立ててるってソースが見つからなかったんだけど何か知らないか?
>>850 なんか即値最強みたいに言ってるが、浮動小数点数のロードも命令に埋め込むつもりか?
おいおいトンデモ意見が出たな ロードアドレス算出用のディスプレースメントって「即値」以外のなんなの? リニアなメモリ空間アドレッシングするのに4バイトくらいないと実質的に使い物にならん。 変量がそんなに必要ないときは1バイトdispモード、そのものが必要ないならdispなしモードでいいし あーSSE4には汎用整数レジスタにXMMレジスタの浮動小数値を転送する命令(あるいはその逆)が あったりするけどあれって何のためにあるかわかるよね? まあLarrabeeとは話がそれるが。
ロードユニットが忙しいときにしたいときに、単精度の定数を汎用レジスタ上に即値モードで転送して movdとかinsertpsで挿入とかよくやるテクニックじゃん
ロードユニットが忙しいときにロード命令節約したいときに、ね
せめて小分けにして書くな
団子が忙しいときに推敲命令節約したいときに、ね
俺は頭で考えてレスなどしない
餓鬼ですね。
無我の境地というのだよ
僕らのアイドル ダンゴリオン
atiの分岐粒度がデカ過ぎるのは判った
で、Larrabeeはいつ出るのかね?
5年後くらいにCellの6割くらいの性能で。
Sandy Bridgeの4コアが200GFLOPSオーバーだから意味ねーよ。 Haswell世代だとやはりCPU4コアだけで300〜400GFLOPS
コンシューマで画処理以外の何に使うのかなぁ?
粒度的にはレイトレ向き
レイトレのデモができる段階なんだから一年以内には出るだろ その点GT300なんてハリボテ模型だからな。 量産できないアーキなんてペーパーアーキもいいところだ。
レイトレも画処理だろう。。
>>900 ハリボテ展示する会社の製品よりは早いだろうなwww
http://www.4gamer.net/games/098/G009883/20091007054/ Larrabeeは計画破棄が濃厚だね。
Larrabee計画の顔役ともいえるPatrick P. Gelsinger(パット・ゲルシンガー)上級副社長が,
IDF 2009の直前にIntelを退職するという“事件”もあったが,
業界内にはLarrabeeについて,後ろ向きな情報が飛び交っている。
「IntelがLarrabee計画を中止する」といったものまで含まれていたほど。
「Gelsinger氏とともに,主要エンジニアもIntelを去った」という情報もある。
>>833 たとえばここの
http://www.ddj.com/architect/217200602?pgno=5 vcmpgtpi k2, v3, [rsi+Edge1TrivialRejectCornerValues4x4+rcx*4]{1to16}
っていう命令は何やってるかっていうと
(1) ベースポインタ(rsi)にメンバのオフセット定数(Edge1TrivialRejectCornerValues4x4)
を加算、さらにインデックス値(rcx)を4倍して加算
(2) 得られたアドレスに対して32ビット値にロード
(3) さらにその値をSIMDテンポラルレジスタの16要素にブロードキャスト
(4) その値と、ベクトルレジスタ(v3)の各要素のほうが大きいかどうかを比較し、
それぞれの要素の真偽値をマスクレジスタ(k2)に格納
こんな複雑な操作をLarrabeeでは1命令でしかもパイプラインで1サイクルのスループットで実行できる。
AGU -> LDU -> PERM -> VPU のパイプライン実行だ。
同じような操作を疑似RISC ISAで書くと6命令とかかかるわけ。
shl $offset, $idx, 2
addi $offset, $offset, Edge1TrivialRejectCornerValues4x4
lqa $vtemp, $addr, $offset
rotqby $vtemp, $vtemp, $addr
shufb $vtemp, $vtemp, $vtemp, $ptn
cmpgti $k2, $v3, $vtemp
SPUの命令セットに似てる?気のせい気のせい。
同じ操作を1サイクルのスループットでこなすには6命令同時発行できないといけない。
6命令なんて、POWER6+ですらやってない。
デコーダから実行ユニットまで少ないトランジスタ数で実装できるRISCは
トランジスタリソースの限られた組み込み向けとしては今でも有効だが
数千万〜数億トランジスタが当たり前となった今となっては
パフォーマンスを追及する向きじゃない。Cellもぶっちゃけ効率悪いし。
>>908 Larrabee楽しみにしてたのに。GPUとして売ろうとしたのは時期尚早だったのかな。
自演つまらん
団子は言っていること無茶苦茶だな。 NVのATIに対する利点は再パックしなくても 効率があまり落ちないところにあるのに。 ATIの場合スカラ演算で少ない命令の場合に 1つ分ではALUの無駄が多すぎるが、 命令が多い、スカラを4つパックして入力するなど工夫をする事で 処理命令数を増やせば、5とはいわずとも平均3-4命令は埋まる。 ここまで出来れば素の演算性能で上回る事例も多い。 まあ、レジスタのxyzwをいい感じで指定して、 バンクコンフリクトを排除する必要もあるから かなり面倒ではある。 ILの仕様が糞で、どのバンクを使うかを明示しなきゃならんから コンパイラが最適化する余地が無いしね。
で、ここまでしたうえなら、扱う粒度が大きくなるから データ毎に処理が分かれるような対象では 効率が下がりますねという話になる。 ただ、この辺は演算規模が大きい場合には殆ど問題にならない。 CPUで出来る程度の演算負荷の少ない処理を GPUで代替しようとするときにはかなり大きな問題になる。
>>912 高級言語レベルの話とネイティブマシン語レベルの話を混同するなよ
CUDAはgather/scatterをラップしてるだけにすぎない。
32WayのSIMT(SIMD)でX, Y, Zをどれでも等しく操作するってのは
要するにロード・ストアの度にAoS/SoAの変換をやってるから。
Larrabee C++ APIはラップせずにSIMDをSIMDとして直接見せてるだけ。
ピクセル毎のプレディケートさえ必要なければ文字通り再パックしないまま
つまりRGBA RGBA RGBA RGBAの構造のまま効率的に処理する方法も
提供されてる。32ビット4要素毎にSwizzleする命令もあるし。
OpenCL経由の場合はGatherがデフォだろうが。
>>912 > 処理命令数を増やせば、5とはいわずとも平均3-4命令は埋まる。
固定機能再現するだけでも2-3な訳だが。
> ILの仕様が糞で、どのバンクを使うかを明示しなきゃならんから
ATI ILでどれだけxだのyだの指定してもISAにしたときは無視されるぞ。
C/C++からネイティブコード触れるのはLarrabeeの特権だな
ppp
>固定機能再現するだけでも2-3な訳だが。 固定機能のエミュに終始するならDX9使ったらって話 それでも2/5-3/5、64pixel中何pixelに適応になって、shaderが何個空転するのか
>>918 それがどうしたの?DX9使っても結局ドライバのなかで同じシェーダが生成されるんだぞ。
効率低いことに変わりはない。
? DX10以降でDX9以前の固定機能相当の処理はshaderでの置き換えが必須だが de9でDX9以前の固定機能使うんならshader自体使う必要がないわけだが
話がかみ合わないなぁ
つまり、Larrabeeは出るのかね?出ないのかね?
つまり、地球は丸いのかね?平たいのかね?
海の水はどうしてですか?
> ECCがサポートされました。宇宙線が多い日も安心して使えます。 これか?
>>915 doubleでxyとzwのペアじゃないと
加算をペアリングしてくれないぞ。
FermiはShared Memoryとキャッシュで切り替えられるのが良いね。 Cellのようにキャッシュがないとデータ転送が面倒だし、かと言ってx86の様に全てキャッシュだと最適化が面倒になるし。 ただ、キャッシュの方式が気になるところ。あと欲を言えば、もっとサイズが大きければいいのだが。
>>930 Larrabeeは普通にコヒーレント無視でロードストアできるオプションあるがな
スカラ風の命令セットに見せかけるためにネイティヴのSIMDすら抽象化されてて
直接触れないCUDAで最適化も糞もない
>>929 それは仕様にそう書いてあるから。そして趣旨がずれてる。
ATI ILでxyで倍精度加算を書いてもISAではzwで加算されたりする。
LarrabeeのTDPって300Wなのかよ。 縛熱だな。Fermiどころじゃないじゃん。
そりゃ電源ピンのところでぶった切られてて物理的に電源供給できないFermi(模型)は0Wだからな。
また脳内ソースで書き込む時間が始まるお…
Larrabee頓挫の危機
危機ってことにしないと都合が悪いんだなゲホ厨は 512SP止まりじゃクロックあたりのピークFLOPS数すらLarrabeeに並ばれるからな
Sunday, July 6 2008
Cellの32コア版もSPARCも計画後退してるし 明らかに性能出ない設計の上、模型しかできてないFermi 遅れに遅れたLarrabee、なぜか競合製品までことごとく頓挫して命拾いしてるよなー
みんな注力している領域なのに、これだけ苦労してて、ひょっとしてこの道は 間違っているんじゃないだろうかとふと思うよね。 結局、半導体メーカーの都合で作っちゃっているからこうなっているのかな。 でも、生みの苦しみであって、なにか大きな変革が本当に起きることだってあるとは思って、 個人的に期待しているんだけど。
トップ500システムのメインプロセッサの地位をXeonをもって8割がた制圧しちゃったIntelにとっては、 今はHPC分野は攻める市場じゃなくて守る市場。 Larrabeeなんて必要ないんだよ。攻めてくる競合製品がなければな。 じゃあ無意味なのかっていうとそうでもなくて ただ、未完成ながらも実働デモをして競合他社にプレッシャーを与え続けてるだけでも十分効果はあると思うのです。 当然ながらRV770を倍増して毛が生えただけのGPUを投入したATIは競争には加わっていない GPUとしては優秀だがGPGPU的なマーケットにはことごとく相性が悪い。
>>941 ほんとそう思うよ。
結局超並列の計算が果たしてどれだけ必要なのか疑問に思ってきた。
周りを見渡しても必要用とされているのはほとんど研究用用途ぐらいしかないし、それだと金にならない。
結局今までのスパコンの市場を食っただけで拡大していないのではないか?と思ったりする。
ちょっと前なら金融工学のシミュレーションが伸びてきたりしていたけど、今の金融危機でそういうのも、
余り受けていないようだし。半導体のシミュレーションとかだったら今のFPGAに置き換えられるかもしれないけど、
そうなると大規模なシミュレーションをするために新しいCPUやGPUを開発する→以下ループになって手段が目的かするような気がする。
何か身近なもので大きなイノベーションでもあればいいんだけど。
Sonyの久多良木は失敗し、 Intelのゲルシンガは失脚し、 Nvidiaのフアンは久多良木以上に暴走している。 一方、AppleのジョブズはCellを否定し、Intel化で成功し、 任天堂の岩田は高性能はいらないと入力デバイスの進化で大成功を収め、 AMDは純GPU路線で、順調にシェアを伸ばしている。 ストリームコンピューティングの将来は一体…。
>>942 ずいぶん弱気になったねw
今まで散々「出す出す詐欺だろ」とか「Itaniumの二の舞だろ」
「どうせ性能では勝てないんだし、中止だろ」みたいに言われても
先見性がないとか、GMAで絶対勝つるとか何とか言ってたのに
結局「未完成でもいいんです。発売しなくてもいいんです。
プレッシャーを与えるだけで良いんです」ってかw
結局、先見性があったのは団子ではなく、「どうせ出ないだろ」と 言ってた連中のほうだったなw
馬鹿だな 守るべき市場だからこそ壁役が必要なんだよ 敵がいないのに出してどうする。Xeonと共食いじゃ利益にならんぜよ。 Fermiが出てきたとして倍精度600GFLOPS程度だぜ。しかもまだ模型しか作れてない。 肩すかしにも程がある。 それどころかNVIDIA自体が倒産しそうな勢い。 結局倍精度1TFLOPSなんて必要なかった。とんだ肩すかしだろ。 Intelは用意周到ゆえに肩すかしを喰らいまくってるからな。 「Phenom II-FX」を警戒してXeonと同じLGA1366をデスクトップに含めて投入したのに フラグシップですら最低レンジの920にすら及ばぬ性能じゃな。 噛ませ犬はCore 2 Quadでも十分だった。 なんにせよ費用対効果ってのものがある。
Skulltrailとかもあったな〜
ワンチップ倍精度1TFLOPSを実現するのに Larrabeeは予定通りのスペックのものを2GHz動作で出せばよい。 4GHzのCellだと64コア必要。まだ32コアすら出てきてない。 Fermiなら768SP版が必要だ。しかしそれ以前の問題だ。 SPARC?あばばばば こんな状況だぜ。 結果として及ばぬ性能どころか大幅に勝ちすぎたわけだ。 現時点で他の陣営は量産にほど遠い。
この分野では団子さんの言うとおり、インテルが一番有利だね。 なんだかんだでXeonのクラスタを沢山くめばいいわけだがら。 何GFlopsとか、何TFlopsとか言っても、実際そこまで出せるのって 結局レジスタにのった場合でしょ。 CPUの速さはもうほどほどにして、インテルもメモリの方に投資して、 メモリアクセス数cycleとかのDRAMを開発したらいいのに。 1TFlopsでメモリのレイテンシが400〜800cycleよりも、 256GFlopsでメモリレイテンシが10cycleだったら、実アプリにおいてはは後者の方が上何じゃない?
ワンチップ倍精度1TFLOPSを実現するのに Fermiは予定通りのスペックのものを2GHz動作で出せばよい。
(注) larrabeeって言い張ってた、あのショボイレイトレquakeもはたして実機なのか 既存のCPUでの動作なのか、非常に疑わしい ゲルシンガーが居なくなって立ち消えになるんじゃないかと思われる AMDはどうでもいいw
日本語で
larrabeeも張りぼて AMDはカス でOK
私はゲロ大好きです でOK
いいえ、カスが大嫌いなだけです でOK
ま、あの画質で あの程度の動き あの程度のカクカクっぷりだと corei7あたりでも出来そう
> Larrabeeは予定通りのスペックのものを2GHz動作で出せばよい。 これ、予定通りに出せたとしても理論値でしかなく、実効値は3〜4割にしかならんでしょ? どうせインテルだし。
rv870は実行5%くらいだがな
リアルタイムレイトレーシングだっけ すでにAMDがデモ公開してたような
レイやトライアングルが少なければCPUでも出来る 問題は
AMDは映画製作会社とかと共同で ライブラリつくりまくってるからな 公には一切公開できない成果たくさんあるよ
GPGPUの分野ではnVidiaがだめでもAMDが出てくるのは確実だし、 ライバルがだめそうだからLarrabeeを出さないとか言ってるのは 理屈が破綻してるな
これに関してはAMDはintelの犬だろ
>>964 お前AMDをディスってんの?
どう考えても犬とかアリエン・ロッベンだろ
誇り高きコバンザメだよ
ローカルなL2断片(256KB)に載っかる部分までなら上り計64KB/clkの帯域が得られるとのことなので そこでスカラ命令側でベースアドレス/インデックス更新とループカウントしつつ SIMD命令側では3rdオペランドはノンテンポラルモードでのメモリアドレッシングにす これで実効効率も9割以上は堅い。 ちなみにFermiはロード・ストアユニットを2アクティブワープで共用という、致命的なパフォーマンス阻害要因がある。 レジスタ間でこね回す演算でないとどうやっても性能が出ない。 積和算をやりながらだと残り1命令しか発行出来ないって仕様も致命的。 FermiはRISCライクなんだよね
>>951 シュリンク率考えればあり得ないな。
GF9800GTX+が1.8GHzとか、SPが128基程度でメモリ帯域も狭かったりとTDPに余裕があったからこそだろ
NVIDIAは40nmでまだ製品を投入してない。
ダンゴや また自作板で万人に解らん API使ったネタ話すの自粛するんだ
わかんなくても「ヘーそんな事も出来るんだ」程度に楽しんでるから別に団子はそのまんまでいいよ 金払うに値する次のトリッパーを期待しつつ待つ
アプリのGPU化が進むと、インテルもAMDもCPUの存在価値がなくなるから、 基本的にやる気ないだろ。 NVIDIAには頑張ってもらいたいな。 もうCPUはOSが動けば十分なのでAtomクラスで十分w
>>971 >CPUの存在価値がなくなるから、
とてもGPGPUスレ住民の意見とは思えん
AtomクラスでいいならGPGPU系技術も必要なかろう
そこまでなるとCPUとGPUは同じダイで充分だよな。
x86命令を解釈するGPUアーキテクチャでも作らないとな。
統合プロセッサのコードネームは「Haswell」ってのはどうだろう?
>>971 身の程を知れバーカ
CPUの速度向上が遅くなったからこそのGPGPUだというのに
ところが、GPGPUで賄えるような演算ほどSIMD・マルチコア化での速度向上率も高いんだよね。
素人目には、CPUの方がとか、GPUの方がとかじゃなくて、 CPUもGPUも両方活用すると 演算スピードが鬼速になると思ってしまうんだが、そうじゃないの?
>>975 まあ、GPUはスーパーメニーコアプロセッサーとでも表現できるものだからね
SIMD化はもちろん、マルチコア化でどんどん差を縮められる
ただ、サーバー用途以外の一般デスクトップでは、
4コアを超えるマルチコア化の予定がキャンセルされてるけどね
まして、ノートだと2コアのままで当分は行くらしい
CPUへの統合化が進んでからが本番田世なぁ 今はメーカーによって作りがまちまちやし手法も微妙に違うからいまいち手が出しにくい
>>976 GPUは処理を並列してこそ意味があるわけで、
そのために大量のデータをGPUに転送しておかないと
いけない。
ただPCI-Expのバス帯域が狭くて転送コストが
馬鹿みたいに高い。
だから同時にCPU+GPUというのは理想だけど難しい。
だから、コンシューマで、 画像処理以外何に使うのかがよくわからない。
GPU動かすのにCPU時間も使うんだよ。
素人目には、GPGPUは使い途が無さ杉る。 まだやっていたのかっていう印象。
NVIDIA曰くCUDAユーザー人口は世界6万人とかいうレベルだからな 水増ししてるだろうからもっと少ないと思うが
あなたもその一人じゃん
だんご of 6万か・・・ すげぇな。
>>983 それってCUDA関係の資料ダウソした
人数ってだけだから信じるなよw
じゃ、6万未満ってことか
ここはアンチスレか。
全世界で6万? なんというかまぁ可愛らしい数字だな
俺5000人位かと思ってた
まあなんというか NVIDIAもこんな不確かなものに命運かけなきゃいけないんだからな
そう?
個人的にはSIMDすらも使い用途が無いと感じる。 SIMDを駆使すれば、1Tflopsですよ〜っていわれても 画像処理など特定の用途じゃなければ、自然にC++のソースに 組み込むのは難しいし、 (例えば、SoAをAoSにしたり、プリフェチを埋め込んだり、 C++のソース的には不自然だよなこーいうの) 結局組み込めないのなら、無駄なスペックと感じる。
特定の用途には有効なんだろ。 何屁理屈こねてるんだよ。
>>994 例えば、そのリソースを使って
1.5倍速のFPUが作れるならそっちの方がいい。
作れればの話しだけど。
結局、4並列、8並列すれば、カタログスペックもx4、x8するけど
俺のアプリはx1のままだ。
どうやら知能が低いらしい
CPUは高性能 プログラムを組む奴が低知能 どうにもならんわなw
つーか、CPUにSIMD必要? SIMDが発揮出来るような用途は、必ずGPUとかち合うし、必ずGPUに負けるっしょ。 つまり、GPUが載ってるPCじゃ、CPUのSIMDなんて使われず終いじゃん。 結局、カタログスペックの為のセールス的意味しかないと断言。
>>996-997 いや、考えてもみろよ。
例えば、AoSでどうやって組むんだよ。OOPのクラスと真っ向からかち合うよ?
おかしくね?C++プログラマに、OOPと衝突するような組み方要求する機能って。
外部プロセッサじゃデータ転送のレイテンシもスループットも話にならない。
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。