【トリップ検索】CUDA SHA-1 Tripper【GeForce】

このエントリーをはてなブックマークに追加
633362
みなさんお久しぶりです!
そしてついに発売されましたねKepler。
このスレとの関連度が高そうな順に以下GTX680の記事です。

【後藤弘茂のWeekly海外ニュース】 NVIDIAが次世代GPUアーキテクチャ「Kepler」のベールを剥いだ
http://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html
西川善司の3Dゲームファンのための「NVIDIA Kepler」講座 - GAME Watch
http://game.watch.impress.co.jp/docs/series/3dcg/20120322_520598.html

4Gamer.net ― NVIDIA,「Kepler」ことGeForce 600ファミリーを発表。アーキテクチャの要点をまとめてチェック
http://www.4gamer.net/games/120/G012093/20120321043/
4Gamer.net ― 「GeForce GTX 680」レビュー(前編)。低消費電力で「扱いやすい史上最速GPU」に
http://www.4gamer.net/games/120/G012093/20120320002/
634362:2012/03/22(木) 23:48:39.54 ID:Zce3WSx+0
日本語の記事4つを読んだものの俺レベルではよくわからないというのが
正直なところですが、思ったことを数点+α。

(1)CUDA Coreあたりの性能は多少落ちるものの、より多くのCUDA Coreを
積めるようになった感じでしょうか。
だとすると、Tripperの性能追求という意味では歓迎すべき変化だと思います。

(2)後藤さんの記事にあるレジスタ数2倍というのが気になります。
>また、Kepler SMXでは、レジスタ数は2倍に、インフライトで
>制御できるWARP数は64WARPへと増やされている。
何あたりのレジスタ数を指しているのか次第ですが(SM→SMXで構造が変わってるので)、
文字通りの意味で2倍なら労せずして高速化が図れそうです。
(同時に今までのレジスタ消費のやりくりがさらっと水に流れそうですが)

(3)スケジューリングをGPU側(ハードウェア)からCPU側(ドライバ)で行うように
なったことについては、どの程度の性能のCPUならボトルネックにならずに済むかが
気になります。Athlon II 640で十分クリアできるといいのですが。

(4)個人的な話になりますが、買うとしたらGK106になりそうです。
SDKが出るまでは買ってもおもしろくないでしょうし、せっかく買うなら
GF104/GF106のようにcompute capabilityが一番先行してるのが欲しいのです。

(5)GTX680とは全く関係ないのですが、先日CUDA SDKを4.0から4.1に
クリーンインストールして、>>592のをビルドしたら約800KTrips/secに落ちました…。
ビルドオプションなどをチェックしたものの現在に至るまで原因は不明。
>>592の時点でバグがありそうな気もしています。
635名無しさん@お腹いっぱい。:2012/03/25(日) 23:03:28.71 ID:O+ccD8vw0
643の(2)で倍増とか言ってしまいましたが、実質レジスタ数が半減してるみたいです。

【occupancy100%を維持しつつ1スレッドが使えるレジスタ数】
GF1x0系の場合 32( =32768/(32*32) )
GF1x4やGF1x6の場合は20( ≒32768/(48*32) )
GK104の場合は10( ≒65536/(192*32) )
仮に1スレッドで20本のレジスタを使いたければ、occupancyが50%以下になると。

Whitepaper NVIDIA GeForce GTX 680 v1.0
http://www.geforce.com/Active/en_US/en_US/pdf/GeForce-GTX-680-Whitepaper-FINAL.pdf
636 ◆MERIKEN4.k :2012/03/26(月) 06:21:27.19 ID:lAcflTK50 BE:3192048768-2BP(12)
ゲームをやってる分には680で大分性能が向上するんでしょうけど、
GPGPUだとかなり微妙ですねえ。これは次の780を待ったほうがいいんでしょうねえ。
とりあえず580から搾り取れるだけ絞りとって、夏休みにはRadeon HD 7970を買って
Direct Computeに手を出してみようかしらん。
637やんやん ◆yanyan72E. :2012/03/26(月) 07:16:21.00 ID:Deya4UA50
Keplerは、GPU用のKepler1とGPGPU用のKepler2があります。
GPGPU目的の人はとりあえずKepler2待ちということで。
http://insidehpc.com/2012/03/22/nvidia-shows-off-first-kepler-gpus-pcs-first-server-gpu-coprocessors-in-q3/
638362:2012/03/27(火) 00:50:53.76 ID:lv5DG0t20
>>636
Radeonは全くわかりませんが、HD7xxx(GCN)はGPGPU寄りになったらしい話は聞きますね。

>>637
コプロセッサ的位置付け(?)になって値段が跳ね上がるようなことが
ないことを祈ります。


SDKを4.1にした後で>>615のを走らせると1割ほど遅くなってました。
何か共通してオプション(ビルドorCUDA環境)が変わってるのかもしれません。

【GPU】GTS 450 GDDR5 1024MB@128bit(core810/shader1620/mem3608)
【CPU】Athlon II X4 640 3GHz
【OS】Windows 7 Professional SP1 64bit
【バージョン】CUDA SHA-1 Tripper 0.5.1(をx64&sm_21でビルド。regは45(41.7%))
【オプション】なし(デフォルトの 8blocks/SM)
【速度】 155.031 MTrips/sec
【その他】ターゲットは6文字のもの1つのみ

Device 0: "GeForce GTS 450"
Compute Capability revision number:2.1
Total amount of global memory: 1024 Mbytes
Number of multiprocessors: 4
Number of cores: 192
Clock rate:1.62 GHz

あとcudaDeviceProp::totalGlobalMemの見え方も変わってます(993→1024MB)。
11月から変わったことといえばUSB3.0のカードを挿してることくらいか。
ちなみにregは無指定にすると51(33.3%)に。このとき150.0 MTrips/sec。
reg=43(41.7%)を指定すると154.318 MTrips/sec。
639362:2012/03/27(火) 01:02:17.67 ID:lv5DG0t20
失礼しました、Kepler2はTeslaシリーズに相当するものが出るということですね。

個人的には1万2万で買えるビデオカードにも「ムダに」GPGPUの機能が盛り込まれている、
という状況が続いてくれるとありがたいんですけどね。
640 ◆MERIKEN4.k :2012/03/28(水) 12:50:30.75 ID:xNtu6SZY0 BE:1795526993-2BP(12)
>>637
>>639
Kepler2はTesla用のようですね。さすがにTeslaには手が出せないなあ。

> To keep things straight between the PCs and the servers, El Reg had Gupta
> dub the one used in GeForce PC GPUs “Kepler1″ because it will have a different
> design from the one used in Telsa server coprocessors at the heart of
> a number of very large and powerful supercomputers later this year. We’ll call
> that one “Kepler2″, which will have a heavy dose of double-precision floating
> point processing as well as more memory, ECC scrubbing on the memory,
> different packaging aimed at servers, and a higher price tag.
641 ◆MERIKEN4.k :2012/03/28(水) 12:51:12.77 ID:xNtu6SZY0 BE:4788072498-2BP(12)
あと、このページの「命令別スループット」の表をみるとKepler1がGPGPUに
向いていないのは明らかですね。論理演算が24/17クロックというのは厳しすぎる…

GTX680のグラフィック・GPGPU性能を調べる
http://dokumaru.wordpress.com/2012/03/27/gtx680-spec/
642やんやん ◆yanyan72E. :2012/03/28(水) 13:22:13.52 ID:owk7b3dl0
>>640
最近はTesla2070cがヤフオクで10万以下で出てたりします。
もはやTeslaは世界中のGPGPUのデファクトスタンダードなので、
安くなるのも早いと思いますよ。
643362:2012/03/29(木) 00:46:50.95 ID:dOoqFXZM0
>>641
浮動小数点演算を使ってない限り、GK104はグラフィック寄りと言うより
GPGPUを捨てたと言いたくなりそうな変化ですね。
CUDA Coreあたりの性能が落ちるとは聞いていましたが、
まさか単純な部類(?)だと思っていた整数演算・ビット演算が削られるとは。
一番時間がかかっている転置処理でシフトを多用してるのに所要サイクル8倍とか…。

ただ商品としてはおそらくこっちの方向のほうが正しいんでしょうね。
ゲームはもちろんのこと、GPGPUという枠の中でもエンコードなどfloat演算が多くを
占める(?)処理では、coreが増える分パフォーマンスが上がると思いますし。