【GPGPU】くだすれCUDAスレ part6【NVIDIA】

838 ：デフォルトの名無しさん：2014/04/16(水) 21:43:51.00 ID:NtFft60O

IntelがきっちりCPU向けに並列化したコードならxeonも速いよ、GPUメーカーの圧倒的数字は幻想だよせいぜい2倍だよ、みたいな主張をphiの宣伝時にやってて首を傾げたな
その理屈ならxeon倍積みましょう、って宣伝すりゃええやろと

結局、極端なオーダーではやっぱりGPUやphiの方が有利なケースがあるんだろうなと理解したけど

839 ：デフォルトの名無しさん：2014/04/16(水) 22:00:14.31 ID:Im3wLyAK

例の奴貼っておきますね。どうしても問題の性質や書き方やコンパイラに
依存する部分が大きいからな……
http://www.hpc.co.jp/benchmark20121113.html
http://www.hpc.co.jp/benchmark20130201.html
http://www.hpc.co.jp/benchmark20130329.html

840 ：デフォルトの名無しさん：2014/04/16(水) 22:46:25.66 ID:3pKdyFk1

やっぱこの人たちすごいな。
久々に見て回ったらK40の新機能のGPU Boostが他で使えるとか見つけてしまった。
水冷化してないけど試してみるか。

841 ：デフォルトの名無しさん：2014/04/27(日) 14:27:08.90 ID:KCo2Uyz6

cuda 6.0正式リリースきた
https://developer.nvidia.com/cuda-downloads

842 ：デフォルトの名無しさん：2014/04/28(月) 03:07:08.53 ID:eSg57KtL

もしかしなくても、
また面倒くさいことこの上ない初期設定をしないといけないのか。
インストールとVS2012で拡張子変えて保存するだけで動くようになって欲しいよ。
エラーがでると、どの設定がミスったのかバカには分からんのですよ。

843 ：デフォルトの名無しさん：2014/04/28(月) 11:41:14.51 ID:eFT4bAhD

>>842
自分が使ってるVSは2008 Pro SP1, 2010 Pro, 2012 Pro UP4 だけど、
CUDA Toolkit 入れた後、
新規プロジェクトなら「NVIDIA -> CUDA X.X」だけで、
既存のプロジェクトなら古いCUDA Tookkitと新しいのを両方入れて
プロジェクトを右クリックで「ビルドのカスタマイズ(B)...」すれば動くよ。
少なくとも CUDA Toolkit 4.x -> 5.0 -> 5.5 RC -> 5.5 -> 6.0RC -> 6.0 はこの方法でできた。

844 ：デフォルトの名無しさん：2014/04/29(火) 07:51:06.18 ID:xH63q4tk

>>843
VS ExpressだとNsight入らないんじゃない?

845 ：デフォルトの名無しさん：2014/04/29(火) 21:03:18.01 ID:AVMxK0NV

大して変わってないくせに開発環境変えるなよな

846 ：デフォルトの名無しさん：2014/05/03(土) 04:22:53.23 ID:qVaKcd2l

これまで開発したプログラムをmaxwellアーキテクチャーで動作させるには
5.5までのtoolkitでptxを吐かせるのか、6.0に移行するしかない模様。

847 ：デフォルトの名無しさん：2014/05/04(日) 16:05:09.46 ID:/x2IsFFD

>>846
3月末に、カーネルを15種類連続実行するプログラムを、
CUDA Toolkit 5.5でFermi(CC=2.0/2.1)用コンパイルした物、
Kepler(CC=3.0/3.5)用にコンパイルした物、
CUDA Tooklit 6.0でMaxwell(CC=5.0)用にコンパイルした物の3つで、
GeForce 750 + NSIGHT Visual Studio Editonで「All」でプロファイル採ってみた。
いずれの場合も、ほとんど速度が変わらなかったよ。

だから、無理にMaxwell(CC=5.0)用にする必要は無いかも。

848 ：デフォルトの名無しさん：2014/05/06(火) 20:16:14.86 ID:OXY1qxhv

>>847
これ
http://docs.nvidia.com/cuda/maxwell-compatibility-guide/#axzz30vrhsMg6
は釣りってこと? Σ(-д -;)

849 ：デフォルトの名無しさん：2014/05/07(水) 05:55:14.20 ID:OEkku2Ok

>>848
>>846 で合ってると思う。
Gxx→FermiやFermi→Keplerのときも、
新アーキテクチャ非対応な古いToolkitで作ったcubinは使えなかったはず。

850 ：デフォルトの名無しさん：2014/05/10(土) 00:08:49.78 ID:YhiaKf7O

Jetson買った人いる？

851 ：デフォルトの名無しさん：2014/05/10(土) 01:02:28.38 ID:sYRhNUSv

Jetsonってなんだと思ってぐるぐるしたら、NvidiaのRasPiか
RasPiより性能大分良いんだろうが、でも、2万超えは高いな

852 ：デフォルトの名無しさん：2014/05/10(土) 16:02:02.59 ID:p0Sddlo6

自動車用じゃん。スレチだろ

853 ：デフォルトの名無しさん：2014/05/10(土) 20:33:48.55 ID:/nRhPCsz

べつに限定されてはいない

組み込み用といだけ

854 ：デフォルトの名無しさん：2014/05/12(月) 23:57:23.84 ID:LAs79Y1U

この手の奴にBTデフォでついてんのみたことない
今後の組み込みの方向性的に必須なのに

855 ：デフォルトの名無しさん：2014/05/13(火) 00:15:45.25 ID:CSl2SJJR

CUDA Tooklit を6.0にしたらGPU稼働率が下がったんだけど気のせい?

856 ：デフォルトの名無しさん：2014/05/13(火) 00:29:27.71 ID:Iv7eBFJt

>>855
Ver変えたら能率が大きく違ったりするのはよくあることだからなあ……

857 ：デフォルトの名無しさん：2014/05/13(火) 01:44:04.16 ID:CSl2SJJR

CUDA Tooklit を5.0から6.0にしたら
数値計算プログラムの挙動がおかしくなったorz
おんなじような事になった人いますか?

858 ：デフォルトの名無しさん：2014/05/13(火) 04:13:33.08 ID:CSl2SJJR

連投すんません。数値計算上の安定化を入れたら解決しました。
浮動少数演算の癖がこれまでと違うのかも・・・。

859 ：デフォルトの名無しさん：2014/05/13(火) 12:29:21.30 ID:pJVewP3A

安定化って何したんですか？

860 ：デフォルトの名無しさん：2014/05/13(火) 12:54:09.60 ID:X1Xq41se

http://ja.wikipedia.org/wiki/%E6%95%B0%E5%80%A4%E7%9A%84%E5%AE%89%E5%AE%9A%E6%80%A7

861 ：デフォルトの名無しさん：2014/05/13(火) 14:08:06.19 ID:CSl2SJJR

>>859
非線形最小二乗法のプログラムで、
一回の反復で更新する解の量を少し減らしたら安定しました。
CPUプログラムよりもGPUプログラムの場合に、
初期値からとんでもなく離れていってしまう場合が多いように感じます。

862 ：デフォルトの名無しさん：2014/05/13(火) 14:15:03.11 ID:CSl2SJJR

>>859
http://en.wikipedia.org/wiki/Nelder%E2%80%93Mead_method
4. Expansion
のパラメータγを通常2とするところ、
1.9-2.0の間で初期値に応じて変化させるようにしました。

863 ：デフォルトの名無しさん：2014/05/13(火) 15:22:39.27 ID:pJVewP3A

>>860-862
サンクス
誤差の拡大を抑えるってことなんですね
でもCUDAバージョンの違いで問題が出るってなんだろ？
へんな最適化がされてしまってるのかなあ

864 ：デフォルトの名無しさん：2014/05/13(火) 20:36:41.53 ID:ckwx0yCj

演算の挙動が論理的に変わるような変更ってあったっけ？

865 ：デフォルトの名無しさん：2014/05/17(土) 07:57:45.29 ID:jeRfV2R/

http://developer.download.nvidia.com/compute/cuda/6_0/rel/docs/CUDA_6_Performance_Report.pdf

CUDA 6 Report

866 ：デフォルトの名無しさん：2014/06/02(月) 06:58:55.56 ID:/UMjeXQW

はじめて CUDA いじってるんだけど、
cu のコンパイルってこんなに時間がかかるものなの？
ホスト側の修正しかしてないときでも
一分近くかかってる。そういうもんなのかな。。。

nvcc にも /MP スイッチみたいなのがあるのですか？

867 ：デフォルトの名無しさん：2014/06/02(月) 09:27:45.28 ID:/UMjeXQW

ちなみにソースは正味100行足らずの試験的なもので、ビルドに40秒。そんなもん？
コンパイル環境は [email protected], メモリ16GB
Visual Studio 2012 Express
ソースもコンパイラもSSDにおいてある。

868 ：デフォルトの名無しさん：2014/06/02(月) 10:55:24.62 ID:RRDufV9P

ホスト側とデバイス側と極力分離してみては如何でしょう。
VisualStudioでどう設定するのか知らんけど。

869 ：デフォルトの名無しさん：2014/06/02(月) 11:21:37.01 ID:tefrIQhm

コンパイラにverbose出力ないのん

870 ：デフォルトの名無しさん：2014/06/02(月) 20:51:44.01 ID:S9gNSwt5

とりま、使うデバイス以外のcompute capablityはオフにしとけば。

871 ：デフォルトの名無しさん：2014/06/09(月) 21:21:17.93 ID:H0RPBYns

GPGPU良いな。一部のプログラムには革命的な変化じゃないか？

872 ：デフォルトの名無しさん：2014/06/09(月) 21:21:55.03 ID:q+E/nugM

そう、"一部の"プログラムにはな･･･

873 ：デフォルトの名無しさん：2014/06/09(月) 21:32:22.91 ID:H0RPBYns

…それは分かるけど、面白味が薄くなるような…

874 ：デフォルトの名無しさん：2014/06/09(月) 21:36:57.21 ID:QoOJXL5M

ピーキーすぎて俺には無理だよ

875 ：デフォルトの名無しさん：2014/06/10(火) 09:40:06.93 ID:eYm4IToQ

もうCUDA6.5の話？
http://www.alexstjohn.com/WP/2014/06/01/cuda-6-5/

876 ：デフォルトの名無しさん：2014/06/10(火) 22:38:52.85 ID:QBeTFx/V

Windows 上で CUDA と MPI を組み合わせる場合、
お勧めの実装は？

IntelMPI は大学でライセンス持っているので自由に使えるけど
他でも使いたいならMSのほうがいいの？

CUDA SDK 付属の simpleMPI は、HPC Pack SDK 2008
入れろとコメントにあるけど。

877 ：デフォルトの名無しさん：2014/06/12(木) 07:10:46.92 ID:YdpIxzVu

>>876
openmpi
intelやmpich2系はlocalonlyオプションつけないと動かない。

878 ：デフォルトの名無しさん：2014/06/14(土) 12:36:19.80 ID:yTlFq1Bu

>>877

thanks! でも Windows サポートが不安だなぁ。

binary support for a Microsoft Windows Open MPI build has been discontinued

MS の MPI じゃダメなのかかな？とりあえず HPC Pack SDK 2008
入れて CUDA SDK 付属の simpleMPI を動かしてみます。

879 ：デフォルトの名無しさん：2014/06/16(月) 09:56:39.69 ID:juShtlay

cuda fortranについて初歩的な質問なのですが、
PGI workstationで、-cublasとオプションを付けてコンパイルしようとすると、
『fatal error LNK1104: cannnot open file 'libcublas.lib'』とエラーが出てしまいます。
この場合、どうしたら良いですかね?
どなたか教えてくださると助かります。

880 ：デフォルトの名無しさん：2014/06/16(月) 09:59:43.88 ID:juShtlay

すいません。スレチでした。
超初心者用のスレで質問します。

881 ：デフォルトの名無しさん：2014/06/19(木) 13:24:38.41 ID:Ok4JgD8W

>>875
driverはもう6.5なんだね
第二世代maxwellが近いのか？

CUDA Device Query (Driver API) statically linked version
Detected 1 CUDA Capable device(s)

Device 0: "GeForce GTX 750 Ti"
CUDA Driver Version: 6.5
CUDA Capability Major/Minor version number: 5.0
Total amount of global memory: 2048 MBytes (2147483648 bytes)
( 5) Multiprocessors, (128) CUDA Cores/MP: 640 CUDA Cores
GPU Clock rate: 1163 MHz (1.16 GHz)
Memory Clock rate: 2750 Mhz
Memory Bus Width: 128-bit
L2 Cache Size: 2097152 bytes

882 ：デフォルトの名無しさん：2014/06/30(月) 15:25:08.95 ID:G0tbs7Lv

http://devblogs.nvidia.com/parallelforall/low-power-sensing-autonomy-nvidia-jetson-tk1/#more-3339
単精度だがなるほど

883 ：デフォルトの名無しさん：2014/07/03(木) 07:03:29.57 ID:gcrIBLFV

>>882
マーケットが広がるのはよい事だね。
CUDAに還元されると折りがたい。

884 ：デフォルトの名無しさん：2014/07/09(水) 00:43:09.07 ID:1pfhgWuA

6.5 RCきたぞ。ようやくVS2013対応か。

885 ：デフォルトの名無しさん：2014/07/09(水) 20:40:59.43 ID:mdrCRe9m

vs2008はまだサポートされるの?

886 ：デフォルトの名無しさん：2014/07/10(木) 09:59:29.53 ID:IJ3OeGab

なくなった

887 ：デフォルトの名無しさん：2014/07/16(水) 05:54:34.46 ID:P8g/JMC5

nForceのビデオカードが３つささるマザーボードを手に入れたのですが
OpenCVのCUDAを使った超解像度計算を高速にするのに
適当なビデオカードを３つ刺してみようかと思っています
しかしビデオカードが複数あるとかえって動かすのが難しくなってしまうのでしょうか
OpenCVなら、その辺も自動でやってくれたりしないのでしょうか

http://bighow.net/4371742-Error_OpenCV_with_CUDA_using_TBB_for_multiple_GPUs.html