>>513 > 変数をいかにベクタレジスタに割り付けるかが勝負どころだと思っています。
これはその通りだと思います。特にBitslice DESはregister pressureが
大きいので、手作業でレジスタ割り付けを工夫すればかなりoccupancyを引き上げることが
出来るはずです。今のレジスタの数から見て数割の高速化は堅いでしょう。
> LLVMを使ってるだけあって結構いいところまで最適化されています。
でもAMDのドライバって結構酷いバグが残ってるんですよね〜
バグでローカル変数が吹っ飛んでたのには本当に参りました。
カーネルのビルド時のオプションで最適化は切っておいたほうが良いなんて話もありました。
今のOpenCLの実装はバグを避けるために妥協しているところもあるので何とかしたいですね。
> そういう向きにはXeon Phiの方が向いているんでしょうが如何せんお高いので。
Xeon PhiのAVX-512はぜひ試してみたいですねえ。そのためにはもっと稼がないと…