【トリップ検索】MERIKEN's Tripcode Finder

このエントリーをはてなブックマークに追加
1 ◆MERIKEN4.k
こちらはMERIKEN's Tripcode Finderの本スレです。動作報告・質問・要望等は
こちらでどうぞ。

MERIKEN's Tripcode Finder(旧CUDA SHA-1 Tripper MERIKEN's Branch)は
2012年9月現在で最速の12桁トリップ検索プログラムです(最高速の記録は
1689.88M tripcodes/s)。CPUのみでも検索できますが、NVIDIA GeForce
シリーズのビデオカードを使用すれば非常に高速に検索を行うことが
できます。特徴は以下の通りです。

・ビデオカードのGPUによる高速検索(CPU検索にも対応)。
・GUIによる簡単な操作(コマンドラインからの使用も可能)。
・正規表現によるターゲットの指定。
・漢字等のShift-JIS文字を含むキーの探索。
・ヒット率、ヒットまでの平均時間等のさまざまな情報の表示。
・ターゲットの数の制限の撤廃。
・10桁トリップ検索への暫定的対応。
・検索速度の実行時の最適化。
・GPLv3で公開されたソースコード。

■入手先
http://www.meriken2ch.com/programming/merikens-tripcode-finder

■前スレ
http://anago.2ch.net/test/read.cgi/software/1311428038/
2 ◆MERIKEN4.k :2012/09/25(火) 18:25:02.27 ID:BDWiD/680
■動作環境

【OS】Windows XP/Vista/7/8
【ビデオカード】NVIDIA GeForceシリーズ (ビデオカードがなくてもCPU検索は可能)
【その他】使用するためには次のソフトウェアが必要です。

Microsoft Visual C++ 2010 再頒布可能パッケージ(x86)
http://www.microsoft.com/ja-jp/download/details.aspx?id=5555

Microsoft .NET Framework 4
http://www.microsoft.com/ja-jp/download/details.aspx?id=24872

NVIDIA Display Driver Version 270.81以降 (ビデオカードを使用する場合)
http://www.nvidia.co.jp/Download/index.aspx?lang=jp
3 ◆MERIKEN4.k :2012/09/25(火) 18:25:52.01 ID:BDWiD/680
テンプレは以上です。
4名無しさん@お腹いっぱい。:2012/09/25(火) 18:44:35.85 ID:Qhc6H21w0
なるほどね
5 ◆GikoNekobg :2012/09/25(火) 19:16:55.78 ID:02FTxb4E0
>>1
乙です。
6 ◆MERIKEN4.k :2012/09/25(火) 19:31:30.09 ID:BDWiD/680
>>5
どもども。このスレでもよろしくお願いします。
7名無しさん@お腹いっぱい。:2012/09/26(水) 12:40:40.37 ID:ByM5Pmt60
トリップ検索ソフトとか懐かしいなー
昔Athlonだったのでmtyとか使ってた
当時10Mtrips/sで神だったのが1500Mとかどうなってるんだよw
トリップ12桁になったから単語の自由度も増えてそれでも探し飽きることはなさそうだけど
8 ◆MERIKEN4.k :2012/09/26(水) 20:33:41.60 ID:jtRg0Unf0
>>7
次の目標は2G超えですw トリップ探しは結構面白いですよね。正規表現が
使えるようになったのでかなり自由に探せるようになりました。
9 ◆MERIKEN4.k :2012/09/26(水) 20:38:13.33 ID:jtRg0Unf0
しばらくGUI版ばっかりつかってますけど、やっぱり細かいところがいろいろ
気になって来ました。やっぱ一時停止の機能は必要ですね、これ。
Win32のメッセージ通信を使うしかないのか…
10 ◆MERIKEN4.k :2012/09/26(水) 20:45:19.60 ID:jtRg0Unf0
前スレで報告していただいた正規表現のバクですけど、こちらでも再現できました。
以前からどうも怪しいと思っていたので、具体的な例が見つかって大変助かりました。
問題はこれからどうするかということなんですけれども…
11 ◆MERIKEN4.k :2012/09/26(水) 21:08:16.81 ID:jtRg0Unf0
で、問題の組み合わせはこれです。すぐにヒットするはずの"^AAA\.\."が
ヒットしないのです。

#regex
^[Aa]+$
^\.+$
^\.*AAA\.*$
^AAA\.\.

正規表現のパターンは内部である程度展開されているんですけど、
問題があるとしたら、(1)展開の仕方か、(2)検索時の見逃しか
どちらかのはずです。
12 ◆MERIKEN4.k :2012/09/26(水) 21:36:03.10 ID:jtRg0Unf0
内部変数をダンプしたらあっさり原因がわかりました。

> expandedPatternArray[ 10] = {`AAA..', 0}
> expandedPatternArray[ 11] = {`AAA.........', 0}

この部分でexpandedPatternArray[11]の条件が
expandedPatternArray[10]の条件と重なっているのが問題だとおもわれます。
expandedPatternArray[11]を取り除くようなルーチンを書いてやれば
解決するはずです。今あまり時間がないので今晩やろっと。
13名無しさん@お腹いっぱい。:2012/09/27(木) 01:31:47.33 ID:DTS13qdU0
AMDがなんかツール出したみたいだな
http://developer.amd.com/tools/hc/CodeXL/pages/default.aspx
14 ◆MERIKEN4.k :2012/09/27(木) 09:07:42.08 ID:RgFyVNT60
>>13
今去年組み立てたPCにWindows 7をインストールしているところです。
Radeon HDとOpenCLの組み合わせが楽しみです。
15 ◆MERIKEN4.k :2012/09/27(木) 09:12:01.55 ID:RgFyVNT60
前スレで報告していただいた正規表現のバク(>>10-11)はあっさり直りました。
たま〜に引っかかるはずのパターンがなかなか引っかからなくて気にはなっていたのですが、
これで本当にすっきりしました。報告していただいてありがとうございました。
16名無しさん@お腹いっぱい。:2012/09/27(木) 16:06:19.98 ID:nRvDmR7c0
バグ報告した者です。迅速なご対応に感謝致します。
最強のツールにまた一歩近付きましたね。
17 ◆MERIKEN4.k :2012/09/27(木) 19:47:40.06 ID:RgFyVNT60
>>16
どもども。これで野望にまた一歩近づきましたw
18 ◆MERIKEN4.k :2012/09/27(木) 19:59:16.84 ID:RgFyVNT60
AMD APP SDKをインストールしてみましたけど、
サンプルの一部が最新のSDKに対応していなかったりと
投げやり感が半端ではありません。「資料がない」という話は
よく目にしたけど、こういうところもCUDAのほうに開発者が
流れる原因になっているんでしょうねえ。
出来ればひとつのバイナリでNVIDIAとATI/AMDの両方のグラボに
対応させたいので、OpenGLについてはのんびり調べてみたいと思います。
19名無しさん@お腹いっぱい。:2012/09/27(木) 20:19:37.33 ID:1Ykdb2GU0
GLじゃなくてCL
つかCLはバイナリ互換でなくてソース互換だったような…
20 ◆MERIKEN4.k :2012/09/27(木) 20:30:40.66 ID:RgFyVNT60
>>19
またやらかしてしまった… 「一つのバイナリで」と書いたのは
一つの実行ファイルでCUDAとOpenGLの両方に対応する、という意味です。
21 ◆MERIKEN4.k :2012/09/27(木) 20:41:36.92 ID:RgFyVNT60 BE:1064016544-2BP(12)
また「OpenGL」って書いてしまった。もう癖になってるんだろうな…
サンプルを見てたら、とりあえずOpenCL.libをリンクして
CL/cl.hppをインクルードしてやればOpenCLのAPIは呼び出せるらしいことが
わかりました。なんとか楽をして既存のプロジェクトからAPIを
呼び出せるようにしたいところです。
22 ◆MERIKEN4.k :2012/09/27(木) 22:01:09.35 ID:RgFyVNT60
サンプルを参考にして自分で新規のプロジェクトを作成して
OpenCLのカーネルを呼び出すことに成功しました。これで
環境は整ったので後はひたすらOpenCLのコードを書くだけです。

しかしこれ、アプリケーションを実行するたびにカーネルをコンパイル
するようになっているんですね。デバッグとか超めんどくさいことに
なりそうな予感…
23名無しさん@お腹いっぱい。:2012/09/27(木) 23:33:47.26 ID:S+YUBJ0t0
>>22
コンパイル済みのバイナリを与えること(オフラインコンパイル)も可能だけど、
いろんなデバイスで使われる場合は実行時のコンパイル(オンラインコンパイル)でないとつらいのかな
24 ◆MERIKEN4.k :2012/09/28(金) 04:09:20.72 ID:W8Jdy5PC0
>>23
やっぱりそういう機能もあるんですね。CUDAだとコンパイル時にComputing Capabilityを
幾つか指定できるようになってますけど、AMD APP SDKの場合はどうなんだろう…
25 ◆MERIKEN4.k :2012/09/28(金) 05:24:02.74 ID:W8Jdy5PC0
まあでも本格的にOpenCLに取り組む前に今のバージョンの安定版を出すほうが先です。
とりあえず一時停止の機能を何とかしないと…
26 ◆MERIKEN4.k :2012/09/28(金) 08:26:55.90 ID:W8Jdy5PC0
どうやって一時停止の機能をなるべく楽をしながら組み込むか考えていたのですが、
とりあえずMutexを試してみることにしました。計算資源をMutexで管理すると
考えるわけです。
27 ◆MERIKEN4.k :2012/09/28(金) 09:20:43.23 ID:W8Jdy5PC0
Mutexを使った実験は無事成功して、検索プロセスから一時停止の状態を
検知することができました。これであとは検索プロセス側の処理を
実装するだけです。
28 ◆MERIKEN4.k :2012/09/28(金) 14:07:36.48 ID:W8Jdy5PC0
検索の一時停止の機能の実装は無事に終わりました。
Mutexが使えるのがわかってからはかなり楽でした。
Mutexを一時停止状態を表すフラグとして使っているので
本来の使用法とはだいぶ違うのですが、うまく動いているので
問題ないでしょう。GUIをあとちょこっと直してから
明日辺りにBeta版をうpする予定です。
29 ◆MERIKEN4.k :2012/09/28(金) 19:28:36.32 ID:W8Jdy5PC0
さっきまたちょっといじって「上へ」ボタンと「下へ」ボタンを追加して、
検索パターン一覧内でパターンの位置を移動できるようにしました。
ちょっとした変更ですけどかなり使い勝手が違ってきます。
Visual C#はVB並のお手軽さでロジックをそのままの形で記述できるのが
実にいいです。あとはエラーチェックの気になっている部分を直したら
Beta版の完成です。
30 ◆GTX680Mcys3u :2012/09/28(金) 21:45:14.82 ID:khjcdUZG0
開発お疲れ様です。
ちょっとリアルが忙しかったんでGUI版テストしてませんでした。
せっかくCPUスレッド数の指定とかも盛り込んでもらったのにすみません。
今から回してみます。
31 ◆MERIKEN4.k :2012/09/28(金) 21:50:54.39 ID:W8Jdy5PC0
>>30
GUI版ぜひ使ってみて下さい。1週間でC#を勉強しながら
作った割にはいい出来ですw
32 ◆GTX680Mcys3u :2012/09/28(金) 22:27:21.02 ID:khjcdUZG0
>>31
すごく使いやすいですよ。

それとブロック/スレッド各オート時で
自分で設定詰めたものとあまり遜色ないくらい速度出てます。
安定して速度が出始めるまでには5分から10分はかかっていますが
細かく設定詰めなくてもここまで出るのはユーザ側にとってはかなりありがたいかと。
33 ◆MERIKEN4.k :2012/09/29(土) 07:14:05.43 ID:pr6TSdub0
>>32
「お手軽に最高の性能を出す」のが目標なのでそう言っていただけると
嬉しいです。性能改善という点ではCUDAではほぼやれることはやり尽くしてしまった
感があるので、やっぱり残りはCPU検索とRadeonへの対応ですね。
34 ◆GTX680Mcys3u :2012/09/29(土) 07:24:15.45 ID:F5hHEtjs0
>>33
そのコンセプトからするといい方向かと。
DOS窓でコマンド打ってまでやろうと思わない人のほうが多いでしょうしw

ただ、CPUのオートについてはまだ改良の余地があるかもしれません。
オートより6スレッドの方が自分の3820QMじゃ安定して速度出てました。
オートだと100%使い切っちゃってましたし。GPUドライバ周りのCPU負荷が高そう。
自分の使った感想だと6スレッド≧7スレッド>8スレッドでした。トータル速度的にも。

トリッパー回しながらPCを使うという場面を想定してもオートだときつかったです。
いちおCPUは非力じゃないはずなのにオートだとまともに文字打てなくなりましたから。

ただ、CPU単体検索という面に於いても従来のソフトの2倍近く速度は出てるんじゃないですかね。
35名無しさん@お腹いっぱい。:2012/09/29(土) 08:32:45.87 ID:F0pVK4ov0
手持ちのDualCPUのXeon 5080(NetBurst)と8800GTXの組み合わせだと12桁で
自動だと 132.72M
8スレッド 131.05M
7スレッド 132.40M
6スレッド 131.47M
みたいな結果となりますのでCPUの種類によっては自動が最適なんてこともあるみたいですよ

CPU検索のみを実行しますと
オート設定だと12.49M
8スレッドだと12.41M
7スレッドだと11.18M
6スレッドだと10.32M
5スレッドだと9.28M
4スレッドだと8.19M
3スレッドだと6.23M
2スレッドだと4.25M
1スレッドだと2.11M
という結果で同時期のハイエンドGPUの8800GTXは
GPU単体だと121.35Mなので10倍近く高速と言う結果となります

あと負荷掛け続けるとCPUが過熱し過ぎたのか警笛が鳴って焦ったw
やはりGPGPUはエアフローに気を付けないとCPUも熱くしてしまうので要注意ですね
36 ◆MERIKEN4.k :2012/09/29(土) 08:43:28.33 ID:pr6TSdub0
>>34
CPU検索の自動設定は、何も考えずにCPU検索スレッドの数を
「(論理スレッドの数) - (GPUの数)」に設定しているだけなので、
これも変える必要がありますね。たぶんIntelの石ではhyper-threadingの
おかげでスレッド数を下手に増やすと遅くなる場合もあるのでしょう。
ここらへんはもうちょっと調べる必要があります。

現在の実装だととにかく速度を出すために目一杯計算資源を使っているので、
利便性の点からはかなり改善の余地があるでしょうねえ。検索スレッドの
優先度を低く設定してやるのも手かもしれません。今考えているのは検索の設定で
速度を「速い」とか「最大」とか「ゆっくり」とかから選べられるようにすること
です。GUIの実装が一段落したらぜひ取り組みたいですね。
37 ◆MERIKEN4.k :2012/09/29(土) 09:05:48.91 ID:pr6TSdub0
>>35
詳しい報告、ありがとうございました。スレッド数を増やしてもペナルティに
ならないのはやはりXeonだからなんでしょうかね。非常に興味深いところです。
8800GTXも結構速度が出てますね。テスト用に一個欲しいところです。

このプログラムはシステム全体にとんでもない負荷をかけるのでかなり注意する
必要がありますね。私のメインのデスクトップPCはケースの蓋が開けっ放しです。
次からははじめからこんなの
http://www.dangerden.com/store/popup_image.php?id=428
か、こんなの
http://www.dangerden.com/store/popup_image.php?id=250
にしておきます…
38 ◆MERIKEN4.k :2012/09/29(土) 09:08:13.46 ID:pr6TSdub0
あれ、写真が出てこないや。元のリンクはこっちです。
http://www.dangerden.com/store/dd-torture-rack.html
http://www.dangerden.com/store/dd-extended-air-box-eatx.html
39 ◆MERIKEN4.k :2012/09/29(土) 09:14:52.79 ID:pr6TSdub0
それはそうと、ウィンドウの状態の保存の処理をすっかり忘れてたので
現在実装しているところです。とりあえずここのコードを使わせてもらって
ウィンドウの位置は保存されるようになりました。
http://stackoverflow.com/questions/105932
あとは各タブの状態を保存してやるようにすればGUIの実装は一段落ということに
なります。
40 ◆GTX680Mcys3u :2012/09/29(土) 09:16:59.23 ID:F5hHEtjs0
>>35
そこはどうなんでしょね。
Keplerは従来よりもCPU負荷がきついですから
Fermiまでとは違うという事も考えられます。

いずれにせよ色々なプラットフォームで自動で最高の結果を出そうとすると
相当にデータ集めが必要なんだと思いますよ。単純に。
ホントにプログラミングとかかじったこともないド素人の意見ですけども。
41 ◆GTX680Mcys3u :2012/09/29(土) 09:19:29.25 ID:F5hHEtjs0
つーかごめんなさい個人的なことをいうと
俺のノートはパワーもないしOCの幅もないけど、開発に携われるだけでうれしいです。
新バージョンにクレジットしてくださっただけでも本当にうれしかったです。

できることはできる範囲で全力でやります。
42 ◆MERIKEN4.k :2012/09/29(土) 09:25:10.70 ID:pr6TSdub0
>>40
> Keplerは従来よりもCPU負荷がきついですから

こういう要素もあるんでしょうねえ。最適化の作業を進めていると
各Compute Capability毎に1枚テスト用のカードが欲しくなりますけど
流石にそんなわけにもいかないですからねえ。こうやって色々報告していただけると
助かります。
43 ◆GTX680Mcys3u :2012/09/29(土) 09:34:09.06 ID:F5hHEtjs0
あとテスト報告ですけども
3820QM+GTX680Mの最新版でのベストスコアは
GPU(224Bl/SMX):294+CPU(6T):26の320MT/sでした。
これは瞬間値じゃなくて長時間平均をとりました。

CPU、GPUそれぞれの単体でも従来よりずっと速いです。
44 ◆MERIKEN4.k :2012/09/29(土) 09:36:34.21 ID:pr6TSdub0
>>41
私としてはこのプログラムができるだけいろんなグラボで動くようになればいいと
考えているので、グラボの性能自体はそれほど気にしていないのです。実際のところ
ちゃんと動いているのが確認できて安心しましたw
45 ◆MERIKEN4.k :2012/09/29(土) 09:42:08.87 ID:pr6TSdub0
>>43
Keplerちゃんもなかなか頑張ってますね。CCが3.0の場合はCPU検索スレッドの数を
1つ減らしてやるぐらいがちょうどいいのかな。あとで修正しておきます。
46 ◆GTX680Mcys3u :2012/09/29(土) 10:09:02.52 ID:F5hHEtjs0
>>45
今までのことを考えるととんでもないスピードだと思いますよコレ
確かにFermiの方がCUDAは速いけどもKeplerでも十分に速いと思います
というか構造上KeplerにCUDAのスピード求めるのも酷ですしね

あとノートは数日前にGTX6xxMXが発表されてKepler化がどんどん進むと思われます
こんだけ省電力で3D性能(に限って言えば)上昇してればKeplerシフトは進むわなぁ
47名無しさん@お腹いっぱい。:2012/09/29(土) 12:34:00.86 ID:F0pVK4ov0
同じG80コアであるGeForce8800GTXとQuadroFX4600の同時使用は可能みたいですので
やはり動かす時は同じComputing Capability同士のGPUを使用した方が良さそうです
ついでに12桁での速度は
FX4600単体で80.25M
GPUx2で202.17M
CPUGPU込みで210.00M
消費電力は最大664Wとかなりの電気食いです
48名無しさん@お腹いっぱい。:2012/09/29(土) 12:37:59.39 ID:F0pVK4ov0
というかNetburstベースのXeonの効率の悪さに驚愕ですね
548Wも食って12M位しか出ないCPU
552Wとチョイ上回る程度で202MもでるGPU…
49 ◆MERIKEN4.k :2012/09/29(土) 20:14:34.09 ID:pr6TSdub0
>>46
ま〜ノートにFermiとか想像できないですからねえ。7xxシリーズでも
一部はKeplerのままかもしれません。
50 ◆MERIKEN4.k :2012/09/29(土) 20:20:49.38 ID:pr6TSdub0
>>47-48
Compute Capabilityが違うカードのために幾つかcubinを用意してるんですけど、
これらのバイナリを同時に使うことは出来ないということなんでしょうね。
さっきソースでエラーチェックを怠っていた場所を特定したので、
新しいバージョンではちゃんとエラーが出るはずです。
Netburstはもう仕方がないですね。自分の使ってたPentium 4もとんでもない
爆熱仕様でした…
51 ◆MERIKEN4.k :2012/09/29(土) 20:23:42.65 ID:pr6TSdub0
バージョン0.05のBeta版が出来ました。

MERIKEN's Tripcode Finder 0.05 Beta 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder

今回の変更点は以下になります。

・ウィンドウの設定の保存。
・GUIの改善。
・正規表現のバグの修正。
・エラーチェックの改善。

このバージョンに問題がなければ、これをこのまま安定版にする予定です。
52 ◆MERIKEN4.k :2012/09/29(土) 21:08:28.50 ID:pr6TSdub0 BE:1596024083-2BP(12)
さっきうpしたばかりのBeta版ですが、うっかりエラー処理の不具合を
見逃していました。すいません… 修正したバージョンに差し替えておいたので
ダウンロードされた方はお手数ですがもう1回お願いします。

MERIKEN's Tripcode Finder 0.05 Beta 2
http://www.meriken2ch.com/programming/merikens-tripcode-finder
53 ◆GTX680Mcys3u :2012/09/30(日) 02:39:31.15 ID:agZKuHqF0
>>49
いやーそれがノートの6xxシリーズでも675Mとか670MなんかはFermiなんですよ。
そして当然ながら、全く同じ環境でも680M比で675Mは温度が10度以上高い。
真夏とはいえ、ゲームやるとGPUが90度オーバーとかいうトチ狂った温度になってましたから。

しかし675Mは580Mのリネームな上に
今度は(多分)Keplerの675MXを出すとかなんで分かりづらすぎです。
54名無しさん@お腹いっぱい。:2012/09/30(日) 04:27:03.30 ID:+wNyJ2vx0
今、ベータ版廻させて貰ってまけどT9600 2CHで、5時間目で2.8Mt/sってところですね
思ったような酉が出てきてないのでもう少し廻しますが、WCG構造解析しながらでこれは結構出てると思います
便利なツールをありがとうです
55 ◆MERIKEN4.k :2012/09/30(日) 09:41:04.48 ID:ObpMiRkk0
>>53
90度で常用だとかなり不安ですねえ。一応設計上は97℃まで大丈夫なはずですけど…

>>54
どもども。CPU検索はもうちょっと速くしたいですね。
56 ◆MERIKEN4.k :2012/09/30(日) 09:56:55.32 ID:ObpMiRkk0
AMDのグラボについて調べてたんですけど、7xxxシリーズから大幅に
アーキテクチャが変わっているそうで… 今持ってるのは去年試しに買った
5770だけなので、とりあえずコードをOpenGLで動くようにしてから、
最適化をおアーキテクチャ毎に行うことになりそうです。
まあなんにせよOpenGLへの移植はかなりの長丁場になりそうなので、
CPU検索の性能向上と並行して行うことになるでしょう。
57名無しさん@お腹いっぱい。:2012/09/30(日) 10:09:09.71 ID:pXlpWFSy0
tesla K20が出るとさらに凄いことになりそう
58 ◆MERIKEN4.k :2012/09/30(日) 10:13:22.70 ID:ObpMiRkk0
さて、バージョン0.06の目標はCPU検索の速度向上なんですけど、
とりあえず簡単そうな12桁検索のほうから手を付けたいとおもいます。
次のコードが良さ気なんですけど、まずアセンブルできる環境を
整えないといけないですね…

次のはIntelの開発者が作った64bit版のルーチンで、

Improving the Performance of the Secure Hash Algorithm (SHA-1)
http://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1?page=1

こっちが32bit版らしいです。

http://cvs.openssl.org/fileview?f=openssl-addons/intel-accel/sha1-586.pl&v=1.1
59 ◆MERIKEN4.k :2012/09/30(日) 10:14:55.88 ID:ObpMiRkk0
>>57
Tesla K20も試してみたいけどさすがにお値段が…
K10も$3200ぐらいですからね。
60名無しさん@お腹いっぱい。:2012/09/30(日) 10:18:23.84 ID:Js8qHTUK0
CPU検索の速度向上は期待大です
GPUと並行できるのってかなり強みだと思います
61 ◆MERIKEN4.k :2012/09/30(日) 10:28:15.25 ID:ObpMiRkk0
今のCPU検索の実装は10桁検索の実装の副産物なので、
性能的にはそれほど最適化されてないのです。
どうやらSSE3をつかえばかなり高速化出来るらしいということまでは
わかったのですが…
62名無しさん@お腹いっぱい。:2012/09/30(日) 10:30:40.08 ID:Js8qHTUK0
そういえば10桁検索ツールのほとんどがSSE2止まりでしたね
開発進行中なのはMERIKENさんのだけじゃないでしょうか
63 ◆MERIKEN4.k :2012/09/30(日) 10:49:25.11 ID:ObpMiRkk0
OpenSSLのperlのコードからなんとかGNU asのコードを取り出したいところです。
…などと書いてたんですけど、Macで次のコマンドを実行したらNASM用のコードが
出てきました。

perl sha1-586.pl win32n

出力もそれっぽいし、面倒くさいこと無しにこのまま使えるかも…

> %ifidn __OUTPUT_FORMAT__,obj
> section code use32 class=code align=64
> %elifidn __OUTPUT_FORMAT__,win32
> [email protected] equ 1
> section .text code align=64
> %else
> section .text code
> %endif
> ;extern _OPENSSL_ia32cap_P
> global _sha1_block_data_order
64 ◆MERIKEN4.k :2012/09/30(日) 11:00:46.17 ID:ObpMiRkk0
>>62
一応今の開発環境だとAVXまで対応できるんですけどねw
色々面白いことが出来るんじゃないかという気はしますけど、
x86系のアセンブラをいじるのはそれこそ10年ぶりぐらいなので、
今後の進展は神のみぞ知るといったところです。
65名無しさん@お腹いっぱい。:2012/09/30(日) 11:09:03.16 ID:3jZ6K13B0
SSE3以降は各社の足並みが揃うのがかなり遅かったですし
無理に最新の拡張命令に対応する必要もないと思いますけどね
66 ◆MERIKEN4.k :2012/09/30(日) 11:12:30.11 ID:ObpMiRkk0
色々ググってたら面白いことが分かりました。
このSSE3用の_sha1_block_data_orderというルーチンは、
どうやら次のEric Young氏によるSHA-1の実装と組み合わせて使うらしいです。

> # define HASH_BLOCK_DATA_ORDER sha_block_data_order
    :
> __private_extern__ void HASH_BLOCK_HOST_ORDER (SHA_CTX *c, const void *d, int num)
http://www.opensource.apple.com/source/CommonCrypto/CommonCrypto-7/Source/sha_locl.h

これはかなり楽して速度を上げられそうな予感…
67 ◆MERIKEN4.k :2012/09/30(日) 11:18:20.06 ID:ObpMiRkk0
>>65
SHA-1ではAVXは使いませんけど、実はAVXによるBitslice DESの実装にはかなり
興味があるのです。なんせレジスタ長が128bitから256bitになっていますからね。
Bitslice DESの特性を考えれば、AVXによる恩恵を直接受けられるのではないかと
思われます。その前に10桁検索をSSE2に対応させるのが先なんですが…
68名無しさん@お腹いっぱい。:2012/09/30(日) 11:29:08.05 ID:2xjcYG2H0
興味をお持ちの分野から着手なさるのがいいかと。
それが有限の時間の中で一番効率がいいと思います。

我々下々にくだるご光栄のおこぼれも増えると思われます。
must to do 事項はなかなかしんどいですから。

ああ私は他力本願‥‥‥
69名無しさん@お腹いっぱい。:2012/09/30(日) 11:31:58.23 ID:Js8qHTUK0
エラーログに12完トリップキーを記録させて搾取するのがいいと思います(適当)
70 ◆GTX680Mcys3u :2012/09/30(日) 12:08:02.09 ID:agZKuHqF0
>>67
うちのIvyちゃんにできることがあれば…
ワッパは少なくともこのスレじゃ最強なはずだし気楽に回せますよ。
全開でもCPUは45Wとかですから。
71名無しさん@お腹いっぱい。:2012/09/30(日) 13:26:20.43 ID:iSWzbDt2P
>>58
intelのなら特許からんでくるかもね(*‘ω‘*)
72 ◆MERIKEN4.k :2012/09/30(日) 13:30:17.43 ID:ObpMiRkk0
>>71
Intelの中の人のコードは利用は自由だと書いてあるので問題ないでしょう。

> It is provided 'as is' and free for either commercial or non-commercial use.
http://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1?page=1
73 ◆MERIKEN4.k :2012/09/30(日) 13:47:04.27 ID:ObpMiRkk0
32bit版のSHA-1のコードはOpenSSLとCRYPTOGRAMSのデュアルライセンスで、
GRYTOGRAMSはGPLと互換性があるので、こちらのコードも
MERIKEN's Tripcode Finderで使用するするのに問題はないでしょう。

> ALTERNATIVELY, provided that this notice is retained in full, this
> product may be distributed under the terms of the GNU General Public
> License (GPL), in which case the provisions of the GPL apply INSTEAD OF
> those given above.
http://www.openssl.org/~appro/cryptogams/
74 ◆MERIKEN4.k :2012/09/30(日) 13:54:58.11 ID:ObpMiRkk0
>>68
とりあえず今はSSE3を使ったSHA-1のコードを動かすことが最優先です。

>>69
12完とか数世紀単位ですよw

>>70
新しいバージョンのテストをぜひよろしくお願いしますです。
75 ◆MERIKEN4.k :2012/09/30(日) 22:12:32.09 ID:ObpMiRkk0
ちょこちょこといじっていたら、ちゃんとsha1-586.asmを
アセンブルして実行ファイルにリンクできました。
ここまでは簡単すぎて拍子抜けするぐらいです。
問題はこのルーチンを実際にどうやって使うかなんですけれども…
76 ◆MERIKEN4.k :2012/09/30(日) 23:12:23.49 ID:ObpMiRkk0
Eric Young氏のコードを参考にしてアセンブラのルーチンを呼ぶ出すコードを
書いたら、信じられないことに1発で動きました! でもperlのスクリプトで
何もオプションを指定しなかったせいか速度はそこそこです。SSE3を使うコードを
生成させるオプションがあるはずなんだけどなあ…
77 ◆MERIKEN4.k :2012/09/30(日) 23:31:13.07 ID:ObpMiRkk0
SSE3じゃなくてSSSE3でした。紛らわしすぎだろう…
何やら内部で外部変数を参照してCPUの種類の判別をしているみたいなんですが、
何をやっているのかさっぱりわかりません。"_OPENSSL_ia32cap_P"って
なんなんだろう…
78名無しさん@お腹いっぱい。:2012/09/30(日) 23:40:09.91 ID:RGcH+DdC0
とりあえずで書いたコードが思い通りに動くと発狂したくなるぐらい嬉しいよな
79 ◆GTX680Mcys3u :2012/10/01(月) 04:19:20.00 ID:u4AKExwS0
>>77
こいつですね
http://www.openssl.org/docs/crypto/OPENSSL_ia32cap.html

CPUIDを読みだしてプロセッサを判別する…ってことか
80名無しさん@お腹いっぱい。:2012/10/01(月) 04:22:46.81 ID:hZnlEP2oP
>>72
ちゃんと特許検索してみ(*‘ω‘*)
81 ◆MERIKEN4.k :2012/10/01(月) 06:03:28.91 ID:a0DHVLob0
>>78
ここまですんなりいくとは思いませんでしたw
何事もためしてみるもんですね〜

>>79
間違い無くそれですね。とりあえずその変数をチェックしている部分は
全部削除してしまうことにします。
82 ◆MERIKEN4.k :2012/10/01(月) 07:14:31.83 ID:a0DHVLob0
CPU判定をしている部分を全部削除したらとりあえずSSSE3のコードは動きました。
…が、スピード自体はかなり微妙です。確かに今までのコードよりちょこっと速く
なってることはなってるんだけど、思ったほどではないです。これはもともと使っていた
SSE2 Intrinsicsで書かれたルーチンがかなり速かったということなのかなあ。
83 ◆MERIKEN4.k :2012/10/01(月) 08:32:04.96 ID:a0DHVLob0
う〜ん、しかしこうなるとオリジナルの64bit版のSHA-1のルーチンも試してみたく
なるな… 64bit対応はもうちょっとあとにする予定だったけど、せっかくCPU検索の
速度向上に取り組んでるんだから前倒しにするのもいいかもしれないですね。
84 ◆MERIKEN4.k :2012/10/01(月) 08:36:21.88 ID:a0DHVLob0
32bit版と64bit版はGUIのほうで選ぶようにすれば楽に実装できるはずです。

あ、あとアプリケーションを終了させたときに.NETの例外が稀に発生するバグを
見つけました。バージョン0.05の安定版では直しておきます。
85 ◆MERIKEN4.k :2012/10/01(月) 12:28:23.51 ID:a0DHVLob0
さっきまたバグを見つけました。一時停止てからすぐに再開すると、ごくまれに
経過時間が1ヶ月分増えてしまうのですが、これも直しておきました。
結構色々でてくるもんですねえ。
86 ◆MERIKEN4.k :2012/10/01(月) 17:06:08.42 ID:a0DHVLob0
64bit版を試しに作って動かしてみたのですが、なんとなにもしないのに
12桁検索が32bit版よりも5M TPSほどはやくなっていました。13%ほどの
速度向上になります。やっぱりx64のほうが効率がいいって本当だったんですね…
87 ◆MERIKEN4.k :2012/10/01(月) 17:53:30.30 ID:a0DHVLob0
で、SSSE3を利用した64bit版のSHA-1のルーチンを動かしてみたんですが、
これも一発できちんと動いたものの速度の向上はわずかでした\(^o^)/
今まで使っていたSSE2 Intrinsicsで書かれたルーチンが予想外に効率が良かった
というわけです。まあ64bit版と定格のCore i7-3770K単体の組み合わせで
40M TPSを超えてるんで結構な速度なんですけど、なんとも微妙な結果です。
88 ◆MERIKEN4.k :2012/10/01(月) 19:20:38.62 ID:a0DHVLob0
う〜ん、しかしこうなるとできることは限られてくるなあ。
とりあえず64bit版が大分速くなるということはわかったので、
これはバージョン0.06で使えるようにしておきます。

とりあえず12桁の方はこれ以上何も思いつかないので、今度は10桁トリップの
CPU検索のほうを速くしようかな。こっちは最適化の努力を全くしてなくて
SSE等のSIMD命令を一切使っていないので、速くなることは受け合いですw
まあ今の実装が遅すぎるだけなんですけれども…
CUDAのときのようにガリガリに最適化されたJohn the Ripperの実装を
持ってきてもいいし、自分でIntrinsicsを使ってちまちま最適化してもいいし、
色々手はあります。
89名無しさん@お腹いっぱい。:2012/10/01(月) 19:30:41.64 ID:6OH7/rEW0
10桁CPU検索はmtyの64bit版が最速かな?
超えられるようにがんばって!
90 ◆MERIKEN4.k :2012/10/01(月) 20:39:51.98 ID:a0DHVLob0
>>89
AVX無しでmtyを超えられたら言うことないですねw
色々やりたいこともあるので当分の間楽しめそうです。
なんだかオラ、ワクワクしてきたぞ!
91名無しさん@お腹いっぱい。:2012/10/02(火) 06:00:19.28 ID:tGtdSIZ6P
>>90
AVXってちゃんとした整数演算を256bitでできるんけ(*‘ω‘ *)?
92 ◆MERIKEN4.k :2012/10/02(火) 22:23:58.25 ID:gDYbWzJX0
さて、10桁トリップのCPU検索の高速化のために、テスト用のコードを切り出しました。
これで遠慮無くIntrinsicsを使ってコードを書き直せます。
まず最初にCで書かれたBitslice DESのルーチンをSSE2で書きなおして、
それからさらにAVXを使って書きなおしてやる予定です。AVXはレジスタ長が
倍になっただけのはずなので問題ないでしょう。
93 ◆MERIKEN4.k :2012/10/02(火) 22:38:16.78 ID:gDYbWzJX0
あと、OpenCLへの移植のために、去年組んだPCを切り替え機を
使ってメインのモニタと入力装置につなげてやりました。これで気軽に
移植の作業ができます。1年ぶりぐらいにPC周りを大掃除したんですけど、
やっぱ整理整頓って重要ですね…
94 ◆AsabDllTGMsD :2012/10/03(水) 23:58:30.52 ID:Y3pxRO5PP
ニヨニヨうぉっち用トリップその1(*‘ω‘ *)
95 ◆psQMDDKxpOBQ :2012/10/03(水) 23:59:23.15 ID:Y3pxRO5PP
ニヨニヨうぉっち用トリップその2(*‘ω‘ *)
96 ◆MERIKEN4.k :2012/10/04(木) 12:16:09.60 ID:e8gEtxC30
バージョン0.05の安定版をうpしました。

MERIKEN's Tripcode Finder 0.05
http://www.meriken2ch.com/programming/merikens-tripcode-finder

>>84-85のバグを修正した以外は、Beta 2と同じです。
97 ◆GikoNekobg :2012/10/04(木) 12:54:27.37 ID:j+Rl5kfi0
MERIKEN's Tripcode Finder 0.05
CUDA DEVICE
CUDA Device Count: 1
Device No.: 0
Device Name: GeForce GTX 460
Multiprocessor Count: 7
Clock Rate: 1400MHz
Compute Capability: 2.1
CPU
===
Number of Processors: 8
Number of Search Threads: 7
TARGET(S)
=========
0: "TEST//"
TRIPCODES
=========
◆TEST//xz05/X #BアXクC。Vラ∀Zオ (42 B1 58 B8 43 A1 56 D7 81 CD 5A B5)
STATUS
======
Performing a forward-matching search for 1 pattern (1 chunk)
with 6 characters on CPU and GPU(s):
CUDA0: 271.5M TPS, 48 blocks/SM
0.105T tripcodes were generated in 0d 0h 5m 58s at:
302.28M tripcodes/s (current)
GPU: 280.99M tripcodes/s
CPU: 21.29M tripcodes/s
291.47M tripcodes/s (average)
On average, it takes 2.7 minutes to find one match at this speed.
1 match found at 10.04 matches/h and 104.53G tripcodes/match.
The actual matching probability is 34% lower than expected.
0% of matching tripcodes were invalid.
98 ◆MERIKEN4.k :2012/10/04(木) 22:24:11.13 ID:e8gEtxC30
>>97
あ、早速有り難うございます。CUI版もちゃんと動いていますね。
GUI版の作成にあたってCUI版にもある程度手を入れざるを得なかったので、
ちゃんと動作するかどうか不安だったんですよね〜
99 ◆MERIKEN4.k :2012/10/04(木) 22:28:16.80 ID:e8gEtxC30
今朝は10桁トリップのCPU検索の作業をしていたのですが、
Bitslice DESのルーチンをまとめてえいやっとSSE Intrinsicsで書きなおしたら
案の定動きませんでしたorz おとなしく動作確認をしながら少しづつ
書き直すことにします…
100 ◆GTX680Mcys3u :2012/10/05(金) 02:40:59.10 ID:IR4Z+leR0
>>98
うちはGUI版で動かしてますが問題なしですよ
ばっちり動いてます
101名無しさん@お腹いっぱい。:2012/10/05(金) 03:38:08.20 ID:5f8Bjqpi0
8800GTX+FX4600の組み合わせですが今までどおり問題ないですよ
0.05 Beta 2からの修正だと思いますが
CC1.0のGPUでは現状対応していないと思われる10桁検索は
GUIの方はちゃんとダイアログが出てエラーで止まるようになってますし
CUIの方も[-l 10]で警告が表示されるようになってます。

MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: too many resources request
ed for launch (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIK
ENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_DES.cu', line 832)
MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: too many resources request
ed for launch (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIK
ENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_DES.cu', line 832)
102 ◆MERIKEN4.k :2012/10/05(金) 16:32:35.70 ID:+pSShH4u0
>>100
それはなによりです。自分もGUI版をしばらく使ってますけど、
色々気になるところを直してようやく馴染んできた感があります。

>>101
そうですそうです、エラー処理のいい加減だったところがちゃんと直っているようで
良かったです。しかし10桁検索のルーチンはCC1.0でも動くように書いといた
はずなんですけど、共有メモリかレジスタ数の関係で動かないみたいですね。
注意書きに追加しておきます。
103 ◆MERIKEN4.k :2012/10/05(金) 16:45:05.37 ID:+pSShH4u0
>>99の続きです。SSEで書きなおしたルーチンはようやく動くようになりました。
128個のキーを同時に処理できるのはちょっと感動します。
Intrinsicsの使い方を間違えて大いにはまりましたが、あとはBitslice DESの
ルーチンを実際の検索ルーチンに組み込むだけです。
104 ◆MERIKEN4.k :2012/10/05(金) 17:20:50.98 ID:+pSShH4u0
組み込みは無事終了しました。バージョン0.05の10桁CPU検索の速度は
2.77M TPS(w だったのですが、SSEで書きなおしたら9.22M TPS出ました。
332%(!)の速度向上ということになります。さすがに4倍というわけには
いきませんでしたが、それでもかなり綺麗にスケールしています。
これは32bit版での数字なので、SSEのレジスタ数が倍になる
64bit版での速度が楽しみです。
105名無しさん@お腹いっぱい。:2012/10/05(金) 17:48:14.28 ID:pHTRB6u40
私も楽しみです^q^
106 ◆MERIKEN4.k :2012/10/05(金) 18:00:32.97 ID:+pSShH4u0
64bit版もすんなり動きました。12.21M TPS出ているのでこれまでのバージョンと
比べるとかなり速くなりました。まあでも同じCPUでmtyでは25.06M TPS出ているので
性能的にはまだまだこれからといったところです。

とりあえずはCUDAのときと同じようにS-Box内の一時変数の割り当てを手作業で
最適化することになりそうですが、アセンブラを使わずにSSE Intrinsicsのみで
どこまで最適化出来るかは未知数です。John the Ripperのアセンブラで書かれた
Bitslice DESのルーチンを使用することも考えたのですが、ABIの違いも考慮しなければ
いけないのが悩ましいところです。
107 ◆MERIKEN4.k :2012/10/05(金) 19:09:10.52 ID:+pSShH4u0
ためしにS-Boxを書き換えてみたんですが、速度は全く変わりませんでした。
あとついさっき気づいたのですが、64bit版ではGPU検索が正常に作動しないようです。
このままではまずいので、とりあえず今のバージョンを修正して、GUIで32bit版と
64bit版を切り替えられるようにしてから次の開発版として公開する予定です。
108 ◆MERIKEN4.k :2012/10/06(土) 04:11:36.17 ID:de6FWJ+m0
今後の方針を考えてたんですけど、やっぱりJohn the Ripperのアセンブラで書かれた
Bitslice DESの実装を使ったほうが手間がかからないだろうという結論に達しました。
もう既にギリギリまで最適化された実装があるのに自分で同じ事をやるのも
二度手間ですよね…

問題なのはJohn the RipperがGCCとGNU asを前提としていることですが、
MinGWを使えばVC++から呼び出せるライブラリを作成できそうです。

Using libs/dlls compiled in Linux/MinGW in Visual Studio
http://stackoverflow.com/questions/1291594

MSVC and MinGW DLLs
http://www.mingw.org/wiki/MSVC_and_MinGW_DLLs

まず>>107の作業を終わらせて、それからMinGWをインストールして
John the Ripperの実装を試して見ることにします。
109 ◆MERIKEN4.k :2012/10/06(土) 18:27:48.99 ID:de6FWJ+m0
>>107の不具合の原因が分かりました。複数のグラボを使用して検索するときに、
複数のGPU検索スレッドから同一のデバイスポインタを参照していたのが原因なようです。
結局いままで32bit版と580 SLIでちゃんと動いていたのは運が良かったから、というのが
真相のみたいです。これで前スレで報告されていたバグも説明がつきます。

> 987 :名無しさん@お腹いっぱい。 :sage :2012/09/26(水) 05:20:29.44 (p)ID:39pEz/Td0(3)
> Win7x64 295.73で8800GTX+GT520のDual環境ですが
> MERIKENsTripcodeFinder_0.05_Alpha_1のMERIKENsTripcodeFinder.exeだと
> 単体では8800GTX、GT520共にに動くのですが
> 使用するGPU:をすべて使用にしてしまうと落ちてしまうのです
> やはりCompute Capabilityのサポートに違いがあるGPUの
> 同時使用はマズイという事なんでしょうかね
http://anago.2ch.net/test/read.cgi/software/1311428038/987n

いや〜、未だにこんな大きなバグが残っているとは思いませんでした。
前スレの987さん、ありがとうございました。
110 ◆MERIKEN4.k :2012/10/06(土) 18:44:20.86 ID:de6FWJ+m0
それはそうと、最近こんな話を見つけました。

http://www.obr-hardware.com/2012/09/exclusive-some-geforce-gtx-780-details.html

どうやらGTX 780はGK110ベースにはならないそうで…
今のうちにお安く590買っておいたほうがいいのかしらん。
111名無しさん@お腹いっぱい。:2012/10/06(土) 20:02:35.08 ID:llt7MSWe0
遠くから期待してます
112 ◆MERIKEN4.k :2012/10/07(日) 00:03:10.89 ID:EmR007CB0
>>111
野望はRadeonにも対応して12桁と10桁の両方で最速のトリップ検索プログラムを
作ることですが、はたしてどうなるんでしょうねえ。
113名無しさん@お腹いっぱい。:2012/10/07(日) 00:03:19.84 ID:TPgrZGzQ0
>>109
お役に立てて光栄です
今度の修正がきたら8800GTX+GT520の
組み合わせで再度試させてもらいます

それとGT520やCPUで10桁検索を行った場合に出る
○.○世紀という表記は何かのギャグかと思いましたよ
114 ◆MERIKEN4.k :2012/10/07(日) 00:28:28.27 ID:EmR007CB0
>>113
ぜひよろしくお願いします。
「世紀」の表示はプログラムを書いているときは大真面目だったんですけど、
実際に見るとかなりシュールですよねw
115 ◆MERIKEN4.k :2012/10/07(日) 00:45:01.29 ID:EmR007CB0
とりあえず64bit対応版は出来ました。「詳細設定」からCPUの
命令セットを切り替えられるようになりました。
やってることはCUI版のx86のビルドとx64のビルドを切り替えてるだけなんですが…

で、OCしてどれぐらいスピードが出るか試してみたんですが、
前スレの12桁検索の最高速の記録にきれいに6M TPSほど上乗せできてます。
10桁のほうも113M TPSほど出るようになりました。
楽して速度向上、おいしいです(^q^)

もうちょっと色々テストしてから日曜の夜までには新しい開発版をうpする予定です。
116名無しさん@お腹いっぱい。:2012/10/07(日) 09:22:22.24 ID:Yi2bXl7w0
29万パターンを10桁GPU検索させたらグラボが停止しました
12桁の方は正常動作します
117 ◆MERIKEN4.k :2012/10/07(日) 09:29:53.63 ID:EmR007CB0
>>116
グラボは何を使っていますか? ある程度早いグラボならブロック数を減らして
レジストリをいじれば動かせるかもしれません。詳しくはREADME.txtを
参照して下さい。
118 ◆MERIKEN4.k :2012/10/07(日) 09:43:56.42 ID:EmR007CB0
10桁CPU検索のルーチンを修正してたら突然スピードがどんどん遅くなるという
不思議な現象が出ました。色々いじっても直らなかったので頭を抱えていたのですが、
なんとOCしていたIvy Bridgeが熱でスロットルダウンしていただけでした。
OCCTはちゃんと通ったのに… やはりCPU検索だけでもかなりシステムに
負荷がかかってるみたいです。
119名無しさん@お腹いっぱい。:2012/10/07(日) 10:23:00.36 ID:Yi2bXl7w0
>>117
アドバイスありがとうございます、GPUはGTX570です
READMEの情報を参考にしてみましたが
GPGPUをプライマリに設定しているせいか改善されませんでした
引き続き12桁の方で頑張ります
120名無しさん@お腹いっぱい。:2012/10/07(日) 15:44:46.87 ID:TPgrZGzQ0
>>118
ちゃんとしたCPUクーラーを乗せたらどうですかね?
Scythe製の3000円ぐらいの製品でも段違いかと思いますが
121 ◆MERIKEN4.k :2012/10/07(日) 18:11:21.42 ID:EmR007CB0
>>119
うーん、それならばパターンの数が多過ぎて捌ききれていないということなんでしょうねえ。
もうちょっとループの回数を減らしたほうがいいのかな…

>>120
CPUクーラーはNoctuaのNH-D14です。でかいです。4.6GHzでの運用を試してみてたんですけど、
システムにかなり無茶させてるのでちょっと無理だったみたいです。これ以上は殻割りか水冷にでも
しないといけないんでしょうけど、ちょっと踏ん切りがつきません…
122名無しさん@お腹いっぱい。:2012/10/07(日) 19:09:24.28 ID:aza3uCJd0
1)CUIで、作動するときに#regexのtargetを全部書き出さないほうがいいのでは。
2)GUIの、検索パターンに大量コピペできませんか?

応援してます
123名無しさん@お腹いっぱい。:2012/10/07(日) 19:24:22.64 ID:TPgrZGzQ0
>>121
ありゃりゃOCしての話ですか・・・
ハイエンドクーラーを持ってるのなら無理せずに
コアが冷える2600k辺りを中古手に入れた方が良いかもですね
124 ◆MERIKEN4.k :2012/10/07(日) 19:36:45.22 ID:EmR007CB0
>>123
Ivy Bridgeがこんなにクセのあるコアだとは思いませんでした。
まあ自分の用途だとCPUよりグラボにつぎ込むことになりそうですけどね〜
125 ◆MERIKEN4.k :2012/10/07(日) 19:41:04.80 ID:EmR007CB0
CPU検索が64bit化によって速くなったので、最高速の測定をしなおしてみました。

【GPU】NVIDIA GeForce GTX 580 2-Way SLI (OC: 940/2004MHz)
【CPU】Intel Core i7-3770K (OC: 4.5GHz 1320mV)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.06 Alpha 1
【オプション】-x 192 -c -g
【Display Driver】306.23
【10分間の平均速度】 1694.86M tripcodes/s
【その他】7完1タゲ。CPUの速度は約37M TPS。
126名無しさん@お腹いっぱい。:2012/10/07(日) 19:46:44.75 ID:FtU0s6pd0
安価に最大45GHzの高速CPUを並列処理させてスパコン並みの環境を自宅でも可能にするオープンソースプロジェクト「Parallella」とは?
http://gigazine.net/news/20121007-supercomputer-parallella/

鳥検索が捗るな
127名無しさん@お腹いっぱい。:2012/10/07(日) 20:06:18.70 ID:TPgrZGzQ0
それってOpteron 6286SE 2.8GHz×16コアを
44.8GHzと言ってるようなものでは・・・
128名無しさん@お腹いっぱい。:2012/10/07(日) 20:30:02.47 ID:tYnRQ8TX0
原文では45GHzで90GFLOPSのCPU相当と言っているように見える。

5W以下らしいからワットパフォーマンスは悪くなさそうだし
10基とか20基積んでイーサネットとか付いた箱が安く出てくると面白そうだけど。
129 ◆MERIKEN4.k :2012/10/07(日) 20:33:20.47 ID:EmR007CB0
新しい開発版です。

MERIKEN's Tripcode Finder 0.06 Alpha 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder

今回の変更点は以下の通りです。

・64bit版の追加による高速化。
・10桁検索の高速化。
・複数のビデオカードが使用できないバグの修正。
130名無しさん@お腹いっぱい。:2012/10/07(日) 20:35:27.96 ID:FtU0s6pd0
おつ
131名無しさん@お腹いっぱい。:2012/10/07(日) 20:44:15.70 ID:TPgrZGzQ0
8800GTX+GT520(Win7x64 295.73)の組み合わせで
32Bit版は動く事を確認しましたが
64Bit版はcudart64_40_17.dllが無いと蹴られましたよ
132 ◆MERIKEN4.k :2012/10/07(日) 20:45:14.42 ID:EmR007CB0
>>126-128
これ見る限りではデュアルコアのARMと16コアもしくは64コアの
Epiphanyというアクセラレータの組み合わせのようですね。
Epiphanyの各コアは800MHzもしくは1GHzで駆動するようです。
安くて速い並列コンピューター、おいしいです(^q^)

http://www.kickstarter.com/projects/adapteva/parallella-a-supercomputer-for-everyone
http://www.adapteva.com/products/silicon-devices/
133 ◆MERIKEN4.k :2012/10/07(日) 20:47:38.32 ID:EmR007CB0
>>131
ありゃりゃ… うちの環境だともうCUDA Toolkitがインストールされてるから
気づきませんでした。すみません、今すぐ新しいパッケージを用意します。
134 ◆MERIKEN4.k :2012/10/07(日) 21:00:57.02 ID:EmR007CB0
>>131
パッケージを新しいものと差し替えておきました。これで64bit版もちゃんと
動くはずです。
135 ◆MERIKEN4.k :2012/10/07(日) 21:22:29.19 ID:EmR007CB0
>>122
(1)は正規表現の展開の処理が止まることがあるのでたぶん今のまま
にしておくことになると思いますけど、(2)については検討させて頂きます。
GUIにも気になるところがいろいろ出てきたので、いずれまとめて
改良する予定です。
136名無しさん@お腹いっぱい。:2012/10/07(日) 23:57:53.42 ID:tYnRQ8TX0
>>132
DARPAのエクサスケールスパコン計画を目指している?
Epiphanyのチップ自体は最大消費電力が2ワットで、1ボードに64チップまで載せられるとかいうのも気になる。
137名無しさん@お腹いっぱい。:2012/10/08(月) 03:49:14.81 ID:RwpmYvNz0
創・価
死・ね 
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
創・価
死・ね
138 ◆MERIKEN4.k :2012/10/08(月) 12:53:41.31 ID:OS1fDSQB0
10桁CPU検索の改良をを続けるべくJohn the Ripperをダウンロードして
とりあえずMinGWでビルドしてみました。ZlibとOpenSSLをインストールしてから
リンカのオプションに"-ws2_32 -lgdi32"を追加したらビルドに成功。適当な
/etc/passwdを拾ってきて走らせてみたら、CPU使用率が12%の状態で5236K c/s
出てました。1コアあたり1スレッドだけで、なぜかCPU使用率がかなり低いのですが、
もし本当にこれだけの速度が出ているならJohn the RipperのBitslice DESの
ルーチンは相当速いことになります。なかなか面白いことになって来ました。
139 ◆MERIKEN4.k :2012/10/08(月) 20:54:09.77 ID:OS1fDSQB0
x86-sse.Sだけ抜き出してアセンブルしたらあっさり通っちゃったけど、
これ、どうやって使うんだろう…
140 ◆MERIKEN4.k :2012/10/09(火) 19:09:32.89 ID:Ce+QtItL0
つらつらとJohn the Ripperのコードを読んでいたらだんだんと思い出してきました。
キーと一時変数と変換結果はまとめてDES_bs_allという構造体に
格納されていて、次の順番で関数を呼び出せば一回の変換が
行われるはずです。

DES_bs_init()
DES_bs_set_key()
DES_bs_set_salt()
DES_bs_crypt_25()

一応必要な関数は全てビルドできたので、あとはテスト用のコードを書いてやれば
いいだけなんですけど、なにせブラックボックスを相手にしているので
結構緊張します。ちょっと休んでから取り掛かることにしようっと。
141前スレ927:2012/10/10(水) 00:53:13.60 ID:F3MRL3D80
0.06α1で試してみました。システム構成は以前と一緒です。
1時間半の検索速度は以下の通りです。

0.06α1 CUI64bit
12桁
-c -g -x 16
240.76M tc/s
"/TEST"
243.23M tc/s (current)
GPU:171.13M tc/s
CPU: 72.11M tc/s

CPUで70M超えました。6%程速度アップですね。
100M超えに期待しています。がんばって下さい。
142 ◆MERIKEN4.k :2012/10/10(水) 20:18:17.67 ID:KYul3EzA0
>>141
報告ありがとうございます。コア数が増えるに従って速度が綺麗にスケールするのは
当然なんですが、それにしてもCPUだけで70M TPSは凄いですね。
100M超えは…どうでしょうw
143前スレ927:2012/10/12(金) 00:31:18.87 ID:YecpfVtp0
大変な勘違いをしていたことが判明しました。
Xeon [email protected], 1CPU, 6コア, HT有効, 12スレッド
と、思い込んでいたのですが、中身を確認したら全然違いました。
Xeon [email protected], 2CPU, 12コア, HT無効, 12スレッド

通りでCPUが早い訳だ。orz
ウソ報告でごめんなさい。HT有効にして再計測してみますが、少し走らせた感じでは余り変わらないみたいです。
144名無しさん@お腹いっぱい。:2012/10/12(金) 05:04:13.79 ID:/e2OyK0a0
そんな速いCPU使わねーよw
…と思いつつ酉検索においてはやっぱり欲しい
145名無しさん@お腹いっぱい。:2012/10/12(金) 05:25:48.99 ID:AFd/y7mn0
自分で使ってる2CPUマシンを1CPUマシンと思い込んでるってどんだけー!
全て業者任せの富豪かよw
146 ◆MERIKEN4.k :2012/10/12(金) 06:25:09.95 ID:t+XFtk6B0 BE:2128032184-2BP(12)
>>143
それでようやくすっきりしました。「Xeonはやっぱり速いな〜」などと
何も考えずに思っていたんですけど、2年前のモデルで1CPUでその速度は
やっぱり速すぎですよねw hyper-threading有りでの報告もぜひお願いします。
うちのi7-3770Kでは4スレッドから8スレッドに増やすと27%ほど
速度が上がったので、hyper-threadingはある程度効果があるみたいですが…
147 ◆MERIKEN4.k :2012/10/12(金) 11:11:18.84 ID:t+XFtk6B0
>>140の続きです。とりあえずテスト用のルーチンをでっち上げて
x86-sse.Sを試してみましたが、予想通り動きませんでした\(^o^)/
やはり自分で作成したBitsliceのルーチンを地味にIntrinsicsかインラインアセンブラで
書きなおすしかないようです。幸いなことにSSE2でのS-Boxの実装はx86-sse.Sの
中にあるので、これをうまくつかってやればループの最深部の書き換えは
可能でしょう。しかしこれは想像以上に手強いですねえ。
148 ◆MERIKEN4.k :2012/10/12(金) 14:27:28.94 ID:t+XFtk6B0
ちょっと調べたらなんとVisual C++のインラインアセンブラはx64を
サポートしていないことが明らかになりましたorz 自分でアセンブラの
ルーチンを書くしかないのかしらん。
149名無しさん@お腹いっぱい。:2012/10/12(金) 15:14:57.32 ID:LEZMEwbq0
x64 Intrinsicsで頑張るしか
150 ◆MERIKENXsUyM :2012/10/12(金) 16:54:10.78 ID:nf15QmxA0
targetはこれなんですけどね?^MERIKEN.s

◆MERIKENXsUyM #ヌ鋒ムナ徳6カル3o (C7 96 4E D1 C5 93 BF 36 B6 D9 33 6F)

これがあれですかね?”."

151 ◆MERIKEN4.k :2012/10/12(金) 17:26:23.92 ID:t+XFtk6B0
>>149
IntrinsicsだとどうもSSEのレジスタの割り付けがうまくいってないみたいなんですよね〜

>>150
正規表現だと"."はすべての文字にマッチするのでそれはあってます。
正規表現で"."を指定したいときには"\."と書いて下さい。
152 ◆MERIKENXsUyM :2012/10/12(金) 17:37:45.51 ID:nf15QmxA0
これでしたか。  

# ^ $ () | [] [^] . + * \
#
# '.'は全文字にマッチするので、'.'そのものを指定したい場合は
# "\."と記入してください。なお、"[]"内では'\'を使う必要はありません。

癖がついてて、”.”使うんですね。
153 ◆MERIKEN4.k :2012/10/12(金) 17:48:42.88 ID:t+XFtk6B0
>>152
そういうことです。
154 ◆MERIKEN4.k :2012/10/12(金) 18:33:15.16 ID:t+XFtk6B0
なんとかならないものかとx86-sse.Sをもうちょっといじってみましたけど、
やはりちゃんと動いてません。また、さきほどからVC++が出力したアセンブラの
ファイルを眺めていたのですが、正直これじゃあスピードでないよね、といった
感じです。やはり残念ながらBitslice DESのルーチンを自分でアセンブラで書くしか
手はないようです。
155 ◆MERIKEN4.k :2012/10/12(金) 20:16:06.70 ID:t+XFtk6B0
さすがに全部書きなおすのはしんどいのでS-Boxの部分だけでも、と考えて
別の関数に切り出してやったら、それだけで1.6M TPS速くなりました。
コンパイラの最適化サボりすぎだろう…
156前スレ927:2012/10/12(金) 21:45:07.86 ID:YecpfVtp0
>>145
全て業者任せの富豪から最近譲り受けたんだよ。
「とにかく解析が速いやつ」って注文したらしく、ハードのスペックが分かる資料が全然残ってねぇ。ヽ(´Д`;)ノ
数値がおかしいんで蓋開けてみたらCPUが二個付いてた・・・
157名無しさん@お腹いっぱい。:2012/10/12(金) 22:13:03.82 ID:qj1yBhqB0
CPU-Zぐらい使えよ
158 ◆MERIKEN4.k :2012/10/12(金) 22:46:11.90 ID:t+XFtk6B0
>>156
> 数値がおかしいんで蓋開けてみたらCPUが二個付いてた・・・

これはなかなかシュールな絵ですねw GPU-Zもお勧めです。
159名無しさん@お腹いっぱい。:2012/10/13(土) 01:29:23.89 ID:QRc/1guh0
これがはいじそといわれる類の存在なんだね
160 ◆MERIKEN4.k :2012/10/13(土) 08:11:17.21 ID:TRuxaTZw0
コンパイラの出力したx64のasmファイルを編集すれば楽かと思って
中間ファイルをMASMにかけてみたんですけど、すんなりアセンブルできません。
セグメントの指定で色々文句を言われたので直してみたんですが、
今度はアセンブルできたもののプログラムが落ちるようになってしまいました。
こりゃ相当な手間がかかりそうです。
161 ◆MERIKEN4.k :2012/10/13(土) 10:26:14.08 ID:TRuxaTZw0
正直John the RipperのBitslice DESの実装を使えるようにするのも、
Bitslice DESのルーチンを1からアセンブラで書くのも時間がかかりすぎなので、
あともう一つだけアイディアを試してみて、それでうまくいかなかったら
CPU検索の最適化はとりあえず一旦お休みにします。

で、最後のアイディアというのは、Bitslice DESの最深部だけ別のコンパイラで
コンパイルしてやるということです。どうも調べてみるとVC++のSSE Intrinsicsの
最適化はGCCやICCに比べるといまいちなようなので、ある程度の効果は
期待できるでしょう。あとは32bit版だけインラインアセンブラを使って
最適化するという手もあるんですけど、それは後回しにします。
162 ◆MERIKEN4.k :2012/10/13(土) 19:53:34.86 ID:TRuxaTZw0
で、Intel C++ Studio XE for Windowsの試用版でS-Boxをコンパイル
してみましたが、結果は速度が0.7M TPSほど上がっただけでした。
いや〜、まいったまいった。
163 ◆MERIKEN4.k :2012/10/13(土) 22:22:21.33 ID:TRuxaTZw0
しかしこれからどうしようかな。
x86のほうはインラインアセンブラも使えるしS-Boxもasmファイルに変換
できたので、とりあえずこちらの最適化を頑張るという手もあるんだよな…
164 ◆MERIKEN4.k :2012/10/15(月) 00:04:55.23 ID:BTMO2uQH0
う〜ん、どうやらGTX 780はGTX 680の改良版になりそうな模様…

What is going on with Nvidia’s GK114? Like AMD, the answer is not much
http://semiaccurate.com/2012/10/12/what-is-going-on-with-nvidias-gk114/

こりゃ来年のも見送りだな。今のうちにGTX 590を確保しておこうっと。
165名無しさん@お腹いっぱい。:2012/10/15(月) 00:12:51.45 ID:K5yud+Qv0
梅田の祖父でGTX590中古があったけど確か34k円位だっけか
まあ発熱には注意だな
166名無しさん@お腹いっぱい。:2012/10/15(月) 06:58:14.36 ID:J/Rcf+G00
tesla待とうよ!
167 ◆MERIKEN4.k :2012/10/15(月) 21:47:20.51 ID:Lrut3SY50
>>165
確かに熱は大変なことになりそうですねえ。
580 SLIも大概でしたけど、590 + 580とか、システムが持つのかしらん。
電源にはかなり余裕があるんですけど、ちょっと心配です。
168 ◆MERIKEN4.k :2012/10/15(月) 21:50:33.10 ID:Lrut3SY50
>>166
Tesla K20、欲しいですw
K10がだいたい$3300ぐらいですけど、K20はいくらぐらいになるんでしょうか…
169 ◆MERIKEN4.k :2012/10/15(月) 22:05:38.53 ID:Lrut3SY50
正直なところどうしようか困っていた10桁CPU検索ですが、
ちょっと思いついてregister演算子をSSE Intrinsicsで使ってみたところ、
大した手間もかからずに20%ほど高速化出来ましたw
やはりVC++はSSE Intrinsicsの最適化を相当サボっている模様。
John the Ripperの実装を参考にしながらレジスタ割り付けを
工夫することでかなり高速できそうです。これでようやく光が見えてきました。
170前スレ927:2012/10/16(火) 00:13:45.78 ID:Ou6FcCX40
GTX590確保しました! ('◇')ゞ

CPU: PhenomeII X6 [email protected]
GPU: GV-N580SO-15I, ENGTX590
OS: Win7 64bit
Prg: 0.06a1
桁: 12
Targ: "TEST/"
Opt: -c -g -x 128
Drv: 306.97
1hrAv: 1830.05MTPS
その他:
CUDA0: 746.1M TPS (580)
CUDA1: 532.6M TPS (590)
CUDA2: 532.7M TPS (590)
1872.38M tripcodes/s (current)
GPU: 1853.10M tripcodes/s
CPU: 19.28M tripcodes/s

580一枚の時にはCPUはフルロードで20M超えていましたが、590を追加するとロードが50%〜100%に激しく変動して、CPUを使い切れてないようでした。
消費電力は怖くて計ってませんw
171名無しさん@お腹いっぱい。:2012/10/16(火) 00:31:35.42 ID:9lqlGkJS0
速ぇー
172 ◆GTX680Mcys3u :2012/10/16(火) 05:34:25.39 ID:2F+yN34h0
速すぎワロタ
173 ◆MERIKEN4.k :2012/10/16(火) 06:12:56.30 ID:VYAjNyPo0
>>170
こ、これはw OCしたら簡単に2G TPSを超えそうですねえ。
Phenom II X6 1100Tは6スレッドでは40M TPSぐらいです。
GPUが3個ならCPU検索スレッドも3つなので、まあ順当なところでしょう。
消費電力もそうですが、温度のほうも気になります。
うちの580 SLIは80℃超がふつうなので…590はもうオークションで
落としたんですけど、ちゃんと運用できるかどうか心配です。
174名無しさん@お腹いっぱい。:2012/10/16(火) 07:34:33.08 ID:KVGtEB2G0
>>170 >>173
590確保乙
そのうちトリプルGTX590とか強者が出そうだ…
175名無しさん@お腹いっぱい。:2012/10/16(火) 08:57:05.26 ID:kGLHXQmF0
検索停止ボタン押した途端にフリーズした・・・
176 ◆MERIKEN4.k :2012/10/16(火) 09:34:20.39 ID:VYAjNyPo0
>>175
システム全体がフリーズしたなら、多分ハードウェアの問題でしょうねえ。
電力使用量が急激に変化するととにかく不安定になりがちです。
177 ◆MERIKEN4.k :2012/10/16(火) 09:48:05.29 ID:VYAjNyPo0
>>174
365W * 3 = 1095Wですか… 電源が2つ入りますね、こりゃ。
まあGPUはあればあるほど速くなる仕様なので、理屈では
ラックマウントサーバーにTeslaを積めるだけ積んで
動かすことも可能なはずですけど…
178RADEON AMD:2012/10/16(火) 10:01:53.40 ID:pyaTDKGu0
| 冫、)ジー
179名無しさん@お腹いっぱい。:2012/10/16(火) 10:10:33.23 ID:pCO8MEiO0
linux版の登場が待たれるな
180名無しさん@お腹いっぱい。:2012/10/16(火) 10:44:21.51 ID:kGLHXQmF0
>>176
あ、レスサンキュです、マウスポインタも動かい状態でした。
なかなか安定した環境の構築は難しいです・・・
181名無しさん@お腹いっぱい。:2012/10/16(火) 14:26:15.84 ID:ab7Mi3qK0
CUDA5来ましたね
http://developer.nvidia.com/cuda/cuda-downloads

NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う
http://www.4gamer.net/games/076/G007660/20121016013/
182前スレ927:2012/10/16(火) 20:05:19.50 ID:Ou6FcCX40
>>173
夜中に部屋の窓を全開にして両方とも80℃ちょい。窓を閉めると90℃超えます。
今の季節だと、クーラー無しに昼間に常用するのは難しいと思います。
580SLIに590を付け足すなら、エアフローに気をつけて下さい。
最初、エアフローが悪くて580の温度が90℃を軽く超えていって怖い思いをしました。
消費電力は、計算時に+690Wでした。

前日書き忘れたのですが、ブロック数の自動設定機能が安定しませんでした。
走らせるたびに96?〜168?の間をふらつきます。590の二つのGPUでも異なるブロック数になることもありました。

590は早々にXeonマシンに引っ越すつもりなのですが、まだ電源スペックが分からねぇヽ(´Д`;)ノ
183きら ◆Kira.u9zNc :2012/10/16(火) 21:15:29.87 ID:3LZeo7TdP
最新のドライバーに更新したら動きました!(前動かなかったのに・・・)
前スレではありがとうございました!
(富士通の京にトリップ検索させたらどうなるんだろう・・・)
184きら ◆Kira.u9zNc :2012/10/16(火) 21:22:28.31 ID:3LZeo7TdP
あと現バージョンのCUIで検索すると10桁になるか12桁になるかと
どうすればCUIで10桁を検索するか12桁を検索するか指定できる方法を教えてください
185 ◆MERIKEN4.k :2012/10/17(水) 05:17:38.72 ID:esBMbwOk0
>>181
CUDA5は実際のところどうなんでしょうね〜
RC版でビルドしたら12桁GPU検索がかなり遅くなったんですけど、
Production Releaseでは直ってるんでしょうか。あとで試してみます。
186 ◆MERIKEN4.k :2012/10/17(水) 05:28:25.58 ID:esBMbwOk0
>>182
非常に参考になりますです。今ある580 SLIを580+590にする予定なんですけど、
2枚のグラボの間に隙間がないので、590は下側につけておいたほうが
よさそうですねえ。ケースにはまるといいんですけど…

ブロック数の設定の違いはいい解決方法が思いつかないです。まあ128以上
だったらほとんど誤差程度の違いしか出ないので大丈夫でしょう。
187 ◆MERIKEN4.k :2012/10/17(水) 05:30:02.53 ID:esBMbwOk0
>>184
それは良かった。CUI版はデフォルトでは12桁検索になります。
オプションについてはREADME.txtを参照してください。
188名無しさん@お腹いっぱい。:2012/10/17(水) 23:13:12.83 ID:+vmD5NvT0
慣れてないならコマンドラインから直接打ち込むのではなく
ショートカット作って指定したほうが良いかと
189 ◆MERIKEN4.k :2012/10/19(金) 17:08:27.82 ID:tPUGSSRZ0
GTX 590が届いたんですけど、熱すぎて今使っているケースでは580と
一緒に使えないことが判明。どう頑張っても上のカードの温度がかるく90℃を
超えてしまいます。せっかく頑張ってケースに押し込むことができたのにorz
しょうがないので580+590はサブのデスクトップに引越しさせて、
こっちをトリップ検索専用PCとして使うことにします。
190 ◆MERIKEN4.k :2012/10/19(金) 17:14:45.52 ID:tPUGSSRZ0
>>178
Radeonには次のバーションで対応する予定です。

>>179
Linuxにはここ10年ほど触っていないので対応の予定はありません。
CUI版の移植なら難しくないはずなので、いかがですかw
191名無しさん@お腹いっぱい。:2012/10/19(金) 17:17:51.34 ID:jLcBMxal0
Radeon版ってOpenCLなんでしょうかね?
それだとintel HD Graphics 4000でも動かせそうな気が
192名無しさん@お腹いっぱい。:2012/10/19(金) 21:56:07.87 ID:AU4hYOc80
最近BOINCに精を出してるのでアプデ来てもどっちを回すか迷うな……
193名無しさん@お腹いっぱい。:2012/10/19(金) 22:30:53.90 ID:uPFPWr+K0
仮にintel HD Graphicsでトリッパー動かせるとしたらどれぐらいの速度が出んのかな?
194名無しさん@お腹いっぱい。:2012/10/19(金) 22:44:50.37 ID:PDFO5+Lv0 BE:466156782-2BP(2345)
>>192
BOINCと同時に廻すと他のアプリケーションが非常に重くなって悲惨なことに…
実際にやって後悔したから

同時に廻すならアプリケーションを使わない時の方がいいと思われ
195 ◆MERIKEN4.k :2012/10/20(土) 17:13:35.27 ID:G/VuaKds0
580+590をサブのテストベンチで使うことにしたので、
HD 5770ともう一枚の580をメインのデスクトップに移しました。
とりあえず5770を画面表示用にして、580はGPGPU専用にしてあります。
この組み合わせでちゃんと動くか心配だったのですが、
今のところ問題はありません。Tripcode Finderもちゃんと動いています。
これで理屈ではRadeonとGeForceで同時にトリップ検索を行うなんてことも
できるはずですが、果たしてどうなるんでしょうか。
196名無しさん@お腹いっぱい。:2012/10/20(土) 17:21:11.04 ID:XgDGXoWm0
NVとAMDのOpenCL関連のライブラリが競合とかしないのだろうか
197 ◆MERIKEN4.k :2012/10/20(土) 17:37:32.49 ID:G/VuaKds0
>>191
OpenCLです。ただ、OpenCLはソース互換なので、Intelので
そのまま動くというわけじゃないですけどね。
198 ◆MERIKEN4.k :2012/10/20(土) 17:40:23.64 ID:G/VuaKds0
>>196
NVIDIAのOpenCLのライブラリを結合しなければいいだけなので、
多分大丈夫でしょう(楽観)
199 ◆MERIKENXsUyM :2012/10/20(土) 19:27:01.81 ID:+A4kXckV0
最近よくかたまるな・・
ヒットしたトリップを、tripcodesに保存前にフリーズ・・・orz
吐き出したトリップを、tripcodesに強制保存できませんか?
ひよわなPCで、スマソ。
200ののたん ◆KiwamonoL. :2012/10/20(土) 19:42:44.56 ID:F8IK+HH50
>>197
そのまま動くぞ。
カーネル部分はソースのままで同梱すればいいしな。
俺は一個のバイナリでラデ、ゲフォ、インテルで動かしてたぞ。
201名無しさん@お腹いっぱい。:2012/10/20(土) 20:16:45.23 ID:nw3ug2VV0
Intelで動く…だと…?
202名無しさん@お腹いっぱい。:2012/10/20(土) 20:34:49.90 ID:XgDGXoWm0
それでもしCPU検索よりも早かったらワロス
203名無しさん@お腹いっぱい。:2012/10/20(土) 20:38:13.56 ID:nw3ug2VV0
そんなまさか
204名無しさん@お腹いっぱい。:2012/10/20(土) 21:38:05.89 ID:/VUWpucu0
openCLはgpuでもcpuでも計算出来たような
205ののたん ◆KiwamonoL. :2012/10/20(土) 22:20:50.50 ID:F8IK+HH50
Ivy買ったら内蔵GPUでも動かしてみようと思ってたんだが、買う気が出ない。w
206 ◆MERIKEN4.k :2012/10/21(日) 06:02:04.03 ID:y9BRtUtK0
>>199
あ〜びっくりした。自分が書いたのかと思ったw
強制保存するオプションはあとで付けておきます。
207 ◆MERIKEN4.k :2012/10/21(日) 06:06:04.39 ID:y9BRtUtK0
>>200
あれ、そうなんですか? どうやってやるのかもうちょっと調べねば…
208名無しさん@お腹いっぱい。:2012/10/21(日) 06:45:05.50 ID:G8jMn60X0
MERIKENsTripcodeFinderCUIなんですが、コマンドラインからの起動がうまくいかないです。
209 ◆MERIKEN4.k :2012/10/21(日) 06:56:44.91 ID:y9BRtUtK0
>>208
どのようにうまくいかないのかkwsk
210名無しさん@お腹いっぱい。:2012/10/21(日) 07:01:15.21 ID:G8jMn60X0
指定がおかしいだけだと思うのですが
C:\MERIKENsTripcodeFinder_0.05\MERIKENsTripcodeFinderCUI.exe -f patterns.txt -g -c -x 16 -t 10で
色々表示された後に
MERIKENsTripcodeFinderCUI: Error: The pattern file could not be opened.と表示されてしまいます。
211 ◆MERIKEN4.k :2012/10/21(日) 07:12:22.77 ID:y9BRtUtK0
>>210
> 色々表示された後に

ここのところをもうちょっとkwsk
あとpatterns.txtはどこにありますか?
212名無しさん@お腹いっぱい。:2012/10/21(日) 07:17:54.17 ID:G8jMn60X0
2レスに分割します。

C:\>C:\MERIKENsTripcodeFinder_0.05\MERIKENsTripcodeFinderCUI.exe -f patterns.txt
-g -c -x 16 -t 10
MERIKEN's Tripcode Finder 0.05
[compiled at 19:37:41 on Oct 3 2012 (PST)]
Copyright (C) 2011-12 ◆MERIKEN4.k
This program comes with ABSOLUTELY NO WARRANTY.
This is free software, and you are welcome to redistribute it
under certain conditions.

Using both GPU(s) and CPU as search devices.

213名無しさん@お腹いっぱい。:2012/10/21(日) 07:18:16.18 ID:G8jMn60X0
CUDA DEVICE
===========
CUDA Device Count: 3

Device No.: 0
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1714MHz
Compute Capability: 2.0

Device No.: 1
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1912MHz
Compute Capability: 2.0

Device No.: 2
Device Name: GeForce GTX 580
Multiprocessor Count: 16
Clock Rate: 1912MHz
Compute Capability: 2.0

CPU
===
Number of Processors: 12
Number of Search Threads: 10

TARGET(S)
=========
214名無しさん@お腹いっぱい。:2012/10/21(日) 07:20:46.39 ID:G8jMn60X0
patterns.txtですが、Cドライブ直下の他のファイルと同じ場所にあります。
215名無しさん@お腹いっぱい。:2012/10/21(日) 08:07:41.03 ID:G8jMn60X0
PCが故障してしまいました…。
216 ◆MERIKEN4.k :2012/10/21(日) 08:21:25.41 ID:y9BRtUtK0
それならパターンファイルの指定を"-f C:\MERIKENsTripcodeFinder_0.05\patterns.txt"に
なおしてやればちゃんと動くはずです。
しかし580 3-Way SLIですか。う〜ん、なかなかの勇者ですね…
PCが無事だといいんですけど…
217名無しさん@お腹いっぱい。:2012/10/21(日) 10:18:22.73 ID:G8jMn60X0
なるほど、有難うございます。
メインPCが復旧できたらやってみます。
CUIでの起動ですがオーバークロックして
GPU: 2400M tripcodes/s
CPU: 40M tripcodes/s付近出てた気がします。
まずはポンプを買わないと…。
218 ◆MERIKEN4.k :2012/10/21(日) 18:11:20.17 ID:y9BRtUtK0
>>217
580が3枚あれば納得の速度です。2G TPS超は熱との勝負みたいですねえ。
自分も来週あたりに580+590の組み合わせで挑戦する予定です。
水冷が一番いいんでしょうけど、なかなか踏ん切りが付きません…
219 ◆MERIKEN4.k :2012/10/21(日) 18:21:32.72 ID:y9BRtUtK0
さて、遅れに遅れている10桁CPU検索の高速化ですが、
未だにどうしたものか決めかねている状態です。
Intrinsicを使ってレジスタ割り付けを最適化するという方針は
そのままなんですが、どのようにするのか実に悩ましいところです。
220 ◆MERIKEN4.k :2012/10/21(日) 18:27:13.28 ID:y9BRtUtK0
とりあえず手作業でS-Boxを1つ最適化してみてから、
最適化を自動化するかどうか決めてみよう…
221名無しさん@お腹いっぱい。:2012/10/21(日) 18:35:28.43 ID:G8jMn60X0
そうですね、こちらのソフトではひとつ起動すればGPUを纏めて動かしてくれるので大変に有難いです。
空冷では特にエアフローに気をつけないとカードの温度が90℃を超えてくるので大変と思います。
どちらも電力を必要とするカードですが、電源ユニットは大丈夫でしょうか?

導入に対して敷居や導入コストが高いのが難点ですが、ある程度まで理解できれば何とかなると思います。

222 ◆MERIKEN4.k :2012/10/21(日) 18:55:16.85 ID:y9BRtUtK0
>>221
やっぱり何も考えてないで使えたほうが楽ですよね。
サブのデスクトップはおっぴろげのテストベンチなので大丈夫です。
http://www.newegg.com/Product/Product.aspx?Item=N82E16811112287
電源はCorsair AX1200なので、こっちも問題ないはずです。
水冷は後のお楽しみに取っておくことにしますw
223名無しさん@お腹いっぱい。:2012/10/21(日) 19:04:56.65 ID:G8jMn60X0
そうですね、初期設定さえ出来れば後の起動は楽なのがいいです。
こういった開放型のケース?で埃等は問題ないのでしょうか、その点怖い気がします。

これだけの容量であれば何も問題ないですね、あとは知識を収集して水冷化に挑戦といったところでしょうか。
224 ◆MERIKEN4.k :2012/10/21(日) 19:13:54.71 ID:y9BRtUtK0
>>223
埃の掃除にはエアーコンプレッサーを使っています。
空冷の限界が見えたらぜひ水冷にも挑戦したいですね。
225 ◆999984973989 :2012/10/21(日) 19:29:22.33 ID:9ANtZStK0
水より冷える液体がいいですね。

>>206
間違いますよね。変えます

>>205
のたんぺさんは、引退ですか?

最強のトリップ検索人ですよね。
226 ◆MERIKEN4.k :2012/10/21(日) 20:36:39.65 ID:y9BRtUtK0
>>225
そうしていただけると助かりますです。
227 ◆MERIKEN4.k :2012/10/21(日) 20:40:17.03 ID:y9BRtUtK0
2時間以上S-Boxの書き換えに費やしましたが、まだ最初のS-Boxの作業すら
とても終わりそうにありません。こりゃ時間かかるわ…
しかしこれほんとうに効果があるのかしらん。
228 ◆MERIKEN4.k :2012/10/22(月) 07:33:09.17 ID:NclU6rMj0
結局これも読まんといかんのかな。まいったなあ…

Intel 64 and IA-32 Architectures Optimization Reference Manual
http://www.intel.com/content/dam/doc/manual/64-ia-32-architectures-optimization-manual.pdf
229 ◆MERIKEN4.k :2012/10/22(月) 09:13:25.24 ID:NclU6rMj0
Bitslice DESの各ゲートを、

A = OP(B, C)

という形から、よりSSEの命令セットに近い

A = OP(A, B)

という形に書き換えてるのですが、ようやくちょっとづつ速度が上がって来ました。
変換が終わったら、まとめられる一時変数をすべてまとめてしまう予定です。
230 ◆MERIKEN4.k :2012/10/22(月) 11:14:26.41 ID:NclU6rMj0
とりあえずS-Boxを1つだけ書き換えてみましたけど、
速度は微増といったところで劇的な変化は見られませんでした。
やはりIntrinsicsでの高速化には限界があるようです。
Intrinsicsで書きなおしたルーチンをさらにアセンブリで書きなおすという手も
あるのですがこれはにはかなり時間がかかるので、CPU検索の高速化はここまでにして
OpenCLへの移植に移りたいと思います。
231名無しさん@お腹いっぱい。:2012/10/22(月) 20:01:07.08 ID:8SpyKQvk0
232 ◆MERIKEN4.k :2012/10/23(火) 08:28:38.16 ID:Y+4Wukci0
新しい開発版です。今回の変更点は10桁トリップCPU検索の速度向上です。

MERIKEN's Tripcode Finder 0.06 Beta 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder
233 ◆MERIKEN4.k :2012/10/23(火) 08:36:00.46 ID:Y+4Wukci0
>>231
なるほど、これが>>200のブツですね。なんか普通にNVIDIAとIntelの
GPUで動いてますね… ちょっと自分でも試してみよう。
234 ◆MERIKEN4.k :2012/10/23(火) 08:37:16.76 ID:Y+4Wukci0
結局OpenCLならどのベンダのライブラリを使っても他のベンダの
GPUが使えるということなんでしょうか。
235 ◆MERIKEN4.k :2012/10/23(火) 09:03:33.94 ID:Y+4Wukci0
次のページを参考にしてAMD APP SDKのOpenCLのライブラリを
Tripcode Finderにリンクしてみました。

http://stackoverflow.com/questions/9595971/open-cl-with-amd
http://stackoverflow.com/questions/8969709/clgetplatformids-return-two-platforms-but-they-are-the-same

なんか普通にOpenCLからGTX 580もHD 5770も見えてます。

> OpenCL reports 2 platforms.
>
> Platform 0: NVIDIA Corporation NVIDIA CUDA OpenCL 1.1 CUDA 4.2.1
> Platform 1: Advanced Micro Devices, Inc. AMD Accelerated Parallel
> Processing OpenCL 1.2 AMD-APP (1016.4)

Core i7-3770KのGPUは見えていないようなのでIntelのドライバを入れて
もう一回試してみます。
236 ◆MERIKEN4.k :2012/10/23(火) 09:24:02.40 ID:Y+4Wukci0
よく見たらこれGPUじゃなくてプラットフォームなのか。
なにはともあれドライバをインストールしたらIntelのプラットフォームも
見えるようになりました。

> Platform 0: NVIDIA Corporation NVIDIA CUDA OpenCL 1.1 CUDA 4.2.1
> Platform 1: Advanced Micro Devices, Inc. AMD Accelerated Parallel
> Processing OpenCL 1.2 AMD-APP (1016.4)
> Platform 2: Intel(R) Corporation Intel(R) OpenCL OpenCL 1.1
237 ◆MERIKEN4.k :2012/10/23(火) 10:02:37.30 ID:Y+4Wukci0
デバイス一覧を取得しました。なぜかCore i7が2つあります。
JuniperってHD 5770のコードネームか。紛らわしいなあ…

> OpenCL reports 3 platforms.
>
> Platform 0: [NVIDIA Corporation] [NVIDIA CUDA] [OpenCL 1.1 CUDA
> 4.2.1]
>   0: [NVIDIA Corporation] [GeForce GTX 580]
> Platform 1: [Advanced Micro Devices, Inc.] [AMD Accelerated Parallel
> Processing] [OpenCL 1.2 AMD-APP (1016.4)]
>   0: [Advanced Micro Devices, Inc.] [Juniper]
>   1: [GenuineIntel] [ Intel(R) Core(TM) i7-3770K CPU @ 3.50GHz]
> Platform 2: [Intel(R) Corporation] [Intel(R) OpenCL] [OpenCL 1.1 ]
>   0: [Intel(R) Corporation] [ Intel(R) Core(TM) i7-3770K CPU @ 3.50GHz]
238 ◆MERIKEN4.k :2012/10/23(火) 10:27:30.20 ID:Y+4Wukci0
2つ見えているIntelのは両方共CPUみたいです。
HD 4000はどこに行ったんだろう…
239ののたん ◆KiwamonoL. :2012/10/23(火) 11:38:20.45 ID:Mm6auUgH0
もうどこからつっこめばいいのかわからんなこれ。w

CPU Only のランタイムしかいれてないんじゃねーの?
やったことないから知らんけど。www
240 ◆MERIKEN4.k :2012/10/23(火) 12:01:55.08 ID:Y+4Wukci0
いや〜、これちょっとやばいですよね…
IntelのOpenCLのSDKをインストールしても見えなかったのでおかしいなと
思ってたんですけど、なんとマザボにディスプレイを繋いだらようやく
OpenCLのAPIからIntel HD 4000を認識できるようになりました。

> 1: [Intel(R) Corporation] [Intel(R) HD Graphics 4000] [GPU]

CUDAと違って、OpenCLはかなりカオスですねえ…
241 ◆MERIKEN4.k :2012/10/23(火) 12:37:57.54 ID:Y+4Wukci0
やはりディスプレイをつながないとHD 4000はOpenCLデバイスとして
認識されないようです。ここでIntelの人がそう言っているので確実でしょう。
なんというか、いろいろ勿体無いです。

HD Processor Graphics failed to load as a device in Code Samples
http://software.intel.com/en-us/forums/topic/277886
242ののたん ◆KiwamonoL. :2012/10/23(火) 17:48:47.97 ID:Mm6auUgH0
いやいや、つっこみどころが多いのは OpenCL に対してじゃなくて。
ちゃんとマニュアルとか読んだ方がいいんじゃね?

まあまだサンプル動かしてみただけの段階なんだろうけど。
243 ◆999984973989 :2012/10/23(火) 19:21:09.50 ID:I3p6Oxvg0
夫婦漫才ですね。  このすれは・・・
244 ◆MERIKEN4.k :2012/10/24(水) 00:31:25.16 ID:idf8ye870
もともとマニュアルは絶対必要にならないと読まない方なんでw
それよりサンプル読んでたほうが参考になるし…
まあCUDAと似たようなものなので、近いうちに動くものが出来るように
なるでしょう。
245名無しさん@お腹いっぱい。:2012/10/24(水) 20:28:41.44 ID:qG+AQb1B0
一時停止の状態を保存できないのでしょうか。
246 ◆MERIKEN4.k :2012/10/24(水) 20:40:18.19 ID:idf8ye870
>>245
それは難しいですね。
累計検索時間と生成されたトリップの累計を表示させることなら出来ます。
次のバージョンでプログラムの構造に大きく手を入れる予定なので、
これまでに希望のあった機能はまとめて追加する予定です。
247 ◆MERIKEN4.k :2012/10/24(水) 20:44:36.27 ID:idf8ye870
とりあえずこのサンプルを読んだら大体の流れはわかりました。

Getting started with OpenCL and GPU Computing
http://www.thebigblob.com/getting-started-with-opencl-and-gpu-computing/

まずSHA-1とDES cryptのルーチンを移植して、ちゃんと動くのが確認してから
実際の検索ルーチンを作成することにします。やることはCUDAの場合と
ほとんど変わらないので、割とすんなり行きそうな予感…
248 ◆MERIKEN4.k :2012/10/24(水) 20:49:35.03 ID:idf8ye870
そうそう、今日テストベンチ用の部品が届くので、後で580+590をそっちに
移してTripcode Finderを動かして見ることにします。
2G TPS超は確実ですが、どこまで上乗せできるか楽しみです。
249245:2012/10/24(水) 21:05:41.68 ID:qG+AQb1B0
>>246
ありがとうございました。楽しみにしてます。
250名無しさん@お腹いっぱい。:2012/10/25(木) 20:33:30.73 ID:ocjKS/zjP
SHA256ハッシュを取ると全ビットが0になるキーを探してください
251 ◆CCCCkCCCCk :2012/10/25(木) 22:22:49.94 ID:w8XLKVhj0
初めまして。

なんとなくトリップ検索(特に12桁)を再開したくなり、
ひょんなことから、こちらの安定版を頂きました。

残念ながらラデオン使用+中古パーツ寄せ集めの自作なんで、
貴ソフトを100%活用できていませんが、表示される検索数には驚いていますw

CPU検索+スレッド自動ですが、
Phenom U Black x6 が、6コア100%稼動するのを初めて見ました。

ソフトの進化、期待しています。
(こっちのハードも進化させねばorz)
252 ◆MERIKEN4.k :2012/10/25(木) 23:29:49.74 ID:gkWWDV1H0
テストベンチに580+590を移したのでまた最高速の測定をしてみました。
590は意外にOC耐性があります。ビデオカードはむき出しで間を空けてあるので
GPUの温度は84度に抑えられています。

【GPU】NVIDIA GeForce GTX 580 (OC: 940/2004MHz) + GTX 590 (OC: 830/1728MHz)
【CPU】AMD Phenom II X6 1100T (定格)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.06 Beta 1
【トリップの種類】12桁
【オプション】-x 192 -c -g
【Display Driver】306.23
【10分間の平均速度】 2291.56M tripcodes/s
【その他】7完1タゲ。CPUの速度は約19.6M TPS。
253 ◆MERIKEN4.k :2012/10/25(木) 23:33:19.55 ID:gkWWDV1H0
>>251
12桁のCPU検索は限界に近い速度が出ていると思われます。
近いうちにラデにも対応する予定なのでその時はテストをお願いします。
254 ◆MERIKEN4.k :2012/10/25(木) 23:37:05.64 ID:gkWWDV1H0
>>250
見つけるのに一体何世紀かかるんでしょうねえ…
255 ◆MERIKEN4.k :2012/10/26(金) 04:37:11.50 ID:2pNAGJzV0
>>251
よく読み返したら安定版だったんですね。
それだったら次の安定版で5M TPSほど速くなります。
256 ◆MERIKEN4.k :2012/10/26(金) 09:17:26.32 ID:2pNAGJzV0
最高速の測定の続きです。あの後まさかと思って580をもう一枚
追加したらあっさり3G TPS超えできました。さすがテストベンチw
でもGPUの温度は最高で89℃なのでそろそろ限界でしょう。
温度さえ何とかなれば590 3-Way SLIで4G TPS超えも出来そうですが…

【GPU】NVIDIA GeForce GTX 580 SLI (OC: 930/2004MHz) + NVIDIA GeForce GTX 590 (OC: 830/1728MHz)
【CPU】AMD Phenom II X6 1100T (定格)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.06 Beta 1
【トリップの種類】12桁
【オプション】-x 192 -c -g
【Display Driver】306.23
【10分間の平均速度】 3080.98M tripcodes/s
【その他】7完1タゲ。CPUの速度は約13.1M TPS。
257名無しさん@お腹いっぱい。:2012/10/26(金) 18:49:10.26 ID:8HQ+za6d0
>>241
ディスプレイを繋がなくても、Windowsの設定で"画面を拡張"にしたらできますよ
258 ◆MERIKEN4.k :2012/10/27(土) 02:20:50.37 ID:y8rBUfat0
>>257
試してみたけどやっぱりOpenCLのAPIからは見えていません。
実際に物理的にディスプレイをつながないと駄目なようです。
折角の機能なのにもったいない… これって将来のドライバ更新で
改善されたりするものなんでしょうかねえ。
259 ◆MERIKEN4.k :2012/10/27(土) 02:49:49.84 ID:y8rBUfat0
あのあとテストベンチのGPUの電圧のクロック周波数をAfterburnerで細かくいじって、
普段使っている検索パターンで安定して2.3G tripcodes/s出せるようになりました。
正規表現を使ったかなり複雑なパターンなので、その分だけGPUの温度も上がって
しまい苦労しました。室温はだいたい30℃で、GPUの温度は最高で91℃です。熱すぎです。

GTX 580 (975mV 700/2004MHz)
GTX 580 (975mV 480/1000MHz)
GTX 590 (925mV 800/1728MHz)

このように上から順番に隙間なく並んでいるのですが、真ん中の580の放熱が
やはりというかうまくいかないらしく、クロック周波数を限界まで落とさざるを
得ませんでした。
260名無しさん@お腹いっぱい。:2012/10/27(土) 03:09:40.84 ID:QA+aurA10
そこまでクロックを落とすのなら無理せず他のGPU乗せた方が…
261 ◆MERIKEN4.k :2012/10/27(土) 03:30:05.40 ID:y8rBUfat0
もともと真ん中の580は乗っけるつもりがなくて、
590を買って余ってたのを使っただけなのでこれでいいのですw
最初はグラボを3枚のっけるなんて考えてもいなかったので…

余った580はオクで売っぱらう予定だったんですけど、
今の構成が思いのほかうまく動いているので当分このままにしておきます。
262名無しさん@お腹いっぱい。:2012/10/27(土) 04:09:48.65 ID:Gt8Alwps0
各マシンに分散したらいいんじゃないの?
ということで家庭内分散コンピューティング対応のネットワーク検索に期待してます
SETI@homeみたいな
263 ◆MERIKEN4.k :2012/10/27(土) 05:59:49.53 ID:y8rBUfat0
>>262
最終的にはそこに行きつくんでしょうねえ。
いずれぜひ取り組んでみたいけど、その前にスタンドアロンで
最高のトリップ検索プログラムを作るのを先にしたいと思います。
264名無しさん@お腹いっぱい。:2012/10/27(土) 11:13:11.34 ID:RRaDuUU/0
>>258
BIOSで常に有効にしたり出来ないのでしょうかね?

>>259
冬も暖房不要になりそうですねw
グラボの冷却は最終的にはやはり水冷なのでしょうかねえ・・・
265 ◆MERIKEN4.k :2012/10/27(土) 12:59:43.56 ID:y8rBUfat0
>>264
BIOSの設定も色々いじってみたけど駄目でした。
>>241のリンク先でIntelの人がはっきりと無理だと言ってるので無理なんでしょう。

恐らく消費電力はシステム全体で1000W近いので、電気ヒーターなど目ではありませんw
まあ性能のことだけ考えるなら水冷のほうがいいんでしょうけど、
保証がなくなるのと手軽にグラボの交換ができなくなるのは痛いですね。
590 4枚差しとかちょっと見てみたい気がしますけどねw
266名無しさん@お腹いっぱい。:2012/10/27(土) 19:54:23.00 ID:sNktJKqm0
>>265
BIOS設定でもどうにもならないとなると厳しいですね。

手持ちの電気ヒーターの消費電力を測ってみたことがあるのですが
強では表示どおり1200W、弱で600Wだったのでなかなか手ごわいですよw

GTX590を4枚となると1500Wを超えて電源が2系統必要になりそうです。
267名無しさん@お腹いっぱい。:2012/10/27(土) 20:22:25.50 ID:QA+aurA10
200V端子なら…
いや市販のプラグとコード見たことないけど
268 ◆MERIKEN4.k :2012/10/28(日) 00:33:21.89 ID:Xbgvyzs00
家庭用電源だとさすがに厳しいですねw
590 3枚あたりが個人でできる限界でしょうか。
269 ◆MERIKEN4.k :2012/10/28(日) 00:37:03.15 ID:Xbgvyzs00
Tesla K20がようやく発売開始になったみたいですね。
http://www.sabrepc.com/p-2920-nvidia-900-22081-2220-000-tesla-k20-kepler-gpu-computing-processor.aspx
$3500なのでK10と似たようなお値段ですが、手が出ないことにはかわりませんw
誰かTripcode Finderをこれで動かしてみてくれないかな〜
270 ◆MERIKEN4.k :2012/10/28(日) 06:46:31.10 ID:Xbgvyzs00
>>247のサンプルをTripcode Finderのソースに組み込むことに成功しました。
ちゃんと実行ファイルと同じディレクトリにあるOpenCLのソースファイルが
コンパイルされて実行できてます。次はCUDAのSHA-1のルーチンを
コピペして動作するかどうか確認することにします。
271 ◆MERIKEN4.k :2012/10/28(日) 07:07:21.83 ID:Xbgvyzs00
1年前に書いたCUDAのSHA-1のルーチンを読み返してみたけど、
やはりDES cryptに比べると相当簡単です。これならテストも割りと
すんなりといくかな。
272 ◆MERIKEN4.k :2012/10/28(日) 09:39:11.88 ID:Xbgvyzs00 BE:4788072498-2BP(12)
サンプルを書き換えてOpenCLのSHA-1のルーチンをテストするコードを
でっち上げたのですが、1発で12桁トリップの変換に成功しました。
10桁CPU検索の作業に比べてなんと楽なことよ…
273 ◆MERIKEN4.k :2012/10/28(日) 09:52:54.49 ID:Xbgvyzs00
私の机の隣で爆音を立てて熱風を撒き散らしつつ24時間稼働している
「検索君1号(仮名)」ですが、あまりにうるさいので昔買って放置してあった
Sonyのノイズキャンセリングヘッドフォンを引っ張りだしてきました。
効果は抜群で、数ヶ月ぶりに自室に(見かけ上の)静寂が訪れました。
580 1枚でうるさいと持ってた頃が懐かしいです…
274名無しさん@お腹いっぱい。:2012/10/28(日) 09:55:29.83 ID:xpUhApe40
これは12桁での速度を維持しながら10桁での検索も可能ということなのでしょうか?
275 ◆MERIKEN4.k :2012/10/28(日) 10:02:40.32 ID:Xbgvyzs00
>>274
違います。NVIDIA以外のグラボでもGPU検索ができるようになるかも、という話です。
計算量が桁違いなので、理論的に10桁検索が12桁検索と同じぐらい速くなるということは
あり得えないです。

ただ、RadeonのグラボはNVIDIAのものに比べて10桁検索に向いているということは
ありそうです。というかCUDAと10桁検索が壮絶に相性が悪いだけなのかも
しれませんが…
276名無しさん@お腹いっぱい。:2012/10/28(日) 11:16:46.22 ID:JD+mWdaq0
>>268
電源ユニット2台で別系統のコンセントを使えば大丈夫かと思いますw
そこまでするなら複数台に分けた方がいいですけど。
277名無しさん@お腹いっぱい。:2012/10/28(日) 11:23:26.19 ID:JD+mWdaq0
>>275
Radeonがアーキテクチャ的にDES cryptの計算もやりやすいのでしょうか?
OpenCLならGeForceでもマシになったりするのかも気になります。
278 ◆MERIKEN4.k :2012/10/28(日) 11:33:10.81 ID:Xbgvyzs00
>>277
ゲフォよりもラデのほうがレジスタの数が多いとかいう話をどこかで見かけました。
それにラデのほうが実際に速度が出てますしね。OpenCLはCUDAより遅くなるのが
目に見えているのでラデへの対応はありません。
279 ◆MERIKEN4.k :2012/10/28(日) 11:34:57.99 ID:Xbgvyzs00
間違えた。>>278の最後の行は「ゲフォへの対応はありません」だった。
280名無しさん@お腹いっぱい。:2012/10/28(日) 11:41:03.95 ID:JD+mWdaq0
やはりレジスタが一番の理由ですか。
GeForceはKeplerでの方向性とか見ていると厳しくなりそうですね。
281 ◆MERIKEN4.k :2012/10/28(日) 12:15:12.94 ID:Xbgvyzs00
>>280
レジスタの数がそこまでなくても、高速なメモリがあればそれでいいんですけどね。
CUDAの10桁検索も共有メモリの量さえ増えれば多分倍以上の速度が出るでしょう。
オンダイの高速メモリをL1キャッシュに使うぐらいならもっと共有メモリを
増やして欲しいもんです。

GeForceでのGPGPUの今後はわかりませんね〜
GK110がGeForceに降りてきてくれればいいんですけど…
282 ◆MERIKEN4.k :2012/10/28(日) 21:10:17.36 ID:Xbgvyzs00
>>276
やっぱそうですよね〜 トリップ検索を始めたときにはこんなに熱処理に悩まされるとは
思いもしませんでした。分散処理対応を真剣に考えよっと。
283 ◆CCCCkCCCCk :2012/10/28(日) 23:07:58.09 ID:XmyhG/mG0
こんばんは。

>>253
ちょっと古いグラボなんでどうなるか分かりませんが、データ取りにはなると思います。
年明けなら、うまくいけば上位のヤツが手に入りそうです。

>>255
おおっ、楽しみにしています。

>>282
コンピューターの歴史は熱との戦い・・・
真空管のENIACなんか、凄かったでしょうね。

//

とりあえず、ご報告。
CPUはAMD PhenomU x6 1090T Black Edition 3.2Ghz
ターゲット5種・5完〜12完で稼動です。
最高で23.68Mtrip/sぐらいです。
ターゲットを12種にしたら、高21.88Mtrip/s、平21.66Trip/sぐらいです。
そちらと同じ検索条件にすれば、もっと早くなるのは分かってますが、つい・・・^^;

ではまた。
284 ◆MERIKEN4.k :2012/10/29(月) 02:42:12.63 ID:nQV6S3Gh0
>>283
データ取りでも有難いです。ぜひよろしく。
285 ◆MERIKEN4.k :2012/10/29(月) 02:47:14.79 ID:nQV6S3Gh0
あのあとOpenCLのSHA-1のルーチンの速度を測定しようとしたのですが、
適当な作りのテスト用コードではちゃんと測定できませんでした。残念…
やはりある程度検索ルーチンを作りこまないといけないようです。
まあしょうがないといえばしょうがないですね。
とりあえず前方一致検索の分だけ作ってみます。
286 ◆MERIKEN4.k :2012/10/29(月) 02:53:39.55 ID:nQV6S3Gh0
これはRadeon向けの最適化の資料です。あとでじっくり読もうっと。

AMD Accelerated Parallel Processing OpenCL Programming Guide
http://developer.amd.com/tools/hc/amdappsdk/assets/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf
287 ◆MERIKEN4.k :2012/10/29(月) 06:19:58.32 ID:nQV6S3Gh0
あまりも検索君1号(仮)のGPUの温度が高すぎて心臓に悪いので、
こんなものを注文しました。

BestDealUSA PCI-E Express 16X Riser Card Extender Extension Cable Ribbon Flex
http://www.amazon.com/gp/product/B00646VJDG

これで真ん中のグラボを浮かせてやって空気の流れを良くしようという狙いです。
まあ見た目は悪くなるだろうけど、効果は確実にあるでしょう。
288 ◆MERIKEN4.k :2012/10/29(月) 09:44:46.80 ID:nQV6S3Gh0
OpenCLのルーチンをデバッグしてるんですけど、
実行時にOpenCLのコードのコンパイルに失敗しても
結構詳しいエラーメッセージが取得できるので助かります。
CUDAほどお手軽ではないですけど、
思ったより手間がかからずに済みそうです。
289 ◆MERIKEN4.k :2012/10/29(月) 12:57:58.70 ID:nQV6S3Gh0
CUI版を少しずつOpenCL対応のために書き換え始めました。
CUI版での変更がGUI版に自動的に反映されるのが便利といえば便利です。
とりあえず"AMD HD 5770"と"Intel HD Graphics 4000"はGUI版から見えるように
なりました。OpenCL対応は単純作業が多そうなので、毎日少しづつ
進めていくことにします。
290名無しさん@お腹いっぱい。:2012/10/29(月) 14:04:33.31 ID:yyXkW2IU0
つまりオンボだけどCore iしりーずな人でもGPUパワーが使えるのか……胸熱
291名無しさん@お腹いっぱい。:2012/10/29(月) 14:36:56.78 ID:5Sl8Z/AoP
自分はOpenCLでSHA256ハッシュを探索して
ハッシュの先頭に0のビットが多く並ぶキーを探すプログラムを書いているんですが
Windows7で265MHash/s出ていたのが80MHash/sしか出なくなって
原因調査中です
292名無しさん@お腹いっぱい。:2012/10/29(月) 19:19:37.57 ID:mTINnVu80
>>290
前に別のところで聞いた話だとすずめの涙みたいな計算速度だった覚えが
293名無しさん@お腹いっぱい。:2012/10/29(月) 21:24:08.35 ID:myu28mTs0
8800GT メモリ2GBのPCですが、検索停止ボタンを押すと完全に固まります
フリーズ中はGPUのファンは静かになっていて、HDDが規則的なリズムでガリガリと鳴りつづけていました

さきほど1分ほど動かして検索停止ボタンを押した時は15分経っても復帰しませんでした。多分、そのまま動かし続けてもフリーズするのは時間の問題だと感じました
再起動した後、とりあえず10秒(検索速度などの表示が出るまで)で止めてみたのですが、停止ボタンを押した後に一瞬画面が真っ黒になって「ディスプレイドライバの応答停止と回復」のポップアップが表示されました
この調子ですぐ止めればセーフか?と思い、続いてブロック数を自動から1に変更して開始したところ、同じように10秒で止めても完全にフリーズしてしまいました
メモリの容量か何かが関係しているのかとも思いましたが、それにしては検索中もメモリの利用率は別に増えてなかったのが不思議です。

使っていて変な汗が出たソフトナンバーワンなのは間違いないです
294 ◆MERIKEN4.k :2012/10/29(月) 21:30:51.78 ID:nQV6S3Gh0
>>293
多分問題は電源かGPUの温度でしょう。メモリは殆ど使わない作りになっているので
まず関係ないです。SpeedFanとかAfterburnerで温度をチェックすると
いいかもしれません。
295 ◆MERIKEN4.k :2012/10/29(月) 21:32:28.03 ID:nQV6S3Gh0
>>290
>>292
実際に検索させてみないことにはわからないですけど、
性能はあんまり期待できないでしょうね〜 まあおまけみたいなもんです。
296 ◆MERIKEN4.k :2012/10/29(月) 21:34:25.08 ID:nQV6S3Gh0
>>291
なかなか不思議なプログラムですねえ。手直しすると突然速度が落ちるという
ことはよくあります。バージョン管理は必須ですね。
297名無しさん@お腹いっぱい。:2012/10/29(月) 21:44:29.50 ID:myu28mTs0
>>294
電源ですか!なるほどなるほど・・・なんだか靄が晴れた気分です
298名無しさん@お腹いっぱい。:2012/10/29(月) 23:27:29.31 ID:5Sl8Z/AoP
>>296
すいません291はWindows8にしたらって書くのを忘れてました
299名無しさん@お腹いっぱい。:2012/10/30(火) 00:35:03.80 ID:DNUGLhjc0
>>295
AMD APUの場合は
http://www.amd.com/jp/press-releases/Pages/second-generation-amd-a-series-2012may15.aspx
A10-5800Kで理論値はCPU部分が約120GFLOPS、GPU部分が約600GFLOPSと5倍程度差があるらしいので
うまく利用できるとそこそこ期待できそうですが、問題はVLIWへの最適化でしょうかね?
300 ◆MERIKEN4.k :2012/10/30(火) 03:13:30.53 ID:6+f0bjdv0
いい機会なのでコードの整理をして、パターン処理の関数を1つのファイルに
まとめました。正規表現のパーサが含まれているので結構な大きさです。
これでコードもすっきりしたのでOpenCLデバイスの処理を追加しやすくなりました。
コード全体を眺めるのは久しぶりなんですけど、継ぎ足しに継ぎ足して
随分たくさん書いたもんです。
301 ◆MERIKEN4.k :2012/10/30(火) 03:17:19.66 ID:6+f0bjdv0
>>299
トリップ検索では浮動小数点演算は使わないのでFLOPSはあんまりあてにならない
んですけど、AMDのAPUならそこそこ性能は出るでしょう。最適化については
今のところ全く分かりませんw とりあえず動くOpenCLのコードができてから
考えることにします。
302 ◆MERIKEN4.k :2012/10/30(火) 08:03:47.74 ID:6+f0bjdv0
OpenCLデバイスの初期化の処理も実装し終わりました。
あとはスレッド周りを修正すれば、実際の検索ルーチンに取り掛かれます。

----

Using GPU(s) as a search device.

OPENCL DEVICE
=============
OpenCL Device Count: 2

Vendor: Advanced Micro Devices, Inc.
Name: Juniper
Clock Frequency: 850MHz
Global Memory Size: 1024M bytes
Version: OpenCL 1.2 AMD-APP (1016.4)
Driver Version: 1016.4 (VM)

Vendor: Intel(R) Corporation
Name: Intel(R) HD Graphics 4000
Clock Frequency: 350MHz
Global Memory Size: 1624M bytes
Version: OpenCL 1.1
Driver Version: 8.15.10.2761
303 ◆GTX680Mcys3u :2012/10/31(水) 02:24:34.52 ID:h5Ao5/fb0
お久しぶりです。
ノート用でGTX680M発売決定らしいです。
http://www.geforce.com/hardware/notebook-gpus/geforce-gtx-680mx/specifications

GK104コアでCUDAコア数はGTX680同等、クロックはGTX680Mと同等
メモリクロックはGTX680M比で40%増し。
ノートも段々デスクトップと変わらなくなってきましたね。

性能次第じゃGTX680Mの時と同じでeBayからMXMカード取り寄せるかも…。
304 ◆GTX680Mcys3u :2012/10/31(水) 20:45:23.81 ID:h5Ao5/fb0
>>303まちがい
新しいGTX680相当のSMX数で出るのは680MXです
305 ◆MERIKEN4.k :2012/11/01(木) 08:07:20.98 ID:pqoHlXrk0 BE:1197018836-2BP(12)
>>303-304
なるほど、こういうのでアップグレードするんですね。
http://www.ebay.com/sch/i.html?_nkw=MXM+%22680%22
ちょっと割高な気もするけど、これだけコンパクトにまとまっているのは凄いですねえ。
306 ◆MERIKEN4.k :2012/11/01(木) 08:11:48.87 ID:pqoHlXrk0
OpenCL検索のスレッド周りの処理も一応仕上がりました。
これでいよいよ検索ルーチンの実装を始められます。
307 ◆MERIKEN4.k :2012/11/01(木) 18:28:16.36 ID:pqoHlXrk0
検索ルーチンを作り始めたんですけど、Intelの実装とAMDのとで微妙に挙動が違って
きますね、これ。AMDのではエラーがでなくてもIntelのでエラーが出たりしてます。
思ったよりデバッグに時間がかかるかもしれません。
とりあえず両方のプラットフォームでトリップの変換ができていることは確認できました。
やっぱりIntelのほうが大分遅いですねえ。
308 ◆MERIKEN4.k :2012/11/01(木) 19:11:17.86 ID:pqoHlXrk0
そうそう、検索君1号(仮)ですが、一番下のPCI-EスロットにGTX 590を移したら
温度の問題は全て解決しましたw いい具合に2番目と3番めのカードのあいだに
1スロット分の隙間が出来ました。590とマザボのピンが干渉するので
ケースの電源ボタン等は使えなくなったけど、別のがマザボについているので今のところ
困っていません。普段使っている検索パターンで安定して2.7G TPSでています。
1年前に800M TPS出して大喜びしていたのが遠い昔のようですw

もうさすがに買わないですけど、電源の容量から計算すると590 3枚でも
十分動作しそうです。3072コアで同時にトリップ検索なんて考えただけで
胸が熱くなりますw
309 ◆GTX680Mcys3u :2012/11/01(木) 20:24:07.51 ID:d/NjzRgi0
>>305
それです。
その一番大きなMXM3.0bという規格でもデスクトップ用の半分以下のサイズだと思いますよ。

ちょっと安いところのが撤退してますねぇ。
今出てる一番安いのはAlienware用のVRAM2GB版だけど
自分が買った時はVRAM4GB版でも799ドルだったのに。
さすがに999ドルなら自分も買ってなかったでしょうけども。

日本ってこういうパーツ全く出回らないんですよね。ニッチだけど需要はありそうなのに。
310 ◆MERIKEN4.k :2012/11/02(金) 02:08:46.32 ID:pOqRQijG0
>>309
部品が手に入りづらいとストレス溜まりますよね。
アメリカの人達はわりと大型のノートPCを好むというのもあるかもしれません。
311 ◆MERIKEN4.k :2012/11/02(金) 02:21:27.01 ID:pOqRQijG0
OpenCL検索のGPU側のコードを書き終えました。
とは言っても次の資料を見てCUDAのコードを書き換えただけですが…

Porting CUDA Applications to OpenCL
http://developer.amd.com/Resources/hc/OpenCLZone/programming/pages/portingcudatoopencl.aspx

あとはCPU側のコードを用意してやればOpenCL検索ができるようになるはずです。
OpenCLのコードは問題なくビルドできているので、あと残っているので
めんどくさそうなのはメモリ周りの処理ぐらいです。まあなんとかなるでしょう。
312 ◆MERIKEN4.k :2012/11/02(金) 05:21:44.88 ID:pOqRQijG0
CPU側のコードを用意ができたのでOpenCL検索を試してみたのですが、
Radeonだとwork-groupの数が不正だと怒られて動かせませんでした。
で、Intelのほうを試してみたら、奇跡的にトリップは生成されました。
が、めちゃくちゃ遅い! 遅すぎる! 仕方がないのでとりあえず
Radeonで動くようにしてからコードの見直しをすることにします。
313 ◆MERIKEN4.k :2012/11/02(金) 05:34:17.58 ID:pOqRQijG0
ちょっと手直ししたら今度はclEnqueueNDRangeKernelで
CL_OUT_OF_RESOURCESが出てしまいました。
仕様書を見たらレジスタやカーネルへの引数の数が多すぎるとこのエラーが出るらしいです。
いろいろ面倒くさいなあ…
314 ◆MERIKEN4.k :2012/11/02(金) 05:39:42.98 ID:pOqRQijG0
どうやらwork-groupのサイズはclGetKernelWorkGroupInfoで取り出さないと
いけない模様。これでうまくいくといいけど…
315 ◆MERIKEN4.k :2012/11/02(金) 07:27:52.40 ID:pOqRQijG0
あの後色々調べてみたけど原因はわかりませんでした。
う〜ん、CUDAの検索ルーチンをそのまま移植するんじゃなくて、
少しづつ動くのを確認しながら作り込んでいったほうがよかったのかなあ。
完全に煮詰まってしまったので食事をしてきます。
316 ◆MERIKEN4.k :2012/11/02(金) 10:39:28.35 ID:pOqRQijG0
AMDのOpenCLの実装で動かなかった理由がようやくわかりました。
16M bytesあるキービットマップの配列へのポインタをカーネルの引数で渡していたのが
原因でした。CUDAで実装したときも我ながら無茶な実装だと思ったものですが、
今の今まですっかり忘れていましたw 取りあえずなくても動くので
OpenCLではキービットマップを使わないことにしておきます。
多ターゲットの検索だとキービットマップがかなり有効なのはわかっているので、
あとで小さめのも作ることにします。
317 ◆MERIKEN4.k :2012/11/02(金) 12:03:11.26 ID:pOqRQijG0
というわけでOpenCLの12桁検索の試験実装がめでたくRadeon HD 5770で
動くようになりました。GPU使用率65%で190M TPS出ているので、CUDAの実装の
ベタ移植にしては上出来でしょう。ヒット率も綺麗に予想値に収束しています。
いや〜これでようやく安心できました。

あ、あとIntel HD 4000では同じコードで3M TPSしかでていませんw
こりゃほんとにおまけですねえ。
318 ◆MERIKEN4.k :2012/11/02(金) 12:29:52.07 ID:pOqRQijG0
GPU使用率を上げようといろいろ頑張ってみたのですが、
ちっとも上がってくれません。global_work_sizeとlocal_work_sizeを
いじっても駄目でした。mtyのときも似たようなことがあったし、
ドライバの仕様なのかなあ。
319 ◆MERIKEN4.k :2012/11/02(金) 13:03:48.65 ID:pOqRQijG0
ちっともGPU使用率が上がらないので、思いつきで1つの5770に対して
2つの検索スレッドを走らせたら、見事にGPU使用率が96%まで上がって
301M TPS出るようになりましたw 冗談みたいな話ですが
ヒット率は予測通りなのでちゃんとうごいているようです。
なんか釈然としないけど、きちんと動作しているのでこのままにしておきます。
320 ◆MERIKEN4.k :2012/11/02(金) 13:23:20.71 ID:pOqRQijG0
しかしRadeonは思った以上に性能が出ますねえ。
5770でこれなら7970だったら1枚で1G TPSを超えるかもしれません。
10進検索のほうも楽しみです。OpenCL検索の実装が順調に進んで、
GTX 780が噂通り680の改良版なら、次に買うのは8970になるかもしれません。
321ののたん ◆KiwamonoL. :2012/11/02(金) 13:54:01.66 ID:ayT59sJq0
>>318
それを知ってるのに秘孔は知らないのか?
ttp://sourceforge.jp/projects/naniya/svn/view/branches/mty-makai/hikou.c?root=naniya&view=log

効果があるかどうかはしらん。w
322 ◆MERIKEN4.k :2012/11/02(金) 14:53:44.04 ID:pOqRQijG0
>>321
その処理をTripcode Finderに組み込もうとしたらAPIが古過ぎてコンパイル
できませんでした(´・ω・`)
323ののたん ◆KiwamonoL. :2012/11/02(金) 17:13:31.39 ID:ayT59sJq0
>>322
効果があるか試すだけなら、バイナリもあるぜ。
http://trip2ch.net/wiki/index.php?%E3%81%BE%E3%81%82%E3%80%81%E5%BE%85%E3%81%A6%E5%B1%8B%E3%80%82

やってることは単純だから、今のAPIで同じことをやればいいんだろうけど。
324名無しさん@お腹いっぱい。:2012/11/02(金) 19:08:34.63 ID:druh0GIy0
325名無しさん@お腹いっぱい。:2012/11/02(金) 20:45:07.84 ID:RumtBqwhP
目指せ純12連発見
326前スレ927:2012/11/03(土) 01:40:23.60 ID:nhwVplaB0
HTがトラウマになったので、影響を調べてみました。

CPU: Xeon [email protected] x 2
GPU: Quadro FX 3800
Prg: 0.06a1
Len: 12
Targ: "TEST/"
Opt: -c -g -x 16
Drv: 306.79

この条件でOSとHTを買えて計測しました。
327前スレ927:2012/11/03(土) 01:45:43.54 ID:nhwVplaB0
先ずはXPから。
Case 1-1
CPU: HT off (12 thread)
OS: WinXP SP2 64bit
1hrAv: 240.76M TPS
Others:
243.23M TPS (curr)
171.13M TPS (GPU)
72.11M TPS (CPU)

Case 1-2
CPU: HT on (24 thread)
OS: WinXP SP2 64bit
30minAv: 247.84M TPS
Others:
247.50M TPS (curr)
171.13M TPS (GPU)
76.72M TPS (CPU)
328名無しさん@お腹いっぱい。:2012/11/03(土) 01:50:13.99 ID:nhwVplaB0
次は7です。
Case 2-1
CPU: HT off (12 thread)
OS: Win7 SP1 64bit
30minAv: 241.77M TPS
Others:
241.44M TPS (curr)
169.01M TPS (GPU)
72.43M TPS (CPU)

Case 2-2
CPU: HT on (24 thread)
OS: Win7 SP1 64bit
30minAv: 246.28M TPS
Others:
246.97M TPS (curr)
170.87M TPS (GPU)
76.10M TPS (CPU)
329前スレ927:2012/11/03(土) 02:01:41.49 ID:nhwVplaB0
連投済みません。
XPから7にしても性能変わらんねぇ。(´・ω・`)
HT on/offでも大して変わらんねぇ。(´・ω・`)

GTX590を追加しようとしたのですが、電源容量が足りないことが判明。
GPU用に8ピンx2を用意する上手い方法は無いでしょうか?
ATX電源だと確かスイッチ入れないと出力されなかったような気が・・・
330ののたん ◆KiwamonoL. :2012/11/03(土) 02:51:49.87 ID:ZeqW5mDD0
>>329
つ「ttp://www.freedom-pc.com/product/card_reader.html
一台目の電源ユニットに連動するやつも見たことあるけど。

だがしかし、おすすめはしない。いろんな意味で【危険】だから。
素直に電源ユニットをいいやつに交換したほうが。
331 ◆MERIKEN4.k :2012/11/03(土) 02:53:51.82 ID:0Ur2Ic2+0
>>329
HTを有効にしても速度が上がらないのはかなり意外ですねえ。
Core i7-3770KではHTはかなり有効だったので…
電源は入れ替えたほうが早いような気もしますけど、
一応別に用意することもできます。
https://www.google.com/webhp#q=atx+%E9%9B%BB%E6%BA%90+%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88
332 ◆MERIKEN4.k :2012/11/03(土) 03:10:23.14 ID:0Ur2Ic2+0
>>323
hikou.exeは多少効果がありましたけど、それでもGPU使用率は70%ほどでした。
GPU検索スレッドを増やす方向で行きたいと思います。
333名無しさん@お腹いっぱい。:2012/11/03(土) 03:50:36.64 ID:BiGdIpnm0
一瞬、複数の電源系統を使って、1台での最速を目指すのかと思ってしまいましたw

>>311
こういった情報はありがたいですね。
334名無しさん@お腹いっぱい。:2012/11/03(土) 03:55:42.16 ID:BiGdIpnm0
>>317 >>319
Intelの方はグラフィック特化で、とりあえずOpenCLに対応はさせたということなのでしょうかね。
AMD APUの方は上位だと3桁行きそうな感じですね。
335名無しさん@お腹いっぱい。:2012/11/03(土) 07:52:02.05 ID:CKknzRPb0
>>329
今から追加するならラデのほうが速くて良くね?
openCL版もそろそろ公開されそうだし
今更性能の悪いCUDAカード追加するのはクレバーとは言えないよ
暖房に使うならありかもしれないけどねwww
336 ◆MERIKEN4.k :2012/11/03(土) 09:17:27.77 ID:0Ur2Ic2+0
>>335
ん? OpenCL版は公開するなって? そうかそうかw

…という冗談は置いといて、正直GCNアーキテクチャのRadeonで
どれぐらいの性能が出るかは全くの未知数です。あとTripcode Finderの
Radeon対応版の公開はもうちょっと先になるでしょう。10桁検索の
実装はこれからだし、この先実生活のほうでかなり忙しくなるので
ひょっとしたら1月中旬までずれ込むかもしれません。まあ気長に
待ってて下さい。
337 ◆MERIKEN4.k :2012/11/03(土) 09:19:54.73 ID:0Ur2Ic2+0
>>334
IntelのはなぜハイエンドのCPUに統合したのか理解に苦しむレベルです。
AMDのAPUだったら3桁は余裕でしょう。
338 ◆MERIKEN4.k :2012/11/03(土) 09:26:59.16 ID:0Ur2Ic2+0
>>333
この資料のお陰で他の資料を読まずに済みましたw
あとで一応AMDの最適化のマニュアルには目を通しておきますけど…
339名無しさん@お腹いっぱい。:2012/11/03(土) 16:58:25.33 ID:JFLtV7Ft0
コマンドライン上から1枚目のカードを検索の動作から外すのはどう指定すればいいのでしょうか。
340 ◆MERIKEN4.k :2012/11/03(土) 17:08:51.68 ID:0Ur2Ic2+0
>>339
今のところカードは1枚指定するか全部指定するかどちらかしか出来ないので、
CUI版を複数同時に起動する必要があります。
任意の複数のGPUを指定する機能は今後の課題として検討させて頂きます。
341 ◆MERIKEN4.k :2012/11/03(土) 21:47:33.80 ID:0Ur2Ic2+0
あれからOpenCL検索の最適化をすすめて、HD 5770で390M TPS出るようになりました。
とはいってもglobal_item_sizeとlocal_item_sizeの値をいろいろと
変えてみただけですが… これらの値の自動設定は無理そうなので、
GPUの種類を判別してあらかじめ決められた値を使うようにしておきました。
あとIntelのもちょこっと上がって3.7M TPSになりましたw
342名無しさん@お腹いっぱい。:2012/11/03(土) 21:54:41.47 ID:nALhqe3q0
ゲフォを捨てる日も近いな
343名無しさん@お腹いっぱい。:2012/11/04(日) 00:42:16.84 ID:UfxuJC360
Amazon Cluster GPU Instances($2.6/h)でやってみた
http://img11.imageshack.us/img11/8029/29089004.jpg
344名無しさん@お腹いっぱい。:2012/11/04(日) 00:49:29.80 ID:kuWvI2yC0
>>341
>GPUの種類を判別してあらかじめ決められた値を
性能別にざっくり分ける感じですか?
345 ◆MERIKEN4.k :2012/11/04(日) 01:17:42.41 ID:00/F8mIE0
>>343
FermiベースのTesla C2075が2枚刺さってますね。
Amazon Web ServicesでCUDAが使えるとは知りませんでした。
2週間回し続けたらGTX 590が買えるお値段になっちゃうけど、
なかなか面白いですねえ。ネットワーク分散処理に対応したら
これで記録を立ててみようかなw
346 ◆MERIKEN4.k :2012/11/04(日) 01:29:24.24 ID:00/F8mIE0
>>344
global_item_sizeとlocal_item_sizeはオプションで指定できるように
するつもりです。最初はGPUのアーキテクチャ毎にデフォルトの値を
設定しておいて、データが集まったらカード毎に値を変えるようにする予定です。
347名無しさん@お腹いっぱい。:2012/11/04(日) 01:57:32.32 ID:kuWvI2yC0
>>346
なるほど……
348 ◆MERIKEN4.k :2012/11/04(日) 03:30:45.58 ID:00/F8mIE0
AMDのOpenCLのマニュアルをちょこっと読んだんですけど、
ベクターレジスタがこれでもかというぐらいあって思わず笑ってしまいましたw

AMD Accelerated Parallel Processing OpenCL Programming Guide
http://developer.amd.com/tools/hc/AMDAPPSDK/assets/AMD_Accelerated_Parallel_Processing_OpenCL_Programming_Guide.pdf

これによると5970は5770の3.41倍の速度が出るそうで、単純計算だと
391M TPS * 3.41 = 1333M TPS出ることになりますけど、本当なんでしょうか…
349 ◆MERIKEN4.k :2012/11/04(日) 03:53:31.57 ID:00/F8mIE0
あ、5970はdual-GPUなんですね。あ〜びっくりしたw
しかしお値段を考えるとかなりお得で夢が広がります。
年末に日本に帰省してるあいだは開発はできなくなるので、
なんとかそれまでにRadeon対応版を仕上げたいです。
350前スレ927:2012/11/04(日) 08:23:26.67 ID:wspvDmvD0
いろいろ情報ありがとうございます。
訳有って電源を変えることもCUDAを捨てることもできないのです。
電源を変えたいのは山々なんですが。

>>330 >>331
複数電源やってる人多いんですね。確かにいろいろな意味で危険だ。
でもこれしか今のところ手が無いので、この方法で行ってみます。

NehalemからSandy BridgeになったところでCPUコアに大幅に手が入っているから、HTの効果がより大きくなったのではないでしょうか? 詳しいことは全然知りませんが。

余った電源を探しに押入れを漁ったのですが見つからず。代わりに大昔のGTX480が出てきました。
見なかったことにするか・・・。
351 ◆MERIKEN4.k :2012/11/04(日) 09:47:14.72 ID:00/F8mIE0
>>350
> 代わりに大昔のGTX480が出てきました。

いらないのでしたらテスト用に欲しいのでぜひ譲って下さいw
352 ◆MERIKEN4.k :2012/11/04(日) 09:56:21.45 ID:00/F8mIE0
>>313>>316のエラーですが、結局巨大なキービットマップが__constantの
メモリ空間に収まらなかったということみたいです。まあ当然ですよねw
で、代わりにかなり小さめのキービットマップを用意してやったら、
なんと407M TPSまで速度が上がりましたw これ、CUDAのでも使えるんじゃない
かしらん。
353名無しさん@お腹いっぱい。:2012/11/04(日) 10:00:03.60 ID:3mBasjXYP
SHA256ハッシュだとこんな感じの速度になるらしい

ttps://en.bitcoin.it/wiki/Mining_hardware_comparison
354 ◆MERIKEN4.k :2012/11/04(日) 10:28:15.44 ID:00/F8mIE0
やっぱりSHA-1よりは大分数字が落ちますねえ。
ここらへんの数字はなかなか面白いです。

> 5970 $421 Limited 704
> 6990 $622.99 Limited 772
> 7970 $420 Easy 685

トリップ検索が目的なら安い5970を中古で買ったほうが
いいのかもしれません。
355 ◆MERIKEN4.k :2012/11/04(日) 10:49:10.65 ID:00/F8mIE0
小さめのキービットマップを追加するついでにコードを大分整理しました。
もう十分速度は出ているので、最適化は適当に切り上げて
OpenCLの12桁検索だけ先に仕上げてしまうことにします。
356 ◆MERIKEN4.k :2012/11/05(月) 06:52:49.50 ID:fpizldxB0
前方一致以外の正規表現の検索への対応も終わって、
CUI版のOpenCLでの12桁検索対応の作業はほぼ終了しました。
あとはglobal_work_sizeとlocal_work_sizeをオプションで
出来るようにして、GUI版を修正するだけです。
本当は10桁検索にも対応させてから公開する予定だったけど、
こっちは難物で最適化に時間がかかりそうなので後回しにします。

あ、あとIntelのコンパイラは新しいOpenCLのカーネルをコンパイル
できませんでしたw clGetProgramBuildInfoであっち側に行ったきり
帰って来ません。まあカーネルがマクロ使いまくりでちょっと
複雑なのは事実なんですが、どうせIntelのドライバのバグだろうし
HD 4000ちゃんは全く性能の出ないアホの子だということが
わかってしまったので、このままにしておきます。
357名無しさん@お腹いっぱい。:2012/11/05(月) 07:03:38.38 ID:U1XO/30v0
>>356
峠は越えましたね乙です
公開を楽しみにしております
358 ◆MERIKEN4.k :2012/11/05(月) 12:19:08.63 ID:fpizldxB0
>>357
どもども。あとちょっとなので頑張ります。CUI版の作業は一応全部終わりました。
あとはGUI版だけです。
359 ◆MERIKEN4.k :2012/11/05(月) 12:20:14.73 ID:fpizldxB0
その前にバージョン0.06の正式版をうpしなきゃ… すっかり忘れてた。
360 ◆MERIKEN4.k :2012/11/05(月) 13:29:17.33 ID:fpizldxB0
バージョン0.06の安定版です。

MERIKEN's Tripcode Finder 0.06
http://www.meriken2ch.com/programming/merikens-tripcode-finder

機能的にはBeta 1と変わりません。バージョン0.05の安定版からの変更点は
以下になります。

・64bit版の追加。
・CPU検索の速度向上。
361名無しさん@お腹いっぱい。:2012/11/05(月) 16:10:33.81 ID:XSg5TiK+0
>>360
早速テストしてみましたよー(検索ワードは「^TEST/」)

環境:ASUS K55VD(Corei5-3210M+GeForce610M,64bitWin7)
10桁結果:
     GPUのみ   GPUとCPU       CPUのみ
6.0β   2.92     7.00(3.0/4.0)    5.26
6.0    3.07     7.00(3.1/4.0)    5.25
12桁結果:
     GPUのみ GPUとCPU    CPUのみ
6.0β   43.02    53.54(42.8/10.8) 14.47
6.0    43.02    55.72(44.9/10.8) 14.50
(単位はM tripcode/s)

ところで、「検索の最適化中...」ってどんなことをしているんですか?
このテストの際も、その表示が消えるのを待ってやった方が良かったのか迷いました……
362 ◆MERIKEN4.k :2012/11/05(月) 16:46:55.43 ID:fpizldxB0
>>361
詳しい報告、ありがとうございます。検索の最適化では「詳細設定」の
「1SMあたりのブロック数」の自動設定をしています。この報告でもCPU検索の
正確な速度とGPU検索のおよその速度は分かりますが、GPU検索の正確な速度を
測定したい場合は手動でブロック数を設定する必要があります。
この場合CUI版を使えば最適なブロック数の目安を知ることができます。
363 ◆MERIKEN4.k :2012/11/05(月) 16:47:10.20 ID:fpizldxB0
安定版をビルドしたついでに一気にGUI版の作業も終わらせました。
これでちゃんとOpenCLでの12桁検索ができるようになりました。
機能的にもCUDA版に遜色ないはずです。というか全く普通に検索できているので
シュールに感じるぐらいですw しばらく手元で色々試してから、問題なければ
2、3日中に次の開発版として公開する予定です。
364名無しさん@お腹いっぱい。:2012/11/05(月) 17:01:06.40 ID:wg8KNqxN0
みんながゲフォを捨てる日も近いな
365 ◆999984973989 :2012/11/05(月) 19:14:24.79 ID:Igv9XM2P0
>>360
お疲れ様です。

CUDA DEVICE
===========
CUDA Device Count: 1
Device No.: 0
Device Name: GeForce GTX 460
Multiprocessor Count: 7
Clock Rate: 1400MHz
Compute Capability: 2.1
CPU
===
Number of Processors: 8
Number of Search Threads: 7
TARGET(S)
=========
0: "trip/"
Performing a forward-matching search for 1 pattern (1 chunk)
with 5 characters on CPU and GPU(s):
CUDA0: 278.7M TPS, 96 blocks/SM

0.150T tripcodes were generated in 0d 0h 9m 08s at:
302.83M tripcodes/s (current)
GPU: 281.89M tripcodes/s
CPU: 20.94M tripcodes/s
272.94M tripcodes/s (average)
On average, it takes 2.7 seconds to find one match at this speed.

123 matches found at 807.78 matches/h and 1.22G tripcodes/match.
The actual matching probability is 3% lower than expected.
9% of matching tripcodes were invalid.
366名無しさん@お腹いっぱい。:2012/11/06(火) 00:44:34.13 ID:5vgBlR+s0
アホの子(笑)Intel HD4000 の計算する姿が見れると聞き、3770 マザーボードを
設定変更して HD4000 Graphics を有効にし、これまで Radeon HD5770 につないで
いた2台のディスプレイのうちサブのほうを 3770 マザーボードのオンボードグラ
フィックに接続して使っています。 2〜3日後の開発版の公開が楽しみです。

HD5770 について、これまで非シバキ時の GPU CLOCK が 400MHz を下回るのを見た
ことがなかったのですが、今回デュアル接続をやめたら 157MHz まで下がるように
なり、非シバキ時の GPU 温度も10℃近く下がりました。これはうれしい。
367名無しさん@お腹いっぱい。:2012/11/06(火) 01:17:04.58 ID:TazUQgso0
>>354
プロセスルール的に消費電力が気になりましたが、HD 5970は300W弱で8ピン+6ピンだったのですね。
VLIWや制御ユニットの集中などのアーキテクチャの違いでピーク時のワットパフォーマンスは良いのでしょうかね。

そろそろグラボの補助電源で6ピンx2はやめて8ピンx1にならないのでしょうかね・・・
6+2ピンの電源ユニットも増えていますし、6ピンx2を8ピンx1に変換するケーブルとかもありますし。

>>360 >>363
乙です。OpenCL版が楽しみです。
368 ◆MERIKEN4.k :2012/11/06(火) 02:02:47.13 ID:MxK7yrlF0
>>366
残念ながらIntelのドライバのバグが直るまでHD 4000では動きませんです。
エラーでプログラム自体が落ちるのでもとに戻しておいたほうが良いかもしれません。
5770だけでも十分に幸せになれますしね。昨日OCして速度を測ってみたら
7完1タゲで452M TPS出てました。
369 ◆MERIKEN4.k :2012/11/06(火) 02:18:41.18 ID:MxK7yrlF0
>>367
ワッパ的には5970はかなり美味しいでしょうね。5770もOCさせても
せいぜい60℃ぐらいまでしか上がらないのでやっぱりアーキテクチャの違いなんでしょう。
Fermiとはエラい違いですw 補助電源のコードの取り回しも普通のケースだと
結構面倒くさいですよね。うちの検索君1号(仮)の電源からはPCI-Eの補助電源用の
ケーブルが6本にょきにょきと伸びていますw
370 ◆MERIKEN4.k :2012/11/06(火) 05:17:20.34 ID:MxK7yrlF0
8970の出荷が思ったより遅くなりそうなので、さきほど7970を注文してしまいました。

AMDの新「Venus」コアは2013年3月のRadeon HD 8970から?
http://ascii.jp/elem/000/000/741/741077

OpenCLの10桁検索の作業を進めるにあたって、GCNアーキテクチャでの性能を
確認しておきたいというのが大きいですが、いくらなんでも散財し過ぎなので、
これで当分の間グラボを買うことはないでしょう。
371 ◆MERIKEN4.k :2012/11/06(火) 09:14:36.69 ID:MxK7yrlF0
意味不明なエラーが出て終了するのも何なので、Intel HD Graphicsシリーズは
最初に弾くようにしておきました。将来のドライバ更新に期待といったところです。
もう修正したいところは全部修正したので、これから配布パッケージを用意して
開発版を公開することにします。
372 ◆MERIKEN4.k :2012/11/06(火) 10:02:36.31 ID:MxK7yrlF0
というわけでRadeonに対応した開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder

変更点は以下になります。

・AMD Radeonシリーズ等のOpenCL対応デバイスでの12桁トリップ検索への対応。

相変わらず出来立てほやほやの人柱専用です。
373 ◆MERIKEN4.k :2012/11/06(火) 10:09:06.68 ID:MxK7yrlF0
動作報告をしていただける方にはこちらのテンプレを使っていただけると
大変助かります。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】
【その他】
374 ◆MERIKEN4.k :2012/11/06(火) 10:37:40.94 ID:MxK7yrlF0
自分の環境ではこんな感じで動いています。
オプションが紛らわしいので「検索デバイス」と「CPUの命令セット」の
項目を追加しておきました。

【GPU】Sapphire Radeon HD 5770 (OC: 960MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【検索デバイス】GPUとCPU
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【CPUの命令セット】x64 + SSE2
【その他のオプション】
【Display Driver】Catalyst 12.9
【10分間の平均速度】488.51M tripcodes/s
【その他】7完1タゲ。CPU検索の速度は約39.4M tripcodes/s。
375 ◆MERIKEN4.k :2012/11/06(火) 12:12:14.01 ID:MxK7yrlF0
普段使っている正規表現の検索パターンをRadeonで回してみましたが
ちゃんと動いているようです。しばらくこれで放っておいて、きちんと
動作するかどうか確認することにします。

これで12桁トリップ検索を常時3G TPSで回せる環境が整ったわけですが、
自分の部屋の電力使用量が常に1500W前後と、とんでもないことに
なっています。7970をもう1枚追加したら本当にギリギリです。

しかし2台で同時に検索しているとやはりネットワーク機能が欲しく
なりますねえ。まあこれは当分先の話ですね。
376 ◆MERIKEN4.k :2012/11/06(火) 13:47:22.39 ID:MxK7yrlF0
しかしこれ、CPU検索とGPU検索の平均が別々にわからないのは
結構大きな欠陥ですねえ。なんで今まで気づかなかったんだろう…
377 ◆MERIKEN4.k :2012/11/06(火) 13:50:33.66 ID:MxK7yrlF0
間違えた。これ、明日直しておこうっと。

☓平均が別々にわからないのは
○平均速度が別々にわからないのは
378名無しさん@お腹いっぱい。:2012/11/06(火) 14:11:46.66 ID:ZJO9ySv90
【GPU】Radeon HD 6970(880MHz)
【CPU】Intel Core i7-2600(3.40GHz)
【OS】Windows 8 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.10
【6分間の平均速度】 832M tripcodes/s
【その他】12完1タゲ。最初Catalystをインストールしてないことに気づかず回していたら 250M tripcodes/sくらいでした

非常に早くて驚きました。これは素晴らしいです
379ののたん ◆KiwamonoL. :2012/11/06(火) 14:23:33.61 ID:I3Z78Ya30 BE:355547063-DIA(289888)
【GPU】N/A
【CPU】i7-2600
【OS】WIndows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【10分間の平均速度】19M
【その他】タゲは TEST// のみで 10 分ではヒット無し

同条件で hip2 だと 52M ぐらいで 2 個ヒット。
てか、CPU が 100% にはりつきっぱなのをみると、使い切ってるというよりも競合とかで無駄が出てるのでは?
hip2 だとだいたい 95% 前後をふらつく。
380 ◆MERIKEN4.k :2012/11/06(火) 14:57:58.35 ID:MxK7yrlF0
>>378
いきなり凄いのが来ましたねえ! GPUだけで800M TPS前後出ている計算になりますね。
全く素晴らしいとしか言いようが無い数字です。
381名無しさん@お腹いっぱい。:2012/11/06(火) 15:07:24.85 ID:xNUnDM0r0
【GPU】 Radeon HD 7970 (925MHz)
【CPU】 Intel Xeon E5645 (2.4GHz)
【OS】 Windows 7 x64 SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】 512
【1WGあたりのワークアイテムの数】 64
【その他のオプション】
【Display Driver】 Catalyst 12.10
【10分間の平均速度】 1175.36M tripcodes/s
【その他】GPUのみ
382 ◆MERIKEN4.k :2012/11/06(火) 15:07:42.96 ID:MxK7yrlF0
>>379
う〜ん、うちのi7-3770Kでは1タゲで43M TPS出ているのでi7-2600で
その数字は低すぎですねえ。Intelの開発者が書いたコードを使っておいたほうが
無難だったかな… CPU検索の高速化にはまた後で挑戦し直す予定です。
あ、あとよかったらぜひhip2を公開して下さいw
383 ◆MERIKEN4.k :2012/11/06(火) 15:14:09.49 ID:MxK7yrlF0
>>381
( д) ゚ ゚
384 ◆MERIKEN4.k :2012/11/06(火) 15:30:44.15 ID:MxK7yrlF0
あ〜、びっくりしたw しかし気になっていたNorthern Islandsと
Southern Islandsでちゃんと性能が出ているようで安心しました。
>>378さんと>>381さん、どうもありがとうございました。
385名無しさん@お腹いっぱい。:2012/11/06(火) 15:33:25.72 ID:xNUnDM0r0
>>383

GPUが少し暇そうにしている(使用率80%弱ぐらいで推移)のですが、
これ使用率上げられたらもう少し早くなるんですかねえ。
386 ◆MERIKEN4.k :2012/11/06(火) 15:39:25.06 ID:MxK7yrlF0
>>385
あ、それは間違い無く速くなります。
次の開発版では検索スレッドをもう一つ増やしておきます。
テンプレにも「GPU使用率」の項目を追加しておいたほうがいいのかな。
しかし物凄い性能ですねえ。
387名無しさん@お腹いっぱい。:2012/11/06(火) 15:55:22.84 ID:Ppsoxtpd0
さようならゲフォ
388名無しさん@お腹いっぱい。:2012/11/06(火) 16:25:42.06 ID:gwnx7VAP0
【GPU】Radeon HD 5870(850MHz)
【CPU】Corei7 2600K(4.6GHz)
【OS】Windows 8 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】GPUのみ
【Display Driver】Catalyst 12.11beta
【10分間の平均速度】436.79M tripcodes/s
【その他】タゲはTEST/

ほとんどの場面でGPU使用率が50%まで行かないです。
42〜49%あたりをふらふらしてる感じたまーに50%超えてるときは
現在の速度が500M tripcodes/s前後まで行ってます
389ののたん ◆KiwamonoL. :2012/11/06(火) 17:36:01.43 ID:I3Z78Ya30
>>382
盛ってると思うよな、やっぱり。
自分でもそう思うぜ。www

http://ra8.s31.xrea.com/
に仮置きしてみた。てーすとってのがそうだ。

i7 用ってか SSE4.2 仕様の 64bit 版。
CPU 以外では動かないようにいろいろ細工してある。

全数字は勝手に探す仕様だ。
実際に表示の速度が出てるか確認用に入れてた。
-N2 オプションあたりが最速じゃないかな、多分。

なんかの参考にでも。って、ソース非公開だが。www
まあ開発途中で投げたやつなのでいろいろアレだが気にスンナ。www
390 ◆999984973989 :2012/11/06(火) 17:58:07.86 ID:osy8A/YB0
【GPU】N/A
【CPU】i7-860 2,8GHz
【OS】WIndows 7 32bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【10分間の平均速度】23.8M
【その他】タゲは TEST// のみで 10 分ではヒット無し
CPU
===
Number of Logical Cores: 8
Number of Search Threads: 8
TARGET(S)
=========
0: "TEST//"
TRIPCODES
=========

STATUS
======
Performing a forward-matching search for 1 pattern (1 chunk)
with 6 characters on CPU.

0.015T tripcodes were generated in 0d 0h 10m 10s at:
23.78M tripcodes/s (current)
23.77M tripcodes/s (average)
On average, it takes 33.0 minutes to find one match at this speed.

No matches were found yet.
391名無しさん@お腹いっぱい。:2012/11/06(火) 19:55:11.07 ID:+lFrJltU0
GPU】HD7970 CFX 2GPUs @1150MHz
【CPU】FX8350 @5GHz
【OS】Win7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】default
【1WGあたりのワークアイテムの数】default
【その他のオプション】-g -c -t8
【Display Driver】Catalyst 12.10
【8分間の平均速度】1015.07M
【その他】12完1タゲ

待て屋。爆速版でもしばしば起きていましたがGPUが全力出してないみたいです

http://www.rupan.net/uploader/download/1352198271.png
392名無しさん@お腹いっぱい。:2012/11/06(火) 19:56:50.52 ID:+lFrJltU0
あ、平均間違った
393名無しさん@お腹いっぱい。:2012/11/06(火) 23:56:31.04 ID:cZ1d8VQd0
394名無しさん@お腹いっぱい。:2012/11/07(水) 00:17:27.55 ID:TO2+iqd80
メリケンさんに聞きたいのですが、
「1SMあたりのブロック数」をいろいろ弄って最速の設定はどれかを試していたら、
「上げれば上げるほど速い」という謎の結論に達しました……(ちなみにノーパソのGeForce)
目一杯上げてもハードに悪影響を与えたりしませんよね?
395名無しさん@お腹いっぱい。:2012/11/07(水) 00:20:11.33 ID:DRUtyFmt0
ラデ+HD4000環境で起動するとMERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.って言われちゃうんだが……
とりあえずドライバ更新とOpenCL再インスコしたが駄目だった
396395:2012/11/07(水) 00:35:24.34 ID:DRUtyFmt0
.NETの修復をしてWindowsUpdateして再起動したらなんか悪化した
OPENCL FUNCTION FALL FAILED: CL_DEVICE_NOT_FOUND (file 'Source Files\MTF_CUI_Main.cpp', line 676)
397名無しさん@お腹いっぱい。:2012/11/07(水) 00:36:16.17 ID:LUmvVcmd0
http://i.imgur.com/xjVFI.png
ドライバ更新しないで起動したら量子コンピュータもびっくりでワロタ
398名無しさん@お腹いっぱい。:2012/11/07(水) 00:51:49.53 ID:TO2+iqd80
>>397
averageで9完が2.4分で終わるレベルwwww
399ののたん ◆KiwamonoL. :2012/11/07(水) 01:02:29.81 ID:XRqsjajg0
>>395
この段階なら、絶対パスで起動すれば動いただろうな。
400 ◆MERIKEN4.k :2012/11/07(水) 03:49:42.41 ID:+2zE6v+s0
>>396
ドライバ入れ直したほうがいいですね。>>395のはOpenCLのソースコードが
実行時に見つからないときに表示されるエラーですが…
401 ◆MERIKEN4.k :2012/11/07(水) 03:51:58.38 ID:+2zE6v+s0
>>394
気になるのでしたらSpeedFanとかMSI AfterburnerとかでGPUの温度を
確認するのがいいと思います。
402 ◆MERIKEN4.k :2012/11/07(水) 03:53:40.49 ID:+2zE6v+s0
>>393
こりゃおもしろそうですね。やることなくなったらハードウェアハックにも手を
出してみようかなw
403 ◆MERIKEN4.k :2012/11/07(水) 03:58:19.17 ID:+2zE6v+s0
>>390
>>391
やっぱり検索スレッドの数を増やしたほうがいいんでしょうねえ。
たくさん盛るのは簡単なんですけど、オーバーヘッドが心配なので
いま調べているところです。
404 ◆MERIKEN4.k :2012/11/07(水) 04:01:13.80 ID:+2zE6v+s0
>>390
ありがとうございます。CPUだけのデータもまとめておいたほうがいいのかな…
405 ◆MERIKEN4.k :2012/11/07(水) 04:04:03.93 ID:+2zE6v+s0
>>389
盛っているというか、Tripcode Finderの数字が低すぎなのが気になります。
hip2は次にCPU検索の最適化の作業をするときに参考にさせて頂きます。
他に比較対象がないので助かります。
406 ◆MERIKEN4.k :2012/11/07(水) 04:54:08.65 ID:+2zE6v+s0
あ、間違えてる。>>403>>388さんと>>391さん宛でした。
407 ◆MERIKEN4.k :2012/11/07(水) 05:38:47.96 ID:+2zE6v+s0
開発版を修正しました。

MERIKEN's Tripcode Finder 0.07 Alpha 2
http://www.meriken2ch.com/programming/merikens-tripcode-finder

Alpha 1からの変更点は以下になります。

・AMDのGPUでGPU使用率が低くなる問題を修正。
・GPUとCPUの平均速度の表示。

とりあえず1つのAMDのGPUあたりの検索スレッドの数は4に決め打ちに
しておきました。
408 ◆MERIKEN4.k :2012/11/07(水) 05:42:48.47 ID:+2zE6v+s0
こちらは新しい報告用のテンプレです。ぜひよろしくお願いします。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】tripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【その他】
409 ◆MERIKEN4.k :2012/11/07(水) 05:59:21.00 ID:+2zE6v+s0
「GPU使用率」を付け足すのを忘れてたorz
動作報告はこちらのテンプレでお願いします。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】
【1WGあたりのワークアイテムの数】
【その他のオプション】
【Display Driver】
【10分間の平均速度】tripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【GPU使用率】
【その他】
410 ◆MERIKEN4.k :2012/11/07(水) 06:02:57.05 ID:+2zE6v+s0
>>391
よくみたら、これGPU使用率が35%しかないですねえ。
検索スレッドが1GPUあたり4個だとたりないかもしれません。
足りないようだったら次の開発版でオプションで検索スレッドの数を
変えられるようにしておきます。
411 ◆supernova.rT :2012/11/07(水) 06:57:03.71 ID:4Ex6pXTl0
【GPU】GeForce GTX 570 / Radeon HD 5870
【CPU】Core i7-2600K
【OS】Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2 (CUI64)
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.11 beta
【10分間の平均速度】1216.38M tripcodes/s
【GPU使用率】GeForce 96%, Radeon 未計測
【その他】8完1タゲ、GPU検索のみ


CUDA DEVICE
===========
Device No.: 0
Device Name: GeForce GTX 570
Multiprocessor Count: 15
Clock Rate: 1464MHz
Compute Capability: 2.0

OPENCL DEVICE
=============
Vendor: Advanced Micro Devices, Inc.
Name: Cypress
Number of Compute Units: 20
Clock Frequency: 875MHz
Global Memory Size: 1024M bytes
Max. Work Group Size: 256
Version: OpenCL 1.2 AMD-APP (1084.2)
Driver Version: 1084.2 (VM)
412 ◆supernova.rT :2012/11/07(水) 06:57:43.67 ID:4Ex6pXTl0
STATUS
======
Performing a forward-matching search for 1 pattern (1 chunk)
with 8 characters on GPU(s):
CUDA0: 565.0M TPS, 192 blocks/SM
OpenCL0-0: 139.0M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-1: 176.8M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-2: 175.5M TPS, 5120 work-groups/CU, 64 work-items/WG
OpenCL0-3: 175.6M TPS, 5120 work-groups/CU, 64 work-items/WG

0.740T tripcodes were generated in 0d 0h 10m 08s at:
1219.88M tripcodes/s (current)
1216.38M tripcodes/s (average)


連投失礼しました。
変則構成のせいかもしれませんが、どうにも挙動が怪しい気がします。
これらは実行ファイルのダブルクリックによる直接起動の結果です。
コマンドラインからオプション無しで起動した場合は、以下のエラーが発生しCUDA検索のみ有効となります。

TRIPCODES
=========
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
MERIKENsTripcodeFinderCUI: Error: Failed to load an OpenCL kernel.
413 ◆MERIKEN4.k :2012/11/07(水) 07:34:53.53 ID:+2zE6v+s0
>>411
5870だったらもうちょっと速度が出てもいいはずですね。
GPU使用率が100% 近いなら、-yオプションでワークグループの数を調整したほうが
いいのかもしれません。
コマンドラインでエラーが出るのはOpenCLのソースが読み込めていないだけなので、
GTX 570とは関係ないはずです。ちょっと調べてみます。
414 ◆MERIKEN4.k :2012/11/07(水) 07:40:07.03 ID:+2zE6v+s0
コマンドラインから起動してエラーが出たのはOpenCLのソースへのパスが
きちんと取得できていないだけでした。なんという凡ミス…
argv[0]でフルパスが取得できないとなるとどのAPIを使えばいいんだろう。
415 ◆MERIKEN4.k :2012/11/07(水) 07:47:40.66 ID:+2zE6v+s0
>>412
_fullpath()を使ったらエラーは出なくなりました。
次の開発版ではちゃんとコマンドラインから起動できるようになるはずです。
416 ◆supernova.rT :2012/11/07(水) 07:58:44.95 ID:4Ex6pXTl0
>>415
どうもです。次の開発版で-yオプションを試したいと思います。
ついでに補足ですが、GeForceのドライバは310.33 BETAでした。
417394:2012/11/07(水) 08:11:24.58 ID:TO2+iqd80
>>401
調べてみたのですがこんな感じです。
ttp://uploda.cc/img/img5099980c9f2a2.png
よく分かりませんが、負荷が掛かり過ぎると自動検知して時々休んだりするんですかね?
(なお速度は50M弱で安定している模様)

ついでに一つ。自動設定で走らせた場合に、
検索停止後にそのパラメータを「詳細設定」タブに反映して欲しい……
毎回検索の最適化されるのは辛いですので
418 ◆MERIKEN4.k :2012/11/07(水) 08:25:54.89 ID:+2zE6v+s0
>>417
最適なパラメータは検索の条件によって変わってくるので
「詳細設定」タブに反映させるのは難しいのです。
あらかじめ値がわかっているならその値を指定しておけば
最適化は行われません。
419 ◆MERIKEN4.k :2012/11/07(水) 08:27:48.12 ID:+2zE6v+s0
>>417
あ、あとこの温度だったら全然問題無いです。
420 ◆MERIKEN4.k :2012/11/07(水) 08:29:58.28 ID:+2zE6v+s0
>>416
次の開発版では検索スレッドの数も変えられるようになっているので、
そちらのほうも是非試してみて下さい。
421 ◆supernova.rT :2012/11/07(水) 08:53:06.82 ID:4Ex6pXTl0
>>420
-yと-zですね。5870に最適の数値が見つかりましたら報告致します。
422ののたん ◆KiwamonoL. :2012/11/07(水) 12:07:48.18 ID:XRqsjajg0
【GPU】N/A
【CPU】i7-2600
【OS】WIndows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】なし
【Display Driver】N/A
【5分間の平均速度】26M
【その他】タゲは TEST// のみで 5 分ではヒット無し

同条件で hip2 だと 74M ぐらいで同じくヒット無し。

>>379 と CPU とかは同じだが、別個体なので SDK のバージョンとかが違うかも。
なんかしらんが、>>379 の個体は遅いな。w

あとものすごくどうでもいい情報だが、Radeon HD 4000 番台では動かんな。
423381:2012/11/07(水) 13:21:31.88 ID:H54C/50b0
うーん。Alpha 2 だとパフォーマンスあまり出ないなあ。むしろ下がっている。
代わりに、OCしてAlpha 1で計測したものを。

【GPU】 Radeon HD 7970 (OC:1125MHz)
【CPU】 Intel Xeon E5645 (2.4GHz)
【OS】 Windows 7 x64 SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークグループの数】 512
【1WGあたりのワークアイテムの数】 64
【その他のオプション】
【Display Driver】 Catalyst 12.10
【10分間の平均速度】 1230.65M tripcodes/s
【その他】GPUのみ
424 ◆MERIKEN4.k :2012/11/07(水) 15:39:45.37 ID:+2zE6v+s0
>>423
結構OC耐性がありますねえ。あと検索スレッドの数を無闇に増やせばいいという
ものでもないみたいですね。自分の環境ではワークグループの数を半分に
したらGPU使用率が98〜99%で安定するようになりました。次の開発版では
デフォルトの値を調整しておきます。

【GPU】Sapphire Radeon HD 5770 (OC: 960MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.9
【10分間の平均速度】486.23 tripcodes/s
【GPUの平均速度】454.71 tripcodes/s
【CPUの平均速度】31.52 tripcodes/s
【GPU使用率】98〜99%
【その他】7完1タゲ。
425 ◆MERIKEN4.k :2012/11/07(水) 15:43:12.49 ID:+2zE6v+s0
>>422
う〜ん、それは全く謎ですね。>>389のリンクは切れていてダウンロード
できませんでした。
426 ◆MERIKEN4.k :2012/11/07(水) 15:55:32.36 ID:+2zE6v+s0
あしたあたりに7970が届くはずなので、それでいろいろ実験して
デフォルトのパラメータを調整してから次の開発版をうpします。
427395:2012/11/07(水) 16:00:26.76 ID:DRUtyFmt0
若干スレチですが・・・
12-10をアンインストールしてから再インストールしても駄目でした。
12-8、12-6、12-4も試しましたが駄目でした。

AMD APP SDKで改善することはありえますか?
428395:2012/11/07(水) 16:17:06.99 ID:DRUtyFmt0
ちなみにBOINCのGPGPU(WCGのHCC)や待て屋GPU版はこの状態でも動作します。
429 ◆MERIKEN4.k :2012/11/07(水) 16:28:57.68 ID:+2zE6v+s0
>>427
GUI版は起動できますか? コマンドラインから起動できないバグかもしれません。
430395:2012/11/07(水) 16:31:45.44 ID:DRUtyFmt0
>>429
GUI版では使用出来るGPUが見つかりませんでしたと出ます。
431 ◆MERIKEN4.k :2012/11/07(水) 16:36:59.52 ID:+2zE6v+s0
それは謎ですねえ。AMD APP SDKで改善するかもしれませんけど…
432ののたん ◆KiwamonoL. :2012/11/07(水) 16:48:29.13 ID:XRqsjajg0
>>425
>>405 の時点で落としたものと思って消したわ。w
復活させたが、あんなもんをずっと置いとく気は無いので落としたら言ってくれ。

>>430
今コレを書いてるPCでも同じことになったんだが、CCC 12-6 入れて SDK v2.7 入れたら直ったぜ。
どっかの WindowsUpdate でなんかやられたのかもしれん。
12-6 なのは、4000 番台だからだ。このバージョンがいいとかいうわけではない。
433 ◆MERIKEN4.k :2012/11/07(水) 16:56:10.78 ID:+2zE6v+s0
>>432
あ、そうですか。今落としたのでもう消していただいて大丈夫です。
それにしても、うちのi7-3770Kで95M TPS出てますけど、これは一体どういう
仕組みなんでしょうか…
434 ◆MERIKEN4.k :2012/11/07(水) 17:16:21.42 ID:+2zE6v+s0
>>422
書き忘れてたけど、多分パラメータを替えれば4000番台でも動くと思いますよ。
CUI版ではどんなエラーが出ていますか?
435ののたん ◆KiwamonoL. :2012/11/07(水) 17:26:15.21 ID:XRqsjajg0
>>433
実際に速度分ヒットしてるか確認したほうがいいな。w
速度表示のバグとかかもしれんぞ。うひ。
なにせ途中で飽きてほうりだしたものだしな。

>>434
いや、処理そのものを書き換えないと動かないな。
理由はこれだ。

The 4XXX series does not have the requisite hardware to support byte addressable store, so it will never be supported.
436ののたん ◆KiwamonoL. :2012/11/07(水) 17:37:35.12 ID:XRqsjajg0
つーかさ、これも多分そのぐらいの速度なんじゃないかな。
http://trip2ch.net/wiki/index.php?SHArp%20Tripper

MERIKEN's Tripcode Finder はまだまだチューニングの余地があるというか、
まだやりはじめたばっかりなんだろ。
そのうち hip2 なんざ超えるんじゃね?
437 ◆MERIKEN4.k :2012/11/07(水) 17:45:31.86 ID:+2zE6v+s0
>>435
ヒット率をチェックするルーチンを最初から組み込んでおくといろいろ安心ですよ。
Tripcode Finderの開発ではそれで随分助かりました。
4XXXシリーズの制限はちょっと厳しすぎですねえ。残念…
438 ◆MERIKEN4.k :2012/11/07(水) 18:33:41.58 ID:+2zE6v+s0
>>436
MERIKEN's Tripcode Finderは他のプログラムに比べてキーの探索空間が広いので
単純に比較できないんですけど、ちょっと気になったのでCPU検索の速度を
調べてみました。CPUはCore i7-3770K 4300MHz、ターゲットは前方一致の
"TEST/"のみで、検索時間は5分です。

SHArp Tripper 1.1
報告された速度: 74.6M TPS
ヒットしたトリップの数: 19個

hip264.exe
報告された速度: 102.6M TPS
ヒットしたトリップの数: 0

MERIKEN's Tripcode Finder 0.07 Alpha 2
報告された速度: 42.8M TPS
ヒットしたトリップの数: 11

hip2は5完のターゲットだとちゃんと動いていないようです。
439ののたん ◆KiwamonoL. :2012/11/07(水) 18:45:49.58 ID:XRqsjajg0
>>438
hip2 は6完以上しか探せない仕様だ。w

5完しかタゲにないと
0 ターゲット読み込みました。
ってなるはず。はず。はずなんだよなぁ・・・・・。

ちなみに hip2 の検索空間というかキーの組み合わせ数は、
81189040166334863750412839195508736 個
だ。
MERIKEN's Tripcode Finder はこれの何倍だ?
つか、トリップの総数を考えるとこの辺にすると思うんだが。
440ののたん ◆KiwamonoL. :2012/11/07(水) 18:51:17.50 ID:XRqsjajg0
>>439
oi.
おい。
オイィィィ。

この辺、じゃねぇな。w
これでもかなり多すぎるな。

なんでこんなに広げたんだよ。>昔の俺

64^12=4722366482869645213696
だもんなぁ。
441395:2012/11/07(水) 18:52:20.25 ID:DRUtyFmt0
>>431-432
AMD APP SDKにはGPU向けのドライバは入ってなさそうでした。
アンインストールしてから12-6、SDKの順に入れても駄目でした。


他のOpenCL対応ソフトなんかの挙動を確認してみたんですが、
PhotoShopCS6ではRadeonを認識していて、「OpenCLを使用」のチェックも入れられました。
OpenCLを使用するというぼかしフィルターも使えています。
442395:2012/11/07(水) 18:55:51.64 ID:DRUtyFmt0
連レスすみません
大きい画像でぼかしフィルターを試すとぼかし処理の開始と同時にGPU Loadが増えるので、まず間違いなくPSでは動いていると思います。
443 ◆MERIKEN4.k :2012/11/07(水) 18:56:42.88 ID:+2zE6v+s0
>>439
なるほど、そういうことだったんですね。Tripcode FinderはShift-JISのキーを
全てカバーするようになっているのでその数字より大分大きいはずです。
トリップの変換は全単射ではないのでキーの組み合わせの数と
トリップの総数(64^12)は必ずしも一致しません。
444 ◆MERIKEN4.k :2012/11/07(水) 19:03:19.07 ID:+2zE6v+s0
hip2は全数字のターゲットは自動的に拾うようになっているようなので
そっちのほうでも比較してみました。検索時間は10分です。

hip264.exe
報告された速度: 102.6M TPS
ヒットしたトリップの数: 13

MERIKEN's Tripcode Finder 0.07 Alpha 2
報告された速度: 37.6M TPS
ヒットしたトリップの数: 7

hip2のほうが大分速度が出ているようですが、実際の速度が報告通りかどうかは
微妙なところです。
445ののたん ◆KiwamonoL. :2012/11/07(水) 19:08:29.22 ID:XRqsjajg0
>>443
またそんなてきとーなことを。www
hip2 の検索空間のほうが「かなり」広いぞ。
ちょっとは考えようよ。

つーかさ、全単射じゃないかもしれないからこうしてるんだし。

4722366482869645213696 = 64^12
81189040166334863750412839195508736 = hip2 の検索空間

俺のことどんだけバカだと思ってるんだよ。www
446ののたん ◆KiwamonoL. :2012/11/07(水) 19:15:01.56 ID:XRqsjajg0
>>444
自分でつくっといてなんだが、
>実際の速度が報告通りかどうかは微妙なところ
には同意だ。てへ。

まあ、10分じゃ運の要素が強いが・・・・・。

Ivy 買ったらまたやろうかとか考えてたけど、もうあの頃の情熱はない。うわぁ。

そもそも鳥屋がぐてやを投げるから悪いんだ。
ぐてやは試作段階でhip2よりも速かったんだぜ?
チクショウ
あの野郎やるやる詐欺でほったらかしだしな!!!!
447 ◆MERIKEN4.k :2012/11/07(水) 19:16:27.33 ID:+2zE6v+s0
>>445
見た感じでは1バイト文字のキーしか探索していないようでしたけど、違うんでしょうか。
Shift-JISのキーを網羅的に探索するTripcode Finderのほうがキーの探索空間が広いのは
自明だと思うのですが…
448名無しさん@お腹いっぱい。:2012/11/07(水) 19:22:00.88 ID:lVCLYKZJ0
キー探索空間は
64 ^ 12
= 2 ^ 72
= 4722366482869645213696

だけで十分ではないのですか?
↓の資料を読む限りでは。

> 与えられたハッシュ値に対応する入力を求めるために必要な計算量は、
> ハッシュ値が n ビットであるとき、ハッシュ関数の計算を 2^n 回行うための計算量を超えない。
http://www.jnsa.org/seminar/2008/0703/data/09_panel03.pdf#page=7
449ののたん ◆KiwamonoL. :2012/11/07(水) 19:25:30.34 ID:XRqsjajg0
>>447
なんだかなぁ。
なんで確認しないの?
なんでTripcode Finderのキー空間計算してみないの?

私、怒っちゃったから答えは教えてあげないよ〜だ。

>>448
簡単に言うと、
違うキーで同じトリップになることがあるかもしれない
ってことだよ。だから、総トリップ数よりも多くしておくべきなんだよね。
450 ◆MERIKEN4.k :2012/11/07(水) 19:27:35.72 ID:+2zE6v+s0
>>448
実用的な観点からはトリップのキーはわかりにくければわかりにくいほど良いので
自分としては妥協したくないところです。
451 ◆MERIKEN4.k :2012/11/07(水) 19:29:51.83 ID:+2zE6v+s0
>>446
> あの野郎やるやる詐欺でほったらかしだしな!!!!
ご愁傷様です… しかし実にもったいないですね。海外にいるとのことでしたけど
元気にされているんでしょうか。

Tripcode FinderのCPU検索はSHA-1のルーチン以外はサボりまくりなので
改善の余地はまだ大分あるんでしょうねえ。次に最適化に挑戦するのは
もうちょっと勉強してからにします。
452名無しさん@お腹いっぱい。:2012/11/07(水) 19:30:50.57 ID:lVCLYKZJ0
>>449
ハッシュ値の衝突はわかります。
それも踏まえた上で
> ハッシュ値が n ビットであるとき、ハッシュ関数の計算を 2^n 回行うための計算量を超えない。
ということではないのですか?
453 ◆MERIKEN4.k :2012/11/07(水) 19:36:59.82 ID:+2zE6v+s0
>>449
私には

(1) 1バイト文字のみのキーの総数



(2) 1バイト文字とShift-JIS文字を含んだキーの総数

を比較したら後者のほうが大きいのは当然に見えるのですが違うんでしょうかねえ。
計算は面倒くさいのでしませんw
454 ◆MERIKEN4.k :2012/11/07(水) 20:14:53.11 ID:+2zE6v+s0
私がトリップ検索に興味を持ったのは、私のトリップを騙る荒らしが現れたのが
そもそもの原因なので、Tripcode Finderを作るときには実用性が全てにおいて
優先しています。いままで考えてもみなかったですけど、純粋な知的好奇心以外の
明白な動機があるというのが自分の作ったプログラムにも反映されているのかも
しれません。
455名無しさん@お腹いっぱい。:2012/11/07(水) 20:24:17.18 ID:TO2+iqd80
あれ?
CPU側にhip2、GPU側にMERIKEN使えば最強なんじゃね?
456ののたん ◆KiwamonoL. :2012/11/07(水) 21:33:59.97 ID:XRqsjajg0 BE:632084148-DIA(289888)
>>455
hip2はホントにアルファレベルのでき。
タゲの制限も実用的なものじゃないし。
速度の検証しようとしたところで投げたから、マジで表示速度は怪しい。
もちろん、わざと盛るなんてことはやってないけど。w


『ホンキで最速を目指すんなら、キーを○×△□にしろよ。』
と鳥屋に言われた。一部伏せ字。w
最初意味がわからなかったけど、よく考えたらわかった。

ヤツは私の理解の外にいる。
待て屋のソース見るとよくわかる。
もったいないよなぁ・・・・。
457名無しさん@お腹いっぱい。:2012/11/07(水) 21:57:24.06 ID:c5GjquhW0
部外者の俺が答え言っちゃっていいのかは知らんが、
MERIKEN氏は12桁トリップのキーが12バイト以上を取りうるということを失念しているのだと思う

10桁トリップと違って12桁トリップはキーを長くするだけで簡単にキー探索空間が広がる
hip2が手元にないので確認できんが、>>439の数=152^16からhip2はキー16バイトで探索しているのだと推測される
このことを考えれば現状のキー探索空間は圧倒的にhip2の方が大きいというのはすぐに分かる

ここからは俺の偏見的見解だが、両者の違いは
hip2はわざわざShift_JIS空間を探索するより、単にキーを長くして簡潔・高速に探索することが目的
一方MERIKEN氏の方は>>450>>454からわかるように、「わかりにくいキー」を探索することを優先している
ということなんじゃないかと思う
458 ◆MERIKEN4.k :2012/11/07(水) 22:13:09.84 ID:+2zE6v+s0
>>457
おっしゃる通り完全に失念していました。
ののたんさん、失礼しましたm(__)m
459名無しさん@お腹いっぱい。:2012/11/07(水) 22:14:31.57 ID:M5h2NzTI0
ののたんもわかりやすく伝えてあげればいいのに
460 ◆MERIKEN4.k :2012/11/07(水) 22:25:03.99 ID:+2zE6v+s0
>>459
まあこの件は私の勘違いが原因なので…
いろんなアプローチの仕方があることがわかってちょっと新鮮でしたw
461ののたん ◆KiwamonoL. :2012/11/07(水) 22:25:31.31 ID:XRqsjajg0 BE:1422187889-DIA(289888)
>>457
あの桁の数字を152^16に分解できるとはやるね。w
まあそゆ計算するコマンドもあるけど。

漢字を使わないのは単にそこまで使用文字を増やす必要がないから。
漢字使っても速度ってそんなに変わらないよ。
キーのバリエーションはうにでも魔改造でもさんざんやってるから、ノウハウはいっぱい。w

ちなにみ16バイトってのはなんとなくとかじゃなくて、ちゃんと理詰めして出てきたものだよ。
462名無しさん@お腹いっぱい。:2012/11/07(水) 22:31:53.94 ID:bKBXePfH0
技術力はあっても性格がアレな人は見てて不快だからNGに突っ込んだ
463名無しさん@お腹いっぱい。:2012/11/07(水) 22:36:08.15 ID:dfbAPwW4P
技術力があれば性格なんてどうでもいいんだよ
464名無しさん@お腹いっぱい。:2012/11/07(水) 22:36:32.37 ID:Hb5lLL9GP
>>462
技術者同士のやり取りならこれが普通だろ
それにちゃんと答えにたどり着けるヒントは与えてくれてるし、
素直に自分の調べが甘かったなで終わりだよ
465381:2012/11/07(水) 22:51:55.41 ID:Zus3h7Yg0
Intel/AMD/NVIDIAがOpenCL 1.1以上に対応している今、
cl_khr_byte_addressable_storeなんざもはや過去の遺物か…
466 ◆MERIKEN4.k :2012/11/07(水) 23:31:12.78 ID:+2zE6v+s0
>>465
正直こんなものがあった事自体が驚きです。
467名無しさん@お腹いっぱい。:2012/11/08(木) 00:30:39.29 ID:DT0SYqW30
エラーコード14って何?
468 ◆MERIKEN4.k :2012/11/08(木) 00:44:46.94 ID:Dia+3Q0c0
assertでエラーが出てますね。
CUI版ではどのように表示されますか?
469名無しさん@お腹いっぱい。:2012/11/08(木) 00:48:19.86 ID:DT0SYqW30
http://www.dotup.org/uploda/www.dotup.org3596162.png
こんなん。1GPUだといけた
470 ◆MERIKEN4.k :2012/11/08(木) 00:50:25.42 ID:Dia+3Q0c0
>>469
今ちょうどそこを直していたところですw
追って詳しく報告します。
471名無しさん@お腹いっぱい。:2012/11/08(木) 00:55:39.10 ID:DT0SYqW30
がんばれー
472 ◆MERIKEN4.k :2012/11/08(木) 00:57:49.64 ID:Dia+3Q0c0
>>469
Alpha 2でスレッド周りにバグが紛れ込んでました。修正が終わったので
次の開発版では直っているはずです。
473名無しさん@お腹いっぱい。:2012/11/08(木) 01:07:20.05 ID:c99Xuep80
GUI版の設定ファイルって
%LOCALAPPDATA%\MERIKENsTripcodeFinderGUIフォルダ以下にある
user.configだけが使われてて
それ以外のレジストリとかは使われてないということでいいんでしょうか?
474名無しさん@お腹いっぱい。:2012/11/08(木) 01:20:42.89 ID:JfJybgRB0
なるほど、1GPUでは問題なく検索出来ますね
ただ、問題は1GPUでも900M程出てしまうこと
複数GPUを有効に働かせてませんね

それと、GPUを複数稼働させるとCPUの検索速度が落ちる
カードをドライブするのに相当リソースを持って行かれていると言うことですな
RdeonのアークテクちゃではCPU負荷が大きいのでこれは仕方がない

http://www.rupan.net/uploader/info/1352305227
475名無しさん@お腹いっぱい。:2012/11/08(木) 01:22:07.09 ID:JfJybgRB0
476 ◆MERIKEN4.k :2012/11/08(木) 05:45:25.11 ID:Dia+3Q0c0
とうとう7970が届きました。ぐへへへへ…
午後のミーティングが終わったら早速インストールしようっと。
477 ◆MERIKEN4.k :2012/11/08(木) 05:46:20.48 ID:Dia+3Q0c0
>>473
その理解でいいはずです。
478 ◆MERIKEN4.k :2012/11/08(木) 05:50:38.36 ID:Dia+3Q0c0
>>474
これは7970ですか? もうちょっと速度が出そうな感じですね。
CPU検索スレッドはGPUの数だけわざと減らすようにしています。
「詳細設定」の「CPU検索スレッドの数」をいじると面白いかもしれません。
479名無しさん@お腹いっぱい。:2012/11/08(木) 07:53:45.35 ID:8rusYKpL0
>>476
>ぐへへへへ…
あかん……あかんでぇ
480 ◆MERIKEN4.k :2012/11/08(木) 08:12:55.00 ID:Dia+3Q0c0
7970をさして起動したところです。わくわく…
481 ◆MERIKEN4.k :2012/11/08(木) 08:27:48.33 ID:Dia+3Q0c0
手元のAlpha 3でいきなりGPUだけで1270M TPSでてます。なんだこの化物は…
しかしGPU使用率が結構バラつきます。75〜97%を行ったり来たりといった
ところです。
482名無しさん@お腹いっぱい。:2012/11/08(木) 08:34:28.95 ID:DT0SYqW30
【GPU】H797F3G2M
【CPU】Xeon E5504
【OS】Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 2
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】GPUのみ
【Display Driver】9.01.8-121022a-147510E-ATI
【10分間の平均速度】1124Mtripcodes/s
【GPUの平均速度】tripcodes/s
【CPUの平均速度】tripcodes/s
【GPU使用率】65〜80
【その他】GPUは1GHz CPUは3GHz
483 ◆MERIKEN4.k :2012/11/08(木) 08:45:22.52 ID:Dia+3Q0c0
>>482
どうも7970の場合はワークグループの数を1280にするといいみたいですよ。
484 ◆BlackListRy1 :2012/11/08(木) 09:43:16.73 ID:3J/ptX+70
MERIKEN様、お疲れ様です
その節は御世話になりました

これからも頑張って下さい
スレ違い申し訳ありません<(_ _)>

失礼しますm(_ _)m
485名無しさん@お腹いっぱい。:2012/11/08(木) 09:48:05.37 ID:DT0SYqW30
>>483
使用率若干上がりました

X58マザーだしこのくらいいけばいいかな
486 ◆MERIKEN4.k :2012/11/08(木) 10:26:09.50 ID:Dia+3Q0c0
>>484
こちらとしても使っていただけると嬉しいです。
またいつでもどうぞ。
487 ◆MERIKEN4.k :2012/11/08(木) 10:30:14.20 ID:Dia+3Q0c0
ワークグループの数を変化させて10分間のGPUの速度の平均をとってみました。
とりあえず5770で有効だった320の倍数にしておきました。
960で使用率が綺麗に97%で安定しました。色々ためしてみるもんですねえ。
Alpha 3では1GPUあたりの検索スレッドの数を指定できるようになっていますが、
デフォルトの2のままにしてあります。

320 -> 910M TPS
640 -> 1250M TPS
960 -> *1370M TPS
1280 -> 1357M TPS
1600 -> 1240M TPS
1920 -> 1311M TPS
2240 -> 1331M TPS
2560 -> 1270M TPS
488 ◆MERIKEN4.k :2012/11/08(木) 11:05:08.48 ID:Dia+3Q0c0
OCして速度を測定してみました。やっぱり化物ですね、これは。

【GPU】Gigabyte GV-R7970C-3GD Radeon HD 7970 (OC: 1130MHz)
【CPU】Intel Core i7-3770K (OC: 4300MHz)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】960
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.9 Beta
【10分間の平均速度】1517.35 tripcodes/s
【GPUの平均速度】1481.07 tripcodes/s
【CPUの平均速度】36.28 tripcodes/s
【GPU使用率】94%
【GPUの温度】80℃
【その他】7完1タゲ。
489名無しさん@お腹いっぱい。:2012/11/08(木) 14:25:41.24 ID:JfJybgRB0
>>478
7970です
Alfa2では2GPUでの検索が出来ないので1GPUの結果です
1GPUでも速度駄変わらないという
490 ◆MERIKEN4.k :2012/11/08(木) 15:54:35.28 ID:Dia+3Q0c0
新しい開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 3
http://www.meriken2ch.com/programming/merikens-tripcode-finder

Alpha 2からの変更点は以下になります。

・デフォルトのワークグループの数の調整。
・複数のOpenCL対応デバイスで検索できないバクの修正。
・デフォルトの検索スレッドの数の調整。
・検索スレッドの数を設定できるように修正。
・コマンドラインで起動できないバクの修正。
491名無しさん@お腹いっぱい。:2012/11/08(木) 16:32:22.60 ID:DT0SYqW30
アルファ3パネェな 1300Mは軽く超えるわ
492名無しさん@お腹いっぱい。:2012/11/08(木) 17:06:30.31 ID:DT0SYqW30
メインマシンの8 64bitはGPUは全部使ってるみたいだけどこんな状態だった
解凍したまんまで実行
http://www.dotup.org/uploda/www.dotup.org3597875.png
493 ◆GTX680Mcys3u :2012/11/08(木) 17:10:25.44 ID:ECWSGXkx0
こちらは今までと変わらない速度です。
ただ、デフォの状態で起動しようとしたら「HD4000には対応してません」とかいうエラーが出て終了
GTX680Mを指定してあげないとダメだった
Optimusがあるからでしょうけども
494名無しさん@お腹いっぱい。:2012/11/08(木) 17:11:54.96 ID:cebxTMIE0
>>493
もうゲフォの報告は要らないです
495 ◆MERIKEN4.k :2012/11/08(木) 17:14:48.01 ID:Dia+3Q0c0
>>492
ありゃりゃりゃ… AfterburnerのGPU使用率は0%になってるけど、
これは一体どういうことだろう。CUI版ではどのように表示されていますか?
496 ◆GTX680Mcys3u :2012/11/08(木) 17:18:51.36 ID:ECWSGXkx0
不具合報告したのに何で煽られなきゃいかんのよ
497 ◆MERIKEN4.k :2012/11/08(木) 17:19:19.09 ID:Dia+3Q0c0
>>493
報告たすかります。そのメッセージはちょっと紛らわしいですねえ。
ちょっと無理してでも動くようにしたほうがいいのかしらん。
498 ◆MERIKEN4.k :2012/11/08(木) 17:20:04.91 ID:Dia+3Q0c0
>>496
荒らしなので放っておきましょう。
499 ◆MERIKEN4.k :2012/11/08(木) 17:24:11.64 ID:Dia+3Q0c0
>>492
ちょっと考えてみたけどこれは本当におかしいですね。
詳細設定の検索スレッドの数を1にしたら直るかもしれません。
Radeonが複数あっても大丈夫なはずだけどなあ…
あとでこちらでも試してみます。
500 ◆GTX680Mcys3u :2012/11/08(木) 17:24:59.33 ID:ECWSGXkx0
>>497
Intelグラフィックスは無視するようにはできないですかねえ
さすがにデフォ状態でエラー出るのは一般ユーザは使いにくいかも
501名無しさん@お腹いっぱい。:2012/11/08(木) 17:26:19.08 ID:DT0SYqW30
http://www.dotup.org/uploda/www.dotup.org3597940.png
64bitの方です
CPUロードは33%前後の状態です
502名無しさん@お腹いっぱい。:2012/11/08(木) 17:30:54.14 ID:wrgEgbJR0
Windows8 64bit Radeon HD 7660Dで初期設定のままで実行
Alpha 2ではエラーが出て実行出来なかったGPUとCPUを使用が利用可能に
http://www.dotup.org/uploda/www.dotup.org3597945.jpg
503 ◆MERIKEN4.k :2012/11/08(木) 17:36:46.31 ID:Dia+3Q0c0
>>501
これは助かります。OpenCL検索スレッドはちゃんと走ってるみたいですね。
6970ではちゃんと動作するという報告が>>378であったので、
なんだかドライバのバグの臭いがしてきたぞ…
GUI版の「使用するGPU」で6990を1つだけえらんだ場合は
どれぐらい速度が出ますか?
504 ◆MERIKEN4.k :2012/11/08(木) 17:41:15.65 ID:Dia+3Q0c0
>>500
無理に動かせない場合はHD 4000は無視したほうがいいですね。
アホの子からアッカリーンに格下げとは、なんて不憫な子…
505名無しさん@お腹いっぱい。:2012/11/08(木) 17:43:38.64 ID:DT0SYqW30
>>503
1つだと70%くらいの使用率で700M前後ですね
506 ◆MERIKEN4.k :2012/11/08(木) 17:48:32.02 ID:Dia+3Q0c0
>>505
やっぱりそっちは普通ですね。「使用するGPU」を「すべて」にして
「検索スレッドの数」を1にした場合はどうですか?
507名無しさん@お腹いっぱい。:2012/11/08(木) 17:50:30.24 ID:DT0SYqW30
>>506
変わらず合計で200M程度 CPUが80Mで全てで300M前後です
508名無しさん@お腹いっぱい。:2012/11/08(木) 17:57:01.81 ID:DT0SYqW30
キャプでも分かりますがcatalyst12.11βです
あとは12.10もリリースされていますがどうなんでしょう
509 ◆MERIKEN4.k :2012/11/08(木) 18:11:29.25 ID:Dia+3Q0c0
>>507-508
6990を一枚だけ差した状態できちんとスピードが出るなら、
間違いなくドライバのバグでしょう。>>487のように
ワークグループの数をいろいろ変えてみたら治るかもしれませんけど…
うちでは未だに12.9 Betaです。12.10は試してみないとわかりませんねえ。
510 ◆MERIKEN4.k :2012/11/08(木) 18:21:12.89 ID:Dia+3Q0c0
>>502
これはAPUですか。結構速度が出ていますねえ。うちのHD 4000ちゃんとは
エラい違いです(;_;)
511名無しさん@お腹いっぱい。:2012/11/08(木) 19:05:16.08 ID:G/kjMuiS0
>>502
APUで200Mt/s超えですか、凄い時代になりましたね・・・
512名無しさん@お腹いっぱい。:2012/11/08(木) 19:39:22.91 ID:8rusYKpL0
>>502
A10カッケーな
513名無しさん@お腹いっぱい。:2012/11/08(木) 21:24:27.82 ID:c99Xuep80
>>477
ありがとうございます
もしよければREADME.txtにuser.configのことも書いておいてもらえるとうれしいです
514名無しさん@お腹いっぱい。:2012/11/08(木) 21:34:27.71 ID:CzgE7YFV0
>502さんに合わせてAlpha 3でA10-5700でやってみた。
Windows8 64bit Radeon HD 7660Dで初期設定のままで実行
#Alpha 2ではCPU+GPUで同じくエラー

順に、CPU、GPU、CPU+GPU(ファイルは400KBあるので注意)
ttp://www.dotup.org/uploda/www.dotup.org3598679.png
ttp://www.dotup.org/uploda/www.dotup.org3598686.png
ttp://www.dotup.org/uploda/www.dotup.org3598739.png

5800Kを下回る筈の速度がなぜか上回った。
ドライバとかメモリ(DDR3-1888)に差があるのかどうか。
#メモリはGPUでも影響しないのでしたっけ?

なお、Alpha 1よりCPU+GPUのGPU部分がざっくり4割速度向上しました。
515名無しさん@お腹いっぱい。:2012/11/08(木) 21:47:01.79 ID:CzgE7YFV0
テンプレに合わせて報告いたします。

【GPU】AMD Radeon HD 7660D (A10-5700内蔵)
【CPU】AMD A10-5700
【OS】Microsoft Windows 8 Pro 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】960
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.11 beta4
【10分間の平均速度】254.87M tripcodes/s
【GPUの平均速度】244.63M tripcodes/s
【CPUの平均速度】10.24M tripcodes/s
【GPU使用率】97〜98%
【その他】CPU+GPU

消費電力は110〜113W程度。GPUのみだと70W未満・・・GPUの効率スゴイっす。

関係ありませんが、「7完1タゲ」とかってどういう意味なんでせう。
516名無しさん@お腹いっぱい。:2012/11/08(木) 22:03:42.35 ID:uKh70Nek0
任意の七文字 タゲを1つだけ記した状態
517名無しさん@お腹いっぱい。:2012/11/08(木) 22:23:18.59 ID:CzgE7YFV0
>>516
ありがとうございます。もやもやが晴れました。
518名無しさん@お腹いっぱい。:2012/11/08(木) 22:39:21.56 ID:8rusYKpL0
>>515
>7完1タゲ
七文字のワード(YUKI.N/とか)を正規表現無しで1つだけ指定ってことじゃね
519名無しさん@お腹いっぱい。:2012/11/08(木) 22:55:26.18 ID:cebxTMIE0
七文字完全一致1ターゲット
520 ◆MERIKEN4.k :2012/11/09(金) 04:23:43.15 ID:bKYl/cdH0
>>514
結構速度出てますねえ。次にマザボを変える機会があったらAMDのAPUに
しようかな…
521 ◆MERIKEN4.k :2012/11/09(金) 04:29:32.75 ID:bKYl/cdH0
アホの子HD 4000ちゃんがあまりにも不憫なのでカーネルをいじって
Intelのドライバでも動くようにしておきました。性能はあいかわらずですが…
522名無しさん@お腹いっぱい。:2012/11/09(金) 04:38:28.96 ID:rgF3r/Bc0
【GPU】HD7970 CFX 2GPUs @1200MHz
【CPU】FX-8350 @5GHz
【OS】Windows7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 3
【トリップの種類】12桁
【1CUあたりのワークグループの数】1280
【1WGあたりのワークアイテムの数】24
【その他のオプション】-c -g -t 7 -y 1280 -z 24
【Display Driver】Catalyst 12.10
【10分間の平均速度】1705.24tripcodes/s
【GPUの平均速度】1654.95tripcodes/s
【CPUの平均速度】48.30tripcodes/s
【GPU使用率】92%
【その他】7完1タゲ

どうにか本気を出させることが出来ました
WG数が効いたようです。値を小さくすれば使用率は上がりますが数値が伴わないのでこの辺りがいいところ
7970の2枚挿しの割に低いですがCPUがネックなのでしょうw
523名無しさん@お腹いっぱい。:2012/11/09(金) 04:39:37.32 ID:rgF3r/Bc0
524 ◆MERIKEN4.k :2012/11/09(金) 05:31:55.25 ID:bKYl/cdH0
>>522
う〜ん、その構成だと性能的には3000M TPSでてもおかしくないはずなんですけどねえ。
>>492さんの報告( >>501 ) でもそうだったけど、どうもAMDのGPUが
複数あるとちゃんと速度が出ないみたいです。READMEには書かなかったけど、
"-a"というオプションで検索スレッドの数を指定できるので、それを増やして
みるのも手かもしれません。デフォルトは2です。
こういう場合CUDAだと綺麗にスケールしてくれるのですが
AMD APPはなかなかクセがありそうな感じです。
525名無しさん@お腹いっぱい。:2012/11/09(金) 08:13:48.08 ID:nBLHjNmZ0
>>521
アホの子かわいいよアホの子

元よりAMDほどガチGPU目指してないからな気もするが>HD 4000
526 ◆MERIKEN4.k :2012/11/09(金) 08:34:48.19 ID:bKYl/cdH0
>>492
>>522
AMDのGPUが複数あると速度が極端に落ちる問題ですが、5770と7970の組み合わせで
こちらでも再現できました。で、調べてみたところ、速度をきちんと出すためには
GPU毎にTripcode Finderを立ち上げる必要があることが分かりました\(^o^)/

AMDのドライバを書いた人が何を考えているのかさっぱりわからないほどの
糞仕様ですが、このままではあまりにダサくて見るに耐えないので、
CUI版をハックしてなんとかすることにします。あんまり綺麗とはいえないですが、
CUI版からOpenCL対応デバイスの数だけ子プロセスを立ち上げればとりあえず
大丈夫でしょう。
527 ◆MERIKEN4.k :2012/11/09(金) 08:38:44.85 ID:bKYl/cdH0
>>525
ほんとに必要最低限ですよね。もうちょっと頑張って欲しかったなあ。
528 ◆MERIKEN4.k :2012/11/09(金) 15:23:52.89 ID:bKYl/cdH0
CUI版でそれぞれのAMDのGPUのために1つづつ子プロセスを
起動するところまではできました。あとは次のページを参考にして
子プロセスの出力を親プロセスにリダイレクトしてやるだけです。

How to spawn console processes with redirected standard handles
http://support.microsoft.com/kb/190351

非常にめんどくさいけど、あともうちょっとです。
529 ◆MERIKEN4.k :2012/11/09(金) 19:16:16.16 ID:bKYl/cdH0
うんざりするような書き換え作業が終わって、ちゃんと子プロセスの
標準出力が親プロセスで受け取れるようになりました。あとはこれを
親プロセスで処理してやるだけです。
530名無しさん@お腹いっぱい。:2012/11/09(金) 19:42:43.60 ID:HSgvVNfi0
団子もびっくりだな。

本職さんですねメリケンさん。
531 ◆MERIKEN4.k :2012/11/10(土) 05:10:08.05 ID:751Yphs90
>>530
それが本業はプログラミングと全く関係ないんです。
532 ◆MERIKEN4.k :2012/11/10(土) 06:09:10.04 ID:751Yphs90
修正もほぼおわり、生成されたトリップと速度などの情報が
CUI版できちんと表示されるようになりました。
定格の5770と7970の組み合わせで1700M TPS以上出ているので
性能的には申し分ありません。あと数箇所修正する箇所が
残ってますけど、まず問題ないでしょう。やれやれです。
533名無しさん@お腹いっぱい。:2012/11/10(土) 10:56:29.80 ID:NYhfme2W0
……ところで、
>5文字未満、もしくは12文字以上のターゲットも無視されます
と書いてあるのは、
「ターゲットは5〜11文字まででお願いします」
ということですか(12完は含みませんか)?
534 ◆MERIKEN4.k :2012/11/10(土) 11:05:13.54 ID:751Yphs90
>>533
ありゃりゃ、説明が間違ってますね。12完でも大丈夫です。
535名無しさん@お腹いっぱい。:2012/11/10(土) 11:25:15.16 ID:NYhfme2W0
>>534
ですよね。でもありがとうございます
536 ◆MERIKEN4.k :2012/11/10(土) 12:01:23.68 ID:751Yphs90
新しい開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 4
http://www.meriken2ch.com/programming/merikens-tripcode-finder

Alpha 3からの変更点は以下になります。

・複数のAMDのGPUで検索すると速度が低下する不具合の修正。
・Intel Processor Graphicsシリーズへの対応。

今度こそ6990や7970 CFXで性能通りの速度が出るはずです。
アホの子HD 4000ちゃんには期待しないでくださいw
537名無しさん@お腹いっぱい。:2012/11/10(土) 12:09:03.87 ID:lftviXDBP
しかしこういうの見ちゃうと、AMDのAPUも十分Intelと戦えるんだよなぁ

GPU部分を活用するのが難しいからなかなか陽の目見ないけど、
メモリ統合とかHSAとかすすんでGPUの演算力をもっと容易に使えるようになったら面白いな
538名無しさん@お腹いっぱい。:2012/11/10(土) 13:02:23.08 ID:NYhfme2W0
>>536
DL→アホの子だけ指定してGPU検索(ゲス顔)→

ト リ ッ プ が 生 成 さ れ な い ?
539 ◆MERIKEN4.k :2012/11/10(土) 13:16:56.65 ID:751Yphs90
>>538
たしかになかなか出てこないですねえ。
この間はちゃんと検索できてたのにおかしいな。
540 ◆MERIKEN4.k :2012/11/10(土) 13:19:40.72 ID:751Yphs90
あ、出てきた。まあアホの子はとんでもなく遅いので気長に待ってくださいw
541名無しさん@お腹いっぱい。:2012/11/10(土) 13:25:37.29 ID:ZBbfmQXZT
低速のテスト用に4文字検索もOKにすればいいのに
542名無しさん@お腹いっぱい。:2012/11/10(土) 13:30:40.11 ID:tCg9kOr10
>>536
CUI版でオプションスイッチが効かないような
設定してもデフォルトでの検索になります
543 ◆MERIKEN4.k :2012/11/10(土) 13:43:05.04 ID:751Yphs90
>>541
ハッシュ値の計算の関係で5文字以上にしないと検索が遅くなるんです。
正規表現で"^TEST."のように指定してやれば4文字で検索できなくも無いです。
544 ◆MERIKEN4.k :2012/11/10(土) 13:47:26.30 ID:751Yphs90
>>542
報告ありがとうございます。たしかにOpenCL対応のGPUが複数あると
オプションが効かないですね。直しておきます。
545 ◆supernova.rT :2012/11/10(土) 14:26:44.02 ID:AK5IPrBn0
5870でAlpha 4を試しましたので、ちょい簡単に報告します
>>487を参考に数値を変えましたところ、-y 5120 -z 64 の設定で平均900M強出ました
どうやら先日の報告はGPU使用率が低かったようです
546 ◆MERIKEN4.k :2012/11/10(土) 14:37:28.94 ID:751Yphs90
>>542で報告していただいたバグを修正した開発版をうpしました。
複数のGPUを使わない方はダウンロードする必要はありません。

MERIKEN's Tripcode Finder 0.07 Alpha 5
http://www.meriken2ch.com/programming/merikens-tripcode-finder
547 ◆MERIKEN4.k :2012/11/10(土) 14:48:46.91 ID:751Yphs90
>>545
CUの数が5770の倍なのでちょうどそれぐらいの速度ですよね。
5870のデフォルトの値だけ変えられないか検討してみます。
548 ◆MERIKEN4.k :2012/11/10(土) 15:39:17.37 ID:751Yphs90
>>545
CL_DEVICE_NAMEとCL_DEVICE_MAX_COMPUTE_UNITの組み合わせで
型番が特定できることがわかったので、5870のデフォルトの値だけを変えて
おきました。次の開発版で反映されます。
549ののたん ◆KiwamonoL. :2012/11/10(土) 16:48:50.75 ID:Osc/R8BS0 BE:197526252-DIA(289888)
【GPU】Radeon HD 6990
【CPU】i7-2600
【OS】Windows 7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 4
【トリップの種類】12桁
【1CUあたりのワークグループの数】2560
【1WGあたりのワークアイテムの数】64
【その他のオプション】なし
【Display Driver】CCC 12.10
【5分間の平均速度】1955.59Mtripcodes/s
【GPUの平均速度】1955.59Mtripcodes/s
【CPUの平均速度】N/A
【GPU使用率】97%前後
【その他】
GPUのみで検索
電力を20%盛って950MHzで計測

Performing a forward-matching search for 1 pattern (1 chunk)
with 7 characters on GPU(s):
OpenCL0: 1034.7M TPS, 2560 work-groups/CU, 64 work-items/WG
OpenCL1: 920.9M TPS, 2560 work-groups/CU, 64 work-items/WG

0.577T tripcodes were generated in 0d 0h 5m 00s at:
1991.28M tripcodes/s (current)
1955.59M tripcodes/s (average)
On average, it takes 25.6 minutes to find one match at this speed.
550 ◆MERIKEN4.k :2012/11/10(土) 17:06:17.35 ID:751Yphs90
>>549
あ、ありがとうございます! ちゃんと性能通りの速度が出ているみたいですね。
よかったよかった。

> 【5分間の平均速度】1955.59Mtripcodes/s

しかしこれは1枚のグラボの数字には見えないですねw 素晴らしいです。
551名無しさん@お腹いっぱい。:2012/11/10(土) 17:37:48.81 ID:NYhfme2W0
>>549
>【5分間の平均速度】1955.59Mtripcodes/s
2枚にすればMERIKEN超えだよ!やったね!
552名無しさん@お腹いっぱい。:2012/11/10(土) 18:34:33.46 ID:asBmjW5V0
こんばんわ alpha5 解凍したまんまです
http://www.dotup.org/uploda/www.dotup.org3605227.png
OSとそのドライバの影響でしょうか?うちの環境で40〜50%です
553ののたん ◆KiwamonoL. :2012/11/10(土) 19:06:49.70 ID:Osc/R8BS0 BE:355546692-DIA(289888)
>>552
6990 なら、電力を盛らないとホンキださないぜ。
6990 使いなら常識だぜ。w

【重要:盛って壊れても俺は責任持たないからな。】
554名無しさん@お腹いっぱい。:2012/11/10(土) 19:07:57.03 ID:asBmjW5V0
>>553
盛っても変わらなかったからデフォでやったw
555名無しさん@お腹いっぱい。:2012/11/10(土) 19:16:08.42 ID:pOMmt27e0
壊れてナンボがデフォ。
556 ◆MERIKEN4.k :2012/11/10(土) 19:17:25.07 ID:751Yphs90
>>552
これは実にもったいない… ぶっちゃけAMDのOpenCLの実装がちゃんと
複数のGPUを生かしきれてないのが問題なんですけどねえ。
同じ設定でTripcode Finderを2つ同時に動かしたらどうなるか、
試してみていただけませんか?
557名無しさん@お腹いっぱい。:2012/11/10(土) 19:33:15.40 ID:asBmjW5V0
GPUのみの並列実行しても使用率に変化はありません
CPU&GPU GPUの並列実行も同じです
558 ◆MERIKEN4.k :2012/11/10(土) 19:40:37.23 ID:751Yphs90
>>557
あとはワークグループの数を5120とか10240にしてみるぐらいしか
思いつかないですねえ。スレッドの数を変えてみるといいのかもしれないんですけど、
このオプション、Alpha 5ではちゃんと動いてませんでした… 次の開発版で
直しておきます。
559名無しさん@お腹いっぱい。:2012/11/10(土) 19:49:37.93 ID:NYhfme2W0
>>552のように、ラデ使いのSSに写ってるカッコイイ画面>>432
ってグラボ標準のユーティリティなん?
高いGPUなんて買ったことないからよく分かんない……
使用率見るのにGPU-Zより分かりやすいのはいいけど

ところでこの壁紙って誰のですか?
560名無しさん@お腹いっぱい。:2012/11/10(土) 19:50:17.66 ID:NYhfme2W0
なんで>>432って付いてるの↑……
無視してください
561名無しさん@お腹いっぱい。:2012/11/10(土) 20:09:58.65 ID:asBmjW5V0
http://www.dotup.org/uploda/www.dotup.org3605668.png
いろいろやった結果 CU=2560 WG=32 のみ固定し行けました
6990はクーラントブッカケしたものなんでたまにマザーが見失ったりするんでそのせいかもしれません

ツールはMSIのサイトから落とせますよ
壁紙は台湾MSから 日本MSのちっぱいには興味ありません
562名無しさん@お腹いっぱい。:2012/11/10(土) 20:59:00.78 ID:NYhfme2W0
>>561
ウチMSIには縁がないもので……
↓壁紙はいただきました。冷静に考えるとM$キャラでちっぱいは少ないような……
http://www.microsoft.com/taiwan/silverlight/collection.htm
563名無しさん@お腹いっぱい。:2012/11/10(土) 21:47:13.33 ID:asBmjW5V0
>>562
無料ツールだろw
MSI行って落とせよ
564名無しさん@お腹いっぱい。:2012/11/10(土) 21:51:37.91 ID:EjblPgPX0
^0123456789$のように$で終わらせた検索条件を含む
10桁トリップと12桁トリップの複合検索は
トリップの種類12桁
でもできますか?
565名無しさん@お腹いっぱい。:2012/11/10(土) 22:48:53.43 ID:tCg9kOr10
>>562
どこのメーカーのものでも使えますよ

http://event.msi.com/vga/afterburner/download.htm
566 ◆MERIKEN4.k :2012/11/11(日) 02:08:24.80 ID:jethYJ0v0
>>564
おっしゃっていることがさっぱりわからないんですが…
Tripcode Finderで10桁トリップと12桁トリップを同時に
検索することはできません。
567名無しさん@お腹いっぱい。:2012/11/11(日) 02:30:34.47 ID:shOUqygm0
>>565
thx!インストールしてみる→

---------------------------
MSI Afterburner
---------------------------
一部の MSI アフターバーナーのコンポーネントが期限切れ、紛失、または壊れています。
---------------------------
OK
---------------------------
起動しないよorz
ノートじゃ駄目か……
568 ◆MERIKEN4.k :2012/11/11(日) 03:27:58.86 ID:jethYJ0v0
>>561
う〜ん、まだまだ力を出し切れていない感じですねえ。
自分でも試してみたいけど、さすがにこれ以上はグラボは買えません。無念なり…
569名無しさん@お腹いっぱい。:2012/11/11(日) 10:55:22.93 ID:VopdUwvA0
【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz)
【CPU】Intel Core i7-3770(無印)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 5
【トリップの種類】12桁
【1CUあたりのワークグループの数】3200
【1WGあたりのワークアイテムの数】64
【その他のオプション】
【Display Driver】Catalyst 12.10
【10分間の平均速度】498.00M tripcodes/s
【GPUの平均速度】463.44M tripcodes/s
【CPUの平均速度】34.56M tripcodes/s
【GPU使用率】99%
【GPUの温度】64℃ (室温20℃)
【その他】テスト時間10分33秒、7完1タゲ

Intel HD4000 にセカンドディスプレイを接続して使用していますが、Intel
社の OpenCL ドライバはインストールしていないので HD5770 だけでのテスト
となりました。
570 ◆MERIKEN4.k :2012/11/11(日) 12:58:41.29 ID:jethYJ0v0
>>561
あの後ちょっと調べてみたんですけど、ひょっとしてCrossFireXが有効になってませんか?
Catalyst Control CenterでCFXを切れば、デフォルトの設定でうまくいくかもしれません。
571名無しさん@お腹いっぱい。:2012/11/11(日) 13:02:30.40 ID:6A5ebb7J0
>>570
切ってみます
572 ◆MERIKEN4.k :2012/11/11(日) 13:07:04.34 ID:jethYJ0v0
>>569
詳しい報告、ありがとうございます。ワークグループの数は2560より3200のほうが
いいのかな。うちの5770でもうちょっと詳しく調べてみます。
573名無しさん@お腹いっぱい。:2012/11/11(日) 13:10:54.23 ID:6A5ebb7J0
切れてた… 2560/64は2560/32より遅かった模様
574 ◆MERIKEN4.k :2012/11/11(日) 13:21:12.44 ID:jethYJ0v0
>>573
う〜ん、何で6990 CFXだけなかなか速度が出ないんでしょうねえ。
ほかのOpenCLアプリケーションでは6990 CFXでもちゃんと性能が出るという報告が
あったので、なにかしら方法はあると思うんですが… もうちょっと調べてみます。

Bitcoin Mining GPU Performance Comparison
http://www.hardocp.com/article/2011/07/13/bitcoin_mining_gpu_performance_comparison/3
575名無しさん@お腹いっぱい。:2012/11/11(日) 13:41:23.09 ID:shOUqygm0
>>569
>Intel社の OpenCL ドライバ
そんなのがあったのか……と思ってググってみたが、SDKのことか?
→インストールしたら、アホの子でOpenCL検索使えた!
(ただし4M/sぐらいだけど)
サンクス!
576名無しさん@お腹いっぱい。:2012/11/11(日) 13:55:31.58 ID:shOUqygm0
あ、後、タスクマネージャ見てたら隠しパラメータがあることに気づいたw
-a 2←1つのAMDのGPUに対する検索スレッドの数?
-m MutexForMERIKENsTripcodeFinder-6496←Intel HD Graphics 4000でOpenCLを使うおまじない?
577 ◆MERIKEN4.k :2012/11/11(日) 15:10:23.29 ID:jethYJ0v0 BE:1197019229-2BP(12)
>>576
> -a 2←1つのAMDのGPUに対する検索スレッドの数?

これはあってます。2番目のはGUI版とCUI版が通信するときに使うおまじないです。
578 ◆MERIKEN4.k :2012/11/11(日) 18:53:29.24 ID:jethYJ0v0
これまで使っていた検索君1号のFermi軍団に加えて、開発用PCの7970でも同時に
検索をしているのですが、ここ数日で3回ブレーカーが落ちましたw
GTX 590の電圧を絞ることでなんとか対処しましたが、
消費電力のほうもそろそろ限界です。
579名無しさん@お腹いっぱい。:2012/11/11(日) 19:25:42.41 ID:6A5ebb7J0
単相200V契約しよう
580名無しさん@お腹いっぱい。:2012/11/11(日) 20:09:00.62 ID:tLApF2aS0
前スレだったと思いますが、ドライバを触ったらこのソフトからGPUが認識されなくなったと書き込んだものです。
相変わらず認識されないままですが、今日system32に入っているclinfo.exeというプログラムでOpenCLの情報を取得できると知ったので、
取得できたテキストをアップロードしておきます。
http://cyclotron.moe.hm/up/small/src/cyclotron_s4856.zip

念のため正常に使用できるPCのぶんも入れておきます。
581名無しさん@お腹いっぱい。:2012/11/11(日) 20:10:29.57 ID:kFGFk5jZ0
USAは、110ボルトですね。
582 ◆MERIKEN4.k :2012/11/11(日) 20:22:46.82 ID:jethYJ0v0
>>580
ひょっとしてこのスレの>>395さんですか?
たしかに両方ともRadeonが見えていますね。
OSが64bit版ならCUI64ならうまく動くかもしれません。
583 ◆MERIKEN4.k :2012/11/11(日) 20:29:24.47 ID:jethYJ0v0
>>579
したいのはやまやまなんですけど、今のアパートだと無理なんです…

>>581
120Vです。15Aなので1800Wまで大丈夫なんですが、グラボ4枚で1100Wぐらい
いってます。やばいです。
584名無しさん@お腹いっぱい。:2012/11/11(日) 20:42:11.43 ID:tLApF2aS0
>>582
あ、このスレでしたか。
Alpha5をダウンロードしてCUI64を起動してみましたが
MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: CL_DEVICE_NOT_FOUND (file 'Source Files\MTF_CUI_Main.cpp', line 732)
と表示されてそこから進みません。

c++は門外漢でソースちらっと眺めただけですけど、プラットフォームが2個あって、最初の片方がCPUのみってところでなんかコケたりしてません?
585 ◆MERIKEN4.k :2012/11/11(日) 20:47:49.07 ID:jethYJ0v0
>>584
CPUは無視するようにしているので問題はありません。
32bit版のMERIKENsTripcodeFinderCUI.exeではどうですか?
586名無しさん@お腹いっぱい。:2012/11/11(日) 20:51:41.93 ID:tLApF2aS0
>>585
32bitでも同じエラーです。
587 ◆MERIKEN4.k :2012/11/11(日) 21:06:57.97 ID:jethYJ0v0
う〜ん、やっぱりCL_DEVICE_NOT_FOUNDが返されているのかなあ。
うちのIntelのドライバではエラーは出なかったんですが…
これから修正して新しい開発版をうpするので、そちらを試してみてください。
588 ◆MERIKEN4.k :2012/11/11(日) 21:57:58.95 ID:jethYJ0v0
>>580で報告していただいた、環境によっては起動できないバグを修正した
開発版をうpしました。というか、これで直っているといいんですけど…

MERIKEN's Tripcode Finder 0.07 Alpha 6
http://www.meriken2ch.com/programming/merikens-tripcode-finder
589名無しさん@お腹いっぱい。:2012/11/11(日) 22:02:50.51 ID:tLApF2aS0
>>588
ありがとうございます。
起動できるようになりました。
590 ◆MERIKEN4.k :2012/11/11(日) 22:08:25.91 ID:jethYJ0v0
>>589
それはよかった! こちらこそバグ報告をありがとうございました。
591 ◆MERIKEN4.k :2012/11/11(日) 22:12:41.07 ID:jethYJ0v0
もうそろそろ安定してきたと思って10桁トリップ検索の移植の作業を
始めてたんですけど、まだ結構不具合が残っていますねえ。
592 ◆GTX680Mcys3u :2012/11/12(月) 06:26:56.37 ID:2Urt7HcK0
>>588
全グラフィックチップ(680M+iHD4000)指定だと
検索開始後エラーメッセージなしでソフトごと落ちます
HD4000はバッサリ切った方がいいかと思われます
593 ◆MERIKEN4.k :2012/11/12(月) 07:13:21.49 ID:x4jnfC130
>>592
ありゃりゃ… こりゃいかんですねえ。テスト用には便利だったんですけど
しょうがないですね。次の開発版からは無視するようにします。
594 ◆MERIKEN4.k :2012/11/12(月) 07:34:25.71 ID:x4jnfC130
というわけで面倒くさいのでIntelのプラットフォームは最初から無視することに
しちゃいました。OpenCLはオープンスタンダードな分だけそれに伴う
問題も多いですね。
595 ◆MERIKEN4.k :2012/11/12(月) 08:51:49.76 ID:x4jnfC130
気を取り直して10桁トリップ検索の移植作業を続けます。
CPU側のコードは10桁の場合とほとんど同じなのですぐに終わりました。
問題はOpenCLのコードですが、バグが紛れ込むと見つけるのが
非常に困難になるので、慎重に作業を進めてます。
596 ◆MERIKEN4.k :2012/11/12(月) 10:00:14.78 ID:x4jnfC130
カーネルの入り口の部分の書き換えは終了しました。
あとはBitslice DESの本体だけですが、CUDAのコードをコピペするだけなので
問題はないでしょう。うまく動いてくれるといいんだけど、どうでしょうね〜
597名無しさん@お腹いっぱい。:2012/11/12(月) 10:29:57.20 ID:FaMyVn9Z0
geforceでopenCL版って動くの?
動いてもcudaよりは遅い?
598 ◆MERIKEN4.k :2012/11/12(月) 13:13:54.13 ID:x4jnfC130
>>597
いまはNVIDIAのカードでは強制的にCUDAを使うようにしています。
OpenCLでも動くことは動くと思いますけど、基本的に全く同じコードなので
速度は変わらないでしょう。
599 ◆MERIKEN4.k :2012/11/12(月) 13:27:00.53 ID:x4jnfC130
OpenCLの10桁検索のコードは1発で動いたんですけど、Bitslice DESで使う変数を
何も考えずに全部__privateメモリ空間に突っ込んだら、案の定というか
まったく速度が出ていませんw まあでもコードの書き換え自体は問題なかったよう
なので、とりあえず一安心です。これから__globalと__localを試してみます。
600名無しさん@お腹いっぱい。:2012/11/12(月) 13:31:46.97 ID:ClnWJME80
khronosの姿勢として標準のカーネルコンパイラを用意しないのはわかるんだけど
やっぱりglslの轍をちょっとは生かしてほしかったってのが個人的な思い
meriken氏乙
601名無しさん@お腹いっぱい。:2012/11/12(月) 13:37:18.53 ID:/PHpLzn40
>>594
当方では一応4M/sぐらいで動くので、
IntelHD4000を使うか否かをチェックボックスとかで決めればいいと思いまーす
602名無しさん@お腹いっぱい。:2012/11/12(月) 13:56:47.61 ID:FaMyVn9Z0
>>598
そうなんだ
ありがとう
603名無しさん@お腹いっぱい。:2012/11/12(月) 21:58:25.06 ID:+66fUhHT0
OpenCLで盛り上がっているところにCPUのみの結果を報告。

【GPU】Quadro FX 3800
【CPU】Xeon [email protected] x2CPU
【OS】MS Windows 7 Pro 64bit
【バージョン】0.07 Alpha 3 CUI64
【トリップの種類】12桁
【Display Driver】307.32

【その他】HT on
【その他のオプション】-c -t 24
【60時間の平均速度】80.51M TPS

【その他】HT off
【その他のオプション】-c -t 12
【2時間の平均速度】79.04M TPS

CPUだけで実行してもHTは殆ど効きません。NehalemとSandy Bridgeでは全然違うのかな?
ちなみにHT on の状態で、"-c -t 12"と指定すると、2CPU12コアに割り当てられずに、1CPU6コア12スレッドに割り当てられてスピードが出ません。
604名無しさん@お腹いっぱい。:2012/11/12(月) 21:59:57.08 ID:+66fUhHT0
Alpha 6に上げて再度実行してみましたが、NVIDIAコントロールパネルの"3D設定"→"3D設定の管理"で"CUDA-GPU"を"なし"に設定すると、CUI64で"-c"オプションをつけても下記エラーが出て落ちます。
MERIKENsTripcodeFinderCUI: OPENCL FUNCTION FALL FAILED: Unknown (file 'Source Files\MTF_CUI_Main.cpp', line 715)
605名無しさん@お腹いっぱい。:2012/11/12(月) 23:26:48.48 ID:ODHrB/Fw0
NVIDIA,第2世代Kepler「GK110」搭載の「Tesla K20」を正式発表。CUDA Core数は最大2688基に
http://www.4gamer.net/games/121/G012181/20121110004/
606名無しさん@お腹いっぱい。:2012/11/12(月) 23:34:15.80 ID:cklfqCrp0
X5680はOCすりゃいいじゃん
607名無しさん@お腹いっぱい。:2012/11/13(火) 02:39:21.60 ID:FPgsAJYQ0
DualCPUにQuadro突っ込んでるようなガチWS機でOCとかあり得んでしょ
608名無しさん@お腹いっぱい。:2012/11/13(火) 02:50:45.59 ID:l+bGYcyn0
倍率ロックフリーだろ?
609 ◆MERIKEN4.k :2012/11/13(火) 06:21:00.78 ID:FpPqufE20
今気づいたんですけど「1CUあたりのワークグループの数」じゃなくて
「1CUあたりのワークアイテムの数」ですね、これ。
こりゃ当分の間安定版は出せないな…
610 ◆MERIKEN4.k :2012/11/13(火) 06:26:29.04 ID:FpPqufE20
>>603-604
報告ありがとうございます。CPU検索ももうちょっと何とかしたいですね〜
"Unknown"のエラーが出ているのは謎ですが、そこのエラーは無視するように
直しておきます。
611 ◆MERIKEN4.k :2012/11/13(火) 06:38:08.95 ID:FpPqufE20
予想通りというべきか、10桁トリップ検索はなかなかスピードが出てくれません。
まじめにプロファイラを使わないと駄目ですね、こりゃ。
まあCUDAのときもそうだったので、のんびり時間をかけて取り組むことにします。
612 ◆MERIKEN4.k :2012/11/13(火) 07:26:06.97 ID:FpPqufE20
>>605
GK110も試してみたいんですけどね〜
Amazon Cluster GPU Instancesで使えるようにならないかしらん。
613 ◆MERIKEN4.k :2012/11/13(火) 09:29:27.60 ID:FpPqufE20
Bitslice DES用の一時変数をどのメモリ空間に置けばいいのかいまいち
よくわからないので、とりあえず#ifdefで切り替えられるようにしておきます。
あと、一回のBitslice DESを複数のスレッドで同時に処理するかどうかも
CPU側で設定できるようにする予定です。こういうところは実行時にカーネルを
ビルドできるOpenCLはいいですねえ。
614名無しさん@お腹いっぱい。:2012/11/13(火) 09:34:06.33 ID:ATY55mX00
【GPU】HD7970 CFX 2GUPs
【CPU】FX-8350
【OS】Win7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 6
【トリップの種類】12桁
【1CUあたりのワークグループの数】5120
【1WGあたりのワークアイテムの数】40
【その他のオプション】-c -g -t 6 -a 8 (-aオプションは有効なのか?)
【Display Driver】Catalyst 12.10
【10分間の平均速度】2614.21tripcodes/s
【GPUの平均速度】2575.40tripcodes/s
【CPUの平均速度】38.31tripcodes/s
【GPU使用率】95%
【その他】7完1タゲ

いろいろ調整したら瞬間最大風速では3000M程度出るようにはなりました
ラデはCPU負荷高いですね
フルにCPU8スレッドで回すと却って速度が出ないです
CPU単体でなら50M程出るんですが

それと、CFXの有効無効では速度は変わらないですよ

http://www.rupan.net/uploader/download/1352766539.png
615名無しさん@お腹いっぱい。:2012/11/13(火) 14:32:35.77 ID:1xHvqvP20
ついにデュアルTahitiカードがAMDから登場。エーキューブ,サーバー向けグラフィックスカード「FirePro S10000」を国内発売
http://www.4gamer.net/games/133/G013322/20121113023/
616名無しさん@お腹いっぱい。:2012/11/13(火) 14:34:05.53 ID:1xHvqvP20
XeonPhiってどうなんですかねえ
617名無しさん@お腹いっぱい。:2012/11/13(火) 15:01:20.15 ID:PlVYlKIA0
負荷で思い出したけど、同じGPU使用率でもmtyのGPU版は95℃までいくけどMERIKENは89℃までしか上がらないね。
618名無しさん@お腹いっぱい。:2012/11/13(火) 17:19:59.24 ID:VU2bD6Zz0
>>615
サーバ向けのFireProだし、3599ドルらしい。

>>616
OpenMPが使えて既存アプリの移植が楽らしいけど、既にOpenCLになっている場合はメリット薄そう。
619 ◆MERIKEN4.k :2012/11/13(火) 19:10:11.95 ID:FpPqufE20
>>614
なかなか良い感じに仕上がってますね。それだけOCした7970なら単体で1500M TPS近く
いくはずなので、単純に2枚で2倍の速度という訳にはいかないみたいですが…
Alpha 6では-aオプションは有効なはずです。CFXの話は別のところで見かけたんですが、
関係無かったみたいですね。
620 ◆MERIKEN4.k :2012/11/13(火) 19:22:18.89 ID:FpPqufE20
>>617
Bitslice DESはSHA-1の処理に比べてメモリへのアクセスの量が段違いですからねえ。
621 ◆MERIKEN4.k :2012/11/13(火) 19:30:43.61 ID:FpPqufE20
>>615
いいですね〜 いつかこういうのをたくさんラックマウントサーバーに乗っけて
Tripcode Finderを動かしてみたいですw
622 ◆MERIKEN4.k :2012/11/13(火) 19:59:41.68 ID:FpPqufE20
Southern Islandsだとコンスタントメモリは場合によってはグローバルメモリと
同じぐらい遅くなるそうで…こりゃCUDAと同じコードじゃ遅くなるわけだわ。
頻繁に使うのは最初にローカルメモリに移しておいたほうがいいな。

> 3. Varying Index
> More sophisticated addressing patterns, including the case where each work- item
> accesses different indices, are not hardware accelerated and deliver the same
> performance as a global memory read.
623 ◆MERIKEN4.k :2012/11/13(火) 20:10:06.56 ID:FpPqufE20
あとローカルメモリにアクセスする際はuint2を使うといいみたいです。

> Currently, the native format of LDS is a 32-bit word. The theoretical
> LDS peak bandwidth is achieved when each thread operates on a
> two-vector of 32-bit words (16 threads per clock operate on 32 banks).

vector data typesの使い方はここに書いてありました。

Programming with OpenCL C
http://www.informit.com/articles/article.aspx?p=1732873&seqNum=3
624名無しさん@お腹いっぱい。:2012/11/13(火) 20:28:02.76 ID:ES3128Qj0
>>614
壁紙についてkwsk
MERIKENさんの公式記録が越される日も近いか……
625名無しさん@お腹いっぱい。:2012/11/13(火) 23:12:02.50 ID:ATY55mX00
>>624
この辺で拾ってます
これがいつのものだったかは忘れましたw

http://www.smashingmagazine.com/tag/wallpapers/
626名無しさん@お腹いっぱい。:2012/11/13(火) 23:43:31.28 ID:ES3128Qj0
>>625
そのまま2012/11の記事を見ても出てこないorz
http://www.smashingmagazine.com/2012/10/31/desktop-wallpaper-calendar-november-2012/
よろしければ画像アップローダに上げてくれませんか?
627 ◆MERIKEN4.k :2012/11/14(水) 00:24:53.55 ID:mDY3eRDW0
>>624
それはどうでしょうね… ( ̄ー ̄)ニヤリ
628名無しさん@お腹いっぱい。:2012/11/14(水) 00:35:11.76 ID:E/rQ2cMp0
629名無しさん@お腹いっぱい。:2012/11/14(水) 00:38:28.17 ID:eHqSRvz80
>>621
どうせならHD7970 X2に行きませんか?
消費電力が凄まじいのと、スロット占有が問題ですけどw
なんかリンクが貼れないので詳細は検索してください

デスクトップ向けにHD7950のデュアルが出てくれれば一番ですけどね。
HD7950のCFはグラフィックでも割りと良いというレビューもあったので、需要もある程度ありそうですし。
630名無しさん@お腹いっぱい。:2012/11/14(水) 00:50:05.56 ID:eHqSRvz80
>>622-623
OpenCLは以前よりは情報も増えたようですが、まだ茨の道なのでしょうかね・・・
631626:2012/11/14(水) 01:34:12.64 ID:vuLXlPiG0
>>628
ありがとうございます!
632 ◆MERIKEN4.k :2012/11/14(水) 01:39:17.60 ID:mDY3eRDW0
>>630
>>622-623はJohn the Ripperのメーリングリストを見てて気づきました。

http://www.openwall.com/lists/john-dev/2012/08/13/8
http://www.openwall.com/lists/john-dev/2012/09/10/5

このAlexanderという方はJohn the RipperとBitslice DESの偉い人です。
流石です。

http://www.openwall.com/lists/john-users/2011/06/22/1
633 ◆MERIKEN4.k :2012/11/14(水) 01:40:56.22 ID:mDY3eRDW0
>>630
まあGPGPUの不条理な制約にはCUDAで慣れっこになっているので
どうということはありませんw
634 ◆MERIKEN4.k :2012/11/14(水) 01:45:30.91 ID:mDY3eRDW0
>>629
うちの検索用マシンにはGTX 580が2枚と590が1枚載っているので、
7970 2枚は余裕ですw 今590を売っぱらって6990を買おうかどうか
考えているところです。
635 ◆supernova.rT :2012/11/14(水) 02:04:56.65 ID:Bf0HEkX10 BE:1020114162-DIA(123421)
僕はもうラデ2枚構成にしたのでゲフォ売ります
10桁検索対応が楽しみですよー
636名無しさん@お腹いっぱい。:2012/11/14(水) 02:16:09.00 ID:eHqSRvz80
>>633
頼もしいです、頑張ってください。

>>634
HD7970を1ボードに2基載せたもので8ピンx3で3スロット占有という
モンスターというかクレイジーな代物が出るらしいですw
それの複数枚挿しは電源だけでなくマザボもかなり選びそうです。

HD7950のデュアルで8ピンx2で2スロットであればまだマシなのですけどねえ。
637名無しさん@お腹いっぱい。:2012/11/14(水) 03:47:50.59 ID:peEcrqnb0
やっぱりさよならゲフォの流れになったね
638名無しさん@お腹いっぱい。:2012/11/14(水) 06:49:17.05 ID:AbSbupmCP
RADEONは普及用チップでも倍精度が高速なのがいい
639名無しさん@お腹いっぱい。:2012/11/14(水) 07:58:59.38 ID:vuLXlPiG0
mtyGPUがRadeonしか対応してないから、むしろゲフォ対応検索は(10桁では)貴重なんだが
640名無しさん@お腹いっぱい。:2012/11/14(水) 13:24:08.27 ID:85Ooiiep0
>>638
マジレスすると倍精度演算が速いのは7970だけだしトリップ検索に倍精度演算の出番は無いぞ
641 ◆MERIKEN4.k :2012/11/14(水) 14:42:36.69 ID:mDY3eRDW0
>>635
10桁トリップ検索は12桁よりかなり難しいので、実際どこまで速度を出せるかは
わかりませんけどね〜 というか12桁検索の移植は正直うまくいきすぎでしたw
地道に取り組む予定なので、のんびり待っていて下さい。
642 ◆MERIKEN4.k :2012/11/14(水) 15:16:17.63 ID:mDY3eRDW0
で、あれから色々試してみて、Bitslice DES用の一時変数はローカルメモリに
おかないと全く速度が出ないことが分かりました。ローカルメモリは
ワークグループ内で共有されるので、Bitslice DESを8個のスレッドで
並列処理するように書き換えてやりました。

その後、さらに性能を上げるためにAMD APP Profilerで解析してみました。
あんまり期待してなかったwのですが、非常に使いやすいです。
で、気になっていたOccupancy Analysisを行なってみたら、
案の定ローカルメモリ(LDS)の使い過ぎであることが判明しました。

http://www.meriken2ch.com/files/2012-11-13-AMD-APP-profiler.jpg
643名無しさん@お腹いっぱい。:2012/11/14(水) 15:31:41.20 ID:AbSbupmCP
>>642
へぇ〜
人目でボトルネックがLDSにあることが示されてる
凄いな
644 ◆MERIKEN4.k :2012/11/14(水) 15:51:16.97 ID:mDY3eRDW0
同じ問題はCUDA版でも起きていたので思わず頭を抱えてしまったのですが、
ソースを眺めていたら解決方法を思いつきました。Bitslice DESの
一時変数は次の構造体にまとめられています。

> typedef struct {
> DES_Vector keys[56]; // 224 bytes
> DES_Vector dataBlocks[64]; // 256 bytes
> unsigned int dummy[1];
> } DESContext;

で、56bitのDESのキーが32個keys[]に収められているのですが、
これらのキーは実際にはほとんど同じです。
というわけで、キーの生成の方法を工夫してやれば、32個のキーの共通部分
51bitだけを保持して、残りは5bitのインデックス(0〜31)から生成して
やればいいことに気づきました。
645 ◆MERIKEN4.k :2012/11/14(水) 16:01:44.57 ID:mDY3eRDW0
これで使用するメモリの量は半分近くに減って、うまくいけば
CUDA版ともども10桁検索の速度が倍になることになります。
アルゴリズムはかなり複雑になりますが、試してみる価値は十分にあります。
hip2の話を聞いて、キーの生成方法にかなりの工夫の余地があることに
気づいたのは僥倖でしたw
646 ◆MERIKEN4.k :2012/11/14(水) 16:04:10.35 ID:mDY3eRDW0
>>643
実際かなり便利です。CUDAのときはなんせExcelのスプレッドシートを
使わないとOccupancyのグラフが見れませんでしたからねw
647名無しさん@お腹いっぱい。:2012/11/14(水) 19:07:46.29 ID:vuLXlPiG0
>>645
>速度が倍
うおおおおお!?頑張って下さい!
648名無しさん@お腹いっぱい。:2012/11/14(水) 19:20:22.61 ID:dspeEFEK0
GTX670では470Mt/sくらいしか出ません。倍精度を使うわけでもないのになんでだろう。
649前スレ927 ◆JouJaku.HzIz :2012/11/14(水) 20:16:05.54 ID:HHBBdob70
ゲフォはさよならですかそうですか。
GTX480が何とか復活したので速度計測。

【GPU】GeForce GTX 480
【CPU】Xeon [email protected] x2CPU
【OS】Win7Pro 64 SP1
【バージョン】0.07a6 CUI64
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】-c -g -x 128
【Display Driver】306.97
【10分間の平均速度】648.27M TPS
【GPUの平均速度】578.39M TPS
【CPUの平均速度】69.89M TPS
【GPU使用率】100%
【その他】"TEST/", HT off, GPU 92℃

Quadroをぶっちぎっているのですが・・・うるさい。とにかくうるさい。
常用は無理です。
650名無しさん@お腹いっぱい。:2012/11/15(木) 00:03:05.86 ID:Gr7998EA0
>>642
これは便利そうですね。

>>644
DESは歴史もあり奥が深いですね。

>>648
レジスタ数がネックになって演算ユニットを使いきれていないのだと思います。
651648:2012/11/15(木) 02:21:08.90 ID:aNTlQCIF0
レジスタの仕様が違うのか。最適化しなおさないといけないわけね。
652 ◆MERIKEN4.k :2012/11/15(木) 03:09:09.94 ID:dQ9rq2KX0
>>648
>>651
トリップ検索の速度は整数演算の性能に大きく影響されるんですけど、
GTX 600シリーズで使われているKeplerコアは残念ながら整数演算が
かなり遅いのです。この点は次の記事の「命令別スループット」の
項目で詳しく解説されています。

GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru
http://dokumaru.wordpress.com/2012/03/27/gtx680-spec/

Keplerではゲームで使われる単精度演算以外はほとんど無視して
性能を稼いでいるので、GPGPU的にはかなり残念なことになっています。
653 ◆MERIKEN4.k :2012/11/15(木) 03:13:17.23 ID:dQ9rq2KX0
>>649
580とあまり遜色のない速度が出ていますね。
自分の部屋ではGeForceが3枚24時間フル稼働してますw
CUDA版の開発も続けるので安心して下さい。
654 ◆MERIKEN4.k :2012/11/15(木) 09:58:39.20 ID:dQ9rq2KX0
ここ数カ月のjohn-devでのOpenCLでのBitslice DESの実装についての
やり取りを追って見たのですが、なかなか面白かったです。

http://www.openwall.com/lists/john-dev/2012/09
http://www.openwall.com/lists/john-dev/2012/10
http://www.openwall.com/lists/john-dev/2012/11

現在John the Ripperは7970で20M c/sしか出せていないのですが、
OpenCLの実装を担当しているSayantan氏に対して、
Alexander氏が7970なら300M c/sは出るはずからボトルネックを探せ、
と言っているのが非常に興味深いです。

> Something like 300M c/s at DES-based crypt(3) on HD 7970. Maybe more
> than that if we hard-code E (generate or patch code on the fly).
http://www.openwall.com/lists/john-dev/2012/10/14/1

手元のTripcode Finderのコードは現在のJtRの実装より大分速いのですが、
それでも300M TPSには遠く及びません。レジスタ数にもまだ大分余裕があるし、
工夫の余地はいろいろあるのでしょう。実に奥が深いです。
655 ◆MERIKEN4.k :2012/11/15(木) 13:08:08.52 ID:dQ9rq2KX0
Bitslice DESをマルチスレッド化したときにエンバクした模様。
結構な確率で間違ったトリップが出力されます。
CUDAと同じコードのはずなんですけど、barrier()がうまく動作してないの
かしらん。
しかしこれ、どうやってデバッグするんだろう…
656ののたん ◆KiwamonoL. :2012/11/15(木) 14:35:25.04 ID:et60Xlt20
>>655
昔ながらの printf でおk。
手段として美しくないのは嫌いとかなら知らん。
657 ◆MERIKEN4.k :2012/11/15(木) 14:47:56.84 ID:dQ9rq2KX0
やっぱりそれしかないんですねorz
658ののたん ◆KiwamonoL. :2012/11/15(木) 15:05:07.72 ID:et60Xlt20
>>657
私が hip2 つくってた頃は printf すらなかったのに。
贅沢ね。
659 ◆MERIKEN4.k :2012/11/15(木) 15:15:33.54 ID:dQ9rq2KX0
>>658
まあそりゃそうなんですけどね…
660 ◆MERIKEN4.k :2012/11/15(木) 15:18:14.38 ID:dQ9rq2KX0
あ、原因分かったかも。CUDA版を書いてたときに適当だったところが
今になって問題になっているのかもしれません。
661 ◆MERIKEN4.k :2012/11/15(木) 15:27:59.89 ID:dQ9rq2KX0
う〜ん、違うな… もうちょっと全体的に腐ってる感じです。
662 ◆MERIKEN4.k :2012/11/15(木) 15:38:19.52 ID:dQ9rq2KX0
まあいいや。マルチスレッド化の作業はまた明日やり直すことにしよっと。
663 ◆MERIKEN4.k :2012/11/15(木) 15:54:46.53 ID:dQ9rq2KX0
コードをロールバックしたらちゃんと動作するようなのでやっぱり
マルチスレッド化が原因のようです。マルチスレッド化すると
速度が倍近くになるので次はなんとか成功させたいところです。
664前スレ927 ◆JouJaku.HzIz :2012/11/15(木) 21:27:47.25 ID:etuoVGYM0
480が余りにもうるさいので、590に交換。

【GPU】GeForce GTX 590
【CPU】Xeon [email protected] x2CPU
【OS】Win7Pro 64 SP1
【バージョン】0.07a6 CUI64
【トリップの種類】12桁
【1CUあたりのワークグループの数】N/A
【1WGあたりのワークアイテムの数】N/A
【その他のオプション】-c -g -x 128
【Display Driver】306.97
【10分間の平均速度】978.15M TPS
【GPUの平均速度】922.60M TPS
【CPUの平均速度】55.55M TPS
【GPU使用率】0-100%
【その他】"TEST/", HT off, GPU 85℃

CPUの負荷変動がかなり激しいです。6コアx2が100%になることはまず無く、全コアが完全にストールすることも良く起こりました。
>>170 でもある程度CPUの負荷は変動しましたが、ここまで酷くは無かったです。
おまけにGPUもたまに完全にストールする始末。これは>>170 のマシンでは無かった。
タゲを増やすと負荷変動は落ち着きます。ここまで負荷がふらつく理由がさっぱり分かりません。
665名無しさん@お腹いっぱい。:2012/11/16(金) 01:59:34.00 ID:QPHBSAhn0
電源容量が足りないんじゃ
666 ◆MERIKEN4.k :2012/11/16(金) 04:42:53.68 ID:eP2LlovM0
OpenCLの10桁検索ですが、もうちょっと調べたらどうも移植した直後から
問題があったようです。APP Profilerがメモリリークを報告しているので
もうちょっと調べてみます。
667 ◆MERIKEN4.k :2012/11/16(金) 04:45:44.48 ID:eP2LlovM0
>>664
温度に問題がないなら電源の可能性が高いですね。
電源は何を使われていますか?
668 ◆MERIKEN4.k :2012/11/16(金) 06:40:48.74 ID:eP2LlovM0
どうやら問題はBitslice DESの処理そのものではなく
他の処理にある模様。ちゃんと出力をチェックするルーチンを
作りこんで、徹底的にテストするしかないようです。
やなよかんはしてたけど、やはり10桁検索は楽ではないですねえ。
669前スレ927 ◆JouJaku.HzIz :2012/11/16(金) 23:39:50.31 ID:SdQXCd/P0
電源が届くのを待ちきれなくて、無理矢理繋げて実行していました。
電力不足でこんな挙動をするとは初体験で全然知らず。お恥ずかしい限りです。
素直に電源届くまで待っています。
670 ◆MERIKEN4.k :2012/11/17(土) 09:52:44.80 ID:Kz7friKn0
>>669
そりゃそこにカードがあれば試したくなりますよね。
その気持、わかりますw
電源が届いたらまたぜひ報告して下さい。
671 ◆MERIKEN4.k :2012/11/17(土) 10:07:54.25 ID:Kz7friKn0
OpenCLの10桁検索の出力が腐っていた問題ですが、カーネルをすこしづつ削って
原因を探ったところ、結果を書き込む__globalの配列へのアクセスの前後に
barrier()を入れてやると問題が出なくなることが分かりました。

Bitslice DES用の一時変数を__privateに置いても直らなかったし、
CUDA版やOpenCLの12桁検索では全く問題がなかった部分なので、
AMDのOpenCLの実装のバグの可能性が非常に高いです。
AMDの実装は性能は出るのにいちいち造りが甘くて非常にもったいない
感じがします。ここらへんもCUDAのほうが任期がある理由なんでしょうねえ。
672 ◆MERIKEN4.k :2012/11/17(土) 12:33:38.78 ID:Kz7friKn0
この件でコードをロールバックした時に気がついたのですが、
Bitslice DESの一時変数を__private空間においても割と速度が出ることが
わかりました。こっちのほうが__localよりもベクトル化しやすいので、
このまま__localを使わずに最適化をすすめることにします。
Bitslice DESの深さを32bitから128bitにして速度も4倍といきたい
ところですが…
673名無しさん@お腹いっぱい。:2012/11/17(土) 12:53:15.66 ID:CDs2gwHh0
>>672
>ベクトル化
よく知らないのですが、GPUってベクトル演算なんですか……?
ベクトル化の意味は知っているのですが、なぜか「昔のスパコン」ってイメージが……w
674名無しさん@お腹いっぱい。:2012/11/17(土) 17:05:57.82 ID:RbPdKj5Y0
GPUはベクトル演算の極地だし、今のスパコンはほぼ全てベクトル演算ですが
675名無しさん@お腹いっぱい。:2012/11/17(土) 17:08:42.00 ID:lv9DVzeD0
もの自体がベクタプロセッサの集合体
676 ◆MERIKEN4.k :2012/11/18(日) 01:33:23.65 ID:7lmxdB8G0
>>673
そこがGPGPUの一番美味しいところですw
性能を引き出すのはなかなか難しいですけどね〜
677 ◆MERIKEN4.k :2012/11/18(日) 01:59:41.80 ID:7lmxdB8G0
あの後色々調べてみたんですけど、単純にDES_Vectorをuint2やuint4で置き換えて
やれば性能が出るというわけでもないようで、もうちょっと調べる必要が
あるみたいです。

あと、localなメモリに書き込んだ後は必ずbarrier()を呼び出さないと、
ちゃんとメモリ操作の結果が反映されないようです。おかしいなと思って
OpenCLの仕様書を見ると確かにこう書いてあります。

> The barrier function also queues a memory fence (reads and writes) to
> ensure correct ordering of memory operations to local or global memory.
http://www.khronos.org/registry/cl/sdk/1.1/docs/man/xhtml/barrier.html

CUDAの場合は動機が必要なところで__syncthreads()を呼び出してやれば
後はなにも考えずに共有メモリとグローバルメモリに読み書きできたのですが、
どうも勝手が違うようです。
678 ◆MERIKEN4.k :2012/11/18(日) 12:44:30.93 ID:7lmxdB8G0
OpenCLでの10桁検索の話の続きです。
>>545の案を実際に実装してメモリの使用量を半分に抑えることで、
速度を50%ほど向上させることができました。キーを動的に生成することに
よるペナルティが割と大きく2倍とはいきませんでしたが、
まあそれでもかなりの進歩です。Kernel Occupancyはこんな感じです。

http://www.meriken2ch.com/files/2012-11-17-AMD-APP-profiler.jpg

ローカルメモリを使うと出力が化けまくるので、とりあえず
Bitslice DES用の一時変数はすべてレジスタ上においています。
このままレジスタの数を削ってOccupancyを上げてもいいし、
またローカルメモリに戻してみてもいいし、これでようやく先がすこし
見えてきた感じです。
679 ◆MERIKEN4.k :2012/11/18(日) 13:50:23.81 ID:7lmxdB8G0
一応ローカルメモリに戻して速度を測ってみたのですが、
思ったほど速度は出ませんでした。というわけで
一時変数はこのまま__private空間においたまま
最適化をすすめることにします。
カーネルをなるべく簡単にして、キーの生成の準備をすべて
CPU側で行うことにします。
またレジスタの数を削る日々がはじまるお…
680 ◆MERIKEN4.k :2012/11/18(日) 18:56:32.90 ID:7lmxdB8G0
あの後ちょこちょことカーネルをいじっていたんですけど、
適当なところにbarrier()を入れるとレジスタ数が減ったり
スピードが上がったりと不思議なことの連続でした。
色々実験してみるもんですね。こんなことは流石にマニュアルには
書いてあるわけないしw
681名無しさん@お腹いっぱい。:2012/11/18(日) 19:05:57.54 ID:hHNMwY9r0
奇妙すぎる仕様だ……
682 ◆MERIKEN4.k :2012/11/18(日) 19:11:47.92 ID:7lmxdB8G0
これは4日前に公開されたばかりのRadeon用のアセンブラです。

GCN ISA Assembler
http://devgurus.amd.com/message/1285111

HetPas
http://realhet.wordpress.com/2012/11/14/hello-world/

GCNの命令セットについてなかなか面白いことが書いてありました。
こういうので最適化したらものすごい速度が出るんでしょうねえ。
JtRのAlexsander氏は動的にコードを生成しろなんて言ってたけど…
683 ◆MERIKEN4.k :2012/11/19(月) 16:30:19.77 ID:FRx7NJvu0
>>681
まったく謎だらけですw カーネルアナライザを使えばもうちょっと詳しく
分かるんでしょうけど、goto文を使っているとエラーが出て動かないんですよね…
684 ◆MERIKEN4.k :2012/11/19(月) 16:36:30.60 ID:FRx7NJvu0
気分転換で、前から欲しかったトリップの自動保存と自動検索実行の機能を
つけてみました。ブレーカーが落ちるたびにうんざりしながら検索君1号を
立ち上げなおしていたのですが、これで再起動もボタンを押すだけで済んで
検索結果が失われることもなくなりました。この機能は次の開発版から
利用できるようになる予定です。
685名無しさん@お腹いっぱい。:2012/11/19(月) 19:13:07.00 ID:rYPhWgPq0
>>684
そんなにブレーカーが落ちる環境だったとは……
(開発以外)休んでも、いいのよ?
686名無しさん@お腹いっぱい。:2012/11/20(火) 07:59:44.51 ID:8BgQYrDr0
海を越えると電気も日本みたいに高品質じゃないんだよ
687 ◆MERIKEN4.k :2012/11/20(火) 14:37:37.34 ID:TS/gXHXx0
>>685-686
グラボ4枚で検索するようになってから急に落ちるようになりました。
ブレーカーがどうも古いみたいで、大家さんに言ったんですけど
ちっとも変えてくれません。まあでも消費電力に常に気を付けるように
したら大分ましになりました。
688 ◆MERIKEN4.k :2012/11/20(火) 14:48:46.83 ID:TS/gXHXx0
レジスタ数を107から90まで頑張って減らしました。
目標の84まであともうちょっとなんですけど、
コンパイラの挙動が全く予想できないのでなかなか難しいです。
689 ◆MERIKEN4.k :2012/11/21(水) 12:12:44.49 ID:eiBTExc50
カーネルアナライザが動かなくてカーネルのILとISAが見られなかったん
ですが、次のページを参考にしてようやく見れるようになりました。
カーネルをビルドするときにオプションで"-save-temps=[prefix]"と
していしてやればビルド時の一時ファイルが保存されます。

Looking for specific details of GPU_DUMP_DEVICE_KERNEL
http://devgurus.amd.com/thread/159168

Kernelanalyzer refuses to compile anything
http://devgurus.amd.com/thread/159924

最近のドライバではカーネルアナライザは動かないそうで…
AMDにはもうちょっと頑張ってもらいたいものです。
690 ◆MERIKEN4.k :2012/11/23(金) 14:34:10.31 ID:ctiDd+QK0
あの後レジスタ数を減らすためにいろいろと試してみたのですが、
どうやっても90から更に減らすことはできませんでした。
どうも本気でレジスタ数の割付を最適化するためには
GCNのコードを直接書く以外ないようです。

仕方が無いので、割と時間がかかっているカーネルへの入出力の処理を
効率よく行うようにするための作業にとりかかりました。
とりあえずオーバーヘッドの大きいclEnqueueWriteBufferを1つにまとめたら、
なぜか未だに完全に消えてなかった出力が化けるバグが綺麗さっぱり
なくなりました。やれやれです。
691 ◆MERIKEN4.k :2012/11/23(金) 15:32:19.14 ID:ctiDd+QK0
さっきjohn-devの11月のポストを読んでたんですけど、
何か問題が起きるとすぐにAMDのOpenCLドライバのバグが疑われてて
笑ってしまいましたw これは相当評判が悪いみたいですね…

> > All my accusations about driver bugs were... well they were based
> > on statistics, what can I say? :-)
> >
> > magnum
> We saw some craziness that justify our accusations.
http://www.openwall.com/lists/john-dev/2012/11/22/5
692 ◆MERIKEN4.k :2012/11/23(金) 15:44:36.45 ID:ctiDd+QK0
なんにせよドライバのバグを華麗に避けつつOpenCLの10桁検索を使い物に
するには相当時間がかかりそうなので、とりあえず12桁検索のほうを
先に仕上げてしまうことにしました。今週末に次の開発版を公開する予定です。
693名無しさん@お腹いっぱい。:2012/11/23(金) 15:52:23.16 ID:21daIx+z0
>>691
ドライバの完成度の問題ですか、厳しいですねえ・・・
694名無しさん@お腹いっぱい。:2012/11/23(金) 19:01:10.75 ID:ixPLPIhe0
鳥屋は凄腕だな。
695 ◆MERIKEN4.k :2012/11/23(金) 20:06:39.28 ID:ctiDd+QK0
鳥屋氏が凄腕なのは間違い無いですね。mtyのGPU版の速度は異常です。
ただCAL ILで書かれたmtyと同じ速度をOpenCLで出すのも無理な気がしますけどね〜
JtRの20M c/sは論外にしても、Hashcatですら7970で79M c/sしか出せていない
ですからねえ。もうちょっとJtRのSayantan氏に頑張ってもらいたいものですけど、
メーリングリストのやり取りを見ている限りではとても期待できそうにありませんorz
696 ◆MERIKEN4.k :2012/11/23(金) 21:53:30.00 ID:ctiDd+QK0
なにか10桁検索の参考にならないかと思ってJtRのソースを眺めていたら、
全然関係ない12桁検索の高速化のネタを見つけましたw
といってもハッシュ作成の際にbitselect()とrotate()を使うというだけの
話なんですけど、効果は抜群でOCした7970単体で1600M TPSを軽く超える
速度が出ています。いまだにこんなおいしいネタが転がっていたとは驚きです。
697名無しさん@お腹いっぱい。:2012/11/23(金) 23:24:15.72 ID:6zLs77TA0
>>695-696
ということは12桁最高記録が300M/s以上増えることに!?

ところでmtyGPU版の10桁最高記録ってどれほどなのでしょう?
自分で(2chソースを)ググって分かったのは237M/s(1枚で)、枚数差しても〜750M/sぐらいだったのですが……
698ののたん ◆KiwamonoL. :2012/11/23(金) 23:33:28.75 ID:34hnWziW0 BE:276537427-DIA(289888)
>>697
スレチだな。w
こっちいけ。
http://yy43.60.kg/test/read.cgi/tripageruo/1274911652/
699名無しさん@お腹いっぱい。:2012/11/23(金) 23:40:53.47 ID:6zLs77TA0
>>698
後半荒らされ放題じゃないですか………‥

なるほど、少なくとも>>79で714M/sという記録が出ていたんですね。失礼しました
700名無しさん@お腹いっぱい。:2012/11/23(金) 23:46:32.74 ID:NBSrQskj0
最大公約数的なプログラミングじゃなくて、自分の持ってるカードに絞ってゴリゴリ書いていけばいいんじゃないの?
その方が速度も出ると思うんだけど
701名無しさん@お腹いっぱい。:2012/11/24(土) 01:55:09.02 ID:gl+pZhPfP
MERIKENさんってTOEIC満点とれる超人だったんですね・・・
702 ◆MERIKEN4.k :2012/11/24(土) 05:00:21.29 ID:Npt3JpjG0
>>697
今でも3.5G TPSあたりなら堅いでしょう。いろいろ弾を仕込んでいる最中なので、
次に記録を狙うときには目標は4.5〜5G TPSあたりになると思います。
703 ◆MERIKEN4.k :2012/11/24(土) 05:02:22.68 ID:Npt3JpjG0
>>700
最大公約数的なプログラミングはとっくの昔に諦めて7970にターゲットを絞って
ますけど、それでもなかなか難しいです。
704 ◆MERIKEN4.k :2012/11/24(土) 05:04:48.04 ID:Npt3JpjG0
>>701
私は大学からアメリカなのであれはいろんな意味で「おまけ」なのですw
705名無しさん@お腹いっぱい。:2012/11/24(土) 07:00:28.07 ID:d1lnl00J0
1台のPCに積載できるGPUの量には限りがありますし、
そのうちサーバプログラム用意して検索条件の配布、検索結果の集計みたいな疎結合クラスタになりますん?
706 ◆MERIKEN4.k :2012/11/24(土) 08:25:58.55 ID:Npt3JpjG0
>>705
そのうちそうなるでしょうねえ。スタンドアロンでの性能がちゃんと出るようになって
からということになるので相当先の話だと思いますけど…
707名無しさん@お腹いっぱい。:2012/11/24(土) 10:09:34.84 ID:E4ne9Ljb0
>>705
トリップ検索クラスタ(物理)か……
GPUが絡まないと有り難みが薄いですねw
708名無しさん@お腹いっぱい。:2012/11/24(土) 11:01:21.01 ID:NFbcJaLE0
トリップ検索p2pネットワークか‥胸熱
709名無しさん@お腹いっぱい。:2012/11/24(土) 19:19:01.23 ID:TYsqoQfh0
>>698
スレチと、言ってるののたんに  (はぁはぁ
710名無しさん@お腹いっぱい。:2012/11/24(土) 19:43:27.54 ID:d1lnl00J0
>>708
個人でクラスタするのは有りだけど、
参加フリーでみんなの検索条件を合算するようになると生成されたトリップの判定にパワー食っちゃって……
711 ◆MERIKEN4.k :2012/11/25(日) 02:30:46.54 ID:tDxdpeED0 BE:3591054296-2BP(12)
サーバーから検索条件をダウンロードしてみんなで12連とかのレアトリップを
探すというのも面白いかもしれませんねw
712 ◆MERIKEN4.k :2012/11/25(日) 02:38:56.68 ID:tDxdpeED0
10桁検索のほうはAlexander氏の言っていた、動的にカーネルを書き換えて
DESのexpansion functionをソースに埋め込むという方法で以前に比べると
大分速くなりました。が、それと同時にドライバのバグによる出力が化ける問題が
再発生した模様。まったく地雷原を歩いているようです。
713 ◆MERIKEN4.k :2012/11/25(日) 09:08:59.10 ID:tDxdpeED0
出力が化ける問題はなんとか解決できました。いや〜、まいったまいった。

というわけで実行時のカーネルの書き換えでようやくHashcatとほぼ同じ速度が
出るようになりました。Tripcode FinderのCUDA版の10桁検索はHashcatよりも
ちょっと速いぐらいなので、もうそろそろ限界のような気もしないでも
ないです。あとはGCNのコードを手書きしてS-Boxを最適化して
レジスタ数を削るぐらいしか思いつきません。とりあえず10桁検索は
しばらく置いておいて、次の開発版を用意することにします。
714 ◆MERIKEN4.k :2012/11/25(日) 22:50:54.20 ID:tDxdpeED0
2週間ぶりの開発版です。

MERIKEN's Tripcode Finder 0.07 Alpha 7
http://www.meriken2ch.com/programming/merikens-tripcode-finder

Alpha 6からの変更点は以下になります。

・OpenGLの12桁トリップ検索の高速化。
・検索スレッドと検索プロセスの数を指定するオプションの追加。
・検索の自動実行と検索結果の自動保存を行うオプションの追加。
・様々なバグの修正。

検索スレッドと検索プロセスの数を増やすことによって、
複数のGPUを使用する場合のGPUの使用率を増やすことができます。
おいしいです(^q^)
715名無しさん@お腹いっぱい。:2012/11/25(日) 23:37:10.26 ID:wZsqacQO0
おつおつ
回してみるべ
716482:2012/11/25(日) 23:54:26.46 ID:wZsqacQO0
717 ◆MERIKEN4.k :2012/11/25(日) 23:57:46.50 ID:tDxdpeED0
Alpha 7用の新しい報告用のテンプレです。

【GPU】
【CPU】
【OS】
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁・10桁
【1SMあたりのブロックの数(CUDA)】
【1CUあたりのワークアイテムの数(OpenCL)】
【1WGあたりのワークアイテムの数(OpenCL)】
【1GPUあたりの検索プロセスの数(OpenCL)】
【1検索プロセスあたりの検索スレッドの数(OpenCL)】
【その他のオプション】
【Display Driver】
【10分間の平均速度】 tripcodes/s
【GPUの平均速度】 tripcodes/s
【CPUの平均速度】 tripcodes/s
【GPUの使用率】
【GPUの温度】
【その他】
718 ◆MERIKEN4.k :2012/11/25(日) 23:58:37.50 ID:tDxdpeED0
>>715
ぜひ色々試してみてくださいw
719 ◆MERIKEN4.k :2012/11/26(月) 00:02:11.37 ID:ICZhOGh80
>>716
これは1枚ですか? かなり出てますね〜
720名無しさん@お腹いっぱい。:2012/11/26(月) 00:07:18.79 ID:SipgVuQ10
書き忘れー
解凍したまんまで
GPUの温度は室温20度で41度まで上がった、負荷は100%
水冷だしこんなもんだね、ゲームだと36度くらいしか上がんないからいかにGPUが仕事してるかわかるw
721名無しさん@お腹いっぱい。:2012/11/26(月) 00:08:15.66 ID:SipgVuQ10
>>719
ですよー、リファの7970
722名無しさん@お腹いっぱい。:2012/11/26(月) 00:12:39.54 ID:AQz+o+st0
唐突だけどコマンドラインオプションの私的まとめ(☆はデフォルトでは自動設定される項目):
--redirection       ?
-f [inputfile]          入力ファイル名
-r [inputfile]       入力ファイル名(正規表現)
-o [outputfile]       出力ファイル名
-l [length]         検索するトリップ長(12 or 10)
-g             検索にGPUを使用 (デフォルト)
-d [device]           CUDAデバイス番号(0〜) (デフォルトは全て使用)
-x [block/SM]       ブロック/SM(CUDA) ☆
-y [workgroup]      ワークグループ/CU(OpenCL) ☆
-z [workitem]         ワークアイテム/WG(OpenCL) ☆
               ※workgroup mod workitem=0、workitem mod 8=0とすること
-c             検索にCPUを使用(-gと併用可)
-t [threads]          CPUにおける検索スレッドの数 ☆
-a [threads]       1つのAMDのGPUに対する検索スレッドの数(OpenCL) ☆(〜0.07Alpha6)
               1検索プロセスあたりの検索スレッドの数(OpenCL) ☆(0.07Alpha7〜)
-b [processes]      1GPUあたりの検索プロセスの数(0.07Alpha7〜)
-m MutexForMERIKENsTripcodeFinder-4648 GUI版とCUI版が通信するときに使うおまじない(〜0.07Alpha6)
-m MutexForMER    GUI版とCUI版が通信するときに使うおまじない(0.07Alpha7〜)
-i              2ちゃんねるで直接使用できないトリップを16進形式で出力
-w               検索スピードの急激な低下を警告
723 ◆MERIKEN4.k :2012/11/26(月) 00:18:40.01 ID:ICZhOGh80
>>722
あ、-yは「ワークグループ」じゃなくて「ワークアイテム」です。
最初に書いたときに間違えちゃったんですよね〜
724 ◆MERIKEN4.k :2012/11/26(月) 00:22:36.54 ID:ICZhOGh80
>>721
う〜ん、水冷は素晴らしいですね。空冷での温度を見慣れていると
別世界のようですw
725名無しさん@お腹いっぱい。:2012/11/26(月) 00:34:50.17 ID:AQz+o+st0
>>723
つまりこうですね、分かります。
>-y [workitem1]ワークグループ/CU(OpenCL)(デフォルトは自動設定)
>-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定)
>※workitem1 mod workitem2=0、workitem2 mod 8=0とすること

ところで--redirectionって何をリダイレクトしているんですか?
726名無しさん@お腹いっぱい。:2012/11/26(月) 00:37:16.39 ID:AQz+o+st0
俺おっちょこちょいの素質あるのかな……
>-y [workitem1]ワークアイテム/CU(OpenCL)(デフォルトは自動設定)
>-z [workitem2]ワークアイテム/WG(OpenCL)(デフォルトは自動設定)
>※workitem1 mod workitem2=0、workitem2 mod 8=0とすること

次のVerからはREADMEに訂正が必要なようですね……>MERIKENさん
727 ◆MERIKEN4.k :2012/11/26(月) 00:43:33.42 ID:ICZhOGh80
>>725-726
リダイレクトしているのは標準出力です。
訂正はもう入ってますよ。
728名無しさん@お腹いっぱい。:2012/11/26(月) 00:43:54.12 ID:SipgVuQ10
【GPU】Xeon E5-2687W×2
【CPU】HD6990×2
【OS】Windows8 Pro
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】-
【1CUあたりのワークアイテムの数(OpenCL)】解凍時のまま
【1WGあたりのワークアイテムの数(OpenCL)】解凍時のまま
【1GPUあたりの検索プロセスの数(OpenCL)】解凍時のまま
【1検索プロセスあたりの検索スレッドの数(OpenCL)】解凍時のまま
【その他のオプション】-
【Display Driver】Catalyst12.11β
【5分間の平均速度】 4816.85tripcodes/s
【GPUの平均速度】 4711.99tripcodes/s
【CPUの平均速度】 104.86tripcodes/s
【GPUの使用率】100%
【GPUの温度】一番高いコアで46℃
【その他】GPUはTDP450Wモード定格
http://www.dotup.org/uploda/www.dotup.org3665573.png

これはもしやメインも仕事してくれるのではと思ったら案の定
時間ないんでどちらも5分でスマヌ
729 ◆MERIKEN4.k :2012/11/26(月) 01:03:17.64 ID:ICZhOGh80
>>728
これは最高速の記録ですね。素晴らしいです。
私も次に記録を狙うときにはもうちょっと弾を揃えないと…
730名無しさん@お腹いっぱい。:2012/11/26(月) 01:12:41.03 ID:AQz+o+st0
>>728
脳内での 最 速 記 録 が 塗 り 替 え ら れ た 瞬間であった

期待できないけどノートで回してくるー
731名無しさん@お腹いっぱい。:2012/11/26(月) 01:20:20.30 ID:SipgVuQ10
因みにこれで1160W前後の消費電力
732名無しさん@お腹いっぱい。:2012/11/26(月) 01:30:34.82 ID:Scm6xI9q0
>>569 です。Alpha7公開お疲れ様です。

【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz)
【CPU】Intel Core i7-3770(無印)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1CUあたりのワークアイテムの数(OpenCL)】3200
【1WGあたりのワークアイテムの数(OpenCL)】64
【1GPUあたりの検索プロセスの数(OpenCL)】1
【その他のオプション】
【Display Driver】Catalyst 12.10
【10分間の平均速度】586.05M tripcodes/s
【GPUの平均速度】550.44M tripcodes/s
【CPUの平均速度】35.62M tripcodes/s
【GPU使用率】99%
【GPUの温度】72℃ (室温22℃)
【その他】テスト時間10分08秒、7完1タゲ
733 ◆MERIKEN4.k :2012/11/26(月) 01:30:58.70 ID:ICZhOGh80
>>731
450W x 2 + αですか。こりゃすごいw
734 ◆MERIKEN4.k :2012/11/26(月) 01:34:21.82 ID:ICZhOGh80
>>732
5770でもかなり速度が出てますね。
今回はかなり内部をいじったので、ちゃんと動いているようでほっとしました。
735名無しさん@お腹いっぱい。:2012/11/26(月) 02:46:46.01 ID:qf13XQqh0
【GPU】HD7970 CFX 2GPUs @1150MHz
【CPU】FX-8350 @5GHz
【OS】Windows7 64bit
【バージョン】MERIKEN's Tripcode Finder 0.07 Alpha 7
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】
【1CUあたりのワークアイテムの数(OpenCL)】960
【1WGあたりのワークアイテムの数(OpenCL)】64
【1GPUあたりの検索プロセスの数(OpenCL)】default
【1検索プロセスあたりの検索スレッドの数(OpenCL)】default
【その他のオプション】-g -c -t 6
【Display Driver】Catalyst12.11 beta6
【10分間の平均速度】5277.77 tripcodes/s
【GPUの平均速度】5243.39 tripcodes/s
【CPUの平均速度】34.39 tripcodes/s
【GPUの使用率】99%
【GPUの温度】76℃
【その他】7完1タゲ

効率が上がったためか-t 6で回したら強制シャットダウン、恐らく冷却不足か電源容量不足
とりま、ぬるい設定で解凍したまま

※今までは検索始めるとマウスカーソルがカクカクになり、USB音源を見失っていましたが、そういった現象はなくなりました

http://www.rupan.net/uploader/download/1353865513.png
736名無しさん@お腹いっぱい。:2012/11/26(月) 02:47:44.61 ID:qf13XQqh0
あ、-t 4 の間違いです
737名無しさん@お腹いっぱい。:2012/11/26(月) 03:26:15.30 ID:AQz+o+st0
 ノーパソから計測実験。デスクトップでグラボぶん回すのと比べると雑魚レベルだが許してくれ。
【GPU】NVIDIA GeForce 610M(、Intel HD Graphics 4000)
【CPU】Intel Core i5-3210M
【OS】Windows Vista Home Ultimate SP1 64bit
【その他のオプション】-g -c -l 10か-g -c -l 12での計測(速度が安定した時点で記録)
【Display Driver】見方を教えて下さい……
↑の条件で、ソフトのVerと桁数を変更しながら計算するとこうなった↓

0.07Alpha6  0.07Alpha6   0.07Alpha7   0.07Alpha7
10桁       12桁      10桁      12桁
----------------------------------------------
使用不可   160         使用不可   128      ←blocks/SM
使用不可   64        使用不可   使用不可   ←items/CU
使用不可   32        使用不可   使用不可   ←items/WG
4        2          3        3       ←CPU演算スレッド数
使用不可   48.9M/s    3.54M/s    48.96M/s  ←速度(CUDA)
使用不可   4.9M/s       使用不可   使用不可   ←速度(OpenCL)
使用不可   9.66M/s    4.03M/s    10.91M/s  ←速度(CPU)
5.27/s     63.43M/s     7.57M/s     59.87M/s  ←合計速度
----------------------------------------------
確かに改良は効いているが、な ぜ ア ホ の 子 を 外 し た し
738 ◆MERIKEN4.k :2012/11/26(月) 09:08:45.23 ID:ICZhOGh80
>>735
これはすごい数字ですねえ。いくらなんでも速すぎだろうと思って
Catalyst 12.11 Beta 8を試してみたら、うちの7970 1枚でも2497M TPS
出てて吹きましたw 12.9 Betaではここまでのスピードは出なかったので、
ここ2ヶ月でAMDのドライバにかなり手が入ってますね〜
739名無しさん@お腹いっぱい。:2012/11/26(月) 10:37:04.72 ID:7cZ4LG5Ni
7970の4wayやれば10Gか…
コンセントの端子が熱くなるな
740名無しさん@お腹いっぱい。:2012/11/26(月) 18:30:45.89 ID:AQz+o+st0
公式サイト(http://www.meriken2ch.com/programming/merikens-tripcode-finder)とか見ていると
OpenGLとOpenCLが脳内でごっちゃになりそうなのでまとめ:

OpenGL……シリコングラフィックスが開発していたクロスプラットフォームな3DグラフィックスのAPI。
        ハードウェアに近い低水準な機能も使えるので高速だが、文字列描画が苦手。
        GPGPUの利用法は、OpenCLよりもグラフィックス寄り。
OpenCL……アップルのKhronos Groupが開発した、クロスプラットフォームな並列コンピューティング用のAPI。
        要するに、「CPUやGPUなどの計算資源を、並列演算用にまとめて扱えるようにするよ!」
        といったもの。GPGPUの利用法は、OpenGLよりは演算寄り。
741 ◆MERIKEN4.k :2012/11/26(月) 19:27:18.93 ID:ICZhOGh80
>>740
あ、あれはOpenCLの間違いで、OpenGLは一切関係ないですw
ご自分用のまとめはここに書き込まないでいただけると有難いです。
742 ◆MERIKEN4.k :2012/11/26(月) 19:36:47.88 ID:ICZhOGh80
>>737
OpenCL以外の検索ルーチンはいじってないので速度は変わっていないはずです。
Intelのはドライバのバージョンによってアプリケーションが落ちるろいう報告が
あったのでやむなしです。
743名無しさん@お腹いっぱい。:2012/11/26(月) 19:56:04.00 ID:AQz+o+st0
>>741
了解しました。
>>742
そうだったんですか……。チェックボックス対応でも、というのは無茶でしょうか。
10桁の演算速度が上がっているのは確実な気がするのですが、
単に自環境ではAlpha6でGPU演算が使えなかっただけ(デバイスが対応していない)
なのかもしれません。次買うのはRadeonGPU搭載PCにするかな…‥
744名無しさん@お腹いっぱい。:2012/11/26(月) 20:09:11.33 ID:gXr4FeWs0
>>740
geforce君はもう書き込まないでくれるかな?
745 ◆MERIKEN4.k :2012/11/26(月) 20:44:41.34 ID:ICZhOGh80
>>743
Intelのはドライバの出来がイマイチで性能が全く出ないのに
メンテの手間だけかかって、おいしいところが全くないんですよね。
Intel対応はXeon Phiが消費者向けに発売されたら考えますw
746名無しさん@お腹いっぱい。:2012/11/26(月) 20:49:46.82 ID:AQz+o+st0
>>745
確かに、グラボが出す速度を考えたらIntelのは誤差の範囲ですよねw
もうその件については触れないことにします。回答ありがとうございました。
747 ◆MERIKEN4.k :2012/11/26(月) 21:13:07.19 ID:ICZhOGh80
ドライバといえば、Catalystの新しいβ版で10桁検索を試してみたら、
速度が1/3になっていましたorz CUDAでもそうでしたけど、
GPGPUは開発環境やドライバによってアプリケーションの性能が
乱高下する傾向がありますねえ。ドライバの次のバージョンアップで
直っているといいんですけど…
748 ◆MERIKEN4.k :2012/11/27(火) 01:57:27.60 ID:qHzcgcY70
新しいAMDのドライバで12桁トリップ検索のプロファイリングを行って見たのですが、
ベクターレジスタ(VGPR)の数が40まで減っていて、Occupancyが10から60にまで
上がっていました。どうりで検索速度が上がっているわけです。

どうやらAMDのコンパイラの最適化のアルゴリズムが、命令の数を増やしてでもレジスタ数を
減らすことを優先するものに変更されているようで、それが12桁の場合はうまく働いたけど
10桁の場合は完全に裏目に出ている、ということらしいです。やっぱり本気で10桁トリップ検索で
性能を出そうと思ったらILかGCNのコードを自分で書くしかないみたいですが、とりあえず
以前のドライバでOpenCLバイナリを生成して、実行時にはそれを使うように変えておくことにします。
749 ◆MERIKEN4.k :2012/11/27(火) 03:59:49.95 ID:qHzcgcY70
AMDのOpenCLドライバをAMD APP 2.7のものにロールバックしたら
ようやく10桁検索の速度が元に戻りました。次のファイルは
ドライバのアンインストールでは削除されずに直接手で削除する
必要がありました。

SlotMaximizerBe.dll
SlotMaximizerAg.dll
amdocl.dll
OpenVideo.dll
OVDecode.dll

これがわかるまでエラく手間取りましたが、これでようやくOpenCLバイナリの
作成に取り掛かれます。
750 ◆MERIKEN4.k :2012/11/27(火) 06:43:01.11 ID:qHzcgcY70
10桁トリップ検索のコードですが、なんとCatalyst 12.8以前のドライバでは
出力が化けることが判明しました。ドライバのバクにしても
いくらなんでもひどすぎるorz
751 ◆MERIKEN4.k :2012/11/27(火) 19:01:37.31 ID:qHzcgcY70
>>746
手間がかからないならサポートしてもいいんですけど、テストの量が倍以上に
なりますからねえ。残念です。
752 ◆MERIKEN4.k :2012/11/27(火) 19:18:07.56 ID:qHzcgcY70
>>739
これ2枚積めば10G TPS超できそうです。TDP 500Wの化物だけど、
普通に検索君1号に2枚収まりそうなんだけど、流石に20万は払えないよな…
あぶないあぶないw

Radeon最上位のデュアルGPU版「HD 7990」発売、重さを支える支柱付き カードは弩級
http://akiba-pc.watch.impress.co.jp/hotline/20121124/etc_club3d.html

Club 3D Radeon HD 7990 Dual GPU
http://www.club-3d.com/index.php/products/reader.en/product/radeon-hd-7990-dual-gpu.html
753名無しさん@お腹いっぱい。:2012/11/27(火) 19:19:19.94 ID:hGvQPEA10
>>752
そんなに電源虐めたいかww
754 ◆MERIKEN4.k :2012/11/27(火) 19:34:03.64 ID:qHzcgcY70
>>753
そこにハードウエアがあれば限界まで性能を出したくなるのが
男のさがというものですw
755 ◆supernova.rT :2012/11/27(火) 19:36:20.84 ID:3f/efQ6N0 BE:5355599279-DIA(123422)
10桁酉が割られる日も近いな…ゴクリ
756 ◆MERIKEN4.k :2012/11/27(火) 19:38:49.66 ID:qHzcgcY70
10桁検索ですけど、crypt()のseedの値に基づいてカーネルを動的に
書き換えていたことをすっかり忘れていましたw
これって実行時にOpenCLバイナリを書き換えるか、seedの数だけバイナリを
用意しなきゃいけないってことだよな…
757名無しさん@お腹いっぱい。:2012/11/27(火) 19:59:40.97 ID:oOatxZVu0
>>756
最適化スゲェ……
でも、10桁のシード(ソルト)って確か2バイト分(最大256^2=65536通り)あるんじゃ
758 ◆MERIKEN4.k :2012/11/27(火) 20:35:03.96 ID:qHzcgcY70
>>757
実際には2chの仕様のせいで65^2=4225通りなんですけど、
それでも結構な数です。とりあえず実験的に作ってみますけど、
さすがにこれを配布パッケージに含めるのは考えちゃいますねw
759名無しさん@お腹いっぱい。:2012/11/27(火) 20:39:00.84 ID:oOatxZVu0
>>758
単純に考えて、3.5MB×2×4225≒30GBかぁ……

動的書き換えでお願いします(切望)
760 ◆MERIKEN4.k :2012/11/27(火) 21:00:31.98 ID:qHzcgcY70
>>759
書き換えが必要なのはOpenCLのカーネルのバイナリだけなので
そこまでひどくはならないですw せいぜい数十MBのオーダーでしょう。
圧縮がかなり効くはずなので配布パッケージ自体はそこまで大きくならない
はずですけど、こればっかりは試してみないとわかりません。
761 ◆MERIKEN4.k :2012/11/27(火) 22:03:05.43 ID:qHzcgcY70
新しいドライバで10桁検索をプロファイリングしてみたのですが、
SALBusyが80.84%なのに比べてVALUBusyが28.91%と妙に低いのに
気づきました。MemUnitBusyが66.81%とかなり高いのも気になります。
これは実際にS-Boxで費やされている実行時間は全体の3割程度ということで、
かなり効率が悪いことになります。ちょっとドライバのバージョンを落として
比較してみます。
762名無しさん@お腹いっぱい。:2012/11/27(火) 22:41:52.20 ID:X0Buxy760
>>747-748
バージョンによって最適化がかなり違うのですか、面倒ですねえ。

>>756
saltに応じてカーネルの動的書き換えとかできるのですか。
できるにしても実際にやるのが凄いですw

>>758
crypt(3)の仕様で64^2=4096通りではないのですか?
763 ◆MERIKEN4.k :2012/11/27(火) 23:10:13.31 ID:qHzcgcY70
>>762
あれれ、そうでしたっけ? もうちょっと調べてみます。
764 ◆MERIKEN4.k :2012/11/27(火) 23:17:19.40 ID:qHzcgcY70
>>762
CUDAでも開発環境のバージョンによってかなり速度差が出てましたけど、
OpenCLではドライバのバージョンで違ってくるので頭が痛いです。
HashcatはカーネルをLLVM IRで配布してるみたいですけど、
似たようなことをしたほうがいいのかもしれません。
765 ◆MERIKEN4.k :2012/11/28(水) 00:08:01.45 ID:v1ASRvbE0
Catalyst 12.9 Betaに戻してみたら、こんな感じでした。

VALUBusy: 28.91% -> 36.15%
SALUBusy: 80.84% -> 113.88%
MemUnitBusy: 66.81% -> 63.67%

VALUBusyがちょっと上がっただけで速度は3倍になってるので、
ベクターユニットが遊んでいるせいで7970は相当余力を残している
ことになります。かなりの性能向上が期待できそうなので、
OpenCLの実装が一段落したら、自分でGCNのコードをいじってみようかな…
766名無しさん@お腹いっぱい。:2012/11/28(水) 00:12:07.31 ID:JI44h4XK0
>>765
> SALUBusy: 80.84% -> 113.88%
100%越えってどゆことー?
767 ◆MERIKEN4.k :2012/11/28(水) 05:40:16.34 ID:v1ASRvbE0
>>766
それはまったく謎ですw
768 ◆MERIKEN4.k :2012/11/28(水) 06:28:09.26 ID:v1ASRvbE0
>>762
調べてみましたけど、2chのトリップ生成でのsaltの扱いはcrypt (3)の仕様から
ずれているので、やっぱり4225通りであってました。

2ch トリップ仕様
http://sourceforge.jp/projects/naniya/wiki/2chtrip

最初に10桁トリップ検索の実装をした時にも思ったことですが、
見れば見るほどひどい仕様ですw
769名無しさん@お腹いっぱい。:2012/11/28(水) 08:12:30.61 ID:ttD8PkvV0
>>768
面妖な!

……ひょっとして10桁検索がどうしても遅くなるのはここにも理由があるんじゃ
770 ◆MERIKEN4.k :2012/11/28(水) 19:13:59.54 ID:v1ASRvbE0
7990ですけど別の会社からも発売されてますね。

PowerColor AX7990 6GBD5-2DHJ Radeon HD 7990 6GB
http://www.newegg.com/Product/Product.aspx?Item=N82E16814131483

一枚で$899なので>>752のカードより大分安いですが、がまんがまん…
771 ◆MERIKEN4.k :2012/11/28(水) 19:29:28.10 ID:v1ASRvbE0
>>769
10桁検索が遅くなるのはBitslice DESでメモリへのランダムアクセスが
大量に発生するのが大きいです。こればっかりは仕方ないですね。
772 ◆MERIKEN4.k :2012/11/28(水) 20:09:39.45 ID:v1ASRvbE0
isaファイルを出力させてGCNのコードを眺めてたんですが、
register spillsが発生している模様。"ScratchSize = 140;"なる記述が
isaファイルにありました。道理でなかなか速度が出ないわけです。
プロファイラのScratchRegsの欄がNAになってたので完全に油断してました。
NAはnot applicableじゃなくてnot availableの略だったのね…

なんにせよこれでMemUnitBusyやMemUnitStalledが高いのも、VALUBusyが
低いのも説明がつきます。これってCUDAのときみたいにS-Boxを書き換えたら
なんとかなるのかしらん。
773 ◆MERIKEN4.k :2012/11/29(木) 00:31:56.88 ID:VD1AV4Df0
S-Boxとおぼしき場所に倫理演算の命令に混じってbuffer_store_dwordと
s_buffer_load_dwordx4という命令が大量にあったので、
たぶんこれが速度が出ない原因なんでしょう。
ちょっとすっきりしたけど、これってコンパイラのレジスタの割付が
全然うまく行っていないということですよね。やれやれです。
774 ◆MERIKEN4.k :2012/11/29(木) 00:36:21.42 ID:VD1AV4Df0
倫理演算じゃなくて論理演算でした。
775 ◆MERIKEN4.k :2012/12/01(土) 23:53:39.30 ID:g8/dTHR/0
S-Boxの数を変えてISAファイルを調べてみたら、コンパイラがレジスタを
きちんと再利用していないことが判明。

S-Boxes: 1
Kernel occupancy: 10
NumVgprs = 180;
ScratchSize = 0;

S-Boxes: 7
Kernel occupancy: 10
NumVgprs = 239;
ScratchSize = 0;

S-Boxes: 8
Kernel occupancy: 20
NumVgprs = 105;
ScratchSize = 140;

register spillsが起きるとメモリアクセスが枷になって遅くなるし、
起きなければoccupancyが半分になるしでなかなかうまく行きません。
Bitslice DESに必要なレジスタの数は64 + 17 = 81ぐらいなので、
180〜245というのはいくらなんでも多すぎです。
CUDAだったら直接PTXのコードを書けばいいんだけど、OpenCLだと
そういうわけにもいかないので実に難しいです。使用するレジスタの数も
CUDAみたいにコンパイル時に指定できたらいいんですけどねえ。
776名無しさん@お腹いっぱい。:2012/12/02(日) 13:44:02.57 ID:E9WK095v0
駄目元でAMDのフォーラムに報告してみるとか
777名無しさん@お腹いっぱい。:2012/12/03(月) 19:33:58.87 ID:VDyT7kE/0
http://www.meriken2ch.com/programming/merikens-tripcode-finder
そんなにPC酷使したいならこれで12桁の酉でも探してろ
778名無しさん@お腹いっぱい。:2012/12/03(月) 19:34:41.74 ID:VDyT7kE/0
すまん間違えたwちゃんと生贄連れてくるわ
779名無しさん@お腹いっぱい。:2012/12/03(月) 19:36:00.76 ID:Q+462s2K0
よりによってこのスレに誤爆www
780名無しさん@お腹いっぱい。:2012/12/04(火) 14:07:03.07 ID:OIUiTKsY0
Catalyst 12.11 Beta11が出たな
781 ◆MERIKEN4.k :2012/12/05(水) 13:40:50.64 ID:YhHPYAwa0
>>776
う〜ん、どうなんでしょうねえ。レジスタ割り付けを改善すれば
速度が上がるのは自明なので、特に報告するまでもない気もします。
実際12桁検索は倍近く速くなったので、今後に期待といったところです。
782 ◆MERIKEN4.k :2012/12/05(水) 13:42:17.40 ID:YhHPYAwa0
>>777-779
ぜひ活きのいいのをお願いしますw
783 ◆MERIKEN4.k :2012/12/05(水) 13:44:23.29 ID:YhHPYAwa0
>>780
かなり頻繁に更新してますね。現在ダウンロード中です。
784 ◆MERIKEN4.k :2012/12/05(水) 13:58:19.89 ID:YhHPYAwa0
>>287のPCIe用の延長ケーブルを使って、空冷用のスペースを
確保しつつ検索君1号にグラボを3枚積めることを確認しました。
見た目は最悪wですが、ちゃんと動いているので結果オーライです。
弾も色々揃えたので、帰省するまでに最高速の記録を更新できるかも
しれません。
785名無しさん@お腹いっぱい。:2012/12/05(水) 18:55:54.39 ID:jmQ8Rzeo0
>>784
6G級あるか!?
786 ◆MERIKEN4.k :2012/12/06(木) 14:44:56.38 ID:LfRKvPte0
>>785
さあ、どうでしょうねえ… ( ̄ー ̄)ニヤリ
787 ◆MERIKEN4.k :2012/12/06(木) 14:57:33.42 ID:LfRKvPte0
ターゲットが長くなるとヒットするまでの平均時間をいまいち正確に
出せなかった問題ですが、次のライブラリを使うことで解決できることが
わかりました。

Multiple Precision Integers and Rationals
http://www.mpir.org/

Visual C++だとlong doubleがdoubleと同じ精度なので困ってたのですが、
これなら全く問題ないでしょう。
788 ◆MERIKEN4.k :2012/12/06(木) 16:26:33.08 ID:LfRKvPte0
MPIRのビルドはあっさり成功して、ちゃんとTripcode Finderに
リンクすることができました。サンプルで2の120乗を計算してみましたが、
ちゃんと正しい結果が出ています。このライブラリには分数計算のルーチンも
含まれているので、非常に正確に確率計算ができるはずです。わくわく…
789 ◆MERIKEN4.k :2012/12/06(木) 17:18:12.37 ID:LfRKvPte0
おっと、間違えた。サンプルで計算したのは2の1920乗でした。
このライブラリ、logが計算出来ないから使うの結構面倒そうだな。
どうしたものか…
790名無しさん@お腹いっぱい。:2012/12/06(木) 20:46:13.83 ID:nOh2Wtf90
>>787-789
>ヒットするまでの平均時間をいまいち正確に出せなかった
そうだったのですか!?
ひょっとして有効桁数が2桁表示なのはそのせい……?

↓ところで、トリップ確率を計算するソフトを作っていたのですが、
http://up3.viploader.net/pc/src/vlpc012973.png
桁数が変わる「.」とかが入った時や準X連な時の正確な組み合わせ数を計算するのが難しいのデス……
どういった計算アルゴリズムで出しているのですか?大雑把でいいので教えて下さい!
791 ◆MERIKEN4.k :2012/12/07(金) 08:23:57.13 ID:G1/OJRD00
>>790
基本的な流れは以下のとおりです。

(1) 正規表現のパターンを位置と固定長文字列の組み合わせに展開する。
(2) 各組み合わせごとの確率を計算する。
(3) (2)の確率の合計を求める。

注意しなければならないのは、各文字が特定の位置に出現する確率は
通常は1/64ですが、特殊文字の場合は違うということです。
例えば"."と"[:digit:]"がヒットする確率はそれぞれ64/64と10/64と
しておかなければ正確な結果が出ません。

具体的な例を挙げると、12桁トリップ検索における"^test./"の出現確率は

p = (1/64)*(1/64)*(1/64)*(1/64)*(64/64)*(1/64)

となります。

また、位置指定をしていない"/test[:digit:]/"の場合、出現位置が
0〜5の6通りなので、

p = (1/64)*(1/64)*(1/64)*(1/64)*(1/64)*(10/64)*(1/64)*6

になります。
792 ◆MERIKEN4.k :2012/12/07(金) 08:32:34.86 ID:G1/OJRD00
MPIRの分数の型であるmpq_tを使って確率計算をすると、
遅くて使いものにならないことが判明orz
厳密にしすぎるのも考えものですね…
仕方ないので浮動小数点数の型のmpf_tを使うことにします。
任意の精度を指定できるのでこれで十分でしょう。
793 ◆MERIKEN4.k :2012/12/07(金) 10:59:12.72 ID:G1/OJRD00
MPIRを使ってヒットまでの時間を予測するルーチンを書き直しましたが、
結局doubleを使った元のルーチンに比べて数パーセント精度が
向上しただけでした。元のルーチンもわりと正確だったということですが、
前からだいぶ気になっていた部分だったのでまあ良しとします。
794 ◆MERIKEN4.k :2012/12/07(金) 20:35:40.18 ID:G1/OJRD00 BE:3192048386-2BP(12)
>>790
あ、あと書き忘れてたけど、準x連の場合は該当する文字が出現する確率は
大文字と小文字をあわせて2/64になります。例えば"^[Aa]*$"のような
準12連が出現する確率は、

p = pow(2.0/64.0, 12)

となります。
795名無しさん@お腹いっぱい。:2012/12/07(金) 22:19:25.47 ID:1HdVOJHZ0
>>791
>>基本的な流れ
これだと、あるパターンが複数行で当てはまる際重複して数えてしまうような……
「当てはまる全パターン」を正確に計算するのはカナリ厳しいことがよく分かりました
>位置と固定長文字列の組み合わせ
ほほう、なるほど。パーサを見直せば出来そうです
ただ、実際にトリップ検索スレに出てくる案件を見る限りでは、
「.」とか「*」とかとかを使う機会は無さそうですね……
>>794
あーいや、こちらが言うところの「準X連」とは、正規表現では「*[Aa][Aa][Aa]*」みたいなもののことです
(これが「純X連」になると、「*AAA*」となります)
もちろん「^[Aa][Aa][Aa]*」から「*[Aa][Aa][Aa]$」まで虱潰しに出して合計してみてもいいのですが、
そうすると「BGCAAAAAAfgt」みたいなものが重複ヒットしてしまうようで……
足し引きしてなんとかすることにします

確率計算での参考:
http://www.geocities.jp/trip_chaser/tripdata.html
796 ◆MERIKEN4.k :2012/12/08(土) 03:04:57.17 ID:vyeW7s150
>>795
> これだと、あるパターンが複数行で当てはまる際重複して数えてしまうような……

この問題はパターンを固定文字列に展開したあとで重複するものを
取り除くことでほとんどの場合回避できます。Tripcode Finderでは
qsort()とuniq()の組み合わせで対処しています。

> あーいや、こちらが言うところの「準X連」とは、正規表現では
> 「*[Aa][Aa][Aa]*」みたいなもののことです

正規表現では"*"は先頭に来ないのでいまいちよくわからないですが、
"^[^Aa]*[Aa][Aa][Aa][^Aa]*$"のことでしょうか。

> もちろん「^[Aa][Aa][Aa]*」から「*[Aa][Aa][Aa]$」まで虱潰しに出して合計してみてもいいのですが、
> そうすると「BGCAAAAAAfgt」みたいなものが重複ヒットしてしまうようで……

確かにそうなんですけど、実際には上の処理さえ施しておけば
重複ヒットは無視できる確率でしか発生しないので、Tripcode Finderでは
そこまで厳密に処理はしていません。あまり気にしなくてもいいんじゃないで
しょうかw
797名無しさん@お腹いっぱい。:2012/12/08(土) 03:13:22.49 ID:rwOPHj120
>>796
なるほど……固定文字列に展開する作戦ですか。勉強になります。
「トリップ検索人のための便利ツール」的なものを、頑張って完成させようと思います。それでは。
798 ◆JouJaku.HzIz :2012/12/08(土) 11:00:59.32 ID:lc8WRVoJ0
ご無沙汰しております。
電源が届いた後、色々試してみましたがどうも上手く行きません。
Quadro FX 3800, GTX480, GTX590をPCに挿してNVIDIAコンパネでQuadroだけCUDA offにして0.07a7 CUI64を[-c -g -x 128]で走らせると、下記エラーが発生して落ちます。

MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: the launch timed out and was terminated (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 554)
MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461)
MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461)
MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: all CUDA-capable devices are busy or unavailable (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 461)

Quadro+GTX590だと発生しません。三枚挿すと発生します。仕方が無いので、現在はGTX480+GTX590で運用しています。

とりあえず
ガッ!
799 ◆MERIKEN4.k :2012/12/08(土) 11:52:16.32 ID:vyeW7s150
>>798
  ||// ∧_∧|∧_∧
  ||/ r(    (n´・ω・`n) ぬるぽついてないのに「がっ」される
  ||  ヽ゚ホllヌ)|(     )
    ̄ ̄ ̄ ̄ ̄ u―u'

line 554とline 461はそれぞれ

> CUDA_ERROR(cudaMemcpy(outputArray, CUDA_outputArray, sizeOutputArray * sizeof(GPUOutput), cudaMemcpyDeviceToHost));



> cudaError = cudaMalloc((void **)&CUDA_outputArray, sizeof(GPUOutput) * sizeOutputArray);
> ERROR0(cudaError == cudaErrorMemoryAllocation, ERROR_NO_MEMORY, "Not enough memory.");
> CUDA_ERROR(cudaError);

なので、両方共CUDA側のメモリの処理ですね。480と590のCCが2.0で、
Quadro FX 3800のCCが1.3なのでそれが原因かとも思ったのですが、
Quadro + GTX 590で発生しないみたいなのでそうでもないようですねえ。

エラーメッセージを見る限りではCUDAが無効担っているにもかかわらず
APIからQuadroが見えているようです。NVIDIAコンパネでQuadroの
CUDAをonにした場合はちゃんと動作しますか?
800名無しさん@お腹いっぱい。:2012/12/08(土) 11:53:33.23 ID:rwOPHj120
>>798
ユーザー名がぬるぽなのかガッ!と言いたいためにぬるぽにしたのか……

エラーメッセージでググる限りでは、
>the launch timed out and was terminated
「Primary Device(ディスプレイデバイス)に指定されているGPUで長時間カーネル関数を実行しすぎている」
(探したページではPrimary Deviceを切り替えて対処していたが、基本全部使うGPU検索ではどうか……)
>all CUDA-capable devices are busy or unavailable
「ゾンビプロセスがGPUを占有している」(1つ目のエラーのせいで発生したエラーってことか?)
「fork()する前にcudaThreadExit()すればいいんじゃね」(要するに処理のミス?)
「ドライバを少し古いものに戻してみるのはどうか」(GPUあるある)
てなかんじかな。

参考URL:
http://d.hatena.ne.jp/ang65/20100721
http://septieme-sens.blogspot.jp/2011/09/cuda_10.html
http://tsubame.gsic.titech.ac.jp/node/610
https://devtalk.nvidia.com/default/topic/479529/cuda-programming-and-performance/all-cuda-capable-devices-are-busy-or-unavailable-problem-in-a-multi-process-linux-application/#entry1140557
801 ◆MERIKEN4.k :2012/12/08(土) 12:42:23.91 ID:vyeW7s150
>>800
ユーザー名がもともとNullpoなのですw
本名にしておかなくてよかった…

普通はlaunch time outはカーネルの処理時間が長すぎて発生する
エラーなんですけど、このケースではCUDAが無効になっているはずの
Quadroに対して検索スレッドが実行されているようなので、ドライバーの
バグ臭いです。Quadroが無効になっていて480と590だけで検索が実行されて
いるなら、エラーの数(=検索スレッドの数)は3個のはずなので…
時間ができたらこちらで再現できないか試してみます。
802 ◆MERIKEN4.k :2012/12/08(土) 13:08:25.51 ID:vyeW7s150
>>800
もうちょっと調べてみたら、特定のGPUでCUDAが無効になっている場合、
cudaDeviceProp::computeModeをいちいちチェックして
そのGPUが有効かどうか確認しなければいけないことがわかりましたorz

http://stackoverflow.com/questions/8784572/how-to-choose-device-when-running-a-cuda-executable
http://www.clear.rice.edu/comp422/resources/cuda/html/group__CUDART__DEVICE_g5aa4f47938af8276f08074d09b7d520c.html

直すのにちょっと時間がかかりますが、作業が終わったらここで報告するので
しばらくお待ちください。
803名無しさん@お腹いっぱい。:2012/12/08(土) 19:37:38.89 ID:rwOPHj120
>>801
別に恨みはないが言わせてもらおう……
   ( ・∀・)   | | ガッ
  と    )    | |
    Y /ノ    人
     / )    <  >__Λ∩
   _/し' //. V`Д´)/ ←>>801
  (_フ彡        /


話は飛びますが、検索していると、トリップキーの発見予定時間が
「it takes 2.3 days」などと表示されますよね?
あれが単純に、「出現確率の逆数÷検索速度」だとした場合、
検索し始めて表示時間だけ待ってトリップキーが出現する確率は

せ い ぜ  い 6 3 % ぐ ら い し か な い

ことを最近発見しました。要するに、「1/XのくじをN回引く間に1回でも当たる確率」ということですが。
この確率は、Nが極端に大きいと二項展開やテイラー展開で近似することができ、それによると
確率E=1-EXP(-N/X)。1/Xを「出現確率」、Nを「検索速度(毎秒)×時間(秒)」とすれば、
上記の値が出るということです。しかもこの値は比で考えることができるため、
「予想時間までに出てくる確率は63.2%」
「予想時間の半分の時間で出てくる確率は39.3%」
「予想時間の倍掛けて出る確率は86.5%」
などといったことが分かります。分かりやすくグラフにしてみました。
http://up3.viploader.net/pc/src/vlpc012980.png
……いや別になんとなく思いついただけなのですが(震え声)
804 ◆MERIKEN4.k :2012/12/08(土) 20:27:31.63 ID:vyeW7s150
>>803
表示されているのはあくまでも「平均の」待ち時間なので、
「検索し始めて表示時間だけ待ってトリップキーが出現する確率」は
50%になるように調整されています。

> 単純に、「出現確率の逆数÷検索速度」だとした場合

これだと上の確率がちゃんと50%にならないので次のように計算しています。
pをパターンの出現確率とすると、n回のトリップの生成で
パターンが出現*しない*確率q_nは、

q_n = (1 - p)^n

になります。これから50%の確率でパターンが出現するのに必要な
トリップ生成の回数n'は、

0.5 ≒ (1 - p) ^ n' ⇔ n' = ceiling(ln(0.5)/ln(1 - p))

となります。これから発見予定時間sは、次の式で求められます。

s = n' / [平均速度(TPS)]

この計算はMTF_CUI_Patterns.cpp内のLoadTargetPatterns()の
後半で行われています。詳しくはソースを参照してくださいと言いたい
ところですが、公開されているソースのこの計算の部分は非常にわかり
にくいですw MPIRを使って書きなおしたので次のバージョンでは
前よりわかりやすくなったはずですが、大して変わらないかもしれません。
805 ◆MERIKEN4.k :2012/12/08(土) 21:35:28.17 ID:vyeW7s150 BE:3258549577-2BP(12)
>>800
580+590の組み合わせでは問題は再現できませんでした。
バージョン306.97のディスプレイドライバで
NVIDIA Control Panelで580でCUDAを使用しないように設定してやると、
ちゃんとCUDAのAPIからは580は隠蔽されるようになっていました。
というわけで、この問題はディスプレイドライバのバグである可能性が高いです。
一応cudaDeviceProp::computeModeをチェックする処理を追加しておいたので、
次の開発版を試してみて下さい。
806名無しさん@お腹いっぱい。:2012/12/08(土) 21:48:52.17 ID:rwOPHj120
>>804
それぐらい折込済み、だと……!?  おみそれいたしました。
でも、その場合でも、q_nは、「発見予定時間だけ経つと0.5である」「発見予定時間のX倍経つと0.5のX乗になる」
ことから、発見確率の予測はそれほど難しくないようです(X=2だと発見確率が75%、X=0.5だと29.3%ほど)。
当該ソースは「// Calculate the matching probability etc.」あたりでしょうか。一度読んでみます。
807 ◆MERIKEN4.k :2012/12/08(土) 22:45:58.29 ID:vyeW7s150
というわけでバージョン0.07のβ版を用意しました。

MERIKEN's Tripcode Finder 0.07 Beta 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder

主な変更点はヒットまでの待ち時間の予測の改善と>>798で報告された
問題への対処です。
808 ◆MERIKEN4.k :2012/12/08(土) 22:53:58.49 ID:vyeW7s150
>>806
たしかにその場所ですけど、n'を計算する部分を書いたときには
うごかすことしか考えていなかったので本当に分かりにくいですよw
809 ◆JouJaku.HzIz :2012/12/09(日) 11:00:55.85 ID:VG0S6xiH0
>>807
対応して頂きありがとうございます。これから試してみます。
そもそもGeForceとQuadroではドライバが別パッケージになっているので、同時差しでバグが発生する可能性は大きそうですね。
Quadro使うやつはTesla使えってことか・・・。ついていけねぇ。
810 ◆MERIKEN4.k :2012/12/09(日) 18:29:54.81 ID:D9EB7VO00
12桁トリップ検索のRadeonへの対応の作業もほぼ終了したので、
最高速を測定してみました。オクでお安く手に入れた中古の6990を2枚使って
速度を稼いでいます。真ん中の7970は延長ケーブルでマザボにつなげて
2枚の6990の上に乗っけています。温度の心配はしなくても良くなったので
ギリギリまでOCしています。動くかどうか半信半疑だったのですが
なんとかなるもんですねw

【GPU0】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC)
【GPU1】Gigabyte GV-R7970C-3GD Radeon HD 7970 @ 1120MHz (OC)
【GPU2】DIAMOND 6990PE54G Radeon HD 6990 4GB @ 900MHz (OC)
【CPU】AMD Phenom II X6 1100T (定格)
【OS】 Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Beta 1
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】N/A
【1CUあたりのワークアイテムの数(OpenCL)】自動
【1WGあたりのワークアイテムの数(OpenCL)】自動
【1GPUあたりの検索プロセスの数(OpenCL)】1
【1検索プロセスあたりの検索スレッドの数(OpenCL)】2
【その他のオプション】-g
【Display Driver】Catalyst 12.11 Beta8
【10分間の平均速度】7428.97 tripcodes/s
【GPUの平均速度】7428.97 tripcodes/s
【CPUの平均速度】N/A
【GPUの使用率】97〜99%
【GPUの温度】83〜93℃
【その他】GPUのみ。
811名無しさん@お腹いっぱい。:2012/12/09(日) 18:40:27.95 ID:HKJ77yRt0
6990×2に5870付けて待て屋やったときは1500W超えたな(ワットチェッカー上限超えたw
そんときはCPUも使ってたけど同等に電気食ってそうだww
812名無しさん@お腹いっぱい。:2012/12/09(日) 19:13:06.04 ID:38oGO8IR0
>>810
ぐおおおおお!
CPUが空気wwwww
813名無しさん@お腹いっぱい。:2012/12/09(日) 20:50:13.83 ID:MhsAJkOg0
最速記録の塗り替えか
814名無しさん@お腹いっぱい。:2012/12/10(月) 10:34:47.93 ID:NpT5XAETi
6990って水冷にすれば1スロット化出来るよな
でPCIex16スロット7本有るマザー結構な数有るよな
7枚刺したらいいんじゃないかな〜
815 ◆MERIKEN4.k :2012/12/10(月) 17:54:08.67 ID:FmksHTb00
>>811
CPUには負荷はほとんどかかっていないのでそこまではいってないはずです。
恐らく検索君1号だけで1100〜1200Wぐらいです。

>>812
ここまでGPUが速いとCPU検索を同時実行すると却って速度が落ちるのです。

>>813
前スレを立てたときにくらべて10倍以上の速度が出せたので満足ですw

>>814
お金があればもっと色々試したいんですけど、自分はさすがにもう限界ですねえ。
勇者の登場を待ちましょうw
816 ◆MERIKEN4.k :2012/12/10(月) 18:59:36.16 ID:FmksHTb00
あ、そうそう。Beta 1に問題がなければ今週の金曜日ぐらいに
バージョン0.07の正式版をうpする予定なので、
不具合があればそれまでに報告していただけると有難いです。
817☆☆勇者さま☆☆☆━━━╋━⊂( ̄▽ ̄∩):2012/12/10(月) 19:36:17.47 ID:vm9IVZbG0
  | ̄ ̄ ̄ ̄ ̄ ̄ ̄|
  |  速くなったな   |
  |     |
  |    |   ,. . _
  |_______| --' 、   ̄ ̄ヽー- 、
       | |  ヽ ̄7 , , \  、   「 ̄ 7
       | |  ヽ / /_ /ハ |ヽ、\ V ./
       | |    i il/   ヽl  \ヽ. V
      ,. -{-、 __ .| ii i!  o   o  | il |
       {   Y/  l il |、   Д   | li |
      `t-く   ヽN `  --- <リiレ'
       | | `ー-- 、  / II - 2 ヽ  `丶、
       | |       ̄ !.ギ 子_ノ >-'   !
       | |        ,r`''ー─''。r'^ヽ、_,/- 、
       | |      / `ヽ、 , '~~`V-─ 、 )
       | |     /   /´`、   !  (_ノ
       i_j.    /   ./    ゙、   !
            /_/      ゙、  !
          :::`ー':::::::::::::::::::::::::::::ヽこノ:::
818 ◆..//.//./5Hv :2012/12/10(月) 20:41:56.24 ID:Era62auz0
スレ発見しましたー。
MERIKENさんなら./の10完12桁出そうな予感!

酉ありがとうございます(ノ^^)ノ
819名無しさん@お腹いっぱい。:2012/12/10(月) 22:20:03.40 ID:LbISDnqB0
>>816
WinXP 32bit、GPUなしでver0.07 beta1の.exeを起動させると、「OpenCL.dllが見つかりませんでした…。」と出て起動できない(検索出来ない)。
ver0.06の安定版では起動させることが出来る
820 ◆JouJaku.HzIz :2012/12/10(月) 22:41:16.10 ID:astkHfvt0
>>807
対応ありがとうございます。
最初にQuadro, 480, 590を繋げて"CUI64 -c -g"で実行。エラーも出ずに実行されました。自動ブロック数設定は相変わらず安定しませんが・・・
次にNVIDIAコンパネでQuadroだけCUDA offにして"CUI64 -c -g -x 192"で実行。下記エラーが出るも、検索自体は実行されます。
MERIKENsTripcodeFinderCUI: CUDA FUNCTION FALL FAILED: unknown error (file 'C:/Users/Nullpo/Documents/Visual Studio 2010/Projects/MERIKENsTripcodeFinderCUI/Source Files/MTF_CUI_CUDA_SHA-1.cu', line 560)

画面の表示はこんな感じです。
CUDA0: (Quadro?)
CUDA1: 560.5M TPS, 192 blocks/SM (480)
CUDA2: 518.7M TPS, 192 blocks/SM (590)
CUDA3: 518.6M TPS, 192 blocks/SM (590)

^Cで強制終了させて、もう一度実行させると、例のエラーが三行出てCPUでのみ検索が実行されます。
挙動が良く分からない・・・

OpenGL用にQuadroを残しておきたいけど、熱的にやばそうなので480と590だけで運用することにします。
821名無しさん@お腹いっぱい。:2012/12/10(月) 23:34:40.12 ID:Ya8wVC3a0
>>819
GPUでOpenCLかCUDA扱えないと使いづらいってのが俺の中でのこのソフトの認識
CPUだけなら待て屋とかSHArpとかがあるし(探索空間が違うから一緒にしてはいけない気もするが)
822 ◆MERIKEN4.k :2012/12/11(火) 07:36:11.77 ID:G8KcgggZ0
>>819
報告ありがとうございます。こちらでも確認できました。
取りあえずOpenCLを添付することで対処したいと思います。
823 ◆MERIKEN4.k :2012/12/11(火) 08:50:25.36 ID:G8KcgggZ0
>>821
実際Tripcode FinderのCPU検索は待て屋やSHArp Tripperほど速度は出ないですからねえ。
GPUが使用出来ないと警告が毎回出るのはさすがにやりすぎなのでこれは直しておきます。
824 ◆MERIKEN4.k :2012/12/11(火) 09:04:22.97 ID:G8KcgggZ0
>>818
有難うございます。正規表現でいろいろパターンを指定できるので、
結構遊べますよw
825 ◆MERIKEN4.k :2012/12/11(火) 10:05:57.67 ID:G8KcgggZ0
>>820
やっぱりドライバのバグみたいですねえ。
今度試す機会があったら"CUDA DEVICES"の"Compute Mode"の値を
調べてみて下さい。問題を回避できるかもしれません。
826名無しさん@お腹いっぱい。:2012/12/11(火) 15:41:44.59 ID:l2lR+Gjg0
なんかやってます

WindowsのパスワードはGPUを25個使えば約6分から6時間で突破が可能、
毎秒3500億通りもの総当たりが可能な方法とは?
http://gigazine.net/news/20121211-gpu-brute-force-attack/
827 ◆MERIKEN4.k :2012/12/11(火) 16:11:15.02 ID:G8KcgggZ0
>>819
ついさっき修正が完了しました。次の安定版では直っているはずです。
828 ◆MERIKEN4.k :2012/12/11(火) 16:31:35.11 ID:G8KcgggZ0
>>826
これ5台のラックマウントサーバーですよね。グラボが25枚だそうですけど、
サーバーによって構成が違うみたいです。8枚載っているサーバーの
写真があるので、8枚+5枚+4枚*3という構成でしょうか。他のサーバーの
GPUを仮想化してHashcatで利用しているのは非常に興味深いです。
いつか自分でもこんな豪勢なクラスターを組み立ててみたいですねえ。
829名無しさん@お腹いっぱい。:2012/12/11(火) 16:40:36.00 ID:l2lR+Gjg0
>>828
やろうと思えば、個人レベルでも出来てしまう辺りがおもしろいですね
830名無しさん@お腹いっぱい。:2012/12/11(火) 17:23:04.08 ID:KG0LrKw40
古いPCが沢山あるのでネットワーク対応型MTFを待ってます
831 ◆MERIKEN4.k :2012/12/11(火) 19:39:54.02 ID:G8KcgggZ0
>>826の記事のグラボが8枚載ったラックマウントサーバーはどうやら
これのようです。

http://www.advancedhpc.com/gpu_computing/B7015F72V2.html

しかしこうやってみると壮観ですねえ。

http://gigazine.jp/img/2012/12/11/gpu-brute-force-attack/snap0787.jpg
832名無しさん@お腹いっぱい。:2012/12/11(火) 21:55:11.42 ID:eYtNkyH+T
はりにきたらすでにはられてたか>>826
833名無しさん@お腹いっぱい。:2012/12/11(火) 22:56:32.68 ID:6gmHNGHj0
>>821
常用しているのはうにだけど、
このソフトはCPUのみでも動くようになっているから、動かないのは問題かなと思って報告した。
>>827
早い対応ありがとうございます。
OpenCL.dllをいれようと思ったものの、検索してもよく分からなかったもので……。
834名無しさん@お腹いっぱい。:2012/12/11(火) 23:05:15.63 ID:AXhxlsuZ0
>>828
控えめに一枚500M/sだとしても×25で12.5G/sか・・・
8完が(ln(0.5)/ln(1-1/64^8))/(12.5*10^9)≒4.3時間で出てくる計算に
835 ◆MERIKEN4.k :2012/12/11(火) 23:13:37.93 ID:G8KcgggZ0
>>830
とりあえず10桁トリップ検索とコードの整理をするのが先ですけど、
ネットワーク対応はいずれぜひやりたいですねえ。
836 ◆MERIKEN4.k :2012/12/11(火) 23:29:58.01 ID:G8KcgggZ0
>>834
研究発表のスライドにはSHA-1で63G hashes/sでているとありましたよ。

http://passwords12.at.ifi.uio.no/Jeremi_Gosney_Password_Cracking_HPC_Passwords12.pdf

これはパスワード解析での数字なので、トリップ検索ならもうちょっと
速くなるでしょう。なかなか豪気ですねえw
837名無しさん@お腹いっぱい。:2012/12/11(火) 23:31:14.25 ID:AXhxlsuZ0
>>830
ネットワーク対応の暁には学校のPCルーム総動員で検索させてみたいな・・・
いやGPU買えよと言われそうだが
838名無しさん@お腹いっぱい。:2012/12/11(火) 23:33:44.76 ID:AXhxlsuZ0
>>836
>トリップ検索ならもうちょっと速くなるでしょう
要するに単にハッシュ出して比較、だけじゃない最適化が掛かっているのか……
8完が1時間切るとかどんなモンスターだww
839 ◆JouJaku.HzIz :2012/12/12(水) 00:21:33.94 ID:gPuKMjn30
>>825
Compute Modeは全てcudaComputeModeDefaultでした。
違うのはCompute Capabilityだけで、Quadroは1.3、他は2.0です。
他の手を考えてみます。
840 ◆MERIKEN4.k :2012/12/12(水) 06:17:27.59 ID:FX/ZJoUj0
>>839
そうですか。それは残念… 将来的には各GPUを使用するかしないかを個別に
設定できるようにする予定なのでいずれ解決できるかもしれませんが、
今の段階では難しいですねえ。
841名無しさん@お腹いっぱい。:2012/12/12(水) 14:55:15.28 ID:/XRCYi610
>>343のteslaがGTX5シリーズに負けてるのが印象的です
fermiコアの解析速度はプロセッサクロック×メモリバンド幅ですかね?

うちの560tiが580の報告の半分の速度しか出ないもので
842 ◆MERIKEN4.k :2012/12/12(水) 16:13:34.77 ID:FX/ZJoUj0
>>841
メモリバンド幅は関係ないです。
580と560tiはそれぞれGF110とGF114なので単純には比較できないですけど
半分だとちょっと遅すぎるような気がしますね。ちゃんとCC 2.1用のバイナリは
入ってるはずだけど…
843名無しさん@お腹いっぱい。:2012/12/12(水) 16:49:47.66 ID:EU7chw1W0
GF114はSMあたりのコア数はGF110の32コアから48コアに増えていますが、
レジスタ数は増えていなくて、GF110は16SMでGF114は8SMなので
GF114ではレジスタがボトルネックになりがちだったと思います。

とはいえSMあたりのコア数が増えている分少しは向上しているようでしたし、
リファレンスではクロックもGTX560Tiの方が上なので、半分となると遅すぎる気もしますが、
OCされたGTX580との比較でしょうか?
844841:2012/12/12(水) 17:12:49.24 ID:SeK148sf0
【GPU】Geforce GTX560ti ×2
【CPU】core i5 3470
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07 Beta 1
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】192
【その他のオプション】-g -x 128
【Display Driver】306.97
【10分間の平均速度】 762.15Mtripcodes/s
【GPUの使用率】99%
【GPUの温度】71〜80℃
【その他】 CUDA0,1:約381M TPS
845 ◆MERIKEN4.k :2012/12/12(水) 18:58:07.81 ID:FX/ZJoUj0
さっき測ったら定格の580が683M TPSぐらいなので560tiの速度は
55%ぐらいですか。CUDA GPU Occupancy Calculatorで調べてみても
特にCC 2.1でOccupancyが下がるということもなかったので、ちょっと
原因がよくわからないですねえ。
846名無しさん@お腹いっぱい。:2012/12/12(水) 19:21:29.29 ID:SeK148sf0
GF114はGPGPUには向いてないのですかねー。
現在最速はやはりGF110かな?
847名無しさん@お腹いっぱい。:2012/12/12(水) 19:37:38.59 ID:jCx6f4p80
848名無しさん@お腹いっぱい。:2012/12/12(水) 20:44:44.70 ID:EU7chw1W0
55%ですか・・・もう少し出てもよさそうな気もしますが、おかしいというほどではないかと思います。

単精度や32ビット整数の演算性能自体は、GTX560Tiはコア数とクロック的にGTX580の80%近くありますが、
それはピーク性能であって、SHA-1ハッシュの演算ではレジスタがそれなりに必要になります。

SM数とクロック的にはGTX560TiはGTX580の53%程度であり、
それぞれのSMの違いはコア数(と倍精度や特殊関数など)でレジスタ数に変化は無いので
レジスタがネックでコアを使いきれていないのだと思います。

GF114はグラフィックよりではあると思いますが、GPGPUでもレジスタを大量に使うものばかりではないでしょうし
消費電力や値段を考えると、GPGPUにはベストではないけどそれなりにではないでしょうかね。

GK104はGPGPUにはピーキー過ぎてお勧めしませんけど・・・
849名無しさん@お腹いっぱい。:2012/12/13(木) 04:38:55.18 ID:Fj613XFy0
GK110買えそう
楽しみ
850 ◆MERIKEN4.k :2012/12/13(木) 05:13:49.96 ID:sid26Nen0
>>848
なるほどなるほど… CUDA Toolkit 5.0に添付されているOccupancy Calculatorでは
このあたりの事情が反映されていないようです。カーネルのレジスタ数は46〜48で
Occupancyは42%なのでレジスタ数が特に多いというわけではないのですが、
これがボトルネックになっているのは確実ですね。
851 ◆MERIKEN4.k :2012/12/13(木) 05:17:50.58 ID:sid26Nen0
>>849
Tesla K20ですか? いいな〜 買えたら是非報告をお願いします。
852 ◆MERIKEN4.k :2012/12/13(木) 05:44:43.66 ID:sid26Nen0
>>838
パスワード解析に比べてトリップ検索ではキーの生成が比較的単純なので、
それをうまく利用してやれば速度は1〜2割上がる傾向があります。
GPUクラスタの場合はノード間通信がボトルネックにならないので
更に速くなるものと思われます。しかしもう12桁トリップだと9完以上でないと
危ないですねえ。
853名無しさん@お腹いっぱい。:2012/12/13(木) 05:52:42.00 ID:q8Aa1QZH0
>>852
いやいやいや
あくまでも12桁ですから、キーを割られる危険という意味では何完であろうと関係はないです
我々のような好き者にとっては問題なんですが
854 ◆MERIKEN4.k :2012/12/13(木) 07:25:01.97 ID:sid26Nen0
>>853
> あくまでも12桁ですから、キーを割られる危険という意味では何完であろうと関係はないです

あ、「危険」と書いたのはそういう意味じゃないです。
トリップの場合はある程度一致すればなりすましができるので
キーが割られなくても十分危ないんですよね。トリップが一致しているか
どうかを判断しているのは一般のユーザーで、普通の人はわざわざ
12桁目まで細かく確認しているわけではありません。ここらへんは普通の
パスワードとはぜんぜん違うところです。
855 ◆MERIKEN4.k :2012/12/13(木) 08:47:43.45 ID:sid26Nen0
今唐突に12桁トリップのCPU検索を高速化するアイディアを思いついたん
ですけど、1月の中旬まで帰省しているので実装はそれまでおあずけです。
残念…

なんでMTFのCPU検索がSHArp Tripperやhip2に比べて遅かったのか
不思議で仕方がなかったんですけど、よく考えたら普通のSHA-1の
ルーチンを使いまわしてたせいで、SSE2のレジスタをトリップ検索に
特化した形で効率的に使用していなかっただけでしたw
1個のハッシュの生成を高速化するより、SSE2の128bitレジスタを使って
4個同時に生成したほうが速いに決まってますよねえ。
856 ◆MERIKEN4.k :2012/12/13(木) 09:05:24.37 ID:sid26Nen0
あと、よく考えたらキーの動的生成とBitslice DESのルーチンの動的書き換え
( >>712-713 )で10桁トリップのCPU検索も高速化できることに気づきました。
なんで時間のないときに限って面白い考えを思いつくんだろうorz
857ののたん ◆KiwamonoL. :2012/12/13(木) 13:36:10.93 ID:rNLBcKX70
>>855
えっ!?
SIMD ってなかったの!(SIMD るってなんだよ。w
まさか、Radeon でもやってないとか・・・・・。

ソースを読んでみる気は無い。www

あとまあ Hashcat 知ってるんなら知ってるかもしれんが。
ttps://hashcat.net/p12/js-sha1exp_169.pdf
858名無しさん@お腹いっぱい。:2012/12/13(木) 16:42:37.91 ID:tgXDqPZ80
もうこれはMERIKENさんにメチャクチャ頑張ってもらうしかない展開
859 ◆MERIKEN4.k :2012/12/13(木) 17:01:04.69 ID:sid26Nen0
>>857
SSE2を使ってるルーチンを拾ってきたんですけど、
ベクター化されてないのであんまり速度が出てなかったみたいです。
RadeonのほうはCUDA版のベタ移植なのでそれこそなにもしていませんw
OpenCLドライバが頑張ってるのでせう。Southern Islandsだとベクトル化しても
あんまり意味ないみたいですし… 資料のほうはあとでありがたく読ませて頂きます。
これでさらなる高速化が出来るかもしれないですね。ぐへへへへ…
860 ◆MERIKEN4.k :2012/12/13(木) 17:06:59.50 ID:sid26Nen0
>>858
明日の朝の飛行機の便に間に合わせるのに徹夜で荷物をつめはじめたところなので
さすがに帰省前は無理ですw 来月を楽しみにしていて下さい。
家を出る前に0.07の安定版はうpしておきます。
861 ◆YSRKENkO6Y :2012/12/13(木) 19:27:33.63 ID:tgXDqPZ80
>>806です。
検索作業をサポートするソフトをリリースしてみます(実験版だけど)。
依頼を検索パターンに変換したり、特定パターンを自動生成したりできます。
良かったらどうぞ。
http://www1.axfc.net/uploader/so/2713626.zip
862名無しさん@お腹いっぱい。:2012/12/13(木) 19:51:21.07 ID:DyqVV5mA0
レジューム機能がほしいです
863名無しさん@お腹いっぱい。:2012/12/13(木) 21:20:16.88 ID:tgXDqPZ80
>>862
なんで検索空間>>酉空間なのにみんなレジューム機能が欲しくなるんだろうな……いや俺も思ってたことあったけど
自動実行と自動保存はAlpha 7で既に実装されてるから除くとして
864名無しさん@お腹いっぱい。:2012/12/13(木) 21:44:28.47 ID:sR2+e44BP
Radeon HD8000シリーズ楽しみすぎる
865 ◆MERIKEN4.k :2012/12/13(木) 23:04:23.15 ID:sid26Nen0
バージョン0.07の安定版です。

MERIKEN's Tripcode Finder 0.07
http://www.meriken2ch.com/programming/merikens-tripcode-finder

Alpha 7からの変更点は以下になります。

・OpenCLドライバがインストールされていないと起動できないバグの修正。
866 ◆MERIKEN4.k :2012/12/13(木) 23:06:06.40 ID:sid26Nen0
飛行機の時間ギリギリなってしまったのでレスはまた明日させて頂きます。
それではまた〜
867 ◆YSRKENkO6Y :2012/12/15(土) 21:07:08.23 ID:GRSKcena0
>>861の更新版、「検索人の友 Ver.0.6」のお知らせ。
待て屋・SHArp・MERIKENの検索パターンを相互変換することができます。
(リンクはhttp://ikura.2ch.net/test/read.cgi/qa/1321792877/667に貼りました)
868名無しさん@お腹いっぱい。:2012/12/16(日) 17:19:41.64 ID:V5+y2FbN0
「検索人の友 Ver.0.8」のお知らせ。検索パターンと検索速度から、出現予定時間を算出する機能を追加。
(リンク:http://ikura.2ch.net/test/read.cgi/qa/1348736616/317に記載)
869名無しさん@お腹いっぱい。:2012/12/17(月) 06:52:14.80 ID:NsR6YqHWP
SHA256ハッシュを取ると全てのビットが0になるキーが知りたい
870 ◆MERIKEN4.k :2012/12/17(月) 08:16:44.48 ID:obM+cmx70
>>862
レジューム機能は原理的に無理ですけど、
累計を保存する機能は近いうちにつけておきます。
871 ◆MERIKEN4.k :2012/12/17(月) 08:32:18.59 ID:obM+cmx70
>>868
依頼変換は便利そうですね。スレから依頼を直接引っ張ってきたり、
「大小区別指定」をチェックボックスにして条件を複数同時に指定できると
もっと便利かもしれません。帰省中で今は検索用のPCが使えない状態なので、
来月の中旬頃にはもっと詳しいことが書けると思います。
872名無しさん@お腹いっぱい。:2012/12/17(月) 16:23:37.32 ID:ilzoh/XC0
>>871
依頼引張り→依頼者が「正しい」形式で依頼してくるかが未知数という問題が・・・
全部まとめたシステム的なものはムズカシイけど、コピペから自動認識程度なら検討可
チェックボックス→次のバージョン(Ver.2.0)で対応予定。

Ver.1.0に更新のお知らせ:
http://ikura.2ch.net/test/read.cgi/qa/1348736616/320
873名無しさん@お腹いっぱい。:2012/12/17(月) 20:47:36.05 ID:tgzVEmdn0
>>869
なんでSHA256?
2chの12桁はSHA1だと思ったが……


仮に2chのトリップがSHA256に対応したとして、BASE64で000000はAなのでAのx完のトリップになると思う
874名無しさん@お腹いっぱい。:2012/12/25(火) 16:10:43.34 ID:8ibvVCIr0
おつかれさまです
現行では10酉探索にはradeonが使えないってことですが
いつか改善される予定ってありますか?
875 ◆MERIKEN4.k :2012/12/27(木) 14:10:32.77 ID:mxDEJqWX0
>>874
一応7xxxシリーズ限定で使えるものがほとんど出来上がっているんですけど、
速度に満足できないので公開を見合わせている状況です。
今考えているのはAMD ILをいじってレジスタ数の割付を最適化することです。
またまとまった時間が取れるようになったら色々試してみる予定なのでしばらく
お待ちください。
876 ◆YSRKENkO6Y :2012/12/27(木) 20:41:02.20 ID:dIBogKe10
自作ソフトウェアの更新のお知らせ。ぜひお試しを。

[検索人の友 Ver.2.0]
 このソフトは、以下のような作業を自動化します。
・検索依頼の各種形式への変換
 →依頼スレでのテンプレに準拠。各種形式に変換して表示できます。
  今回は大小指定の複数指定に対応。全大と全小を同時表示、なんてこともできます。
・特定パターンの検索ワードの自動生成
 →「純・準X連」「全数」「二構」「飛石」「最長」「最短」といったパターンの検索
  ワードを自動的に作成します。10桁(待て屋)、12桁(MERIKEN)両方に対応。
・各種トリップ検索ワードの相互変換
 →「まあ、待て屋。」「SHArp Tripper」「MERIKEN's Tripcode Finder」の 3種類の検
  索ソフトの検索ワードを互いに変換します。今回は「*」「+」といったパターンや、
  「(|)」にて|が二つ以上の場合にも対応。
・任意の検索ワードに対する出現確率を計算
 →上記 3種類の検索ソフトでの検索ワードと検索速度を入力すると、発見予定時間を有
  効数字4桁で表示します。発見予想順位を表示する機能も。
・トリップテスト
 →10・12桁トリップをテストできます。生キー対応。

URL:http://www1.axfc.net/uploader/so/2732376.zip
877 ◆YSRKENkO6Y :2012/12/27(木) 21:45:32.82 ID:dIBogKe10
878名無しさん@お腹いっぱい。:2012/12/28(金) 07:15:58.38 ID:LSB18vp7O
俺はHD5750なので、7xxx限定だと寂しい。
879名無しさん@お腹いっぱい。:2012/12/28(金) 10:11:27.22 ID:btW3tXEk0
そんなグラボ使ってもゴミみたいな速度だからさっさと7990買った方がいい
880名無しさん@お腹いっぱい。:2012/12/29(土) 15:30:34.93 ID:QBY9tjiXO
CPU単体より速いし。
881名無しさん@お腹いっぱい。:2012/12/30(日) 17:08:22.25 ID:283bEnYe0
ハイエンドグラボだと暖房つけなくていいし。
882 ◆MERIKEN4.k :2012/12/30(日) 21:35:19.18 ID:3b9pWfKV0
>>876
お疲れ様です。チェックボックスに対応して下さったんですね。
ありがとうございます。
883 ◆MERIKEN4.k :2012/12/30(日) 22:01:34.70 ID:3b9pWfKV0
>>878
自分も5770を持ってるので対応したいのはやまやまなんですけど、
性能を出そうと思ったら最適化を1からやりなおして相当頑張らないと
だめでしょうね〜 OpenCLじゃなくてAMD ILで書かないとうまくいかないと思います。
方法がないこともないみたいなんですけど、コードはGPU依存みたいだし
実際どうなんでしょうねえ。

AMD IL
http://openwall.info/wiki/john/development/AMD-IL
884名無しさん@お腹いっぱい。:2012/12/31(月) 00:33:06.19 ID:5dWhV9Q+O
いや性能を出す必要はなく、動作すればいいのですよ。
CPUと併用すれば、単体より絶対速くなるしね。
勿論、速い方がいいけど、所詮5750だし。
パフォーマンスアップは、ソフトじゃなく
ハードでやるべき。
885 ◆YSRKENkO6Y :2012/12/31(月) 02:23:57.88 ID:FP3iWdXs0
>>882
MERIKENさんが帰ってきた、だと・・・!?
>>884
同意
パフォーマンスに拘るのはCOOLだと思うけど、
ちゃんと動くものがあればあるだけ欲しいと思う層もいるのですよ
886 ◆MERIKEN4.k :2012/12/31(月) 06:11:35.03 ID:awFOsDcV0
>>884
7970用のルーチンも一応5770でも動きますけど、CPUよりずっと遅いですよ。
GPGPUの最適化は難しいのです。
887 ◆MERIKEN4.k :2012/12/31(月) 06:32:32.71 ID:awFOsDcV0
>>885
その「ちゃんと動」かすのが10桁トリップ検索の場合結構大変なんですよ。
ソフトウェアの最適化なしだったらGPUでもせいぜい2〜3M TPSといったところで、
ここから数十M TPSまで持って行くにはGPUのアーキテクチャに合わせてかなり
いろいろ工夫しないといけないのです。
888 ◆YSRKENkO6Y :2012/12/31(月) 07:57:11.86 ID:FP3iWdXs0
>>887
>2〜3MTPS
そうなのか・・・勉強になります
私の自作ツールの場合スクリプト言語で書かれたものですので
最適化とか心配しなきゃならないものでもありませんゆえ

Ver.2.0では正規表現の再現度を上げるのが大変だた・・・よく「*」「+」の展開法思いついたなあの時の俺
889 ◆MERIKEN4.k :2012/12/31(月) 08:42:39.52 ID:awFOsDcV0 BE:1862028274-2BP(12)
正規表現は結構めんどくさいですよね。
あと、ご自分のツールのお話は新しくスレを立ててそちらでされてはいかがでしょうか。
890名無しさん@お腹いっぱい。:2012/12/31(月) 08:57:16.76 ID:eH5h6/ri0
追い出されててワロタw
891名無しさん@お腹いっぱい。:2012/12/31(月) 10:07:06.18 ID:o6b6oLP20
待て屋スレ過疎ってるからそっちでいいんじゃね
892名無しさん@お腹いっぱい。:2013/01/02(水) 08:30:53.92 ID:EBbdMn+A0
コレって
先頭から1234・・・・・・・みたいな場合はどうすればいいの?
893名無しさん@お腹いっぱい。:2013/01/02(水) 10:34:58.70 ID:j1GWXSL70
どうするじゃない、ちゃんと詳しく書け。
子供かお前は、人に伝える努力をしろ
894名無しさん@お腹いっぱい。:2013/01/02(水) 12:57:32.84 ID:EBbdMn+A0
◆1234********
みたいなトリップがほしいのですが
正規表現だけだと
◆**1234********
とかになってしまうので
希望の文字を先頭に持ってくる方法を教えて下さい
895名無しさん@お腹いっぱい。:2013/01/02(水) 14:19:05.98 ID:B+O8PAt80
896 ◆YSRKENkO6Y :2013/01/02(水) 15:57:36.42 ID:dPGu+6vs0
>>892
このソフトの文法から言えば、
----------
#regex
^1234
----------
か、
----------
#noregex
1234
----------
でいい
897名無しさん@お腹いっぱい。:2013/01/02(水) 23:11:07.52 ID:EBbdMn+A0
>>895−896
ありがとうございます
898名無しさん@お腹いっぱい。:2013/01/03(木) 19:09:59.78 ID:ACm8OTnP0
HD7750 だとどのくらい出てるんでしょうか。
899 ◆MERIKEN4.k :2013/01/03(木) 20:27:04.29 ID:uL2cvRSF0 BE:4256064588-2BP(12)
>>898
7750での報告はなかったはずです。コア数が7970の1/4なので、
クロック周波数の差を考え合わせると12桁トリップ検索で450M TPSぐらい
じゃないでしょうか。
900名無しさん@お腹いっぱい。:2013/01/04(金) 08:22:04.31 ID:3pwj0oYQ0
>>899
今使ってる HD6670 だと 267M くらいなので 1.6倍かー
901 ◆MERIKEN4.k :2013/01/04(金) 11:11:20.94 ID:9q/aQkBO0
時間ができたので>>857の資料を読んでみました。MTFではトリップのキーの
長さは12桁に決め打ちしてしまっているのでかなりの速度向上が期待できそう
です。資料では最適化の結果命令数が21%減ったとのことでしたが、もう
ちょっと減らせるかもしれません。

それにしても、やっぱりソフトウェアの最適化についてあれこれ考えるのは
面白いですねえ。工夫一つで性能が数割から数倍に向上するのが
GPGPUの醍醐味ですしね。
902名無しさん@お腹いっぱい。:2013/01/04(金) 17:52:21.79 ID:vJlizUDg0
>工夫一つで
プログラミングの腕って結局そこに結実するんでしょうな……
上手くSIMDやGPGPUが決まった時の快感は異常
903 ◆MERIKEN4.k :2013/01/05(土) 21:57:03.78 ID:7v0sXuCV0
>>902
ですよね〜 GPGPUにはなんとも言えない緊張感があります。
904 ◆MERIKEN4.k :2013/01/05(土) 22:15:46.12 ID:7v0sXuCV0
>>857の資料の内容は大体理解できました。要はSHA-1のブロックの最初の
ワード以外を決め打ちにして計算の手間を省こうという話で、トリップ検索に
そのまま応用できることがわかりました。PW[]を定数の配列にして
CPU側であらかじめ計算してからカーネルに渡せばいいはずです。
これはかなり楽して速度が稼げる美味しい話みたいです。
905 ◆JouJaku.HzIz :2013/01/09(水) 21:26:57.90 ID:htgpuiWN0
>>839
「QuadroにGeForceが合わないなら、Teslaを使えばいいじゃない。」

【GPU】Tesla K20c
【CPU】[email protected] x2
【OS】Win7Pro64SP1
【Ver】0.07
【Len】12
【BLK/SM】256
【Opt】-c -g -x 256
【Drv】310.70
【15minAv】777.25 MTPS
【GPU Av】705.03 MTPS
【CPU Av】72.22 MTPS
【GPU Ld】-
【GPU Tmp】-
【Oth】HT off, QuadroはCUDA off
906 ◆JouJaku.HzIz :2013/01/09(水) 21:29:11.42 ID:htgpuiWN0
今回はエラーも出ずに正常に動きました。
K20cはCPU負荷がGeForce5xxに比べて大きく、1枚でX5680の1コアを使い切る位です。
Open Hardware MonitorもGPU-ZもK20cにはまだ対応してないので、GPUの負荷や温度は分かりません。
整数演算はこんなものですかね。もう少し頑張って欲しかった。(´・ω・`)
907名無しさん@お腹いっぱい。:2013/01/10(木) 16:57:35.57 ID:d1+F/txNP
IDにgpu
908 ◆MERIKEN4.k :2013/01/12(土) 14:28:42.75 ID:rJVHMMLY0
>>905-906
報告ありがとうございます。Tesla K20cにしてはちょっと遅いですねえ。
CC 3.5用のバイナリを実行ファイルに埋め込めば速くなるのかもしれませんが、
Toolkit 5.0を使うと他のカードでの速度が露骨に遅くなってしまうのが
悩みの種です。NVIDIAのカードでもOpenCL版を使えるように出来ないか
検討してみます。
909◇らりるれろ:2013/01/13(日) 17:13:06.97 ID:bLgYPOx10
てすと
910名無しさん@お腹いっぱい。:2013/01/13(日) 19:00:59.86 ID:FRQfMs5k0
>>909
(´;ω;`)ウッ…
911 ◆MERIKEN4.k :2013/01/15(火) 21:25:37.33 ID:6UMbQndE0
ようやくアメリカに戻ってきたのでMTFの作業に
また取り掛かれます。いろいろ速度改善について美味しいネタを
手に入れたので、次のバージョンでは12桁トリップ検索の
速度改善を中心にしつつ、これまで出来なかった累計の表示や
前方一致と後方一致のパターンを混在させると速度が低下する問題に
取り組んでいきたいと考えています。
912 ◆JouJaku.HzIz :2013/01/16(水) 22:15:57.81 ID:EHYVqxin0
>>908
もしかしてCPUがボトルネックになっているのかと思い、GPUのみで実行してみましたが変わらず。
貼り忘れていたのを追加。

Device Name: Tesla K20c
Multiprocessor Count: 13
Clock Rate: 706MHz
Compute Capability: 3.5
Compute Mode: cudaComputeModeDefault

希望する機能は、GPU毎にオプション設定できることですかね。
うちみたいに余り物を寄せ集めて動かしていると辛いです。(ちなみにTeslaは借り物です。)
でもCUDAとOpenCL混在とかなると、UIが大変なことになりそう。
913名無しさん@お腹いっぱい。:2013/01/16(水) 22:56:55.78 ID:yq9HK0W50
>>912
リストボックス+コンボボックス……アカン、GUIとコマンドラインオプションがエライことになる
だけどどうせCPUが余ってるなら制御用に数スレッド回しても大丈夫……なのかな?
914 ◆MERIKEN4.k :2013/01/17(木) 09:05:26.96 ID:t1EefCJP0
>>912-913
GPU毎のオプション設定は前々から欲しいと思っていた機能なんですけど、
コマンドラインの設定はともかくGUIのほうがかなり面倒くさそうで先延ばしに
なっていたんですよね。12桁トリップ検索の高速化が一段落したら
また考えてみたいと思います。
915 ◆MERIKEN4.k :2013/01/17(木) 21:39:31.22 ID:t1EefCJP0
とりあえず12桁トリップのCPU検索の高速化( >>855 )から手を付けることに
しました。これと>>857のネタを組み合わせれば上手く行けば速度は3〜4倍に
なるはずです。ぐへへへへ…

というわけでつらつらとソースを眺めてたんですけど、一番単純なCUDA用の
実装をSSE2 Intrinsicsで書き直すことにしました。Intrinsicsの使い方さえ
間違えなければ特に問題はないでしょう。
916 ◆MERIKEN4.k :2013/01/17(木) 21:56:31.49 ID:t1EefCJP0
ちなみに現在のCPU検索の速度はこんな感じです。
ちゃんとSIMD化していない割にはかなり頑張ってるのですが、
それでもSHArp Tripperに比べるとかなり見劣りします。
最低でも倍の速度は出したいところです。

【GPU】N/A
【CPU】Intel Core i7-3770K @ 4.3GHz (OC)
【OS】 Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.07
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】N/A
【1CUあたりのワークアイテムの数(OpenCL)】N/A
【1WGあたりのワークアイテムの数(OpenCL)】N/A
【1GPUあたりの検索プロセスの数(OpenCL)】N/A
【1検索プロセスあたりの検索スレッドの数(OpenCL)】N/A
【CPU検索スレッドの数】自動(8)
【その他のオプション】
【Display Driver】Catalyst 12.11 Beta8
【10分間の平均速度】41.74M tripcodes/s
【GPUの平均速度】N/A
【CPUの平均速度】41.74M tripcodes/s
【GPUの使用率】N/A
【GPUの温度】N/A
【その他】CPUのみ。5完1タゲ。
917名無しさん@お腹いっぱい。:2013/01/17(木) 22:06:52.82 ID:+AXKdu0T0
>>916
その環境ででSHArp走らせたらどんなもんなん?
今の俺のようにSHArpをCPU担当にしている人って結構いそうだから期待
918 ◆MERIKEN4.k :2013/01/18(金) 00:23:54.41 ID:kYidNIXM0
>>917
SHArp Tripperは同じ条件で65.73M TPSでした。
どれぐらいMTFの速度が上がるか楽しみですねえ。
919 ◆MERIKEN4.k :2013/01/18(金) 02:02:22.09 ID:kYidNIXM0
とりあえずCUDAのルーチンをunsigned intを使ってCPUに移植してみました。
速度もあまり遅くならなかったので、いままでのSSEの使い方はかなり
まずかったことになりますorz あとはこれを__m128iで書きなおしてやれば、
SIMD化の効果が正確にわかることになります。わくわく…
920 ◆MERIKEN4.k :2013/01/18(金) 04:10:01.45 ID:kYidNIXM0
移植したルーチンをそのまま__m128iで書き換えたのですが、
なんと25M TPS出ています。トリップの計算もちゃんと行われているようです。
実際にはこれの4倍の速度が出るはずなので、CPU単体で100M TPS超が出来る
可能性が高まって来ました。これは美味しすぎるw
921名無しさん@お腹いっぱい。:2013/01/18(金) 04:17:20.43 ID:6hXJO4W30
オラなんだかワクワクしてきたぞ
922 ◆MERIKEN4.k :2013/01/18(金) 07:35:40.22 ID:kYidNIXM0
取りあえずやっつけでトリップを4個同時に生成するルーチンをでっち上げたら
90M TPS超が来たけど、ちゃんと動いてるのかな、これ?
しばらく動かして様子を見てみようっと。
923 ◆MERIKEN4.k :2013/01/18(金) 07:55:54.88 ID:kYidNIXM0
生成されたトリップは問題なく使えるみたいです。
あとはヒット率と無効なトリップの割合だけど、おおむね予測通りといったところです。
これはひょっとしたらSHArp Tripperどころかhip2にも追いついたかもしれません。
924名無しさん@お腹いっぱい。:2013/01/18(金) 08:26:41.48 ID:fv+Za/380
*     +     巛 ヽ
            〒 !   +    。     +    。     *     。
      +    。  |  |
   *     +   / /   イヤッッホォォォオオォオウ!
       ∧_∧ / /
      (´∀` / / +    。     +    。   *     。
      ,-     f
      / ュヘ    | *     +    。     +   。 +
     〈_} )   |
        /    ! +    。     +    +     *
       ./  ,ヘ  |
 ガタン ||| j  / |  | |||
――――――――――――
925 ◆MERIKEN4.k :2013/01/18(金) 09:53:29.44 ID:kYidNIXM0
やっぱこれ、hip2よりも微妙に速いですね。2M TPSぐらいですけど…
速度が25M TPSの4倍に綺麗にスケールしなかったのは謎ですが、まあいいでしょうw
どうせまた>>857のネタのために大幅に検索ルーチンをいじることになるので、
最適化は程々にして、とりあえずちょっとだけテストしてからこのバージョンを
新しいα版として公開することにします。
926 ◆MERIKEN4.k :2013/01/18(金) 11:47:16.11 ID:kYidNIXM0
というわけで新しい開発版を用意しました。

MERIKEN's Tripcode Finder 0.08 Alpha 1
http://www.meriken2ch.com/programming/merikens-tripcode-finder

主な変更点は12桁トリップのCPU検索の大幅な高速化です。
927 ◆MERIKEN4.k :2013/01/18(金) 12:14:42.49 ID:kYidNIXM0
新しいバージョンでもう一度速度を測定してみました。
0.07と比べると2.3倍の速度向上となりました。美味し過ぎです。
CPUが熱でスロットルダウンしていた問題を解決したので
最初に測った時よりさらに速くなっています。
同じ条件でSHArp Tripper 1.1は71M TPS、hip2は6完1タゲで87M TPSほどなので、
まあ大成功といっていいでしょうw

【CPU】Intel Core i7-3770K @ 4.3GHz (OC)
【OS】 Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【トリップの種類】12桁
【CPU検索スレッドの数】自動(8)
【その他のオプション】なし
【10分間の平均速度】96.54M tripcodes/s
【GPUの平均速度】N/A
【CPUの平均速度】96.54M tripcodes/s
【その他】CPUのみ。5完1タゲ。
928 ◆YSRKENkO6Y :2013/01/18(金) 12:57:20.53 ID:fv+Za/380
【GPU】
【CPU】Intel Core i5-3210M @ 2.5GHz
【OS】Windows 7 Ultimate SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】自動(256)
【その他のオプション】なし
【6分間の平均速度】 76.16Mtripcodes/s
【GPUの平均速度】 48.07Mtripcodes/s
【CPUの平均速度】 28.09Mtripcodes/s
【その他】5完1タゲ

Intel HD Graphicsが使えない分を補なえるこの速度向上……ありがてぇ!
929名無しさん@お腹いっぱい。:2013/01/18(金) 13:18:00.74 ID:HQ33BRYA0
>>926
試しにDLしてみました
検索が早いっすねー 育成されたトリップ数が桁違いだ
930名無しさん@お腹いっぱい。:2013/01/18(金) 13:19:27.89 ID:HQ33BRYA0
wwwwwwwwwGPUが85度wwwwwwwwww
931名無しさん@お腹いっぱい。:2013/01/18(金) 13:25:09.79 ID:HQ33BRYA0
GPUって書いちゃった CPUの間違いね

俺のノートだとマザボが80度超えちゃうのでネカフェのPCでやりますわ。
漫画読んでりゃヒットするでしょ。
932 ◆YSRKENkO6Y :2013/01/18(金) 13:43:39.41 ID:fv+Za/380
>>931
うっかりクラッシュさせたりすんなよ……人様のPCなんだから

>>857のネタをMERIKENさんが実行すればもっと速くなるとか胸熱すぎ
933 ◆123456789MX1 :2013/01/18(金) 13:43:43.23 ID:FOHvUUiPP
MERIKENさん、お疲れ様です
トリップありがとうございます。
あちらのスレで私に成り済まして書き込みしてる
人が居ました

間違いなくトリップは仮酉で頂いてますので!
改めまして、ありがとうございますm(_ _)m
934名無しさん@お腹いっぱい。:2013/01/18(金) 17:43:59.06 ID:l/AHwEQz0
11M位だったCPUが57Mぐらい出たわw
935 ◆MERIKEN4.k :2013/01/18(金) 17:44:55.25 ID:kYidNIXM0
>>928
まだIntelのにこだわっていたんですねw
前回のは>>361でGPUはGeForce 610Mでしたよね。
CPU検索の速度が10.8M TPSから28.09M TPSに上がってるのでなかなか
良い感じですね。ソフトウェアの最適化もなかなか面白いでしょう。
936 ◆MERIKEN4.k :2013/01/18(金) 17:51:28.04 ID:kYidNIXM0
>>929-931
効率が上がったせいか、CPUの発熱もこれまでに比べて大分上がっていますねえ。

>>933
どうもどうも。あの程度では騙されませんよw

>>934
CPUはなんですか? どうもCPUによって大分最適化の効果が違うようですね。
937名無しさん@お腹いっぱい。:2013/01/18(金) 18:06:11.03 ID:l/AHwEQz0
>>936
ごめんなさい +GPUの時のSS見てた
+GPUはCPU28Mだったわ
938 ◆MERIKEN4.k :2013/01/18(金) 18:06:54.31 ID:kYidNIXM0
>>857のSHA-1ハッシュ生成の最適化の方法は問題なくMTFに適用出来るようです。
昨日は丸一日プログラミングに使ってしまったので、また数日後に集中して取り組む
予定です。
939 ◆MERIKEN4.k :2013/01/18(金) 18:08:03.99 ID:kYidNIXM0
>>937
ですよね〜w それぐらいが妥当だと思います。
940 ◆YSRKENkO6Y :2013/01/18(金) 18:22:50.73 ID:fv+Za/380
>>935
あるものはIntelでも使えればと思っていたんだぜ……
でもアレ使うと画面表示のタスク時々ソフトに乗っ取られる的な意味で常用しづらかったから、
CPUが改善された現状では特に使う理由はないね、うん
SIMD化ひとまずお疲れ様でした
941名無しさん@お腹いっぱい。:2013/01/18(金) 18:29:02.59 ID:l/AHwEQz0
さっきのはXeon E5504

【GPU】Xeon E5-2687W×2
【OS】Windows8 Pro
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【トリップの種類】12桁
【その他のオプション】解凍したまんまで
【CPUの10分間平均速度】 279.66tripcodes/s

こっちも同じくらいの上昇率でした
942 ◆MERIKEN4.k :2013/01/18(金) 18:38:50.81 ID:kYidNIXM0
>>941
> 【CPUの10分間平均速度】 279.66tripcodes/s

こ、これは… 2CPUで16コア32スレッドですか。
もはやCPUの数字には見えないですねえw
943名無しさん@お腹いっぱい。:2013/01/18(金) 18:43:55.38 ID:l/AHwEQz0
>>942
ちょっとしたGPU並でw
暖房入れてない自室の暖房にはもってこいです
944名無しさん@お腹いっぱい。:2013/01/18(金) 19:12:07.20 ID:WAj4RzYN0
945 ◆JouJaku.HzIz :2013/01/18(金) 22:49:47.60 ID:0Maact4/0
【CPU】Intel Core Duo T2500 @ 2.0GHz
【OS】WinXP Pro SP3 32bit
【バージョン】0.08 Alpha 1 CUI
【トリップの種類】12桁
【10分間の平均速度】6.35 Mtripcodes/s
【その他】5完1タゲ

5完位なら意外と行けますね。
946名無しさん@お腹いっぱい。:2013/01/19(土) 00:07:30.85 ID:rR6tdO2g0
>>945
一瞬Core 2 Duoと誤読した……
単純な計算だけど、SHArpでも10Mtrip/s行かない感じ?
947名無しさん@お腹いっぱい。:2013/01/19(土) 00:09:43.59 ID:eRM1rEwS0
>>569 >>732 です。 お疲れ様です。

【GPU】SAPPHIRE VAPOR-X HD5770 1G (OC: GPU 960MHz MEM 1265MHz)
【CPU】Intel Core i7-3770(無印)
【OS】Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【トリップの種類】12桁
【1CUあたりのワークアイテムの数(OpenCL)】3200
【1WGあたりのワークアイテムの数(OpenCL)】64
【1GPUあたりの検索プロセスの数(OpenCL)】1
【その他のオプション】
【Display Driver】Catalyst 13.1
【10分間の平均速度】641.51M tripcodes/s (*1)
【GPUの平均速度】560.13M tripcodes/s
【CPUの平均速度】81.38M tripcodes/s (*2)
【GPU使用率】99%
【GPUの温度】62℃ (開始時 27℃)
【その他】テスト時間10分08秒、7完1タゲ

(*1) Catalist 12.10 では 630M でした(ただし3分程度のテスト)
(*2) CPU検索が倍以上!!
948名無しさん@お腹いっぱい。:2013/01/19(土) 03:11:32.16 ID:2H6NXLp60
【GPU】GTX680
【CPU】i7-3960x(4.5GHz)
【OSWindows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【トリップの種類】12桁
【CPUの平均速度】142.47M tripcodes/s
【GPUの温度】62℃ (開始時 27℃)
【その他】テスト時間2分09秒

はええwww
949 ◆MERIKEN4.k :2013/01/19(土) 13:53:37.20 ID:kW85p1Lg0
>>943
そうでしょうねえw 自分の部屋も今年は暖房いらずです。

>>944
やっと正式版が来ましたね。あとでためしてみようっと。

>>945-948
報告ありがとうございます。順当に速度が伸びてますねえ。
あとどれぐらい伸ばせるか楽しみです。
950 ◆MERIKEN4.k :2013/01/19(土) 14:00:14.55 ID:kW85p1Lg0
>>945-946
Core 2 Duo T9550 @ 2.66GHzで較べてみたら、SHArp TripperがMTFより微妙に
速いぐらいでした。Core iシリーズでMTFのほうが大分速いのは、MTFがx64で
動いているのが大きいのでしょう。恐らく次の改良で32bit OSでもMTFのほうが
速くなるものと思われますが、どうなることやら。
951 ◆MERIKEN4.k :2013/01/19(土) 19:51:59.10 ID:kW85p1Lg0
もうちょっと日を開けようと思ってたけど我慢ができず、高速化の作業を再開して
しまいました。うまい具合にループの内部でSHA-1のブロックの最初のワードだけを
変化させるようにできたので、あとは>>857のコードをMTFに埋め込むだけです。
952 ◆MERIKEN4.k :2013/01/19(土) 20:40:10.85 ID:kW85p1Lg0
PW[]の実装はすんなりいったので、あとはP[]を計算するだけです。
しかし本当にうまくいくのかいな、これ。
953 ◆MERIKEN4.k :2013/01/19(土) 21:07:05.68 ID:kW85p1Lg0
P[]じゃなくてW[]だった。こっちも終わったので、あとはソースをもう一回
チェックしてから動作確認します。うまく動くといいけど、どうかな〜
954 ◆MERIKEN4.k :2013/01/19(土) 21:15:19.58 ID:kW85p1Lg0
やっぱりというか最初の試行ではうまくいきませんでしたorz
速度はかなり出ているので期待大ですが、これデバッグするの大変なんだろうな…
955 ◆MERIKEN4.k :2013/01/19(土) 21:20:16.25 ID:kW85p1Lg0
よく見たら元のソースにはW[75]までしか載ってないぞ。わざとやってんのか…
これでは正しい結果が出る訳ありません。しょうがないのでW[76]〜W[79]までを
でっち上げることにします。
956 ◆MERIKEN4.k :2013/01/19(土) 21:37:08.18 ID:kW85p1Lg0
W[76]〜W[79]をとりあえず最適化なしで計算してやったら、なんとちゃんと
動くようになりました。>>916>>927と同じ条件で112M TPS出ています。
>>916の約2.6倍、>>927の1.16倍なので上出来でしょう。
これでCUDA版とOpenCL版の12桁トリップ検索を高速化出来る目処が立ったのも
大きいです。
957 ◆MERIKEN4.k :2013/01/19(土) 22:08:27.73 ID:kW85p1Lg0
>>857のリンク先にあったPerlスクリプトを動かして、W[76]〜W[79]の計算を
最適化してやったら119.6M TPS出るようになりました。
これで速度は>>916の2.83倍、>>927の1.23倍になったことになります。

いや〜、しかし今回のアップデートは達成感があるなあ。
>>58-88あたりで行き詰っていたのが嘘のようですw
958名無しさん@お腹いっぱい。:2013/01/19(土) 23:10:37.12 ID:rR6tdO2g0
>>957
速度が2割向上……>>927,>>957によると7完が出る時間が8.8時間から7.1時間(2割減)に短縮ですな
959名無しさん@お腹いっぱい。:2013/01/19(土) 23:33:00.58 ID:xlNsLPWt0
MTF圧倒的大勝利!!!!!
960名無しさん@お腹いっぱい。:2013/01/19(土) 23:48:35.24 ID:yHXBO1ja0
AVX版も作ったらもっと速くなる予感
961 ◆MERIKEN4.k :2013/01/20(日) 00:15:32.27 ID:VNsWebzC0
いや〜、どうもどうもw あのあといろいろいじって、無効なトリップが生成される
確率もかなり引き下げることが出来ました。現在は4%で安定しているので
上出来でしょう。ついでにGPU検索の無効なトリップの割合を引き下げることまで
出来ました。こんなにうまく言っていいのかしらん。

>>960
AVXだとビットシフトが出来ないのでAVX2待ちですねえ。Xeon Phiだとさらに
同時処理できるビット数が上がっているのでこちらも実に楽しみです。
962 ◆MERIKEN4.k :2013/01/20(日) 07:57:33.70 ID:VNsWebzC0
新しい開発版です。

MERIKEN's Tripcode Finder 0.08 Alpha 2
http://www.meriken2ch.com/programming/merikens-tripcode-finder

主な変更点は12桁トリップのCPU検索の高速化です。
963名無しさん@お腹いっぱい。:2013/01/20(日) 07:58:38.27 ID:z0/nFct60
964 ◆MERIKEN4.k :2013/01/20(日) 08:05:04.61 ID:VNsWebzC0
なお、Alpha 2をPhenom II X6 1100Tでも試してみたところ、不思議なことに
Alpha 1よりも遅くなるのが確認されました。
次の開発版ではAMDのCPUが検知されたらAlpha 2の最適化を自動的に切るようにする
予定ですが、いかんせんデータが足りないので、AMDのCPUを持っている方に
Alpha 1とAlpha 2のCPU検索の速度を比較していただけると有難いです。
(Alpha 1はウェブサイトに残しておきました)
965名無しさん@お腹いっぱい。:2013/01/20(日) 08:07:32.89 ID:z0/nFct60
AMDは持ってないから協力できなかった…
だが今回してるマシンは300M超えそう
966 ◆MERIKEN4.k :2013/01/20(日) 08:17:11.43 ID:VNsWebzC0
というわけでCPU検索の速度の測定をやり直してみました。
>>927>>957に比べるとかなり速くなっています。
個人的には120M TPSを超えることが出来たので、非常にすっきりしましたw

【CPU】Intel Core i7-3770K @ 4.3GHz (OC)
【OS】 Microsoft Windows 7 64bit SP1
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【CPU検索スレッドの数】自動(8)
【その他のオプション】なし
【10分間の平均速度】120.15M tripcodes/s
【GPUの平均速度】N/A
【CPUの平均速度】120.15M tripcodes/s
【その他】CPUのみ。5完1タゲ。
967 ◆MERIKEN4.k :2013/01/20(日) 08:18:12.81 ID:VNsWebzC0
>>965
Dual Xeonの方ですか? 報告を楽しみにしています。
968名無しさん@お腹いっぱい。:2013/01/20(日) 08:19:59.89 ID:z0/nFct60
【GPU】Xeon E5-2687W×2
【OS】Windows8 Pro
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【その他のオプション】解凍したまんまで
【CPUの10分間平均速度】 321.75tripcodes/s

あとは誰かAMDの物理32コアの報告を待つだけ
969名無しさん@お腹いっぱい。:2013/01/20(日) 08:23:00.44 ID:ucQsDIIn0
テンプレ集の日本人の限界のページにあるリンクは、
やたらime.nuに飛ばされるけど何か意味はあるのかしら
970 ◆MERIKEN4.k :2013/01/20(日) 08:27:28.39 ID:VNsWebzC0
>>968
う〜ん、素晴らしい数字です。CPUでは間違いなく最速ですね。

しかしAMDのCPUはSSEの性能はいまいちみたいですね。
SSEなしだとPhenom II X 1100TはCore i7-3770Kより少し速いぐらいだったのですが、
SSEありだと速度は半分といったところです。AMDのBulldozerアーキテクチャで
どれぐらい性能がでるか非常に興味深いところです。
971 ◆MERIKEN4.k :2013/01/20(日) 08:28:37.18 ID:VNsWebzC0
>>969
どのページですか? アドレスを張っていただければあとで確認しておきます。
972 ◆MERIKEN4.k :2013/01/20(日) 08:29:46.45 ID:VNsWebzC0
おっと、そろそろ次スレを用意しないと…
食事を食べ終わったら立てておきます。
973名無しさん@お腹いっぱい。:2013/01/20(日) 09:13:43.00 ID:ucQsDIIn0
974 ◆MERIKEN4.k :2013/01/20(日) 09:17:27.37 ID:VNsWebzC0
次スレ立てました。続きはこちらでお願いします。

【トリップ検索】MERIKEN's Tripcode Finder その2
http://anago.2ch.net/test/read.cgi/software/1358640741/
975 ◆MERIKEN4.k :2013/01/20(日) 09:28:58.08 ID:VNsWebzC0
>>973
報告ありがとうございます。早速直しておきました。
しかし全然気づかなかったな…
976 ◆YSRKENkO6Y :2013/01/20(日) 10:52:41.29 ID:6cCMlcR80
【GPU】GeForce 610M
【CPU】Intel Core i5-3210M @ 2.5GHz
【OS】Windows 7 Ultimate SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】256
【その他のオプション】なし
【10分間の平均速度】 79.20Mtripcodes/s
【GPUの平均速度】 48.81Mtripcodes/s
【CPUの平均速度】 30.40Mtripcodes/s
【その他】5完1タゲ

>>928に比べて4%ほどの速度上昇(CPUは8%)、か
977 ◆YSRKENkO6Y :2013/01/20(日) 10:53:13.53 ID:6cCMlcR80
【GPU】GeForce 610M
【CPU】Intel Core i5-3210M @ 2.5GHz
【OS】Windows 7 Ultimate SP1 64bit
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【1SMあたりのブロックの数(CUDA)】256
【その他のオプション】なし
【10分間の平均速度】 79.20Mtripcodes/s
【GPUの平均速度】 48.81Mtripcodes/s
【CPUの平均速度】 30.40Mtripcodes/s
【その他】5完1タゲ

>>928に比べて4%ほどの速度上昇(CPUは8%)、か
978 ◆YSRKENkO6Y :2013/01/20(日) 10:54:15.80 ID:6cCMlcR80
新スレに貼ろうと思ったら2度も誤爆したんだぜorz
979 ◆ATM.827MB. :2013/01/20(日) 11:47:39.79 ID:KRQL9zaY0
【CPU】Intel Core i7-620M @ 2.67GHz
【OS】Microsoft Windows 7 64bit SP1 (DSP版)
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【トリップの種類】12桁
【CPUの10分間の平均速度】28.07Mtripcodes/s
【部屋の温度】20℃
【その他】MTF0.07から使い始めている初心者ですが、CPUの命令セットを
 x64+SSE2にすると「0xc000007b」のエラーが出て終了してしまいます。
 x86+SSE2は正常に検索してくれます。PCのスペックの問題でしょうか?
980名無しさん@お腹いっぱい。:2013/01/20(日) 12:09:19.03 ID:TCtcWyAk0
【CPU】AMD Phenom II X6 1090T @ 3.2GHz
【OS】 Microsoft Windows 8 64bit
【トリップの種類】12桁
【CPU検索スレッドの数】自動(6)
【その他のオプション】なし

【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【CPUの平均速度】59.90M tripcodes/s

【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【CPUの平均速度】50.51M tripcodes/s

確かに遅くなってるね
981名無しさん@お腹いっぱい。:2013/01/20(日) 12:25:17.06 ID:mf2nwrucT
12桁トリップのCPU検索がだいぶはやくなったけどこの技術は10桁トリップのCPU検索の高速化には活かせないのかな?
982 ◆MERIKEN4.k :2013/01/20(日) 17:51:44.37 ID:VNsWebzC0
>>979
次のソフトウェアをインストールしてみて下さい。

Microsoft Visual C++ 2010 再頒布可能パッケージ (x64)
http://www.microsoft.com/ja-jp/download/details.aspx?id=14632
983 ◆MERIKEN4.k :2013/01/20(日) 17:52:49.21 ID:VNsWebzC0
>>980
やっぱりPhenom IIだと遅くなりますね。実行時に自動的に最適化を切るように
しておきます。
984 ◆MERIKEN4.k :2013/01/20(日) 17:54:43.84 ID:VNsWebzC0
>>981
10桁トリップのCPU検索はSSE Intrinsicsで出来ることは全部やってしまったので、
これ以上はアセンブラで書きなおさないと難しいでしょうね。またいずれ取り組む
予定です。
985名無しさん@お腹いっぱい。:2013/01/20(日) 18:58:05.02 ID:/IyUB2p70
【CPU】i7-3970x(OC 5.04GHz)
【OS】 Microsoft Windows 7 64bit
【トリップの種類】12桁
【その他のオプション】全てDL時のまま
【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【CPUの平均速度】185.67M tripcodes/s


はええwww
速くて面白くてOCが捗ったwww
986名無しさん@お腹いっぱい。:2013/01/21(月) 00:32:07.68 ID:DdhKcWQdP
Webブラウズしながら裏で測定したので参考程度に

【CPU】AMD A10-5800Kデフォルト TurboCore ON
【OS】Windows 8 Pro 64bit
【トリップの種類】12桁
【その他】5完1タゲ
【その他のオプション】デフォルト

【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 2
【CPUの10分間平均速度】 36.93Mtripcodes/s

【バージョン】MERIKEN's Tripcode Finder 0.08 Alpha 1
【CPUの10分間平均速度】 38.59Mtripcodes/s

【バージョン】MERIKEN's Tripcode Finder 0.07
【CPUの10分間平均速度】 18.45Mtripcodes/s

でもやっぱりVer0.08 Alpha 2は、Alpha1よりちょっと遅いことは間違いないと思ふ
987 ◆ATM.827MB. :2013/01/21(月) 04:14:54.56 ID:BZ8qyV+M0
>>982
そのソフトウェアでは無理です。同じエラーが出てしまいます。
Norton360のインストールも失敗していまして、これはサポートチャットにて、
ダウングレードインストール(6.4.0.9 => 6.3.0.14)で解決できました。
恐らく一部(俺)のPCではx64-SSE2は対応していないということでしょうね。
あきらめも肝心なので、x86-SSE2で暖をとることにします。
988ののたん ◆KiwamonoL. :2013/01/21(月) 08:54:32.98 ID:fBoFHkHC0
>>987
いわゆるDLL地獄ってやつだな。
dependency walkerで調べりゃどれが原因かわかるとは思うが、シロウトには無理か。
989 ◆MERIKEN4.k :2013/01/21(月) 18:04:24.20 ID:HDFcfntu0
>>987
> 恐らく一部(俺)のPCではx64-SSE2は対応していないということでしょうね。

多分他のソフトウェアが悪さしているはずなので、クリーンインストールして
地道に調べれば解決できるはずですけど、そこまでは流石になかなかできない
ですよねえ。
990 ◆MERIKEN4.k :2013/01/21(月) 22:02:03.74 ID:HDFcfntu0
>>986
やっぱりAPUでも遅くなりましたか… 次のバージョンではオプションで
速い方を選べるようにしておきました。
991 ◆ATM.827MB. :2013/01/22(火) 06:36:17.50 ID:vDnOtwQ50
>>988
ののたんさん、助言ありがとうございます。dependency walkerで調べたところ、

エラー:異なるCPUの種類が搭載されたモジュールが見つかりました。
警告:少なくとも1つのモジュールは遅延ロードに依存するモジュールで
不足しているエクスポート機能により、未解決のインポートを持っています。

ということです・・・。

>>989
検索用にF社OEM中古PC(Win7Pro32bit)を購入したあと、HDDのOEM管理領域を残したまま
Win7Pro64bit(DSP版)をインストールしたのがまずかったんでしょうか?
HDDをフォーマットしてからWin7Pro64bitをインストールしてみようと思います。
992ののたん ◆KiwamonoL. :2013/01/22(火) 17:36:20.85 ID:HZJmTs7N0
>>991
OpenCL.dll の名前を変えてみてもだめかな?
OpenCL.dll.dist とかに。

つか、CPU のとこに x86 と x64 が混在してないか?
993 ◆gwsapehcG6 :2013/01/22(火) 22:39:34.27 ID:eGxRvSRH0
994 ◆uLk/kuviNuB6 :2013/01/22(火) 22:41:16.56 ID:eGxRvSRH0
995 ◆c4p9MpDF8g :2013/01/22(火) 22:41:43.99 ID:eGxRvSRH0
どの
996名無しさん@お腹いっぱい。:2013/01/23(水) 00:42:50.19 ID:7wrXvwu8P
GUIの方で設定した内容はCUIで引き継げるのか
検索速度も少し上がる、これは有り難い
997名無しさん@お腹いっぱい。:2013/01/23(水) 02:07:29.68 ID:fgl8QXtz0
【トリップ検索】MERIKEN's Tripcode Finder その2
http://anago.2ch.net/test/read.cgi/software/1358640741/
998名無しさん@お腹いっぱい。:2013/01/23(水) 09:51:58.31 ID:wpmoX/Ea0
【トリップ検索】MERIKEN's Tripcode Finder その2
http://anago.2ch.net/test/read.cgi/software/1358640741/
999名無しさん@お腹いっぱい。:2013/01/23(水) 09:54:33.29 ID:wpmoX/Ea0
【トリップ検索】MERIKEN's Tripcode Finder その2
http://anago.2ch.net/test/read.cgi/software/1358640741/


1000ドゾー
1000 ◆MERIKEN4.k :2013/01/23(水) 10:03:55.78 ID:dU+YmqRU0
1000!
10011001
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。