この速さなら言える
一日二日で倍以上の高速化ができた理由
1.関数コール時に、cdecl規約で収まらなかった__m64型をグローバル変数渡しにしてみる
2.関数をマクロで実装しそのものをインライン化してみる
3.nonstd.cへの差し替え
4.crypt64関数(仮)に引数でポインタ渡していたものを静的なグローバル変数領域にしてみる
更にもう一つ、
5.KeyスケジューリングをKS[48][16]に展開
これだけでナニ屋テストとほぼ同じ速度になった。
4.5.やってなかったときのコアの速度は丁度_と同じような速度だった気がする。