> SIMDでは,ベクトル演算器の得意とするベクトル様式に,データ側を調整する必要がある。
> 例えばSSEだと4要素ベクトル演算器で処理系が実装されているため,すべての演算器が活用されて,
> 最高のパフォーマンスが得られるのは,演算対象となるデータが4要素ベクトルのときに限られる
> (※あるいは2要素ベクトル×2セットなど)。
GeForceは4要素じゃなくて32要素ベクトルになるだけだけどな。
データの再パッキング(たとえばx, y, z, wを砕いてxだけ32個、yだけ32個・・・)を抽象化してるだけにすぎない。
LarrabeeにはGather/Scatterを1発でできる命令が標準で備わっているのでGeForceと同じことができる。
夜中だろうと平日日中だろうと休み無く2chで働く人乙