>>377 >LarrabeeにはScatter/Gatherがあるだろ、
>1命令で16要素のメモリアクセスするから、スレッド数にあわせて4段のパイプラインだと、
>全部で64アクセスをバッファにためないといけない
1命令を1クロックサイクルでこなせるなんてどこにも書いてないし、
小さなデータでも常にキャッシュライン単位での移動になるから
LSUだけを化け物にしたところで
>>399の指摘どおり内部バス帯域が
付いていかない。
複数クロックかかるマクロ命令だろう。
>>379 80:20ルールといって、パフォーマンスのボトルネックは
コード全体の2割以下のモジュールという経験則がある。
で、20のうちでも、LNIに置き換えることによってスループットを
引き上げることが出来る箇所はおそらく現状SSEで実装されてる
コード部分でもごく一部だ。
SSEはもちろんAVXにもスカラ命令が存在すること自体、ベクトル化が
出来る箇所が限られてることの現れだ。
で、LNIに置き換えて効果の見込めない、スカラだったり、
2〜4並列程度で十分な箇所は、SSEのコードのまま残してもいい。
市場のCPUがAVX以降の命令への完全移行にともないレガシー部分は
ゆくゆくは全部置き換えることになるだろうが、効果の少ない
部分は後回しにしたり放置したりできる。
SSEを非互換にしたりすると、SSEを使った部分を最初から全部書き直す
羽目になる。
これはIntelの互換戦略としてあり得ない。