CPUアーキテクチャについて語れ 11

400 ：Socket774：2008/08/22(金) 23:42:21 ID:tGPGS/4J

>>377
＞LarrabeeにはScatter/Gatherがあるだろ、
＞1命令で16要素のメモリアクセスするから、スレッド数にあわせて4段のパイプラインだと、
＞全部で64アクセスをバッファにためないといけない

1命令を1クロックサイクルでこなせるなんてどこにも書いてないし、
小さなデータでも常にキャッシュライン単位での移動になるから
LSUだけを化け物にしたところで>>399の指摘どおり内部バス帯域が
付いていかない。

複数クロックかかるマクロ命令だろう。

>>379
80:20ルールといって、パフォーマンスのボトルネックは
コード全体の2割以下のモジュールという経験則がある。
で、20のうちでも、LNIに置き換えることによってスループットを
引き上げることが出来る箇所はおそらく現状SSEで実装されてる
コード部分でもごく一部だ。

SSEはもちろんAVXにもスカラ命令が存在すること自体、ベクトル化が
出来る箇所が限られてることの現れだ。
で、LNIに置き換えて効果の見込めない、スカラだったり、
2～4並列程度で十分な箇所は、SSEのコードのまま残してもいい。

市場のCPUがAVX以降の命令への完全移行にともないレガシー部分は
ゆくゆくは全部置き換えることになるだろうが、効果の少ない
部分は後回しにしたり放置したりできる。

SSEを非互換にしたりすると、SSEを使った部分を最初から全部書き直す
羽目になる。
これはIntelの互換戦略としてあり得ない。