フェンスの副作用のない命令までなんで禁止しないといけないの?
SSEにはベクトル要素毎に独立にメモリアクセスするようなLS命令はない。
シリアル化が必要なところで明示的なフェンス制御命令はどのみち必要だ。
SSEを禁止する理由にならない。
だいたいに16要素の独立ロード・ストアを等速で同時にこなせるわけがないだろJK
マスクを駆使して最大16回L/S発行するだけかもしらん。もちろんパイプラインはストールする。
キャッシュライン縛りの兼ね合いもあるし、
アセンブリレベルの生産性の向上には寄与するかもしれんが
スループットは最初から期待できない。