Phenom実機で追試。
MOVDQA xmm,mem128 (LOAD)は、Bank conflict のない限りIPC=2
MOVDQA mem128,xmm (STORE)は、IPC=1
ちなみにK8ではLOADが1/4に、STOREが1/2に性能が落ちる。
肝心のLOAD/STORE混在のケースなのだけど、
LOAD,STOREの連続実行では平均IPC=1
LOAD,LOAD,STORE,STOREにするとIPC=4/3 (.5+.5+1+1 ??)
この例だとLOAD/STOREはin-order実行のもよう。
同じアドレスへの連続STOREはストールするので注意。