AMDの次世代CPUについて語ろう 第36世代

このエントリーをはてなブックマークに追加
849,,・´∀`・,,)っ-○○○
>>843
それだと乗算のスループットネックで行列積なんかの性能は基本的に上がらないからFMAの意味自体ほとんどないね。
「FMAで最大4倍」って明言してるから256bit FMA×2って説は有力。

とはいえHaswellの性能についてはいろいろ疑問があるね
安定して16SP/clkのスループットを得るには、vbroadcastss + vmulps + vaddps で
命令長を合計16バイト以内に抑える必要がある。
vmulps, vaddpsは4バイトに圧縮できるからvbroadcastssは8バイトまでに抑えれば十分できる。

しかしFMAサポートで更に2倍の性能を得るにはvbroadcastss×2 + vfmadd231ps×2を同時に発行しなければいけない。
もし同じ16byte/clkの命令フェッチ帯域だと確実に足りなくて、Loop Stream Detectorに収まるように
プログラムを組まないといけない。
逆に考えれば256bit FMA×2の実装がされるときには命令フェッチ帯域の拡張は確実に入るということ。