Intel Larrabee 4コア

このエントリーをはてなブックマークに追加
696,,・´∀`・,,)っ-○○○
BLAS Performance見てみ
http://www.lunarc.lu.se/Documents/nvidia-workshop/files/presentation/50_Case_Studies.pdf

CPUに比べて圧倒的じゃないかって思っちゃうだろうけど
単精度ってピークの3割強程度しか出てないんですが。
まあ、SFUでの乗算が全く役に立たない上に、LSUがネックじゃこの程度だわな。

倍精度はほぼ額面通りの性能になってるが、これは倍精度ユニットが他のユニットに比べて
貧弱な分、相対的に他のオペレーションの供給が間に合ってるに過ぎない。


LarrabeeではSGEMM・DGEMMともに90%は弾き出せると見ている。
なぜなら乗算値のアドレス算出・ロード・ブロードキャスト・積和算を1命令で同時に行いながら、
スカラ側でキャッシュコントローラの操作やベクトルストアをいずれか1命令ペアにして
発行することができるからだ。

さて問題です。GEMMにおいて、32Wayの積和算ユニットに対し、同時に乗算値を供給するのに
ロードユニットは最低何Wayでなければいけないでしょうか?
これが解ればFermiのGPGPU性能に微塵も期待できなくなる