> しかしLarrabeeでは、ユニプロセッサの整数演算パフォーマンスに疑問符がついている。
(ry
> In-Order実行で2命令発行のP54Cコアは、2GHz台で走らせても、それほど高いスカラ
> 演算性能を発揮できないはずだ。同じIn- Order実行2命令発行でも、より洗練された
> Atom系(Bonnell:ボンネル)アーキテクチャのCPUコアと比べて、同クロック時の性能が
> 高いとは考えにくい。
ここは概ね同意なんだが、後藤は自分の記事でAtomは80486ベースだと説明してるよね。
そのレベルではLarrabeeもP54Cに手を入れてくる可能性は高い。
Atomのデコーダは貧弱で、一度デコードしてプリデコードタグがついたものでないと
ハードワイヤードでデコードできない。
命令フェッチ帯域も8byte/clkと狭い(P5以降は16byte/clk)。
性能よりも電力を抑える方向に最適化した結果だと思われる。
逆に、一度デコーダを通ってプリデコードタグがついた命令だと、再デコード時には最大2並列
(命令フェッチ帯域が間に合う範囲内で)デコードできる。
タグが付いた命令に対してならペアリング制限の厳しいP5よりはデコード効率はよくなることもある。
その辺のバランスも含めてなので、Atomのほうが洗練されてるかどうかは実物が出るまでは
判断しづらい。
LarrabeeがP54Cのそれよりはデコーダは強化されてると断言できる資料は既に出てる。
去年8月時点でのLarrabeeの論文の時点でpopcntやlzcnt(AMDのそれと互換かは不明)も
搭載してることが明言されてる。その程度にはスカラ性能も強化するってことだ。
P54Cまでだとプリフィクスや2バイトOpcodeのエスケープバイトを1バイト噛ませるだけで
1クロックストールし、P55C以降はMMX対応のために1バイトまでのプリフィクスまたは
エスケープならストールなしに噛ませることができるようになった。
Larrabeeは64ビット拡張をサポートするので対応すべき2バイトOpcode命令も増えるし
REXプリフィクスも載っかる。
AVX以降の共通の命令セット基盤となるVEXは3〜4バイトOpcode相当なので、その辺までは
耐えられる設計にしないといけない。逆にいうとスカラとベクタ共通の命令の受け入れ口である
デコード段がネックになっていてはVPUにすら命令供給が間に合わない。