しらんがな
3 :
Socket774:2009/07/30(木) 05:07:18 ID:P3uQTmXv
糞スレ上げ
糞スレじゃねーよ。
で、情報まだ?
なんで糞スレじゃないってわかるの?
7 :
Socket774:2009/07/31(金) 13:44:10 ID:a4Ui7vT4
楽しみだけど、前スレが11レスで落ちたからみんな待ってないのかなw
さ ぁ ふ る え る が い い
やぁみんな!期待に応えて増えたよ!!
(´・ω・`)(´・ω・`)(´・ω・`)(´・ω・`)(´・ω・`)(´・ω・`)(´・ω・`)(´・ω・`)
(´・ω・`)なんて増殖するとか思ったの?
(´・ω・`)=3
(´・ω・`)くさいスレだねぇ
(´・ω・`)クサッ!このスレニオウヨー
(´・ω・`)ショボンヌ帝国in自作PCと聞いて飛んできました
(´・ω・`)自演乙
(´・ω・`)=3
カワイソ( ´・ω・)ス
(´・ω・`)はじめまして
(´・ω・`)っ● つまらないウンコですがどうぞ
(´・ω・`)…
(´・ω・`)一時間以内にガッされなかったら神になれる
ミ ____
ミ/\ \
/ \___\
/ / / ガッ
∧_∧/ / 人 /
(´・ω・`)\ / < >_∧∩
( つノ .\/___V `Д´)/
/
>>16
(´・ω・`)ぬるぽ!!!
(´・ω・`)ぬるぽ
(´・ω・`)オラオラ!ぬるぽ!!!ぬるぽぬるぽぬるぬるるるぬるぽぬるぽっぽーー!!
(´・ω・`)ぬるぽ
(´・ω・`)まだまだぬるぽ
(´・ω・`)ウェーハッハッハ!ガッしてみやがれクソども!
(´・ω・`)ぬるっぽ〜♪
(´・ω・`)ぬる〜♪ぬるるるっぽっぽ〜♪
(´・ω・`)本当にガッされないねぇ
(´・ω・`)俺しかいない予感!
(´・ω・`)ぬるぽ!!
(´・ω・`)ぬるぽ
27 :
Socket774:2009/08/09(日) 20:44:22 ID:lOoQGexw
(´・ω・`)?
( ´・ω・`)ここはどこだい?
(´・ω・`)ようこそぶりゃんぬスレへ
(´・ω・`)ウンチ
(´・ω・`)アウー
(´・ω・`)っL
(´・ω・`)
つLと
(´・ω・`)私がLです
(´・ω・`)私が変なオジサンです
(´・ω・`)じゃあ俺は変なガンダムだ
(´・ω・`)いえ…私は…変なゼロです…
(´・ω・`)俺はフルチンだ
(´・ω・`)それはそれは・・・
,===,====、
_.||___|_____||_
.. / /||___|^ l
.. (*‘ω‘ *)//|| |口| |ω‘ *) ぽおおおお
. ./(^(^ .//||...|| |口| |c )
... / // ||...|| |口| ||し
....... (*‘ω‘ *) //.... ||...|| |口| ||
/(^(^ // .... .||...|| |口| ||
"" :::'' |/ |/ '' " ::: ⌒ :: ⌒⌒⌒ :: "" `
:: ,, ::::: ,, ; ̄ ̄ ̄ "、 :::: " ,, , ::: " :: " :::: "
(´・ω・`)そろそろまぜろよ
ちんぽっぽ
∧ ∧ ぼいーーんっ!
(>=◎‘ω‘ *) (´⌒(´⌒;;
/_./ 〉 ⊂_ノ` (´⌒(´≡≡≡(´⌒;;;≡≡≡⌒;;
〈/ )/__ノ,ミ ≡≡≡(´⌒;;;≡≡≡
(_/^´ (´⌒(´⌒;;
結局プログラム組むのがGPGPUより糞大変で
GPUが進んでるGPGPUの動きに合わせるしかなさそうだな
PS4とかに使えばいいんじゃね
44 :
Socket774:2009/08/18(火) 05:40:57 ID:RoY7i9uV
オマエバカナノ
ヨクワカラナイケドオレハバカダヨ
(´・ω・`)うるせーハゲ
>>44 普通のCPU同然みたいに使えるとか思ってんの?
48 :
Socket774:2009/08/19(水) 21:06:40 ID:8CIehTnA
少なくとも、あと2世代先のGPUよりは
51 :
Socket774:2009/08/21(金) 07:58:29 ID:UZyhN9oP
http://northwood.blog60.fc2.com/blog-entry-3071.html ◇“Larrabee”は第3世代なのか?
Larrabee is Intel’s third attempt(Fudzilla)
http://www.fudzilla.com/content/view/15098/34/ Silicon Valley内の情報によると、現在Intelが言う“Larrabee”は3世代目になるという。
最初の2世代は大きく熱かった。なので、Intelの考えていたものとは合致せず、失敗となった。そして第3世代は2010年の中盤にお披露目される。
噂では“Larrabee 3”はやはり大きく手厚いが、性能面では現行世代のGeForce GTX 295やRadeon HD 4870X2を超えられるという。
ただし、NVIDIAもAMD-ATiもGPUのリフレッシュを計画しており、“Larrabee 3”ローンチ時点ではIntelはNVIDIAやAMD-ATiに追いつくことは出来そうにない。
>最初の2世代は大きく熱かった。なので、Intelの考えていたものとは合致せず、失敗となった。
>最初の2世代は大きく熱かった。なので、Intelの考えていたものとは合致せず、失敗となった。
>最初の2世代は大きく熱かった。なので、Intelの考えていたものとは合致せず、失敗となった。
>Larrabee 3”ローンチ時点ではIntelはNVIDIAやAMD-ATiに追いつくことは出来そうにない。
>Larrabee 3”ローンチ時点ではIntelはNVIDIAやAMD-ATiに追いつくことは出来そうにない。
>Larrabee 3”ローンチ時点ではIntelはNVIDIAやAMD-ATiに追いつくことは出来そうにない。
プゲラwwwwwwwwwwwwwwwwwwwwwwwwwww
どんなに画期的なんかと期待してたんだが
他社のGPUとたいして変わらないのか。
大分前から微妙臭がしてたけどな…
個人的にはLarrabeeまでGMAで頑張るって方が終わってる
そこでnVidia買収ですよ。
性能がよくないだけで残念な空気になるとは。
Larrabeeはプログラミング用のおもちゃとして使うものだと思ってた。
バン バンバンバン゛ン バンバン
バン(∩‘ω‘ *) バンバンバンバン゛ン
_/_ミつ/ ̄ ̄ ̄/
\/___/ ̄
/ /|
| ̄ ̄ ̄ ̄ | |
|[]:: | |
|──── | |
|[]:: | |
|_____| |
ガラッ |_____| | 過疎かね?
. 彡/(・ω・ ) /| |
| ̄ ̄ ̄ ̄| |/
|____|/
58 :
Socket774:2009/08/26(水) 04:06:51 ID:YbgQRfFD
ハードウェア固定機能を搭載したGPUに勝てるのか?
ソフトウェアによる柔軟性は性能とのトレードオフ
単体CPUとしてみれはタダのPentiumだし
GPUとしてみても、固定機能をソフトウェアで実装してやらないと
動かないメンドクサイ存在
Cellのように「プログラミングが難しくてアプリケーションが作れません!」
となる確率極大
オープンソースの「メニーコアCPU用GPUエミュレーションライブラリ」を出さないと無理
CPUとGPUの構造が単純化して性能向上に繋がったらいいんだけど
DX10の時点でDX9以前の固定機能は盲腸
texture unitは残るだろうけどね
LinuxでのOpenGL, OpenCLあたりに関して言えば、Larrabeeが出るころには
Gallum3DのLarrabee Driverを作れば対応出来るようになっているはず。
で結局、実用性はあるんか?
乗り換えるメリットねーならいらんし
どーなのよ
LarrabeeのマルチスレッドプログラミングってPOSIXのpthreadみたいにできるのかな?
できればプログラムの移植が楽になるんだが…
金でゴリ押しの普及させようとしても、Cellみたいにローカルな感じになるんだろうな
ずっと続けるためにはLarrabee2とか出さないといけないし
並列コンピューティングのシェアがCUDAに奪われたから作ったんだろうけど、Larrabeeにするメリットが無い
ソフト開発の流れを、いかにLarrabee向けにするかだよな
出荷されても対応ソフトも無くて、ローエンドなGPUとして使うしかないんだろ?
65 :
Socket774:2009/09/03(木) 18:04:05 ID:oFeoXptx
その写真のオカマ野郎が団子ってわけか
67 :
Socket774:2009/09/03(木) 19:03:28 ID:IdWZrO4K
まぁDX9で十分だもんな
Crytecもすでに次世代手法に移ってるけど
現行法は限界だから美しいグラフィックを求めるというならららb、いや次世代しか選択肢はないよな
そこまでグラフィッククオリティ求めてねーよというならDX9で十分
もっと美しいグラフィックでゲームしたいっていうなら
MS(DX)がどう進もうとしてるかは明らかやね
>Microsoftの日本法人であるマイクロソフトでプラットフォーム エバンジェリストを務める川西裕幸氏だ。
>マイクロソフトが担当する技術セッションではお馴染みの「顔」である。
>ご存じの方も多いと思うが,川西氏が得意とするのはグラフィックス。
http://blogs.msdn.com/hiroyuk/default.aspx 川西 裕幸のブログ
Windows Graphics & Presentaiton Technologies for Developers
出た頃には時代遅れとか、インテルは笑わしてくれるな
>>69 Sandy BridgeもL3とIGPがRing。
続報なさ過ぎるわい
ぱたっと途絶えたよな
別に『やっぱまた延期するわ』っていう発表あっても全然驚かないわ
4月に公開した円盤は絵に描いた餅でFA?
もち、株価対策
あれが「Larrabee 3」だろ
知る限りLarrabeeの仕様は2回変更されてるから。
情報出たてのころSIMDはSSE互換だった。
生まれてもない子の歳をかぞえてもしゃーないってのが中の人の見解か
ごもっとも
ネタはないし、夜も更けたし、もうそろそろ寝ようぜ。
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
俺の手元にあるシミュレータって何だろうな
騒がしいな、眠れねーだろ
50 :Socket774 [sage] :2009/03/30(月) 23:05:49 ID:RNqRpRRq
シミュレータをサンプル扱いするなんて前代未聞!
さすが団子さんだぜ
ばーか
62 :,,・´∀`・,,)っ-●◎○ [sage] :2009/03/31(火) 00:00:02 ID:YbyWNvCs
> TheINQのCharlie "Groo" DemerjianがLarrabeeのサンプルが今年の秋にも
> 開発者向けに配布されると伝えているす
ここでの開発者が【ソフトの】開発者のことを指してることに気づいてほしい。
ハード開発者はIntelだけだ。
そして「サンプル」とは一般開発者向けにはprotorype primitiveのこと。
確かにあれの公開は彼の言ったとおり約半年遅れの今年3月になった。
ハードだと思って一喜一憂してたのはおまいらだけだよ
63 :MACオタ>団子 さん [sage] :2009/03/31(火) 00:09:28 ID:3FaCOFUY
>>62 "silicon"って書いてあるのですが?
http://www.realworldtech.com/forums/index.cfm?action=detail&id=96437&threadid=96378&roomid=2 ---------------------
the Taiwanese were expecting silicon in January.
---------------------
Intelはチップの開発メーカーであって、ビデオカードやマザーボードの開発メーカーは別途いますよ。
64 :,,・´∀`・,,)っ-●◎○ [sage] :2009/03/31(火) 00:11:09 ID:YbyWNvCs
また宇宙から電波でも拾ったんでしょ。
なんせ彼のPenrynにはHyperThreadingが実装されてるんだし。
66 :Socket774 [sage] :2009/03/31(火) 00:17:43 ID:PgS7bnB4
http://www.xbitlabs.com/news/video/display/20080117222433_Intel_Promises_to_Sample_Larrabee_Processors_in_Late_2008.html > “Larrabee first silicon should be late this year in terms of samples
> and we’ll start playing with it and sampling it to developers and I
> still think we are on track for a product in late ’09, 2010 timeframe,”
> said Paul Otellini, chief executive officer of Intel.
これも宇宙からの電波かもしれんw
PenrynにHyper Threadingが搭載されてるDemakasejan劇場再開?
劇場は閉幕した。寝ろ。
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
シリコンIDFで出てたのにまだ言ってるのか。
君の会社ではWestmereのサンプルには触る機会あったかね?
ちなみにSandy BridgeのLoad/Storeポートの番号くらいまでは俺の中では既出情報
ちなみにLarrabeeのLoad/Storeはマルチポートになってて1コア当たり64バイト/clk
L1キャッシュがGPUのレジスタファイルのように使えるってのはあながち嘘じゃない
久々に団子を見ちゃった…
見ないようにしてたのに…
見ちゃった…
>>86 / ̄\
| |
\_/
/ ̄\
| |
\_/
/ ̄\
| |
\_/
|
/  ̄  ̄ \
/ \ / \
/ ⌒ ⌒ \ よくぞこのスレを開いてくれた
| (__人__) | 褒美として団子を買う権利をやる
\ ` ⌒´ / ☆
/ヽ、--ー、__,-‐´ \─/
/ > ヽ▼●▼<\ ||ー、.
/ ヽ、 \ i |。| |/ ヽ (ニ、`ヽ.
.l ヽ l |。| | r-、y `ニ ノ \
l _|___|ー─ |  ̄ l `~ヽ_ノ
しがないレンダ屋やってるが、俺んとこにはれれべーのサンプル来ないぞ。
イソ〒ル死ね!!!
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
ところでOpcode 64 67 90って知らない?
ひでーよな。公開情報なのに、「Larrabee」でググっても出てこないんだぜ。
よくわかんないけど↓を貼ると何か御利益でもあるの?
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
FS LCP NOP
>>90 あるんじゃね?
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
これ貼ると競馬で大当たりするらしいよ
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeの(silicon)サンプルはDreamworksで評価されてるようだが
ハワイのパチンコ当たった当たった
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeの(silicon)サンプルはDreamworksで評価されてるようだが
で、いつ出るのさ?
HD5870チップサイズ338mm2で2.6Tflopsらしいけど、Larrabeeどうなってるの?
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeの(silicon)サンプルはDreamworksで評価されてるようだが
>>96 500mm^2〜600mm^2で2Tflops??
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeの(silicon)サンプルはDreamworksで評価されてるようだが
え、LNIのバイトコードって公開されたの?
(´・ω・`)ぬるぽ
さ ぁ ふ る え る が い い
糞ダンゴ
IDFでのデモ疲労まであと10日!
103 :
Socket774:2009/09/14(月) 18:51:34 ID:Rnj1CaHV
いよいよ動くLarrabeeが見れるのか!!
ん?
>「Larrabee」などについての説明などについても行なうという。
>bee」などについての説明などについて
> 説 明
( ゚д゚ )
(´・ω・`)スモークチーズはあるかい?
もしかしてローンチさせた時にはもう開発環境が充実している、みたいな
状態を目指しているのかな。かなり慎重にことを進めているように見える
プロジェクト失敗の責任を取らされる形で
ゲルたんがクビってホント?
>>106 それはそうだ。ハードだけ出してソフト開発者に丸投げじゃCellとなにも変わらん
ハード出す機会を逸し続けてるのも確かだが
どこそこ開発環境の整備に手間取ってるのも確かだな
C++に限ればThreading Building Blocksみたいな成果物は出てきてはいるが
本命のCtはまだだし。
だが丸投げのAMDなんかよりは遙かにマシとはいえる
つまりインテルは本気じゃないという事ですね
糞ダンゴ
さ ぁ ふ る え る が い い
GT300の歩留まりが2%以下らしいな
これはつまりAMDにライバルがいなくなったと思っていい
GPU市場の蝋燭の火が消える
そのほんの一瞬の輝きに過ぎん
たしかに これで競争が無くなることによる性能upの期待は薄れたね
AMD一強になる可能性大
単なるお絵かき発熱器は
ベンチしか用が無いってことさ
発売がDX10からDX11必須な時期に延期になって
その対応をすべてソフト部隊が行うんだからどんなけ大変なんだろかと。
ハード実装されてるAtiNvのドライバ開発部隊だって数百人規模なのに・・・
ハード実装とおっしゃいますが
DX10以降、ほとんどはshaderで置き換えだよ
つまりは、DX9以前のありふれた機能であっても
プログラマがかかにゃならんの
>>118 テッセレーターやROPはハードウェア実装だろ?
それすらもソフトウェアで書かねばならないLarrabeeが
GPUに勝つためには製造プロセスで1世代先をいくか
ダイサイズを大きくして、できる限り演算ユニットに
トランジスタ数を割くかのどちらかしかない
3DCG以外の汎用並列処理ならLarrabeeを使うメリットが
あるだろうが、グラフィックに限っていえばLarrabeeが
GPUに勝てる見込みはないだろう
勝つ必要が無いもの
ATI,nvは所詮ベンチ専用
HW実装のテッセレータって必要なの?
ソフト実装だとどのくらいの性能上のコストになるとか定量的な比較ができないことには
どうとも言えない
西川いわくMS的にはもともとソフトでの実装を想定してたものらしいし
POWER7は帯域モンスターらしい。
Larrabeeは何とどんな太さで繋げられるかわからないことには
何に使えるのか判断できない
まったく…団子は嘘ばっかり言いすぎ
だからあんな顔になったりするんだよ
125 :
Socket774:2009/09/17(木) 18:53:45 ID:YkoJn40H
Larrabee has a host of bugs which prevented public showings of the Ax silicon.
That said, almost all problems are said to be fixed in the move from Ax to B0 silicon.
ちょ
http://pc11.2ch.net/test/read.cgi/jisaku/1245944113/2 2 :Socket774:2009/06/26(金) 00:46:41 ID:K0n9bRUo
FUDzilllaがソフトウェアサポートやドライバの遅れを報じてるけど、
これは真相を隠すための言い訳リーク情報で、
実際はファーストシリコンがまともに動作せず、開発チームは火の車状態。
テッセレータはDX10GPUとソフトエミュのデモで1fps以下のスピードを出せてたので
ソフトエミュでいいんじゃないのw
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
バグだらけでまともに動かないAxシリコンを、
Dreamworksはいったいどうやって評価していたのだろう。
殻割りしてキラキラしてて綺麗だな〜〜とか
そもそもソフト屋にとっては先にソフトのサイクルアキュレートなシミュレータさえ用意してもらえれば何とでもなるよ。
逆にそういったソフト開発ツールがないとエンジン開発もやりようがないし
先にチップだけ渡されてどうにかなるわけでもない
エンジニアリングサンプルが必要なのはハード設計屋。
>>128 そっか、団子はバグ取りで遊んでたのか
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
デケデケ | |
ドコドコ < ぽおおおぉぉぉぉぉぉぉ>
☆ ドムドム |_ _ _ _ _ _|
☆ ダダダダ! ∨ ∨ ∨ ∨ ∨ ∨
ドシャーン! ヽ オラオラッ!! ♪
=≡= ∧_∧ ☆
♪ / 〃(*‘ω‘ *) / シャンシャン
♪ 〆 ┌\と\と.ヾ∈≡∋ゞ
|| γ ⌒ヽヽコ ノ ||
|| ΣΣ .|:::|∪〓 || ♪
./|\人 _.ノノ _||_. /|\
ドチドチ!
134 :
Socket774:2009/09/20(日) 16:26:19 ID:99plnXPo
ttp://wlog.flatlib.jp/item/1392 Mobile GPU
>電力も面積も限られているモバイル向け GPU にとってバス帯域は大きな問題です。
>タイルベースで深度判定のみ先行し、最小限のフラグメントのみレンダリングする
>PowerVR と同じように、AMD もチップ内の少量かつ高速な RAM を用いたタイルベース
>レンダリングを行っているようです。この辺の工夫も非常に興味深いところです。
なんかデモのフレームレートめちゃくちゃ低くねぇ?
試作段階とは、お披露目で自慢のレイトレがこの程度
なら既存のラスタライゼーションでは、HD5xxxやGTX3xxには勝てない
Larrabeeって、なにを売りにするの?
日本語で
90MHzのFPGAのSaarCORでさえもっとスムーズに動いていたような…
レイキャストぐらいハードで実装すりゃいいのに
市場に出てないCPU持ってきて下駄履いてるのにそれか
N厨の火病りっぷりが面白いw
OpenCLより開発の多いCUDA、スペックが足りないララビー、蚊帳の外のAMD
CtならCTならなんとかしてくれる・・・。
団子さんはゲーム用グラフィックスプロセッサとしては興味ないんだっけ?
いや俺もないんだけど
151 :
Socket774:2009/09/24(木) 00:47:31 ID:w49PsoMK
1600コアの時代にたかだか4コアだの8コアだのいってるCPUを語ってる場合か
場合だよ。
Lynnはリリースされて、次の新石は年末のClarkdale/Arrandaleだからな。
その次は翌年H1のWestmere-EP。
Ctのベータテストだよ
156 :
Socket774:2009/09/24(木) 10:37:55 ID:miQ0oZWI
>>148 >最初のデモにしてはずいぶんと地味なデモだったような気がしなくもない
とかPCWatchの中の人も書いちゃってるぐらいだから危ないかもなー
>>156 SIMD演算器のエレメント数じゃないの?
その計算で行くとCore i7は4Way(128ビット)SIMD演算器×3だから48コアな。
>>157 CGだよ
仕事で建築パースとか作ってるが、本当に実写並みの出力が得られる。
これをリアルタイム描画できるなら、Larrabeeを使う意味はあるが
こないだのデモを見る限りでは11nm世代になるまで無理そうだな
1600コアはHD5870のSP数のことでしょ。
CPUは汎用処理目的(完全ブログラマブル)
GPUは固定処理目的(一部プログラマブル)
比べること自体ナンセンス
SP一個で1コアとかNvidiaがホントに言ってるんだぜw
>143
>>157 今もう映画でも、魔法やレーザービームみたいな特殊効果が
必要ないシーンでも、セット作ったりロケに行くよりもCGの方が安いと
見積もられたらCGで作ってしまう
そして3DCGよりも安いと見積もられたらマットペイントの一枚絵+AE処理で作っちゃう
ゲームに使うとか言ってるが普通に無茶だろう
そういえば新型PS3をリークしたニュースに来年PS4が出るみたいなこと書いてあった気がするが
まさか変態ハード好きのソニーが新ハードに積むんじゃねえだろうな
>>165 Cellの投資をPS3,PS4,PS5の複数世代で回収するために
スケーラブルアーキテクチャを採用したのだから
Cell拡張版以外使う気ないでしょ
22nm世代になったらPS4出すんじゃない?
サードはみんな任天堂のHD機に流れそうな予感がするけど
もうPS4はSandy Bridge + Larrabeeみたいなもんでいいよ。
それだとWindowsを入れられるけど、OtherOSのインストールが
できないならCPUに何を選んでもユーザーには大差ないね。
>>167 PS3以外の展開やってるのは東芝くらいなんだが・・・
単にLRBniで遊びたいなら、Haswell世代でミッドレンジ以下に統合されるわけで
北森やtechreportのコメント欄見ても終戦モードだな
もうダメポ
っつーか、並列度が高いでもないし小回りもきかない128ビットSIMD専用コアが
コア数だけ「スケール」してもあまり旨味はないと思うんだが。
プリファードスロットのみを使う似非スカラ演算の性能は頗る悪いし。
本物のスカラ演算ができて64ビットアドレッシングもでき、
ワイドだが柔軟なSIMD拡張を持つLarrabeeに比べて何が有利なんだよ?
4PPE+32SPEで単精度1TFLOPS(ピーク)になるようだが、45nmで400〜500mm²程度のダイサイズだぜ。
既にスケーラビリティの優位性がない。
つーか、Cellのスケーラビリティの根拠って、SPEはローカルメモリ形式でグローバルメモリとのアクセスもDMAだから
コヒーレント制御がないわけだが。
それって多くのデメリットも孕んでるわけで。コヒーレント制御なしで読み書きするだけならLRBniでも全てのSIMD命令で使えるし。
とりあえず、なんか勘違いしてるラデオソ信者が鬱陶しい
まあPrototype Libraryあたり読んだらLarrabeeの本質わかると思うんだが。
命令セットレベルで多倍長整数や高度なマトリクス演算にフォーカスしてる。
IntelはTOP500のシェア90%オーバーを目指さないと気が済まないようだ
GPUとして期待外れで結構だろ。
そもそもスパコン用途のニーズとして最低限必要な柔軟性を捨ててまでGPU(笑)を追求する必要がない。
>>175 >GPUとして期待外れで結構だろ
はい、団子から頂きました
>4PPE+32SPEで単精度1TFLOPS(ピーク)になるようだが、45nmで400〜500mm?xB2;程度のダイサイズだぜ。
マジか・・・90nmCellが1PPE+8SPEで235mm^2だからせいぜい300mm^2かと思ってた
>>177 http://pc.watch.impress.co.jp/docs/2008/0206/kaigai416.htm 45nmは1PPE+8SPEで115.46mm²
HPC向けのは倍精度ユニット強化分だけダイサイズが大きくなるから、これの4倍+α程度のダイサイズになると思う
つーか、その巨大Cellは、2009年登場予定だったのが未だに出てないんだが。
TOP500の最上位クラスはIBMの出方次第になる気がする。
もしCellに拘ってTOP500の1位を余所に取られるようなことになれば、政府からの発注も受けられなくなるからね。
んでもってIBMがソリューション屋としてLarrabeeを選択すれば全てが終わる希ガス。
おいおい、PS3のだから、倍精度強化版じゃないぞ?
リング間のインターコネクト回路も用意しないといけないし
減る要因より増える要因の方が多いぞ
>>177 300mm2で3TFLOPSの時代に
500mm2で1TFLOPSとかw
隙間だらけといっても、最適化して2割くらい小さくなったとしても、400mm2くらい。
300mm2にするには、最適化だけで3割以上小さくしないといけないから、
さすがにそれはないだろう。
> >つーか、その巨大Cellは、2009年登場予定だったのが未だに出てないんだが。
> 2010年後半だろ?
延期になったのか。
1モジュール当たりの価格で1 PPE + 8 eSPE版(8000ドル前後)の更に倍以上になるのは確実だろうな
LarrabeeがなくてもSandy Bridgeが出るからFLOPS当たり価格は更に下落するし
185 :
Socket774:2009/09/27(日) 22:39:23 ID:WToZSfyw
>>183 1エレメント5Way VLIWのうち3D処理でも実質3Way程度しか動いてない。
2D処理だと2Wayかそれ以下。
ピークFLOPS数と実効FLOPS数の乖離激しすぎ。
スパコンなんかに使えるわけがない。
>>185 アクセラレータだからそんなもんだよな。
Havok Clothを人形1体動かすのですらヒイヒイ言ってる程度のが
アーキの改良がないままコア数倍増した程度でどうにかなるわけがない。
流石に非GPU処理やらせたらCellの32コアのほうが実効性能は上だろう
GPGPU性能ではもうすでに追いつけないレベルになっちまったな・・・
190 :
Socket774:2009/09/28(月) 06:57:22 ID:E1AFoXSi
そうだね、ATIはきえるしかないなw
デモ地味すぎ
Transcript読んだがコード短くしたかった意図もあるだろこれ
GPUで書くと120行だけどLRBならC++を使えるからたったの25行なんだぜ?
まあ素敵!
ってどこの通販番組だ
193 :
Socket774:2009/09/28(月) 07:24:51 ID:wXQW5x+U
面白い面白い
期待外れ
Larrabeeは期待外れもいいとこw
団子、乙ww
なにを「期待」してたんだ?
それ期待じゃなくて「勘違い」だろ
GT300がなかなか出てこなくてイライラする気持ちはわかる
Sandy Bridgeのサイクルアキュレートシミュレータ面白すぎる。
>199
HD4kの時ATIが情報をひた隠しにしたようにnVもGT300で隠し続けてるんだと思う
ただ難産は事実で潤沢に出回るのは来年半ば位なんじゃないかと
時期を逸した商品になりそう
GT 212みたいな水子が既に出てるしな。
202 :
Socket774:2009/10/01(木) 05:33:45 ID:CkkrzygI
こりゃずいぶん変えてきたね。歩留まり大丈夫か?
今までララビーを馬鹿にしてきたゲフォ厨はマンセーに鞍替えしますか
これでGPUとして買うならATI一拓になった
>>205 俺は、CPUアクセラレータとしてららびーを応援してる。
ミドルのららびーが待ち遠しい。
そんな俺のGPUはれぃでぃおん4670たーぼ。
207 :
かーみーん:2009/10/01(木) 21:49:00 ID:68i9P2Bf
応援はいらないから20億$よこせ
地下王国換算で2万回ぐらい
ゲルたんは悪くない。むしろ被害者。
口八丁手八丁のLarry SeilerやTom Forsythに騙されただけ。
212 :
Socket774:2009/10/03(土) 15:51:37 ID:K9RcF7Or
>>210 L a r r a b e e 終 わ っ た な (藁
あらら、Larrabeeって結局大失敗に終わったのか
発売もしてないものを失敗と評するおかしい。だが、
バグ餅のAxシリコン世代ですらA6までリビジョン重ねてるから、
マスクコスト含めてどんだけ金かけてんのとは思う。
他社の金が入ってるIA64とは違い100%Intelの持ち出しだろうし。
ただし先月の組織再編で部門としての格は上がっている。
http://ja.wikipedia.org/wiki/Larrabee > Larrabeeの技術ベースとなっているのは、Intelが多額の資金を投入
> している技術研究プロジェクト「テラスケール・リサーチ」である。
> ちなみに、同社は今年第2四半期だけで調査・開発費用に
> 14億7,000万ドルを投資したが、この金額はライバルであるAMDの、
> 同四半期における売上高をも超えている。
そのWikipediaの書き方だと、テラスケール・リサーチに14億7000万ドル突っ込んでいるような
誤解を招きかねない文章だな。
14億7000万ドルって、その四半期のR&Dの全額。
毎四半期AMDの売上並みの額をR&Dに突っ込んでいる。
いいかげんもうちょっとくらいスリムになってもいいんじゃないのかねintelは
Larrabeeなんてどうせ出す出す詐欺でしょ
出す出す詐欺とは模型を発表することですね
Larrabeeはグラフィックをソフトウェアで処理するのなら
GPUではなくグラフィックアクセラレータと呼んだほうがいいのでは?
>>221 昔、GPUはそんな感じで呼ばれてたよね。
GPUって言い出したのってNvだっけ??
昔、グラフィックアクセラレータって言葉はむしろハードワイヤードを指していた
CPUのメモリ読み書きを使わずにVRAMに書き込むハードウェアがそう呼ばれた
CPUでフレームバッファ読み書きしてた時代への回帰だな
WindowsとかLinuxでGPUアクセラレータが効いてない状態だと全部画面描画をCPUでやるわけだが
その「CPU描画」に特化したのがLarrabee
乱暴に言ってしまえばね
Larrabeeの場合、1コア分が、1シェーダークラスタ相当みたいな感じでいいのかな?
できることの柔軟性は全然違うだろうけど
226 :
Socket774:2009/10/05(月) 11:38:08 ID:Mi7FxhjD
これはATi買収の準備を始めてると取っていいのか?
インテルが結構前に言ってたじゃん
「ウチのオンボが気に入らないんだったらラデでもつけてろ」って
ヤンデレ担当者に萌えたwww
231 :
Socket774:2009/10/08(木) 13:12:46 ID:6ixaHlGr
見えてきたSandy Bridgeと,見えてこないLarrabee。Intelのプロセッサロードマップアップデート
http://www.4gamer.net/games/098/G009883/20091007054/ > だがその一方,「標準グラフィックスインタフェースとしてのDirectXやOpenGL,
> OpenCLもサポートする」とは言われたものの,
> そのパフォーマンスは最後まで公開されなかった。
> Larrabeeの評価を開始しているベンダーの関係者によれば,
> 「現時点では一般的なGPUとして評価できる段階にない」そうだ。
> また,Sean Maloney(ショーン・マローニ)上級副社長も,
> 将来的にLarrabeeコアをCPUへ統合する計画に変わりはないとしつつも,
> いつ,どの市場へ投入するするかについては「いまは語れない」の一点張りである。
>
> 付け加えるなら,Larrabee計画の顔役ともいえる
> Patrick P. Gelsinger(パット・ゲルシンガー)上級副社長が,
> IDF 2009の直前にIntelを退職するという“事件”もあったが,
> それと関連してか,この数か月,業界内にはLarrabeeについて,
> 後ろ向きな情報が飛び交っている。
> なかには「IntelがLarrabee計画を中止する」といったものまで含まれていたほど。
> 「Larrabeeは,TSMCの40nm プロセスで製品化される見通し」
> という半導体業界筋の情報や,
> 「Gelsinger氏とともに,主要エンジニアもIntelを去った」という情報もある。
ワタ?
LarrabeeはCellGPUみたいに頓挫かw
節操がないなぁ
NVIDIAのほうがやばいだろ
Nvidia kills GTX285, GTX275, GTX260, abandons the mid and high end market
Full on retreat, can't compete with ATI
ttp://www.semiaccurate.com/2009/10/06/nvidia-kills-gtx285-gtx275-gtx260-abandons-mid-and-high-end-market/ 285は既にEOL、260は11or12月にEOL、275は2週間以内にEOL、295も終わりそう。
ハイエンド、ミドルレンジから脱落する。
Fermiの派生モデルはテープアウトすらしていないので、少なくとも2Qは掛かる。
Fermiはダイサイズあたりの性能が低く派生モデルを作ってもフルラインナップで価格競争力で劣る。
ハンダの欠陥問題、G212の失敗、G214の大失敗、G215の遅延、G216とG218の壊れたGDDR5コントローラ。
救世主となるチップはない、プランBはない、全て失敗した。
赤字販売を続けるか、撤退して少ない赤字を出すかしかない。
資金が尽きる前に開発の問題を修正し競争力のある製品を出せるかが問題。
1月にはローエンドからも脱落する。
Nvidiaは全てのパートナーから憎まれており助けてくれるパートナーはいない。
Nvidiaに必要なのは経営陣の総入れ替えだが、その出て行くべき奴らは株主なので起こりそうもない。
ゲームオーバー。
ジェンセンは年俸1ドルでも貰い過ぎである。
--------------------
GT300がコケるなら対抗製品であるLarrabeeの製品化を急ぐ必要はなくなる。
AMDが弱ってるからLGA1366のライン縮小するのと同じ原理でね。
nvidiaが弱ってるから余裕かましてるのか、larrabeeが順調じゃないからGT300もそれにあわせてるのか
どっちもありそうだな
まぁ、外野がどこが勝った負けただと下世話に騒ぐのとは関係なく、
どの現場も技術的に物凄く難しいことに直面し挑戦してるってこったね。
ララもFermiも諦めないで世に出てきてほしいもんだ。
ライターが「業界筋が〜」って書くときは、金握らされてFUDを書いてるときの常套句だけどな
Larrabeeの不安煽って得する陣営って、どこかわかったようなもんだろ。
利益だせるゲームの要求スペックは相対的にローエンドに下がってきてるし
IntelはあのGMAで労せずしてGPUの覇権を得ようとしてるわけで、
ダイサイズの割に単価の安いディスクリート市場なんて
討つべき相手がいなくなれば効率の悪い投資でしかない。
「GMAの性能が気に入らないならRadeonでも刺してろ」ってIntelの本心だろ。
出る前からわかりきってることだがGPGPU要素の薄い従来GPUの延長としてなら
LarrabeeよりRadeonのほうが優秀だ。
CPU市場を脅かそうとしたNVIDIAが自滅するなら、ディスクリート版Larrabee
という巨大な防波堤は無駄な投資に終わる。
アクセラレータプロセッサを売ろうとしても、HPCや
動画エンコード専用じゃぁ市場が狭すぎて売れる価格で出せない。
↓
ミドル〜ハイエンドGPU機能をおまけに付けてやれば、たくさん出るから
安く出来るぞ。GPU -> Teslaの逆をやればいいじゃまいか。
↓
そもそもディスクリートGPUの市場がどんどん無くなってきたお ←今ここ
↓
しょうがないCPUコアに統合するか、2014〜2015年位まで待って。またね〜
238 :
Socket774:2009/10/08(木) 16:19:20 ID:6ixaHlGr
保守的な人間がなんと多いことw
>>236 主要エンジニアが会社を去ったら必ずニュースになるからな
公式からもそのエンジニアの情報が削除されるし
やれやれFermiが難産とわかったらレスが付かなくなったな
ワロスw
242 :
Socket774:2009/10/13(火) 10:54:04 ID:Z2yHuX/g
>Intel knows that the future of the company is at stake
ハイハイFUD乙
>>243 その文だけだと、検索した感じでは、インテルの命運を分ける。じゃないか??
投機屋にとっては短期で利益の出せない開発計画なんて
不満の種でしかないからな。
圧倒的黒字出してても前年同期比で利益落ちたら即株価に跳ね返る。
その点、信心深い(が金は無い)信者達に万々歳され続ける某企業は
たとえ倒産リスクのある企業にリストアップされてても
ある意味お目出度いやら何やら。
Fermiって劣化Larrabeeだろ。
どこそこ性能ネックだぞこれ
いいからLarrabee出せよ
いいからモックアップ出せよ
Intel knows that they've completely messed up with the current generation
and the company decided to trash away the part of current design
and re-design the SIMD units from ground up.
This means the current diagrams featuring 16-wide SIMD unit are out the door,
because that design doesn't work.
Newly designed SIMD units will still probably be 16-wide and take AVX instructions,
but it will be GPU-like and not CPU-like.
251 :
Socket774:2009/10/14(水) 06:27:17 ID:g43xzJRl
まlarrabeeのデモもモックだけどな
PenD同様
>>251 いつものコテハン忘れてるぞ
,,,
( ゚д゚)つ┃
(・´ω`・)
FermiとLarrabeeでベイパー合戦てかw
前に聞いたB0シリコンが8/15にテープアウトという噂が本当なら
来年半ばに出る機会が高い
ただし、製品化するのはB0とは限らない
一回の仕様変更ならさらに三か月追加とすると2010に出したいならせいぜいあと三回...
うーん、たぶん来年半ばくらいに思っておいて正解だと思うよ。
実物見たことないけど。HD68xxは間に合わないでしょう。
でも俺はx86万能みたいな宗教は進化の弊害にしかならんと思うし、
HPCに関してはMagny-CoursとFermi直結したほうが速いと思う。
>>255 CPUに取り込むのが前提だからx86なんだよ
逐次+並列の異種混合のほうが速いって。恐らく。
インオーダーのPentiumを掻き集めてもなぁ……という気が。
レイトレは得意だろうけど。
x86みたいなフォーマットだからこそメモリアドレッシングを直列化してパイプライン実行できるんだが。
インオーダのx86であるAtomにすらスカラ性能で勝てるRISCは少ないのが事実
(ちなみに命令帯域/clkはP5よりAtomのほうが狭いです)
ちなみに最近鼻息粗くしてるCortex-A9はアウトオブオーダ
>逐次+並列の異種混合のほうが速いって。恐らく。
その「逐次+並列の異種混合」をオンダイで実現してるのがLarrabeeな。
同じ512SP相当ならFLOPS数はLarrabeeのほうがFermiより稼げる。
ピーク・実効値ともにね。
Fermiのホワイトペーパー読めばどこそこ駄目仕様なのがわかる
260 :
Socket774:2009/10/15(木) 00:54:20 ID:rkKfNFR3
>>257 > 逐次+並列
コアごとに16wideものベクトルユニット積んでるララビがまさにそれじゃね?
革新的なアーキテクチャを目指していたが開発は
遅れに遅れ製品化される頃には着実に改良を
重ねてきた競合に太刀打ちできなくなったでござるの巻
Fermiがな。
512SPで倍精度650GFLOPSだ!
しかしLarrabeeも512SP相当で少なくとも800GFLOPSオーバーだ!
低消費電力で勝つる?
そりゃあのエンジニアリングサンプル(笑)に電源供給できないからなww
レイトレなんてそれこそGPUの方が得意な処理だよ
index * scale + base + dispのメモリアドレッシングだけでだいぶオペレーション密度稼いでるんだよね。
本当の意味でGPUの並列度とx86のスカラの利点がFusionしてる。
FermiはSPあたりのロード・ストア命令の最大発行回数がGT200の半分に落ちてるんだぜ。
FLOPS数弾き出す以前に、データ供給がネック。仕様からしておhル
>>263 そーでもない。
演算ユニットのスループットは勿論必要だが、より効率を上げるためには
レイトレース結果を再利用するための読み書き両対応でそこそこの容量のキャッシュが必要。
しかしFermiのL2キャッシュはたったの768KB!Larrabee(8MB)の10分の1。
帯域が十分あるわけでもない。
てか、確保したらしたでメモリ帯域分だけでTDP300Wオーバーになるだろ。
キャッシュのほうが電力的に優しい。
>>264 >index * scale + base + dispのメモリアドレッシング
しがらみのない新規プロセッサこそ、↑のパイプライン化をもっとスマートに
やってもよさそうなもんだが、どこもやろうとしないのは何でじゃろ?
存外どうしようもない(クダラナイ)理由のような気もするが。
Larrabee RAM間のバンド幅はいつ公開されるん
268 :
Socket774:2009/10/15(木) 01:42:28 ID:zLyfGi2G
そんなにハードル上げまくってどうするw
Larrabeeの場合、どれくらい狭い外部帯域幅でくるのかが楽しみ
キャッシュを大きめに取ってタイルレンダに特化したぶん、外部帯域は相対的に広く取る必要がないからね。
それだけでTDP節約でき、クロックに振る余裕が出来る。
FermiのTDPの半分はGDDR5でできています
ってのは笑えない冗談。
早かれ遅かれGPUはタイルレンダに移行する。中の人自身がそういってるし。
NVIDIAもまた先延ばしにしてるだけにすぎない。
NVIDIAのGPUが載っかるゲーム機って勝てない法則があるよね
>>268 逆にFermiの明らかな低スペックが暴かれた今、どこまでIntelが手抜きしてくるか心配でならない
だってこうだろ
1.HPCにおけるCUDA&Cell除け
2.IGP版Larrabeeのテスト
3.ひょっとしたらGPUとしても案外売れるんじゃね?
自称パラノイアのIntelにとって最大の戦略目標は言うまでもなく1。
Xeonで得たHPC市場のシェアを脅かす存在の排除。
あとはそれほど優先度高くはない。
ちなみにRadeonは最初から敵ではない。敢えて言えばNVIDIA潰しという点で利害関係が一致してる。
必死だなw
samsungのGDDR乗ってるVGAは買う気が起きない。
いや、使う気が起きない。
>>275 本当に多少の誤差でしかないな
同じメモリなら結局帯域比例には違いないし
GPUダイ側のインターフェイスや冷却ファンも考慮すると
実質これより遙かに食ってるわけで
将来性のない設計なのは違いない。
FermiのL2はVictim Cache?
スクラッチパッドをL1に最大まで割り当てた場合ダイ全体で48KB×16=768KB
InclusiveだとL2の意味が殆どなくなる。
どっちにしてもHPCには少なすぎるが。
陰影焼きこんだテクスチャで第一印象だけは誤魔化せるから
見た目しょぼいほうがかえってレイトレの効果がわかりやすい。
レイトレだけでリアルタイム描画できるのが現世代でそこまでって
言ってしまえばそうなんだが。
あとはLarrabeeでもやったようなリアルタイムの水面表現だな。
Nが自信があるなら同じようなデモでぶつけてくるんだろうが。
レイトレがリアルタイム描画勝負でラスタライズの描画クオリティを上回れるのって
ハード性能的にもまだ数世代掛かりそうな感じ。
どっちにしろ家庭用ゲーム機が対応しないと始まらないけど。
一足飛びにレイトレは無いと思うのだけどなァ
まずはタイルレンダに移行してラスタライズにおける帯域・演算のムダを
徹底的に取り除いていかないと
レイトレってのは結局光の物理処理なんだよ
GPUがグラフィックプロセッサとして効率がよかったのはほぼ全部固定機能でやってた一昔前までの話で
中途半端にソフト化してからクソ化した
VRAMのメモリレイテンシが長い
↓
同時稼働スレッド数を増やすしかない
↓
スレッドあたりのローカルレジスタ/メモリの割当てが少ない
↓
メインメモリに待避するしかない
↓ ↓
(最初に戻る) VRAM帯域が必要
↓
増やしたら電力馬鹿食い
↓
先がない←今ここ
キャッシュ増量してタイルレンダすればスレッド数そんなに増やさなくても低レイテンシにできる。
最近言い出したビア貫通+EDRAMだのは結局はタイルレンダ移行前提の方策。
ソフト化(シェーダ化)ってのも、見た目維持しつつVRAM帯域の削減を目的としたものだったのだけど、
結局シェーダが食ったり吐いたりするデータ量が際限無く増えるハメになっちゃってる
全然プロシージャルな脳ミソになれてないんだよなーゲームプログラマどもが
それに付き合い続けちゃってるVGAメーカーとMS…
VRAM帯域の増減が、あまりにもリニアでクリティカルにゲームの
FPS増減に直結する現状は本当に嘆かわしい
GeForceに特化した美麗なグラフィックのFPS出そうとして
結局出て来たのがテクスチャデータだけで十数GBのCrysisという化け物ソフト
結局この流れは不幸なんだよね。
テクスチャ作るのだってコストだし、物量に物言わせた力技で押し切るループから抜け出さないと
まあ、そのために物理演算強化してプロシージャル生成したいとか言ってるわけなんだが。
つーか、専門卒主体の日本のゲームプログラマは高等数学使いこなすような向きじゃないから
どういう風向きになっても余り有利じゃないと思うんだが
DSみたいな限られたスペックで箱庭ゲームを作るのが一番向いてるって話になる。
団子さんは本当にLarrabeeが好きなんだな。
俺も以前は期待してたけど、自分の研究でCPUとGPUの実力差が
身に染みてしまって、今ではFermi待ち焦がれ中です。
Larraさんは排熱だけ気をつけてやってください。
Merced、口に出すだけでも嬉しかったあの頃。
>>290 うーん、俺も最初はピーク浮動小数演算性能でもFermiはLarrabeeを超えると思ってたんだけど
白書出てきた時点で無理だとわかった。
x86の命令フォーマットは複数のオペレーションを串刺しでパッキングし
パイプラインで直列実行することを容易にしている。
敢えて言うが、Larrabeeはx86のコード資産のためではなくパフォーマンスのためにx86である必要があるんだよ。
そこらに蔓延るRISC信者に騙されてはいけない。
POWERがどうだ。Core MAに歯が立たなくてIPC重視のPPC970を放棄し、
電力効率かなぐり捨てて高クロックでぶんまわすというNetBurstにも似た暴挙
末期ントッシュだよ。
GeForceのシェーダはネイティブコードがSIMDのRISCベースISAなんだが
命令供給数が2つと決まっててオペレーション数を稼げないのが現実。
この辺が実効性能で更にLarrabeeに負けると断言する理由
机上シミュレーションはやってみてる
あー、汎用演算じゃなくてGPUのほうのスペックとしてはどうかはわからんよ。
パラダイムそのものが変わらない限りGPUとしてはRadeon1択じゃないの
そのパラダイムを牛耳っているのが、DirectXというAPI
PowerVRは、1も2もこのAPIに蹂躙された
タイルレンダリングには専用のグラAPIがどうしたって必要…ん、嫌な思い出が走馬灯のように
Larrabeeも32コアではFermiと同じ512SP相当なんで、単純にクロック出た方が勝つ。
あとさ、
>>290 Fermiが予定よりメモリ帯域妥協したのはその辺で天井(300W制限)にぶつかったってことだから
まあ消費電力はLarrabeeより高くなることは覚悟したほうがいいよ。
何度も蹂躙されることを恐れずにパラダイムシフトが起きるまで投資し続けられるだけの
体力がある企業なんて現実的にはIntelしかないんじゃないの?
んでIntelは実際具体的に何やってるかというと、並列化支援ライブラリ開発してる企業を買収しまくってるようだが。
有名どころだとRapidMindとか
297 :
Socket774:2009/10/16(金) 00:34:10 ID:7OF5t5B7
>>294 実質的にDirectXは主導権握った会社が仕様を決定する感じだしな。
9.0cあたりまではNV主導で動いてきた気がする
Xbox360での採用を機に10.1あたりでからATI主導
というよりNVIDIAがついてきてない
まあLarrabeeを「強制的に」普及させればAPI戦争も勝機はあるんじゃね。
それがIntelに可能なのはGMAが証明している。
そこそこのサイズにカットダウンしてCPUに統合する。
実際出来るようになるのがHaswell世代以降なんだろうけど
もしLarrabeeをDXの想定する標準ハードウェアにするなら、
DirectX 9から10よりも大きな不連続は間違いないし、
nvもATIも付いてこないだろうから実質LRB専用APIになるだろう。
NSPの二の舞にならなければいいけどね。
「IntelのSIMD拡張」という連続性がある。
1024ビットのSIMDまで想定したフレキシブルなレジスタ待避命令(XSAVE)を導入してるから
Windows7以降はMSの都合関係なしにIntelの都合でどうにでもSIMD拡張できる
DirectXがだんだかハードウェアを抽象化する方向性にきてるから
ATi、nV主導のAPIでもLarrabeeが生かせるようになったりしないのかな
共通フレームワークと言っても各アーキテクチャ向け最適化はなんだかんだで個別対応だからな
NVIDIAはゲームデベロッパーにあまり開発支援しなくなった
ATIが埋め合わせる形で支援して人気伸ばしてる。
ゲーム性能を欲するユーザーがついてきてないのにGPGPUにかまけてたNVIDIAの自業自得
まあDirectXもVLIWアレイプロセッサとSIMD型RISCプロセッサで同じように動く程度には抽象化されてる。
グラフィックパイプラインはあくまで抽象化されたもので、ステージ間のデータの受け渡し方すら
定義されていない。
極論Larrabeeの場合ジオメトリシェーディング→ラスタライズ→ピクセルシェーディングの処理を
同じ命令ストリームで同じレジスタ使って連続でやってもいいわけ。
NVIDIAの1ゲーム1ドライバみたいな馬鹿馬鹿しい開発サポートがありならIntelは何でもありだな
最終的に同一の画像がレンダリングされている、それが担保されていれば良い
描画途中のステート、バッファ等は一切ユーザープログラムから参照不可
そういう完全抽象化3DAPIが理想なのにね
ハード側のアーキがAPIに縛られすぎてつまらんわ
っていうかね
DirectXそのものは基本的なAPIのみで、それでいきなりゲーム作り始めるデベロッパーは
今時あんまりいないでしょ
1枚か2枚か噛ませたゲームエンジンをベースに作るでしょ。
PS3とかMacとかの非DirectX環境でも動くようにしようと思えばそうするでしょ。
結局ゲームエンジン屋に対し、Larrabeeでの動作時にDirectXと並行して
Larrabeeネイティブ命令を旨く使ってくれるように支援することが大事なのでは?
まあ固定機能に縛られずにエンジン書きたい開発者の心をがっちり掴むことだね。
で、来年中には出るのか?
なんでAPIとしてDirectXに拘るのかわからん。
OpenGLでいいだろうに。
ATIとNVIDIAで別々に拡張して互換性がないから。
IPPの拡張とかでごまかすんじゃね?グラフィックも含めて。
将来OpenCLがOpenGLを包含するとか言ってるけど、
ちょっと無理なのでは?
DirectX compute shaderは制限の緩和されたPixel Shaderのような設計で、
Direct3Dに良くなじんでいる。逆に言うとサーバ環境では使えないとか
Direct3Dの基礎知識無いとマニュアル読んでもちんぷんかんぷんだとか
制限はあるけど、主にデスクトップのグラフィック加工用(第二Pixel Shader)
として割り切ってる。何というか、方向性が違うから対立するものじゃないし
ゲーム用途ならDirect3Dでいいじゃん、と思う。
「Windows限定」ならな
ハードに縛られるかOSに縛られるかで、結局画一的な方法がないんだよ
>>313 スライドにあるtexture logic じゃないfixed function て中身まだ不明?
315 :
Socket774:2009/10/16(金) 15:10:47 ID:hlVVOAN6
よっしあああああFerimi脂肪おおおおおおおおおおおおおおお!!!
レガシーGPU機能を捨てられないまま中途半端にHPCに振ったNVIDIAと
そもそもGPU機能に関してしがらみが無いので汎用に振ったIntel
317 :
Socket774:2009/10/16(金) 16:10:10 ID:go1RpYLW
性能データってなによ?
Intelが米国のメイヨー病院と共同で開発したメディカル用のアプリケーションを利用したLarrabeeの性能データ、
とあるからCTスキャンのボクセルデータじゃないかな。
フーリエ解析?FFT勝負?
Larrabeeは、”GPU”ではない。
インテルは、新しい概念の呼称を与えるべきだ。
名付けることによって、新たな製品カテゴリーが明確化される。
明日!wktk!!!
fixed function=固定機能
>レガシーGPU機能を捨てられないまま中途半端にHPCに振ったNVIDIAと
>そもそもGPU機能に関してしがらみが無いので汎用に振ったIntel
??
さぁw
CPUのノウハウがないNVIDIAがGP路線を突き進めたところでカスしか生み出されないな
だからそのテクスチャユニット以外に固定機能が在る絵になってるんだろ
上のプレゼンはよw
Power Control Unit
w
あなたこそ、誤答記事をよく読んだら良いんじゃない
Larrabeeパイプラインの最大の特徴は、固定ハードウェア(Fixed Function Hardware)をできる限り排除し、
^^^^^^^^^^^^^^^^^
ほぼフルプログラマブルなプロセッサを作り上げたことだ
^^^^^
GPU特有の固定機能がTMU以外にあるなんて誰も言ってない
www
各コア組み込みのStructure Converterも従来x86にはない
ある意味ではGPUのための固定機能だしな
へーw
電力管理ユニットはfixed functionですか?
バナナはおやつですか?
>>313 GTX280じゃなくてTeslaと比較すればいいのに
Teslaって逆に固定機能ユニットが死んだダイの再利用なんじゃないかと思えてきた
larrabeeに固定機能はない!!w
>>314 LarrabeeのFixed Function LogicはTexture Filter LogicだけだとSIGGRAPH2008の論文に書いてある
そのスライドは2006年辺りから使いまわしてるから、当時はHD decoderとかも検討してたのかもな〜
約束の朝が来たというのに公表はまだなのか
341 :
Socket774:2009/10/17(土) 07:33:31 ID:WOYbKCgb
64coreとな
>>341 ・まだシミュレーターでの見積もり ただしcycle accurateなので大嘘ではないかも
・転送がボトルネック。両側で圧縮展開すればはやい、と主張
・そもそもLarrabee向きアルゴリズムの提案とセット。
HPCでの頻出するよく知られた課題のテストは避けている?
GTX280と余り変わらないってどういう事?
ほぼCONCLUSIONSだけ読んだ
・Larrabeeのパフォーマンスは高精度のシミュレーターによるもの。
・動作クロックは1GHzで16, 32, 64コアでシミュレーションしている。
・16コア@1GHzのLarrabeeでGTX 280より平均1.5倍速く、シングルコアのHarpertownの10倍速い。
・32コアと64コアではCPU-Larrabee間でのデータ転送がボトルネックになる。
もし、このデータ転送のコストが0ならば32コアでは(CPUの)24倍速くなり、64コアでは42倍速くなる。
・しかしこのボトルネックを放置すると32コアでも64コアでも11倍しか速くならない。
・この問題を解決するためにデータセットを可逆圧縮するSIMDと親和性の高いアルゴリズムを実装した。
これによってデータを三分の一以下に圧縮できる。また、解凍のオーバーヘッドも30パーセント未満である。
・データセットの圧縮によって転送に要する時間を平均して20-30パーセントに削減した。
・それによって、32コアでは19倍性能が向上、64コアでは31倍性能が向上するという実験結果が得られた。
>16コア@1GHzのLarrabeeでGTX 280より平均1.5倍速く〜
ちょっと正確じゃなかった。正しくはこう。
16コア@1GHzのLarrabeeは理論演算性能がGTX 280の半分だが、それでもGTX 280より平均1.5倍速く〜
> ・この問題を解決するためにデータセットを可逆圧縮するSIMDと親和性の高いアルゴリズムを実装した。
> これによってデータを三分の一以下に圧縮できる。また、解凍のオーバーヘッドも30パーセント未満である。
まさかのgzip転送・・・
どこのUNIX板コピペだよって思ったけど、割とSIMDと相性良いんだね
349 :
Socket774:2009/10/17(土) 11:21:23 ID:6Td23772
>algolithm ZLIB
ほんとだGZIP転送だw
「ウリのFermiにもgzipデコード専用ロジックを搭載するニダ!」
351 :
Socket774:2009/10/17(土) 11:26:43 ID:aImjh/H4
GZIPは画像データの圧縮に使ってるみたいだな
ロスレスJPEGとの比較に言及してるから
>>350 604 :Socket774 [sage] :2009/10/15(木) 15:27:58 ID:fjojjPvn
東洋人の顔が全部韓国人に見える病気か・・・カワイソウに・・・
ジェン・スン・フアンは台湾出身なのに。
>>352 ごめん社長はどうでもいいんだ
俺脳内用語でNVIDIAの短縮形がNIDA
>>348 元気出せよ、ほらまだ自慢のFなんとかが今年中に出るんだろ?
ララビなんか蹴散らせるって!
>>349 ってことはデータセット転送部分はGPLかw
よく読むと
私達の圧縮アルゴリズムを一般的に使われるZLIBと比べると…
って書いてあるから、ZLIBはあくまでも比較対照じゃね?
>>355 んなこたない。MSがPNG使えなくなるじゃん。
zlibはzlib licenceという比較的緩いオープンソースライセンス
やっぱり「俺らの圧縮アルゴリズムはZLIBよりSIMDと親和性が高くていいぜ」
って話になってるな。どんなアルゴリズムか知らんが。
固定長の圧縮アルゴリズムとしか分からん
まあSIMD特化のDeflate実装と思われるんだが
GPGPUにおいてPCIeがボトルネックってずっと前から言われてたことだし。
これのポータブルな実装作ったら流行るんじゃね?
まあRadeonだのGeForceだののシェーダがx86そのものなLarrabeeほどの柔軟性があるとは思えんが
うんうん、柔軟性が大事だから
Nehalem−SandyBridge−IvyBridge−Haswell−ソフランS
使うことにするわ
シミュレーターがあるのに、GPUとしての性能も公開しないし、
HPC分野でよくある課題の処理能力も公開しない。
そういうものから逃げてるように見えて印象はよくないのう、今の所は
もうそういうところにしか希望が見出せないのかな?
今回のはコマーシャルペーパーではないよ。
それに医療向けは長年狙ってきた分野。
今回のは商業イベントではなくIEEEという権威ある学会だからね。
1年以上仕込んだ「研究論文」だ。
>341の内容はIntelの内輪以外が追試可能なのかな
不能だとしたらそれは学術論文とは言えなんだが
「僕の考えた最強のCPU」の性能評価系の論文はいくつか読んだことがあるが
シミュレータのソースが公開されてるものは見たことがない
まあ、圧縮アルゴリズムにしても、商品として売れる物をみすみす無償公開するとは思えんが。
電書鳩飛ばして聞いてみろよ。
601 :,,・´∀`・,,)っ-●◎○ [sage] :2009/02/06(金) 07:50:39 ID:36Q+eCpY
もうLarrabeeのサンプルはDreamworksで評価されてるようだが
そうだよ。サンプル的なサイクルアキュレートシミュレータだよ。
今すぐには無理でもいずれ検証できればいいという基準で査読通してるのかね。
まあ査読者の編成にも営利企業の人間が多数いるだろうし
自分の側が投稿する時のことを考えたら
検証不能なpaperは通さないなんて厳格な態度は取れないのかもね
サンプル=物理的なダイとか浅はかな思い込みだな。
物理的なダイがないとソフト開発できないなんてのはまともなシミュレータが貰えない弱小ベンダーの詭弁
んで、LRB SDKっていわれるものは機密保持契約を結んだゲームエンジン屋やレンダラ屋に先行評価版が
提供されているのは2008年時点の話。
まあ例の「アレ」はちょっとライセンス緩いから俺でもアクセスできるわけだが
Core MAみたいなアウトオブオーダなCPUまで正確に所要サイクル吐き出すからびっくりする
>>370 NVIDIAの役員がスタンフォードの教授という立場利用してLarrabeeの悪口言うくらいだから始末に困る。
アメリカには科学研究費補助金みたいな制度がないから原則企業の都合で成り立ってる。
アメリカの学会に日本ほどのクリーンさはない。
ム板からきますた
NVIDIA終了記念パピコ
サンプルシリコンはよく聞くけど、サンプルシミュレータなんて一般的じゃないな
Larrabee?中止でしょ
今日発表のデータって出てる??
あっちはまだ16日だったりする???
出てるけどインテル必死だなwwww
しか書いてない。
>>377 なんじゃそりゃ〜!!
和訳でるなら見たいとこだな。
なまえを C'est la vieに変えちまえ〜
シミュレーターのベンチ結果ってハードウェアが理想通りの動作をした場合の値なんでしょ?
現在それが出来るサンプルハードウェアは存在するのですかね。
まあ、しないからシミュレーターなんでしょうけど。
なんだかNvidiaとIntelが「僕が考えた最強のプロセッサー」対決をしているだけにみえるのは気のせいかな。
何時になったら実機を使ったデモやベンチマークが出てくるんだろうか。
Intelのはキャッシュミスやページフォルトまでシミュレーションできるぞ
完全にシミュレートできるなら、どの製品でもバグは無いんじゃないかな
だからシミュレートなんだよね
シミュレートを否定したらGPGPUの使い道が(ry
曲がりなりにもIDFでデモをしたのに性能評価は実測じゃなくシミュレートっていうのが残念な感じ
現状のサンプルじゃまともな評価も出来んってことでしょ
んあ?
圧縮アルゴリズムの開発から1週間や2週間で書けるレベルの論文だとでも思ってるのか?
というより常識的に考えれば論文はIDFより前に提出してる
まず査読があって、通ったものが大々的に発表される
そもそも今回の論文の意図する所はなんだと思う
圧縮フォーマットの動的展開は効率が悪いと思われてるが帯域をセーブする上で有用であることが示された。
これは、x86の複雑だが命令密度の高い命令セットの底力に対するアナグラムにもなっている。
日付から考えてIEEE VisWeek 2009 のプレゼンターの原稿締め切りは
IDFより前なんじゃないの
アナグラムって あん時の匂い → アントニオ猪木
みたいなやつか?
アナロジー言いたかったちゃうん?
そうとも言う(キリッ
だってさ、HPCの用途ってシミュレーションばっかだぞ
ウェハが公開されたのが4月だから9月のデモがファーストシリコンってわけじゃないだろ
時間が無いと言うことはない
それでも実働チップが使えないんだからバグが多すぎたか
あるいは噂にあるように多少の設計変更が行われたか
少なくとも順調では無いように見えるね
ハードウェアをシミュレートして、ベンチマークをシミュレートするか・・・w
Dreamworksとやらには大金払って評価してもらってるのか?
顧客がシミュレーターで評価とかやらんような気がする。
まあL2キャッシュのチューンなんかは最後まで解らんね
それでも多くとも±1割以内には誤差を抑えてくるのがプロだが
というか今回の結果は誤差を補正して覆せるレベルの差じゃないことくらいわかるだろう
>>395 もともとOpteronクラスタでCG作ってた会社だけどクソさ加減に失望してIntelに乗り換えた。
以降IntelはここのCG映画のスポンサーでエンジン開発の技術協力もしてる
>>397 なるほどデータセンター一棟、ビルワンフロア、開発人員さらに大金ぐらい出してるのか。
IntelはCore MAも含めてCPUのシミュレータを作ってる
てかVTuneの技術転用だからお手の物だが。
中の人に「Larrabeeスゲー」と言わしめたのも
そもそもIntelのシミュレータの精度の高さの実績があってこそのもの
つーか実物が出荷されるまでソフト開発が出来ないなんてのは
競合他社に遅れを取ることになるから
開発ツールとシミュレータの先行配布なんてのは親密なパートナーなら当たり前
>>401 たしか45nmのHarpertownの頃。
レイトレはSIMD性能とキャッシュ容量がきくからね。
あの頃から大きく引き離してたでしょ。
親密なパートナー・・・
今回特定のパートナーだけでなく、公の場にベンチ性能を出したのが全部ハードも含めシミュレートだった
NVIDIAは粗雑な作りのモックアップを出すことで株価にどう影響するかの経営シミュレートが必要だな
Intel 740みたいにならんことを祈るばかり(-人-)
Larrabeeは単純なメニーコアとしても使えるんだろうし
FusionとかFermiはCellの二の舞になるかな
Intelとてあんまり性能良いのを安く出してXeonの6コアとか8コアを注目しなくなったらそれはそれで
経営戦略ミスなわけだが。
>>406 そりゃ無理だわいまさらPen3クラスのコアとかw
しかもSIMDユニットに互換性無いだろ。
演算性能でfermi圧倒してGPU性能で僅差まで詰めないとポシャるがな。
>そりゃ無理だわいまさらPen3クラスのコアとかw
はいダウト
>>409 pen4クラスでも同じコア増やしても効率が下がり続けるだけ。
LNBを含めて成功しないと意味なし。
はい、妄想もう一つ入りました
じゃあpen3 500コアのCPU発売していてくださいね。
初代「Pentium」のパイプラインが土台なんだがwww
わずか550万トランジスタで当時ウン百万のRISCマシンの性能に迫った傑作
個人的興味はエンコ一択
GPGPUやSpursは質が悪いから
intelは基本買わんことにしてるが
もし速度もワットパフォも二倍とか言われたらさすがに
買わざるを得んわ
>>413 ああそうだったねインオーダーだね。単なる勘違い。
CPUは3年前から3年後まで進化なし頭打ち。
2012年にDual GPU cardPCの割合が50%。
2015年 nvidia GPU は5000SPへ
さあどうなるか
そんなあからさまに話題逸らさなくていいですよ(-人-)
500mm²使ってもシェーダ部分の面積は1/3とかそんなん(←CUDAとして使えるのはあくまでこの部分)
これでピーク性能ならまだしも実効性能で勝とうなど甘い
>>418 ROPの部分ぐらいしか違いはないでしょ。
ROPはコア面積の1割程度っぽいが。
失礼、550万はPentium Proだな
P54Cは310万
ビット演算もハードウェアで積んでるし
インテルが論文で出したようなことは既に解決済みのにほい。
> ビット演算もハードウェアで積んでるし
AND NOT OR XORならG80時代からあったぞ馬鹿め
>>421 テクスチャユニットはララビもあるでしょ。
ララビもL2で埋め尽くされ点じゃないですか。
L2は有用だろ。VRAMに何度も読んで書いてやるのはトラフィックと電力の無駄
特に汎用演算においてはな
スループットコンピューティングと逆の考えですな。
過去の遺産にトランジスタと大量に裂くのはどうなんですかな。
まあL2の話を除いてもGPUとして使う以上ROP以外はnvidiaとかわらんしょ。
>>423 マスクじゃなくてね追加されてるから調べてみてね。
は?
グローバルメモリの帯域増加はピン増加とともに消費電力の増加に直結し性能向上の阻害要因になりつつあるから
ローカルメモリを増やして伝送コストを削減しするのが今のスループットコンピューティングのトレンドだぞ。
NVIDIA自身のトップが言ってるんだ。
しかし理想とは裏腹にFermiにいたってもVRAM帯域依存の時代遅れのアーキで頑張ってるわけだが。
GPUのしがらみで汎用コンピューティング性能向上が阻害されてるんだよ
それともx86デコーダのことか?
最近はx86のフォーマットは命令の密度が高いベターVLIWとして見直されてるのに
未だにクソだクソとわめき散らすアホがいる。
Larrabee用に更にアドレッシングモードを強化され命令密度を更に増している。
>>427 まさか要素毎プレディケートのこと言ってるのか?
なんつーか、何でそんな今更・・・
今までのスループットコンピューティングが、10のトランジスタで10の性能を目指しすぎたんだよ
10のトランジスタで5の性能、と妥協すれば用途が格段に広がるとIntelは考えた
Cellの逆襲がはじまr・・・・
>>431 だんごやさんがわかもとぼいすで暴れるぞ
ぶるぁぁぁぁ
演算性能でfermi圧倒してGPU性能で僅差まで詰めないとポシャる。
あとは双方出てみないとわかんない。larrabeeが駄目っぽいのは何となくわかる。
x86をまるごとフィーチャーする事で、将来L1L2キャッシュの容量・レイテンシ・帯域が変更できる
SIMDエンジンの速度・所要クロック数を改良できる
初代のPentiumパイプラインすら設計変更できてしまう
互換性の鬼、Intelらしい思想
>>431 逆襲って言うか、7コア以上で一番多数出荷してるのはCellでしょう。
GPUはまだアクセラレーターとしてしか機能させてもらってないから
GPUの方がもっと多コアに相当するとか言わないでね
CellのLSが素晴らしかったかという事だな。
Fermiが競争力を失うことだけはわかっている。
ただでさえGT200に失望したのにそれより更に輪をかけてクソになってる
>>435 GT200はSM=1コアとして見ると30コアだぞ
32コアのうち、最初の2コアをネハレンコアに差し替えてL3追加して新CPUできあがり
>>435 CellはシングルコアPPC+ダイ組み込みのアクセラレータ8つ(あるいは1つ死亡)
C言語のtime関数すら使えないようなのを勝手にコアにカウントするなよ。
将来も絶対無理だと思うが、プロセッサ全数の可動実績統計が
取れたら面白いだろうな。 高速だが買った人に使い切ってもらえてない
CPUとか、遅いんだが酷使されてるCPUとかあるかもしれない
Turbo Boostみたいな機能がありがたがられること自体、メニーコア路線のアンチテーゼ的だね
CellのSPEは汎用に使うにはISA削りすぎ
GPUに使うにはSIMDがショート過ぎてトランジスタ効率悪過ぎじゃないか?
SPEを馬鹿にする奴はCELLを知った風になってるだけだ
SPEをメインに書(ry
俺も最初は信じられなかったさ……
1命令を演算するのに、コードL1の帯域を4バイト消費する、という冷厳な事実
RISCいじってるといつも気になるこのムダさ
SPEってRISC思想を貫き通し過ぎてアドレッシングとか滅茶苦茶弱いんだっけ?
コンパイラを意識してSIMDを4並列に留めたのに、やっぱりハンドコーディングじゃないと
まともな性能出ないとか聞いたけど、実際にいじってる人からするとこの評判は本当なのか?
スカラ演算もどきをやったらAtom 1.6GHz(HT)>SPE2個(3.2GHz)なんてことも珍しくないよ
どうせSIMD特化のコアが大量にあってもやることはデータレベル並列向けの処理くらいしかないんだし
スカラ演算ユニットとよりワイドなSIMDユニットのっけたほうが実用的だとそこで悟った
演算目的ごとにレジスタの種別を分けないことや高クロック路線は
古典的なRISCの教科書どおりのアプローチだがやはり古典は古典だった。
流行らなくなったのは必ず理由がある。
SPEがやったのはバッドノウハウの再試行だったわけだ。
Larrabeeって1コアあたりL2分込で4000〜5000万トランジスタくらいある感じだけど
演算器の大半はベクトルユニット分なのか?
そこまで大きくはない
まあ演算器で一番面積占めてるのはベクトル関係だろうな。
LSU半分になったとかいうけどLSU含めたL1&共有メモリまで等速になったのかも知れないな。
今までは3SMまとめで用意してあったのが1SMあたりに変わってるから。
まあとにかく出てみないとわからんな。
あと整数演算パイプが完全に分離されてるからやはり論文に書いてあったようなことは想定内の可能性は極大だ。
Larrabeeだと各コア毎に上り下り512bit/clkのデータ読み書きが出来るL1があって
演算のほうも512bit LoadとStoreのdual issue可能
等速だろうと32SPあたり16WayのLSU1基の時点で既に競争力ない
512bitだったら同じじゃないか。
同じなわけがないだろ
Fermiの場合2つの命令ストリームに供給しなきゃいけないのに。
んだな。チョット酒飲んでボケてた。
そこでシェアードメモリのかつようかと。
しかしLSU自体の性能はGT200と変わってない可能性があるということ。
なあ、素人質問で悪いがLarrabeeに、もしも、
CellのPPUに相当するような働きの
x86コアを1個くらい乗せたら1チップで完結してしまうのか?
>>458 だからさー
シェアードメモリからレジスタにデータ移すのに必要なユニットなんだったっけ?
>>407 なるほどな、その視点があったか
Larrabeeはあまりにも速すぎた可能性がある(あった)と
戦略的に遅らされてるか、あるいは社内で潰し合いになってるのかもしれん
>>385 >>341のpdfを読めばわかるが、この論文は2009年3月31日に書き上げられたものだぞ。
執筆期間は2008年10月〜2009年3月あたりだと推測されるからシリコンがあるわけがない。
TDP100W位のLarrabee(16コア 2GHz)をCPUソケットに差してWindowsを動かしたら、i7 920より快適になるのか?
WebブラウザやOffice(Word excel)、メディアプレーヤーとかはどうなるんだろう。
>>460 それは謎だな、確かに。
なぜ16×2のSPに対してロードストアユニットが16wayしかないのか。
しかし逆に言えばシミュレーションの結果、
16wayで問題ないと判断されたのではないか?
例えば、レジスタで完結するサイクルもある。
各ワープはアウトオブオーダーに切り替えて実行されるのだから、
片方がロードストアユニットを使っている間は、
もう片方はレジスタで完結するワープに切り替えて実行するとか。
L/S待ちのワープが溜まっていくだろ。
SPARCの場合だとLoadの頻度は4命令に1回、Storeはその1/5くらいの割合だっけ
ただSPARCはアドレッシングモードが貧弱なので実質的には
GT300の場合は基本Scatter/Gather操作だから、1サイクルはあくまでベストケースで
同一の512ビットラインに収まってない場合は、最悪16サイクル分かかる(GT200までの仕様)
それとも、16基ってのは文字通り16基なんだろうか?
ものすごい帯域が得られるが。
俺も変だと思うが、問題ないからそうなってるんじゃないって事。
話にならんくらいパフォーマンスが落ちるなら、そんな設計しないだろう。
CUDAの性能がどんなもんかは知ってるから
その辺改善してくるとは思えない。
まあGPUとしては同じ値をコピーして使い回すケースが多いから画像処理には十分なんだろうが
根本的にGPGPUのニーズに合わせて設計するって発想がないと思うんだ。
まあ、GPUとしてはそれでいいんだが。
今回はかなりORNLの要求通りに設計してる気がするのだが
倍精度にしろECCにしろ
ORNLと懇意なのかもしれないが、doubleやECCはHPCの本格的な
ユーザーなら誰でも要求する項目だな
そりゃ"Fermi"の名を偶然とは思うまい
そりゃECCなしなんかはスパコン用としては論外だからね。
TeslaがCellに比べてクソ安かったのはその辺。
ECCサポートしたら容赦なくボるだろ。
それは機能の問題であって性能とは関係ない
というか、GT200は倍精度性能が低い分相対的にはロード・ストアの性能にゆとりが余裕があったわけで
その意味じゃ倍精度の実効性能の向上率は低く留まる可能性がある
LarrabeeでもScatter/Gatherはあるし64バイトラインに収まらない場合はやはり複数サイクル数はかかる
だからこそLoad/Storeはスレッド単位で基本毎サイクル発行出来るようになってるし、
キャッシュコントローラに発行してプリフェッチと同時にキャッシュ上で固めておいて貰うような
命令まで用意されてるわけだが
LarrabeeってECCつかないんじゃないの?
未だに何コアで何GHzで出るかも把握してない奴の噂レベルではそうなってるね。
いやあ、実際、俺は何コアで何GHzかも知らないんだけど、そこんとこどうなの?
>>474 ECC版は用意されるらしいが形態は未だ不明だよな?
俺はLGA1567だと推測しているが
なんでIntelから出るレポートのクロックが常に1GHzだと思う?
どうも思わない
・中の人曰く「パイプラインはAtomより短い」
あと、Nehalemは面積当たりのトランジスタ数がPenrynのほぼ半分だから
Nehalemを物差しにしてトランジスタ数の予想するのは当てにならない。
SRAMや低クロック駆動部位はそれなりにトランジスタ密度は高くなる。
480 :
Socket774:2009/10/19(月) 01:13:48 ID:CWnMOC2L
Intelジャスティン・ラトナーCTO来日会見
http://pc.watch.impress.co.jp/docs/news/20091016_322120.html >●Larrabeeの性能データは明日土曜日の朝に公開
>なお、同氏よればIntelが米国のメイヨー病院と共同で開発したメディカル用
>のアプリケーションを利用したLarrabeeの性能データを、日本時間の 17日の
>朝に公開することを明らかにした。データはCore i7+NVIDIAのGeForce GTX
>280とLarrabeeとの比較データになっているそうで、初めてLarrabeeの性能
>データが公開されることになる。
これってどこで公開されているの?
>>479 じゃあ、あんまりクロックあがんないんだ。
2GHzくらいはいくもんだと思ってたよ。
atomはバリバリの高クロックマシンじゃないの
Lrbは4GHzじゃ動かんくらいなもんだろ
じゃ16x2x2Ghzより8x2x4Ghzのほうが
いいんじゃねという言うのはないのかね
昔の情報じゃ1.7-2.5GHzって流れてたけどな
2GHzは超えるんじゃねーの
ららびやふぇるみクラスのでっかいチップが2GHzでうごいたらあつくてしぬ
熱密度の問題じゃないか?
面積あたりの極所熱の話ね。
>>483 18段パイプラインでクロック上がるような設計に見えるが
意外とクロックマージンがないのがAtomですよ
結局、クロックは、NvidiaのSPとどっこいどっこいか、やや落ちるくらいか。
LarrabeeがGPUを簡単に滅ぼしてしまっては
面白くないので、それはそれで良い
んでもIntelなら、やろうと思えば必殺のプロセス技術で
競合を負かすまで大規模化高回転化してくるんじゃない?
一発目はハイエンドと決定してるから、
供給限界の300Wを超えなければ消費電力はあんまり気にしなくていいし。
493 :
Socket774:2009/10/19(月) 11:55:27 ID:S7PjmKPV
現状で実機デモも出来ない完成度なのに無理だろ。
494 :
Socket774:2009/10/19(月) 12:38:40 ID:VE93KYWI
イソテルはクソドライバーしか書けないからGPUは無理よ
>>490 MSと任天堂のATi組は次世代もATi使うよっていってたと思う
ララビーはもっぱらPS4搭載の噂だった
任天の次世代携帯機はTegraみたいだけど、据置はどうすんだろね。
枯れた技術使うからATIじゃないすか
499 :
Socket774:2009/10/19(月) 15:28:29 ID:Z0d3nTly
Larrabeeみたいな初物ゲーム機に使ったらCellの二の舞だろ・・・
なんかここインテルの広報みたいなのがいるね
AMDの広報は無差別で荒らし回ってるがね
502 :
Socket774:2009/10/19(月) 19:24:15 ID:S7PjmKPV
intelの広報程でもない
引き続き「ぼくのかんがえたさいきょうのららびぃ」をお楽しみください。
>>504 具体的なデータによる批判はfudとは言わない
fudは陰湿な宣伝のことを言う
偏向しまくりなのは確か
ATIも本気でFermiにHD5870で勝てるとは思っていないだろう
HD4800で一定の信頼を得た今だからこそFUDが効く
それでもOpenCLなら、OpenCLなら何とかしてくれる。。。
その前にOpenCLの仕様がCUDA寄りなのをなんとかしないと
PaperDragonプラットフォームかっけー
larrabeeのことかw
Dragonと言えばAMD
5870で2.72笑(tflops)とか1600笑(sp)とかかw
5970で5.44笑(tflops)とか3200笑(sp)とかかw
うけるだろうなw
larrabeeはROP追加すればGPUとしてかなりマシになると思うんだが
そんな事は検討すらされてないのだろうか?
ROPってのはメモリへの出力装置に過ぎんが
ポリゴンのラスタライズは?
固定ハードウェアってやつは、性能がボトルネックになったり大量に遊んだり融通きかん
テクスチャユニットも、各コアに有効な命令追加して外してくれ
まぁ、コア何個か融通してボトルネックになってる固定ハードウェアを
エミュレートして手伝わせりゃ良いのか
インテルのシミュレーターが優秀すぎるが故に出せない罠にはまってるとみるw
もう面倒だからエミュレーターをリリースすればいいんじゃね?
>>518 コアに有効な命令追加したからあんだけ小さくなったんだろ
ララビー牧場
というか圧縮テクスチャ程度ならダイレクトにロード命令で取り出す機能がある。
逆になんで専用ハードウェアがあるのか謎
あ・・・固定機能はテクスチャフェッチ専用かも
あれ、Larabeeの性能データどうなったの?
過去ログ読まない奴って何なの?
>>528 俺も知りたいんだが、過去ログのどれさ?
全部みたが、性能データなど見当たらないんだが。
節穴
そしてRadeonが天下を取るのであった。
>>533 そりゃIntelもAMDも将来的には自社CPUに統合されてディスクリート必要なくなりますよとか言われて
黙ってはいそうですかできるかいな。
それでしか食っていけないのに
>>526 ゲームごとにこれだけワークロードが被っているなら
トランジスタ効率の良い固定機能にハードウェア資源を割り振るべきだな
40nm現行品と4年前の90nm世代とを比較
944 :214=884:2009/10/20(火) 21:46:36 ID:aIGOM8X3
>>928 アイドルとゆめりあ実行中のみだけど測ってみた。
ワットチェッカー読み。
構成は
>>214 GT220 DDR2(玄人志向 GF-GT220-E512HD)
>>884 アイドル時:55W
ゆめりあ時:91W
ゆめりあスコア:27000
7600GT(ELSA GRADIAC 776GT)
アイドル時:58W
ゆめりあ時:89W
ゆめりあスコア:24500
ゆめりあで何が測れると思ってるんだか
Tropics v1.2
【設定】デフォルト+フルスクリーン
【備考】OC無し全部定格
【VGA】MSI NX7900GS-T2D256E-HD(Geforce7900GS 256MB
【DirectX9.0】
・FPS:8.7
・Scores:220
【VGA】Leadtek WinFast GT220 1024MB DDR3 LP(Geforce GT220
【DirectX9.0】
・FPS:26.4
・Scores:665
団子=HENTAI
テストに出ます
テクスチャユニットって、DX11の新しいテクスチャ圧縮BC6・BC7とか、対応ちゃんとできてるのか?
norm,srgb,float16ならx86コアでハードレベルで対応してる。
必要なら1コアくらい展開用にまわしてパイプライン処理すればよいのでは。
? それは不動小数点数圧縮テクスチャ展開してAFで補間してピクセル1個出力してLRBコアに渡す
ってとこまでできないと固定ユニットの意味なんにもないでしょ?
「展開」できなきゃゴミ
「展開」機能はあるってば
話が噛み合ってなくてワロタ
不動小数点を英訳するとFixed Precision
fixed point orz
すまん浮動小数点ねw HDR圧縮テクスチャちゃんと対応してるんなら、問題ないか
あと補間処理も、DX11では相当柔軟性が求められてるけど対応しきれてるんか
Radeonは補間処理を逆に固定ユニットからシェーダ処理に切り替えてるけども
bycubicだけあれば。
Intelコンパイラがコード吐けばいいんだから、下手すりゃSPEC登録できるよな。
普通のC/C++やFortranで書いたコードがそのまんま動いて、
自動ベクトル化コンパイラさえあればSIMD化まで自動でやってくれるのがLarrabee
GPGPUらしいプログラミング手法など必要なし。
片や、専用のプログラミング言語をこれから整備しようかとかいうレベルのハードあり。
しかも実効効率では前者優位っぽいぞと。
こうなればストリーミングプロセッサとしてみた場合勝負にならんレベルの差はあるな。
GPUとしてはまあ別だが。
553 :
Socket774:2009/10/23(金) 03:41:57 ID:amFZOc2d
>Intelジャスティン・ラトナーCTO来日会見
>
http://pc.watch.impress.co.jp/docs/news/20091016_322120.html >>●Larrabeeの性能データは明日土曜日の朝に公開
>>なお、同氏よればIntelが米国のメイヨー病院と共同で開発したメディカル用
>>のアプリケーションを利用したLarrabeeの性能データを、日本時間の 17日の
>>朝に公開することを明らかにした。データはCore i7+NVIDIAのGeForce GTX
>>280とLarrabeeとの比較データになっているそうで、初めてLarrabeeの性能
>>データが公開されることになる。
>これってどこで公開されているの?
この答えはどの発言なの?
文盲か
>>553 そんな反応しなくてもいいんじゃね?性格
文豪か
fermiの場合2サイクルで1WARPなんだな
てっきり1サイクルかと思ってた
>Core i7+NVIDIAのGeForce GTX 280とLarrabeeとの比較データ
このデータて無いだろ、盲目はオマエだ
>>554
プッ
数日前から粘着してる558がアホすぐる件について
Fermiはモックだけで比較結果すらない状態
563 :
Socket774:2009/10/24(土) 12:56:45 ID:H3hCSfz9
NVIDIA「どうです?この流体シミュレーション。超リアルでしょう?」
ゲーム屋「カクカクじゃん。こんなの取り入れたらゲームになんないよ」
リアルレンダリングとフェイク3Dが逆転する日って、いつなんだろ?
CGは全てフェイクだぞ
>>564 GPU Technology Conference のデモはモックアップしか用意できなかったうえ
デモ表示してるPC個体も非公開で全然信用されてない。
モックしか出せないってのは
製造委託先にすら渡ってないってことだからね。
11月に出るって言ってる製品がだよ
ありえない
larrabeeのことか
IDF公開の青いボードはモックじゃないぜ?w
シリコン自体作り直しでしょ
>IDF公開の青いボードはモックじゃないぜ?w
その根拠は出力端子と補助電源端子が在ったからかw
え?じゃああのGulftownのデモ機は偽物ってこと?w
そのレベルから疑い始めたらキリが無いだろ
N厨の言いがかりきめえな
なんせintelはモックデモが得意ですから
PenDをお忘れかw
おいお前ら、天才NVIDIAさまが作ったTDP0Wの画期的なGPUを馬鹿にすんなよwww
PenDwwwお話になりませんねwwww
あれで本物のデモならしょぼ過ぎること林の如し
ちなみに
>Intelは4GHzクロックのPentium 4を,当初は今年の4Qに出すと言っていたのが,
>今年の7月には来年1Qに延期され,そして今回は延期ではなく中止と発表されました。
>クロックを上げる代わりに,内蔵キャッシュを1MBから2MBに増加したり,
>FSBにスピードを上げるなどの別の方法で性能を改善していくという方向の路線転換の一環であり,
>その先のPentium系のデュアルコアチップを既にテープアウトしたと,会見したIntelのプラットフォームのマーケティング部長が述べたと報道されています。
>面白いのは「デュアルコアチップを既にテープアウトした」という発言で,
>この裏を考えるとテープアウトはしたがウエファはまだ出来ていないということであり,
>つまり,9月のFall Developer's Forumのデモの時にはデュアルコアチップは無かったことを認めたも同然です。
>ということで,9月18日の話題で紹介したIntelのデモはモックアップだという見方を裏づけています。
DX10の時はATiが半年遅れたけど、その時はどう言われていたんだろうか
R600はボロクソにいわれてたよ
なんせ馬鹿でかくて熱いくせに遅いんだから
メモコンGDDR4対応のクセにも64bit管理で前世代より粒度がでかくなった
一番のガンは無駄に帯域だけでかかったリングバスかな
>>580 ほおwなるほどwだからFermiはモックアップなのねw
PenDのデモは2PのXeonで代替できるんじゃないの?
larrabeeモックのデモも単に在り物を動かしたに過ぎん
∬
|:|ID:eFEbHVaV
____|:|___
,イ´ ノ´ ヽ. `ヽ. 新しいバイトも入って
{ ● (__人__) ●.} Win7どころじゃ
゙'ゝ、 ` ⌒´ _ .,ノ ないんだよね
/  ̄ ̄ ̄ ̄ ̄ ̄ィヽ
/ |
|. ⌒\ ,.────.、 ギーコ ギーコ
l \/ ̄\((| i' ̄ ̄ ̄`i | ).))
l uUUU二| |..|| ̄,',' ̄| | ̄ ̄ ̄ ̄ ̄.「_____
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|_|~|| ~~~~|_|. Fermi .|
||_____ __|]
┌!!_______!!.!
で?
どうしたよモックン
そうwあれはLarrabeeとET: QuakeWarsという在り物を使ってリアルタイムレイトレのデモをしたに過ぎんのよw
で、それがlarrabeeである根拠はw
ま、あの程度で限界ってのがlarrabeeの実力かw
てか、なんで目玉の演算デモは無しなん?
core i7処理のモックってバレルから?
そうだよあの程度だよ。水面や金属表現があの程度だよ。
それ以外のテクスチャまで変質したらただの詐欺という。
切断模型を展示してモックアップだと突っ込まれるのがNVIDIA
実機でデモをしてモックアップだと言いがかりを付けられるのがIntel
リングバスの製品は鬼門だね、Cell、R600、Larrabee……
Xeon MP・・・
動きも無く非常に見栄えのする
良いデモだったなw
通電しないビデオカードのことかー
あのデモは動きなさすぎだった
元がああいう場面だって言い訳は可能だが、
性能を見せるなら他のソース選べよって話
あのレベルの水面表現がどんだけ大変か解ってないだろ
あの程度しか出来ないんだったらレイトレなんかやる意味ないわ
intelがlarrabee向けに作らせてるモノがあった筈なんだが
それの動画もintelのサイトで見た記憶がある
なんでそれじゃねーんだよって思ったわ
先ず
>>600 帯域に任せて焼き込みテクスチャ貼るクライシス手法がいつまでも通用するならな
苦労を数えて奇を論ずる遊びに過ぎんって
N厨はデバッグ終わってないシリコンで製品版と同等のパフォーマンスが出ると思っているのが痛い
淫厨は教祖様がすべて正しいと思っているのが面白い
NVはこれ以上敵を作らない方が良いよ?wただでさえ四面楚歌状態なのにw
嘘も100度言えばFermiが早く出る!
嘘も100度言えばlarrabeeの実物が出てくる!
ララビは1コアでfermiの4倍のパフォーマンスが出るわけですね
OpenGLのエミュレーションでもati,nvidiaを楽々と抜きさってくれることを期待してます
流石に固定パイプラインでは勝てないでしょうが、これからのOpenGLは固定パイプライン廃止なんで
一層ららびに有利になるんでしょうね
つまり、ようやくDX10相当になったのねopengl
OpenGLよりOpenRTだろう
レイトレーシングが一般的に成ればfermiがゴミになるのは眼に見えている。
Fermiやローンチ版Larrabeeが主戦力の時期は
まだレイトレーシングが一般的になる時期じゃない。
一般的になる時期になったらnvは(それまで生きていたらだが)たぶん
がらっと変えてくる。これまでもコロコロ変えてきた
レイトレーシングが一般的になった時、x86を持たないNVIDIAはPC市場から消える
これは約束された敗北であり確定した未来
なんかレイトレに夢持ってる人が居るみたいだけど
ラジオシティを伴わない光線追跡したって大してリアルになんねーよ?
モデリングの問題だってあるし。
で、ラジオシティのエネルギー場計算はそれなりにパワー居るけど
計算しちまえばレイトレにも従来法にも適用は可能。
リアルタイムでラジオは無いだろ・・・
むしろ現世代Larrabeeがすぐに可能になりそうなメソッドってA-Bufferじゃないの
なんだ、やっぱり落とし穴があるのか。
結局そんなうまい話はないんだな…。
てかA-Bufferの為に作られたような構造だ
DirectXが邪魔
どのA-Bufferをいってるんか知らんけど、LucasFilm考案のやつなら
既存アルゴリズムの拡張だからそれこそLarrabeeである必要性は低いよ。
むしろピクセルシェーダの拡張だし。
必要な情報量が増えて転送量が上がる分、むしろLarrabeeには不利。
レイトレがLarrabeeに向くのはピクセル処理よりも交差判断の演算処理が
はるかに膨大になるっていう比較の問題であって、リアルな描画求めたら
結局オンラインレンダリングなんて夢物語に終わるし、まぁ微妙なところ。
無理にリアルタイムレンダリングに拘らないほうがいい。
コア数増やすだけでスケーラビリティが得られるという点で将来性があるのでは?
Stencil Routed〜かな。
もちろんNVIDIAも論文書いてるし、そのうち実装を出してくると思ってる。
自社に有利なメソッドを選ぶことでの差別化も大事だが、業界全体がついてこないことには。
スレ違いだウンコ
たとえば既存アーキテクチャでは、ROPから吐き出したピクセルデータを
ピクセルシェーダにダイレクトに渡せばいいものをVRAMに都度吐き出して
またそれをロードしてるわけで。
キャッシュ容量改善によるメモリ帯域消費の削減の余地はかなりある。
GDDR5でそれなりには帯域は確保するようだし多少キャッシュミスしても
トータルで帯域をセーブできれば十分元が取れるのでは。
A-Bufferは最終工程までは並列処理に向くだけでなくて処理の順序関係すら依存性を排除できる。
Z-Bufferが1000人1001人脚なら、A-Bufferは1000人バラバラに走ってゴールテープ手前で
全員の足を結べば良いようなイメージね。そこまでの走り方は自由だ。
そこでだ、同時処理するスレッド数数を減らせばそれだけ1スレッドでキャッシュを有効活用できるよな?
スレッドがアクティブな間、キャッシュミスを減らすことが出来さえすればいい。
GeForceで1SMあたり32KBのShared Memoryがあっても、16ワープ動かせば
1ワープ当たり2KB程度の割当てしかない。
どのピクセルも同じように処理を進行させる必要があるからだ。
んで、絶対的に割り当てが少ないから、VRAMとGPUコアとの往復をちんたらデータ読み書きする羽目になる。
Larrabeeは1〜4スレッドで各L2断片は256KB。
キャッシュめいっぱい割り当てたまま連続処理して、キリが良いところで別のコンテクストに渡せばいい。
これでもまだA-BufferでLarrabeeがより有利になる理由が解らん奴は首吊って氏ねばいいと思う。
でもA-Bufferだとメモリ食うんじゃねーの
全体的には食うけど局所的には減らせる。
喰うメモリの量が予測できないのが辛そう。
溢れそうになったら途中で一旦合成して続ける?
Vistaあたりでホスト側メモリにスワップできるようになったよね。
A-Bufferを見越しての改良だと思ってたが
あと、64ビットメモリアドレッシングが必要な理由がこれ
だんごせんせー
小さすぎるキャッシュが結局メモリバンド食うってわかっててゲフォやラデのキャッシュ容量が大きくならないのは何でー?
キャッシュはダイサイズ食うからだ。
というか低クロックの演算ユニット大量並列処理する分には焼け石に水。
多少SPの個数減らして高クロックで回転数あげるならキャッシュの意味も出てくる
(クロックが高くなるほど相対的にキャッシュのトランジスタ密度は高くなる)
>>625 酷い勘違いをしているけど、別にZBufferだって最終工程まで並列処理できる。
透過処理を正しく行うには事前にポリンゴンをソートしておく必要がある(これはたいした負荷じゃない)のと、
それでもポリゴンが交差してしまった際に正しくない結果を招くというだけ。
これは何をしても解決しないし、A-BufferもZ-Bufferも並行処理度は変わらない。
A-Bufferはピクセル化と最終書き込みの際に透過処理用を情報をてんこ盛りで付加して
Z深度比較と同時に透過演算まで行う代物。これでポリゴン交差しても問題がなくなる。
つまりZ-Buffer法ではZ情報(ピクセルあたり32bitか64bit)を読み出せばすむだけの話が
A-Buffer法では輪郭マスクや透過度、さらには透過合成するために過去のピクセル情報まで
読み直さないといけない。
膨大なメモリを消費してでも透過描画を正しく行うのが A-Buffer の目的であって、
速度向上への寄与ないよ。
お得意のタイルレンダリングで局所的に扱えばキャッシュに収まる〜といつもの台詞が
帰ってきそうだけど、一度に扱えるタイルが激減するのは明らかでその分並列度が下がるね。
Larrabee擁護したいだけの素人が適当なこと言ってると恥かくよw
>>628 リアルタイムで処理するにはそういった割り切りが必要になってくるね。
ATIとLarrabeeあたりは区画で切ってきそうだけどNVIDIAはバス幅広げて力で解決してきそうw
あと、前に指摘したのにまだ理解してないみたいだけど、
通常のZ-Buffer(やA-Buffer)ではポリゴンはそのまま描き捨てればいいけど、
Larrabeeで使うタイルレンダリングでは区画が変わる毎に全てのポリゴンを再評価しないといけない。
過去の評価結果が再利用可能ではあるけど、キャッシュに乗り切らない場合はそれも足を引っ張るね。
キャッシュに頼る結果、性能を維持するにはシーンで扱えるポリゴン数が激減するのもLarrabeeの問題。
レイトレにするとNURBSやMetaBall使ってオブジェクト作れば、膨大な演算量がかかる
代わりにオブジェクトが消費するデータ量を減らすことが出来るので、そのへんも含めて
「相対的に」Larrabee向きっていうハナシ。
>>634 > お得意のタイルレンダリングで局所的に扱えばキャッシュに収まる〜といつもの台詞が
> 帰ってきそうだけど、一度に扱えるタイルが激減するのは明らかでその分並列度が下がるね。
あのさー、たかだか32コア〜64コア動かすのに
ウン千スレッド必要ない設計なんだが。そこらのGPUみたいに。
・メモリレイテンシを隠蔽するために大量のスレッドが動く設計になっている
・でも、キャッシュが効かないからVRAMのレイテンシが大きいんだよ。
・同時に動かすスレッドが常に大量にあるからキャッシュなんてききようがない
(+ダイサイズの制約もあるから簡単には増やせない)
既存資産の同時に解決するアーキテクチャなんて考えようがないんだよ、GPU屋には。
Larrabeeはスレッド数を多くしないといけない制約がない
言っておくがキャッシュに載っかりきる必要なんてないんだよ、ポリンゴンくん
たとえばトラフィックを半分程度に削減できるなら、2倍のヘッドルームが出来るのと同じことになる
クリーンヒットなんて求められてない。
ポリンゴンくんはキャッシュに頼るとVRAMの帯域が大幅に削られたり、レイテンシが大幅に伸びたり
する妄想に囚われてるようだが、同じGDDR5(or XDR2)を使う限りそれはないだろう。
ポリンゴンくんはさ、ハードの特性を正しく理解した上で
相対的にどうなのかを判断しよう
ぶっちゃけると、タイルレンダリングである必要すらない。
キャッシュはプライオリティが高いデータが残るという特性は変わらないからね。
どっちかというとLarrabeeの場合レジスタ間よりもL1キャッシュ間オペレーションのほうが
演算密度を稼げる変なルールがある。
並列処理「しないといけない」スレッドも相対的に減る。
並列処理してキャッシュを取り合うくらいなら逐次処理したほうがマシと言うことも時としてある。
GT200ではCUDAでは16ワープ、GPUとしては最大32アクティブワープ動かせるようになっているが、
Larrabeeはコアあたり1〜4スレッドだ。むしろ、それ以上のアクティブスレッドは動かない。
大前提として同クラスのGPU程にはスレッド数が動かないし、
平均メモリレイテンシが遙かに小さいので動かす必要もない。
いまのところLarrabeeの方針は、メモリ帯域は減らすのではなく、確保しつつ、キャッシュによって得られる
一桁違いの広帯域と圧倒的な低レイテンシを有効活用することで更なる性能アップを目指すもので
外部帯域もRadeon程度には確保する。ただしGeForceほどには必要ない。
したがって
> 性能を維持するにはシーンで扱えるポリゴン数が激減する
という妄想が成立する道理もない。
アクティブスレッドあたりのキャッシュを大幅に増やすことで実VRAM間平均データスループットが減るのを
どういうわけか設計上の帯域まで減るいう思いこみが蔓延っている。
S3を除く現行のGPUが帯域律速に近い状態だから無理もないか。
blogか何かににまとめてほしい。
団子さんはドメインを業者に取られたからモチベ下がってる
A-bufferも相対的にはLarrabee向き。
なぜなら固定機能に縛られず全コアで並列実行出来るから。
ただ本当に向いてるのはirregular Z-bufferのほうだろうけど。
A-bufferてもうRadeonがDirectComputeでやってるじゃん
広義的にはMSAAはA-bufferの応用
RADEONのShaderExportって何のためにあるの?
>>648 XboxのXenosならeDRAMに出力して貯めておけるけど
RadeonはGeForce同様原則VRAMに流れちゃいますね
データ本体に関しては
>一度に扱えるタイルが激減するのは明らかでその分並列度が下がるね
>たとえば24領域つかって 64x64サイズのタイルを表現した場合、 同時に扱えるフレーム領域は512x192程度でしかない
なんで1フレームにつき、Larrabeeの各コアは各タイルを1個だけしか処理しないんだよ、どんな糞実装だ
各タイルの処理時間も処理データ量もバラバラなのに…酷い固定観念だな
A-bufferは、最後のブレンディング処理が来るまで、
吐き出した半透明ピクセルをキャッシュ外に逃がせるから良いね
キャッシュはZテストに集中できる
>>650 こいつはLarrabee「だけは」キャッシュが全メモリ空間だと思い込んでる
池沼だから始末に困る。
何度指摘されても未だに学習できてない。
LarrabeeもVRAMにストリーム的にアクセスするのは今までと変わらない。
LarrabeeがRadeonやGeForceと違うのはコンテクストあたりの
ワークメモリの規模(数KBと数十〜百KB)とワークメモリのVRAMへの
退避復帰の回数の違い。要はピクセルライン単位かタイル単位かの違いだ。
CPUコアが1つのタイルを処理している間、処理の終わったタイルを
VRAMに流し、次のタイルの準備をしている。
つまり、アホみたいにメモリ帯域が必要なのは変わらないが、処理単位が
大きくなることで出し入れ回数が減り、結果帯域消費量が減るんだ。
当たり前だがオンキャッシュで済ますにはキャッシュ容量は256KB/coreでも
全然足りない。多いに越したことはないがLarrabeeでも十分ってことはない。
現場の意見 vs 願望の意見
必死チェッカーみたら団子1位じゃん。おめでとう
同じことしか言ってないんだけどな
Larrabee関連のセッション真面目に聞いてたらわかる理屈なのに
リアルタイムレンダリングよりDirectX11のパフォーマンスがどうなるか気になる。
それ次第で、二社を一気に抜く可能性あるんじゃない。
リアルタイムレンダリング→リアルタイムレイトレーシング
○○○
↑
これってウンコ?
グローバルメモリの長すぎるレイテンシを補うために
GPU屋は大量にスレッドを走らせることでサイクル数を埋め合わせ
CPU屋は低レイテンシのキャッシュでレジスタから溢れた作業変数を受け止めた。
>>648 アレはただのストアバッファだよ。データはメモリコントローラを通ってVRAMにストアされる
ステージ間で流れるのはコントロール用パケット。
「VRAMの○○番地にストアしたんでここから読んで処理しといてね」って情報かな。
旧XboxのCPUが土壇場でAMDからIntelになったようにまだチャンスはある
次期Xboxで採用されるように出血覚悟で売り込むんだな
ないだろうな。
Intelが先のLarrabeeの実装でやろうとしてることってWindows 7やLinuxのKVMのハイパーバイザ上で
動くゲストOSを走らせ、その上でホストOSに依存しないアプリケーションを動かすことだ。
,,・´∀`・,,)っ-○○○とかいうキチガイコテをNGにしたらスッキリした
Larrabeeって iAPX432以来の失敗作だろ?
10年後くらいに研究成果が花開くかもしれないけど。
それはItaniumだろ。
x86を否定するものはx86に敗れるのが常。
Atomに次ぐ成功を担う、x86の他市場制圧の矛でありHPC市場の盾
矛と盾といえば
Fermiのアーキテクチャは方向性のまったく違うものを追い求めて「矛盾」したアーキテクチャになってるがな。
断言するがあんなものの性能はLarrabeeの足元にも及ばない。
積和算に対してL1のロード/ストアの帯域が狭すぎてHPCには使い物にならん。
OpenCL(笑)みたいな新言語が必要な時点でPG単価的にも不利。
断言したなw その言葉忘れんなよ
http://journal.mycom.co.jp/special/2008/cuda/007.html ↑
とまあ、この辺見ればわかるようにNVIDIAのシェーダは根本的にHPCでやるような
行列演算には不向きなんだよね。
ローカルメモリに対するロード・ストアのスループットが低すぎるから当たり前だ。
マトリクス演算ってグローバルメモリの帯域は比較的食わないんだが
キャッシュあるいはローカルメモリのスループットとか、同一値のブロードキャストを
如何に効率的に処理できるかが重要になる。
んで、シミュレーションしてみるにLarrabeeの命令セットはその手の行列演算がやたら強い。
1命令にロードとブロードキャストと積和算を畳み込めるような命令セット拡張は
x86のフォーマットと見事にマッチする。
これは間違いなくLINPACKモンスター。
今Larrabee出たらnVidia死にそうだな
で LarrabeeもGT300も一体いつになったら発表されるんだ
↑馬鹿乙
よそあおってる暇あったらさっさとLarrabeeだせや
無理言うなよwww
出来ないから煽って誤魔化してるんだから
Fermiのことですねわかります
レイトレ先こされたか
油逆サバ読みすぎだろwwwwww
誤爆しますた
>>679 なんか激しい誤解をしてるようだがその程度の静止画をレイトレで作る程度ならPentium 90MHzでも出来るぞ
レイトレをリアルタイムで実際にデモして一番進んでるのはラデなんだけどな
あのデモ公開しないのかな?
Intelの場合デバッグがかなり早く終わったMeromがB2だったからB0はまだ最終シリコンじゃねーと思うが
まあでもメニーコア化でコア自体はかなりシンプルだからデバッグは楽なのかも知れん
ああでも開発リソースをどの程度割り振るかにもよるし、、、
要するになんとも言えん
団子ってi752が発表されたときもこういうふうに期待しまくってたんだろうな
してねーよ
Fermiは積和算に対してLSUのスループットが低すぎるという、解決されてない明確なボトルネックがある。
倍精度ですら実効性能5割を切るFireStreamははなから問題になってない。
Larrabee以外選択肢にないんだよ。
単純明快な消去法だ。
ピークが違うのに実行効率だけ比べても
Fermiの半端な共有L2キャッシュにNVIDIAの苦心が伺える
Larrabeeは32コアでFermiと同じ512SPだが?
もしFermiが実効性能50%程度ならLarrabee換算750MHzだね。
>>693 あれは苦しいね
L1合計:384KB
L2:768KB
BLAS Performance見てみ
http://www.lunarc.lu.se/Documents/nvidia-workshop/files/presentation/50_Case_Studies.pdf CPUに比べて圧倒的じゃないかって思っちゃうだろうけど
単精度ってピークの3割強程度しか出てないんですが。
まあ、SFUでの乗算が全く役に立たない上に、LSUがネックじゃこの程度だわな。
倍精度はほぼ額面通りの性能になってるが、これは倍精度ユニットが他のユニットに比べて
貧弱な分、相対的に他のオペレーションの供給が間に合ってるに過ぎない。
LarrabeeではSGEMM・DGEMMともに90%は弾き出せると見ている。
なぜなら乗算値のアドレス算出・ロード・ブロードキャスト・積和算を1命令で同時に行いながら、
スカラ側でキャッシュコントローラの操作やベクトルストアをいずれか1命令ペアにして
発行することができるからだ。
さて問題です。GEMMにおいて、32Wayの積和算ユニットに対し、同時に乗算値を供給するのに
ロードユニットは最低何Wayでなければいけないでしょうか?
これが解ればFermiのGPGPU性能に微塵も期待できなくなる
HD5870を買った俺は勝ち組ってことですね
カス以下です
http://japan.cnet.com/blog/petaflops/2009/10/30/entry_27035208/ > 天河の詳細は不明であるが、IntelのCPUはNehalem-EPで、AMDのGPUは
> FireStream9270Sであろうと推定されている。また、システムの理論性能は
> FireStreamの性能によるものと推定されており、実行性能比が46.7%と
> いった目を見張るほどの低性能の原因もGPUに依存している事を端的に
> 示しているものと思える。
>
> 広い意味でのGPU方式とはいえ、Cell+OpteronのRoadrunnerは実行比率に
> 於いても75.9%とCPU機に引けを取らない性能を示しており、いわゆる、
> 技術力や知性を感じるが、50%を切るようでは、そもそも、その理論性能の
> 計算方式が誤っているとしか言い様が無いことになる。
ATIならずともNVIDIAにも共通の問題だなこれは。
糞ブログ貼るなや
中国とは言ってるけど台湾だな
文字通りのチップなんじゃないの?B0が出た頃に動きがあると思ってたが・・・
いよいよFermiやばくなってきたな。
>>701 お偉いさんが直接売り込みをしにいった、という記事でそれ以上でも以下でもないぞ
チップセットか何かにバンドルすると安くなるみたいだな
世に出るIntelマザーの数 = Larrabeeの数みたいな状況になると競争にならんだろうな
ベンダの中の人だけど、紙っぺら見せられて
「凄いから採用しろ、売れるから」と連呼されて引いちゃった。
日本にカードベンダなんてあったっけ?
カノプー
>>704 ミッドレンジ以下のIntel CPUの数=GMAの数に近い状況ってだけでも死ねる。
>>705 Larrabeeは知婦瀬戸に内蔵
ドライバが安定しだす発売1年後が本命だろjk
CPUとオンダイにするんじゃないの?どんだけ微細化したらできるのか知らないけど
LarrabeeはHaswellに入る。
オレゴンチームも加わったし。
LRBniはAVX(256ビットSIMD)立ち上げのために意図的に情報規制してる気がする。
特許文書見るとアウトオブオーダパイプラインでLRBniを実行するモデルが出てるんだけどね。
:::::::::::.: .:. . ∧_∧ . . . .: ::::::::
:::::::: :.: . . /彡ミ゛ヽ;)ヽ、. ::: : :: >オレゴンチームも加わったし。
::::::: :.: . . / :::/:: ヽ、ヽ、i . .:: :.: ::
 ̄ ̄ ̄(_,ノ  ̄ ̄ヽ、_ノ ̄
オレゴンチームはAMDの心強い味方だね
元々Larrabeeにはネトバのアーキテクトが関わっているのに。
アム虫はNehalem-EPにボコられておいてまだオレゴン馬鹿にするのかwww
Core MAを流用した負け犬オレゴンが何だって?w
と意味不明な供述をしており
オレゴンが開発したP6を流用した(ry
Larrabee搭載のボードって10万以内で買えるかな?
>>720 GPUとしてなら、3万くらい?HPC用とが主のボードだったらそれでは買えないだろう。
どっちに振ってくるかしだいじゃね?
最初はExtream向けだから伝統の999ドルとか、GT300と同価格帯とか。そんな感じじゃないの。
メインストリーム向けが何時出るかはしらね。
結局、GT300の実行性能が50%で、Larrabeeが90%とかの差が出ても、
価格差がそれ以上で逆転してたら、一般向けの選択肢はGT300しかないんだよな。
Larrabeeはあんまり一般向けで出しませんとかなると、Cellのボードみたいに
100万近いとかなりそうな気がしてな。
でも、larrabeeを5万前後で売るってなったら、本気でGT300を殺せるかもっていう
気はするな。
Larabeeが出る頃には他社のGPGPUも進歩しててi740の二の舞になりそう
ちゃんと製品化されればまだマシだが
ベイパーハードにならなきゃいいけどな
コピペだからな
素人なんで、基本的なことかもしれないけど、
これって、メニイコアのCPUと何が違うの?
>>729 基本はメニーコアと同じもの。
OSを動かす必要がないから、シンプルコアですむ。シンプルということは、小さくなる。
だから、今のシリコン予算でたくさん乗る。で、何でかしらないが、現状のCPUよりピークが高速に。
ららびーはコアのベースがMMXペンティアム+新命令って言われてるみたいだから、
OSも動かそうと思えば動くかもしれないけどね。
まぁ、どっちかって言うとアクセラレータのタグイだと思うよ。
>>725 i740って当時の光源処理ちゃんとするから、ファイナルリアリティできれいにうつるんだぜ〜。
決して高速なボードではなかったが、技術的にはいいボードだった。
これも基本的なことなのかもしれないけど、
Larrabeeを動かすには、
Larrabee専用のプログラムを書かなきゃいけないの?
>>732 あんまりよく知らないけど、
ららびーを見つけるコードとか入れないといけないと思う。
後は、インテルの開発環境にお任せすればある程度の性能はでるかもしれん。
基本はペンティアムだし、スレッドにまつわる不具合とか最適化とかの知識が役に立つ気がする。
これらは、団子の人がよく知ってるんじゃないかな??
いろいろ質問ばかりで申し訳ないんだけど、
将来Larrabeeが出たとして、純粋にGPUボードとして使って、
例えば、今あるFPSのゲームCall of Duty4:MWなんかが何のパッチをいれることなく動くの?
あきらめろ
>>738 ららびーの何処が良いって言うと。未来さ。
これからの汎用性を重視した流れに乗るために誠意開発中。ってこと。
何世代か前の固定機能で実現される機能に対しては弱い。
ハードの汎用性と機能の性能は反比例すると思っている。
固定機能をつければ、性能が上がるが汎用性が減る。そんなイメージ。
>>734 DirectXに対応してれば可能なはず
DLL遅延ロードのテクニック何重にも使わないといけないから
「ユニバーサルGPGPU」なアプリ作るのはめちゃ骨が折れるぞ
まあ一度仕組み作ってしまえばいいんだが
APIが変わる度に作り直しする羽目に・・・
>>738 昔の3Dマークみたいな感じか。
確かP3用のDLLとかCPU専用のコード持ったモジュールに分けてたみたいだったな。
ファイル名からの推測だけどね。。。
もうHD5800が出てるし来年にはHD6xxxが出るのにいつまでたっても発売されないLarabeeに望みをかけるインテル信者の脳味噌を疑うね
HPC分野ではRADEON(笑)なんて端から相手にされてない
>>742 そう思ってたんだが、中国人は何を考えているのか……
エラそうにHPC分野を語るやつがスパコン漫遊日記(笑)
能澤の指摘には理性的な反論ができないやつが多いな
radeはいつになったらVLIWをやめるのかね?
額面2.7TFLOPS, 実効500GFLOPS程度でも威張れるうちは辞めないだろう
>>746 来年の後半に入るシステムが今年のシステムの2倍のCPだとして何がおかしい。
LINPACKの性能は10年で1000倍だぞ。
そもそも天河のシステムが適切かどうかは天河で動くアプリケーション次第だ。
スパコンはLINPACKの順位争うために作るものじゃねーんだよ。
>LINPACKの性能は10年で1000倍だぞ。
今は20世紀じゃありませんよ?
GPUですら8800GTXが2年近くも最強を誇ってたような、そんな閉塞感漂う
今日この頃。
ついでに言うと2010年後半ということはNehalemかWestmere, AMDだと
Istanubulなんだよな。そんなにFLOPS単価変わるか?
ついでに言うとトランジスタ数割増加するだけでベクトル演算性能が
倍にブーストするようなAVX/FMAみたいなSIMD拡張のキャパビリティは
GPUはとっくの昔に使い果たしてる。あとはメモリ帯域枯渇で差を詰められるのみ。
呆れた。
石油が無尽蔵に沸いてくるとでも思ってるのだろうか?
その「トップ」の消費電力も調べてみるといいよ。
道理でエネルギー消費大国のアメリカしか残ってないわけだ。
>>753 コンピュータの物理的限界はまだまだ遥か先だぞ。お前が生きている間は心配ないw
プロセス開発の資金的限界でバッタバッタしてますけどね。
まあ、そこの所は当分Intelが頑張ってくれるでしょ。
苦労してASIC作っても数年で汎用プロセッサに抜かれる現状の終焉は
イコールx86からの解放なんだから。
物理的な限界よりもたいてい経済的限界の方が先だな。
今だって冷やせば5GHz、6GHzで動くものをコストのかかる冷却方法を
避けてるから3GHz程度でしか使ってないのだし
近年のx86の傾向として、SIMD拡張ばっかりフォーカスされてるが
bsr, bsfみたいな命令がなにげに1サイクルで処理できるようになったり
地味にスカラ性能の底上げを続けてるんだよね。
昔数10サイクルかかってた命令が1サイクルになるような
そんな余地が残ってるから、どの陣営も軒並みクロック上昇に行き詰まっても
x86だけは演算速度が上がっていく。
かつてはパイプラインを乱すからとRISC信者から馬鹿にされてた命令の数々が
パフォーマンスの要になっていくのだから面白い。
x86のトレンドは固定機能の充実だ。WestmereのAES拡張命令しかり。
GPUと逆を行ってるな。
AES拡張命令追加を知らなかった。なおさらNanoの存在意義がなくなるじゃないか。
VIAのあれって専用コプロセッサに投げるんじゃなかったっけ。
WestmereのAESはSSE用のROMテーブルを拡張してソフト的に実行する。
Atomで使えたらARM対抗の意味でも美味しいんだけど。
Fermiも多くの改良が入ってるだろうから期待しているが、
Larrabeeも気になるんだよな。
非正規化数のハードウェア処理ってトランジスタ喰うのかな。
CUDAのプログラミングモデルは慣れたら分かりやすいから好きだが、
Ctはどうなんだろ。ゲームは速いのかLarrabee……?
手に入れたら自分用のエンコーダーでも書いてみたいね。
しかし、だんごさんの話は難しいんだが、x86は何で勉強すればいいのやら。
拡張命令の拡充とCPU-GPU統合が進めば
GPGPU?そんなのもあったね
みたいになっていくんだろうなぁ・・・
サウンドボードとかNICもオンボで十分になっちゃったしね
Larabeeはi752の二の舞になる予感
なるほど統合化で成功するわけですね
Larabeeが出たときに、既存のゲームがそのままで動くかどうかについてソースある?
動いたとして、高速で動作する見込みあるの?
Larabee専用に特殊なプログラムが必要なら普及しない。それはPS3が既に、現実に実証した。
ゲームに厳密な3Dなど必要ない。スーパーコンピュータ用途?我々一般ユーザーには一切関係ない。
Larrabeeスタイルが流行るのは・・・5年後だ!
>Larabeeが出たときに、既存のゲームがそのままで動くかどうかについてソースある?
さあ?
>動いたとして、高速で動作する見込みあるの?
さあ?
>Larabee専用に特殊なプログラムが必要なら普及しない。
馬鹿乙。
>ゲームに厳密な3Dなど必要ない。スーパーコンピュータ用途?我々一般ユーザーには一切関係ない。
ゲームの進化を否定するなら、GPUは別の用途を開拓しなきゃね。自家撞着乙。
>>766 Larrabeeについては先ず、本当に発売されるかどうかを心配するべきだから。
そんなこと聞いてもまともに答えられる人はいないよ。
自演乙。
しかしその程度じゃここを延焼させるのは無理だと思う
どっかのスレみたいに最強とか勝利とかいう意地の張り合いとは無縁だし。
>>766 他のGPUに最適化されたゲームが高速に動作するかと言えばNoだ。だから帰れ。
ゲームしかしない厨房が一般ユーザー代表みたいなツラすんじゃねぇよ。
一応、基礎の基礎として
強いて言うならディスプレイドライバ自体が各社のチップ向けの「特殊なプログラム」だね
それが為に「我々一般ユーザー」からは各種の癖をもったチップの動作が何がしかのパフォーマンスの高低程度の違いしか見えなくなる
GPUに関してそれに+して特殊なプログラムが必要かと言えばNOだと思うよ
他の用途に使うなら何がしかのアクセラレータソフトが用意されるかもしれないけど。
ゲーム向けを否定するならNVIDIAのGT300系相手に粋がるの止めたら
有効活用できるアプリのあてもないハードを商品化するほどIntelも酔狂じゃないだろ
粋がってないよ。HPC分野では相手にならないだけよ。そしてHPC分野のパフォーマンスは後のゲーム生きてくるんだよ。
NV厨の思考は相変わらず支離滅裂だな
AMD厨以下だこいつら
CUDAってかなり普及してるイメージがあるけど、実際は対応ソフトは数えるほどしかないって言うw
殆どホビープログラマーの戯れに使われてるぐらいw
なーんか変なのがまだ頑張ってるのかな
Larrabeeの面白い部分は全部がx86命令の走るプロセッサであること。
GPUとして使うならソフトウェア描画(笑)と言われても反論できないしそれがそのまま利点
GPGPUとして使う場合も同様。x86としての仕様の制約はもちろん受けるとしても
元がGPUのチップと比べれば遥かに汎用性に富む。無駄が出にくい。
そーいや昔書き換え可能なチップ使ったマルチメディアプロセッサなるものがあったねぇ・・・
ってかLarrabeeに否定的なのってNVIDIAくらいでしょ
妄想乙
768Kぽっちのキャッシュでパフォーマンスが稼げるなら苦労はしねーわ
> Larabee専用に特殊なプログラムが必要なら普及しない。それはPS3が既に、現実に実証した。
なんで「CUDA」とか「OpenCL」に置き換えてもそのまんま通用するようなこと言うの?
Larrabeeは普通のCPUのようにCで組める。
団子ってスルー耐性無いよな
某おすすめMMOのプロデューサーもLarrabeeに興味を示してるみたいだな
じゃぁISAつながりでw
団子はx86に追加してほしいインストラクションって何かある?
スカラーでもAVX系でもいいよ。
自分はAMD SSE5のIMAC系のがやはり欲しい。あとビット加工色々。
なるほどNVIDIA GPUの現状ですね。
>>787 上はともかく、下の記事の要約をそう書くのは
お里が知れも程がある、てかGPGPUでRegExp
やれるもんならやってみろw
・Assembler
・普通のC
・普通のC++
・普通のC++ & Threading Building Blocks
・Ct
・OpenCL
・Compute Shader
好きな言語・フレームワークで頑張れ
アセンブラは動的コンパイラなんて信用できない自力で性能を限界まで引き出したい人向けの最終手段であって
別にアプリ書きは意識する必要なんて無い。
必要に応じてゲームエンジン屋が対応すればいい話だし。
>>786 AMD XOPのIMACはイマイチなんだよな。何処で使えるの?
VPCMOVとかVPPERMは好き。
とにかくSIMD整数で4オペランドの融合演算命令はもっと欲しい。ビットローテート+加算とか、加算+加算とか。
あとFMA4のimm8が4ビット余ってるからブロードキャストのオプションが欲しい。
Larrabeeの fmadd231ps v1, v2, [rsi] {1to16} でロード・ブロードキャスト・積和を1サイクルでまとめて実行できるのは面白い。
でも俺的ブームはAjaxなんだよね
文字列操作はそもそも横方向のオペレーションに対してOpenCLとかCUDAなんかは言語仕様上も不自由なんで
GPUには全く向いてない
Larrabeeを文字列に使うとして、内部UTF32で扱うデータベースではそれなりに使えるかもしれないね。
CtにはサーチやリダクションのAPIがあるし。
>>787 x86である利点とLRBniの利点を同時に生かすことは難しいみたいだね。
x86であることを最大限生かす、既存のアルゴリズムやバイナリ利用では
LRBniは全然活躍せずLarrabeeの潜在能力の大半は遊ぶ。LRBniを最大限
生かそうとしたらアルゴリズムをラディカルに見直さなければならず、
既存のx86資産に出番はない。
訂正 バイナリ利用 → ソース利用
>>792 何も理解してないみたいだな。
少なくとも高機能なメモリ演算機能付きのロードとブロードキャストと積和算をプレディケートつけて1命令で実行するのに
x86のようなパイプライン化されたCISCである必要はある。
RadeやGefoなんかのGPUとLarrabeeは
ただのパートのおばちゃんとインテリジェントなパートのおばちゃんぐらいの違いがある
Fermiはよく訓練されたパートのおばちゃんくらい?
じゃあ68000系の終盤の奴でもいいのかな? パイプライン化されてるらしいけど。
RP2見たときSuperH版ララビーできないかな、と思ったけどあれはRISCだからダメかね。
和製GPGPUの夢は叶わないか。
>>790 ついに団子もトータルフットボールに目覚めたか
マニアックだな。イングランドやスペインならわかるが。
オランダがマニアックとかアリエン
後藤がAtom何十個も使ったLarrabeeもやろうと思えば出来るとか言ってたが、
Bobcat何十個も使ったAMD Larrabeeもやろうと思えば出来るのかな?
もうちょっとシンプルなコアの方がいいだろう
Bobcatは無理。
in-order使ってるしダイサイズでかすぎ。
やべ、素で間違ったw
けど32nmプロセスで現行メーンストリーム半分サイズってことはCPUコアだけで25mm2以上だろう?
全然話にならない。シンプルコアにout-of-orderって時点でもうアウト。
BOBCATはあり得ないにしても昔のCPUをプロセス1世代ごとにクロック何割増し、っていう単純計算をしていくと、
1GHz〜2GHzに達するものは結構ある。AMD版ララビーを作れないとは思わない。
んなことするならなんのためにAtiを買ったのか、と。
将来的にAMD版Larrabeeが必ず出ると思うが
十中八九Larrabeeが市場を拓くまで出てこない
キャッシュ周りがgdgdだな
>>807,812
プロセス世代ごとに限られたトランジスタ数で沢山積めるのは、って事なら
ダイサイズ比較よりトランジスタ数で比較した方がいいのではないかね。
今日Fermi発表されたね
理論スループット1.26TFLOPSとか相手にならんだろ。
Larrabeeの32core版が1GHzでしかまわらなくても実効性能で勝てる範囲。
816 :
Socket774:2009/11/18(水) 02:05:55 ID:nEWQ2AiR
世界の半導体業界TOP20
米国:
インテル TI クアルコム AMD フリースケール・セミコンダクター ブロードコム マイクロン NVIDIA Marvell アナログ・デバイセズ
日本:
東芝 ルネサス テクノロジー ソニー NEC パナソニック シャープ エルピーダメモリ ローム 富士通
韓国:
サムスン電子 ハイニックス
それ以外:
STマイクロエレクトロニクス(伊・仏・スイスの合弁) インフィニオン(ドイツ) NXPセミコンダクターズ(オランダ) MediaTek(台湾)
世界的には3カ国に半導体企業の分布が偏っている。
ここから考えたら業界最大手のIntelに対抗するのは誰がやるにしても大変だぞ〜・・・・。
AMDは財務が超ヤバくて、もはや単独で生き残るのが難しく見えてきている。
だからこそ、身売り噂がある。候補はNVIDIA、IBM、Samsungの3社らしい。
だか、しかし、たとえAMDが韓国・中国の企業になったとしても絶対にAMDを潰してはいけない。
もしもAMDが潰れるとIntelがシェアと価格の両面でハイスコアを叩き出すようになる。
VIA…
Intelを今後苦しめるのはARMだと思うが、逆に低価格向けという棲み分けがARMを苦しめることになると思う。
マスク作成のコストだって世代を重ねるごとに上がってるし、そうなると面積単価の高いほうが相対的に有利になる
身売りとか出たのGFの更に前だろ馬鹿じゃねーの
820 :
Socket774:2009/11/18(水) 03:12:24 ID:nEWQ2AiR
823 :
Socket774:2009/11/18(水) 20:16:40 ID:PEHftHnx
>GPGPUはCPUとのデータのやり取りがボトルネック。
結局どんなカード出してもそこだなww
>GPGPUはCPUとのデータのやり取りがボトルネック。
やはりHaswellでLarrabee統合するIntel大勝利ということか
で いつでるんだよ 買いたくても買えないだろ
あと1年くらい285でいいや
変わるよ。
ただソフト側はチューニング不足だと思う。
通常417GFlops/理論上800GFlopsでも大したもんだよ。
半導体規模が上がってくる段階でGPGPUは完全に脱落する。
4.7TFLOPSのGPUが買える時代に417GFLOPSとなw
全部のALUがフル稼働かつFP積和算だけを実行した場合というありえない
条件での最大理論値を引き合いに出してもねぇ
同じ条件ならその4.7TFLOPS(キリッ のカードは実効300GFも出ないと思うんだ。
ある意味で前世代での実績があるし。
演算ユニットあたりのメモリ帯域の狭さ、キャッシュメモリの少なさ、
ホスト間転送帯域・・・これら全てボトルネック要因。
ちなみにNVIDIAもAMDもHPC向けにデュアルGPUカードを出した実績がないし
出してもホスト間帯域命のGPGPUでは役に立たない。
通信帯域がネックになって性能がスケールしないからな。
グラフィックとは勝手が違うんだ。アホ。
はぁ・・・実績ですか
既にTOP500で5位、電力性能で4位につけてるだがねぇw
しかも前世代の4000シリーズでw
ララ?ゲフォ?そんなのどこにあるのですか?w
そいつらが出てくる頃には単体で10TFLOPS超のHD6000シリーズにフルボッコされてるよw
じゃあ実績をみてみようか。
順位がわかるなら算数くらいはわかるだろ?
http://www.top500.org/system/performance/10186 CPU分の性能を差し引かずに計算しても
563,100GFLOPS/2560枚 ≒ 219GFLOPS/枚
ACML-GPUじゃSGEMM(単精度)でもせいぜい倍精度の2倍の
440GFLOPS程度が関の山。
デュアルカードはスケールしないしそもそもRadeonそのものが効率が悪い。
これが現実。
10TF?
ありえないw妄想もほどほどに。
>>834 いい線いってるね。
HarpertownやNehalemオンリーのクラスタが90%超えを達成してるし
GPUのドライバタイム分を差し引いてざっと概算しても200TF程度はCPU側で稼いでると見られる。
メモリ帯域は演算ユニットあたりでみると相対的に世代を重ねるごとに狭くなっている。
スレッドあたりのスクラッチパッドメモリが少なすぎる。
理論性能だけが先走りして実効性能がついていかないのも道理だ。
CPU側が200ちょっとだとGPU一つあたり140GFlops程度?
チューニングでどのくらい改善出来んのさコレ
>>836 4870単体のAMD公式のチューニング済みの実効値がこんなもの。
SGEMM - 300 GFLOPS
DGEMM - 137 GFLOPS
X2のデータは見つからなかった。
575/750MHzにクロックダウンすると105GFLOPS/s
単純計算でデュアルGPUだから210GFLOPS/sくらいは目指せそうだが
PCIeがネックかもしれんね。
LarrabeeのSIMDはfloat×16またはdouble×8のフラット構成なので、
DGEMMのスループットはSGEMMのちょうど半分程度。
そんなに悪くないね。
あのアーキで単体10Tとか出そうとしたらカードが爆発するよw
HD6xxxはアーキ変えるんじゃなかったか
なぜ実行性能が悪いのにHD4870X2は2560枚も使われてんの?
Project X
Radeon HD4870のピーク値を目指した者達
効率悪いけど、1枚100〜200GFlopsならXeonやOpteron使うより性能上だからじゃないの?
あと安かったんじゃないだろうか。
あと1枚あたりの性能が倍精度に関しては、それでもCellやTesla C1060のピークを超えるし
FireStreamじゃなくて4870X2なのもまあ安いからだろうな。
開発費が異常に高い気がするが業者がボってる感が否めない。
Intelが本気を出すと怖いってことは確かだ
ID:7qiryw4nは、典型的なラデ信者だな
flopsでしか判断できない脳みそが痛々しい
FLOPSはパワーだ!
正義だ!
だが特定条件でしか動かないような浮動小数ユニットなんて理論値に入れるな紛らわしい。
LoadとSwizzleを並列動作させて出せるFLOPS数だけを理論値とせよ。
ならベンチマークを作り直せ
現行のベンチマークでも性能出て無いだろwwww
Larrabee(16コアと仮定)
●レジスタ
1コアで512-bit× 128本
16コア 32bit換算で、合計32,768本
●L1キャッシュ 1コア 32KB + 32KB
1024KB
●L2キャッシュ 1コア 256KB
4096KB
Fermi
http://pc.watch.impress.co.jp/img/pcw/docs/326/442/kaigai11.jpg HD5870
●レジスタ
非公開
●L1キャッシュ 800KB
32KB + 8KB * 20
●L2キャッシュ 512KB
128KB * 4
Larrabeeはレジスタの本数は少ないが、L2キャッシュは圧倒的に多いな
HD5870はなぜかレジスタ非公開何かまずいのかね公開すると
IBMが主張してるように32nmクラスになるとHigh-kが必須って事だったのかな
TSMCはHigh-k採用は28nmからだし
>>849 ちなみに先日デモされたLarrabeeは24コアだってよ
32コアの8コア無効版と思われる。
それ記者の妄想
32コアで750MHzだった可能性もあるわな
なんせESの動作クロックだし
まあそうだな。
だから417GFlopsは何コアでクロックかもわからないよね
実行効率も推し量るようがないな
Larrabee遅いな
このままずるずる遅れてAVXでいいんじゃねという流れになりそう
AVXの先にあるものなのに・・・
そのサイトで5月に書かれてた32コア2GHzは出ないかも知れないな
Fermiのクロックが20%下がったから
キャッシュはまあわかるがレジスタって何さ
spとかFPUとかその中身のことなのか?
レジスタはレジスタさ
Larrabeeはソフトウェアパイプラインにするとこによって
例えば、固定機能のROPが忙しいときには固定だと誰も助けに来ないし
逆に、暇なときは他の忙しい処理の助けにいかない
つまり、負荷分散できないから効率が悪い
と言う説明を聞いてなるほど!と思ったんだがだったらなぜLarrabeeはテクスチャは固定なんだと・・・
例によってシミュレーションで検討の結果でしょ。
テクスチャユニットは利用頻度が高いから固定的にリソース割り当てた方がいいって考えたのでは?
とはいっても最低限の数しかないし、テクスチャの量が多い場合は
必要に応じてコア側でソフト処理する必要がありそうな。
負荷分散で効率を謳うなら、徹底してテクスチャもソフトウェアでやって欲しかったね
まあ、それでもライバルGPUよりも全然先進的だけど
この業界は、進化が速いからね
油断していると、すぐに対応されてしまう
負荷分散で効率を謳うなら、徹底してテクスチャもソフトウェアでやって欲しかったね
まあ、それでもライバルGPUよりも全然先進的だけど
この業界は、進化が速いからね
油断していると、すぐに対応されてしまう
大事なこと?
>>861 >Why use fixed function texture logic?
>・Texture filtering needs specialized data access to unaligned 2x2 blocks of pixels
>・Filtering is optimized for 8-bit color values
>・Code would take 12x longer for filtering or 40x longer if texture decompression is required
要するに多くのコアをテクスチャの処理に食われてしまい
かえって負荷分散のメリットを削ぐことになるから
ちなみに例のシミュレーターでは専用のテクスチャユニットは実装されてない(全ての処理をx86コアでやっている)ので
1GHzという低いクロック数も相まって、製品版は更に性能が上がる余地があると言える
つまり、負荷分散って担当のパイプラインで重い処理があると
他のパイプラインを担当する人間が自分の仕事を投げ出して
助けにいくから全体の効率が落ちるって事だね
なんとなく、負荷分散の仕組みが分かったよ
>>867 例の名誉病院の件?
あれは可逆圧縮を売りにしてるわけで、不可逆圧縮画像のデコードが出来てもあまり役に立たないような。
固定機能=3Dゲーム用途アクセラレーター
既存GPUでも、Larrabeeみたいなソフトウェアもできるよ
SPのみで実行して、固定機能は経由しなければいいだけ
例えば、レイトレとかはラスタライズじゃないから固定機能は経由しない
まあ、インテル信者だからLarrabeeは絶対買うけどね
レイトレでもテクスチャは使うだろ?
レイトレでもテクスチャ使うよ
そして、Larrabeeもそのテクスチャ使う
テクスチャの読み込みは固定機能じゃないのかと
きちんと入力しないと、実行できない出来そこないのコンピュータみたいな
流れになってきたな
テクスチャは、固定機能だがLarrabeeもテクスチャは固定機能だろ
つまり、既存GPUがLarrabeeみたいなソフトウェア処理をするために
テクスチャが固定機能かどうかなんてまったく関係ない
きちんと入力しても、実行できない出来そこないのコンピュータみたいなレスだな。
レイトレは固定機能使わないって発言に対する突っ込みなのにララビーみたいな
ソフト処理がどうのこうのとかずれてんだよ。
グラフィックスなんてもうどうでもいいんだよ
だってもう遊ぶゲームが無いんだから、PCゲーにはw
コンシューマーからの残飯でベンチは60fps以上で空回りw
PCで出しても売上げ比率10パー以下w(例MW2
テクスチャとかどうでもいいのw
まぁPCでゲーム遊んでるヤシがヌビの凋落を喜ぶなんて自傷行為以外のなにものでもない罠
連中が技術支援与えて底上げしてたんだから
>>877 紙芝居のエロゲも全然衰えないし
ツクール製RPGでも名作は50時間とか普通に遊べるからなあ
グラフィックスのクオリティだけじゃもう押し切れないっぽい
スクエアっていう反面教師がいるだろ
あと人によってはMGS4も
グラがいいことに越した事は無いがそっちの比重ばっかになりゃゲームはつまらなくなる
KOFとかゴミグラだったが人気はでたろう
×フォトリアルは全てのゲームに不要
○フォトリアルは一部のゲームにしか必要じゃない
>>880 日本にしかない気がするプリレンダリング3DゲームではGPUは
動画再生支援に必要。
よってGPUのパワーは3Dゲームにはとても重要。
ん?
>>879 ファミコンエミュで遊んだら結構面白かったってのと同じか。
グラから音楽まで全部フリー素材だがelonaが相当面白いよwww
オブリが好きなら絶対ハマルはず
キャッシュコヒーレンシの縛りがあると
どうしてもスケーリングの足かせになると思うんだけど大丈夫なんだろうか。
45nや32nでよくても更にその先のトランジスタを活かせるのかどうか。
Intelは3Dトーラスまで検討してたが
まあリングバスなうちは余裕と見ていいだろ
>>885 コヒーレンシの縛りなんてmovnt*の登場時点で破壊されてますが
L1キャッシュすっとばしてロードとか出来ますよ普通に
>>887 それキャッシュ使ってないって事で
それ多用して性能でんの?
タイルレンダと合わなくない?
L2にあるデータをL1に確保せずに読み出すときにも使えるよ。
共有データをL1に確保さえしなければスヌープは必要ない。
あと他にgatherpfd/scatterpfd命令ってのがあってだな
Larrabeeは、スーパーコンピュータ用途がメインって認識でOKですよね?
正解じゃない
では、間違っているっていうこと?」
メニーコア構想の具現化の一つ
Cellのパクリなんて言われてますが?
342 名前: 集気ビン(コネチカット州)[sage] 投稿日:2009/11/24(火) 12:22:49.92 ID:Ar1dyVcR
昔はCellの事をバカにして笑い物にしてたIntelが
「やっぱりCellの方向性が正しかったかも、テヘッ///」とか言って露骨にパクってきてるし
すごい議論されててメインストリームになりつつあるし
やはり巨人IBMの先見性がすごいというか、クタラギもすごい人だと思うよ。
379 名前: 鑿(山形県)[] 投稿日:2009/11/24(火) 15:21:25.64 ID:cnLIpv5I
>>342 LarrabeeのどこがCellに似てんだよ
ニワカもほどほどにな
383 名前: ビーカー(関西地方)[sage] 投稿日:2009/11/24(火) 15:41:09.99 ID:oEkrjBen
>379
Cellの論文見てからCoreシリーズの開発が始まったけど、すぐ行き詰ってLarrabeeになった。
似てないじゃんなく特許回避しながらARMアーキでCellの再現をしただけだろう?
その代償がコア数増加・消費電力・周波数を犠牲にするハメになっちゃった
Larrabeeの設計自体はかなり良い物なんだけど
387 名前: るつぼ(富山県)[sage] 投稿日:2009/11/24(火) 15:48:21.73 ID:UDNWPfFk
>>379 似てる部分は結構あるよ
ISAはx86だけどコア自体はシンプルなベクタプロセッサでSPEと似てる
キャッシュ機構もSPEのLSのように最大性能を発揮できるようLSのようなスクラッチパッドモードがある
(キャッシュ機構のままだと数個のコアしか連動できずメニーコアのLarrabeeにとって効率が悪く適さない)
違いも多いけど今のところCellに最も近い設計思想と言えるのがLarrabee
IBM「なんかゲハ界隈でアンチソニーがCell撤退って騒いでるけど撤退しねーよ。カス。」
ttp://tsushima.2ch.net/test/read.cgi/news/1259015555/387
はっきり言ってニュー速のスレなんかどうでもいい
ゲハニートのCell起源説には呆れるが
> 似てないじゃんなく特許回避しながらARMアーキでCellの再現をしただけだろう?
いつから
A R M
になったんだwww
> キャッシュ機構もSPEのLSのように最大性能を発揮できるようLSのようなスクラッチパッドモードがある
FermiのL1と勘違いしてるようだがスクラッチパッド「モード」なんてない。
prefetchとコヒーレント無視のwrite-throughの専用命令なら
Pentium IIIから存在しているが、あくまでそれの延長の技術として
スヌープの回避方法が提供されている。
こいつら最高にアホ
よその板の低レベルな喧嘩をいちいち持ち込んでくんなよ…
899 :
Socket774:2009/11/24(火) 17:43:57 ID:7n+zc8OS
ララビーはキャンセルなの?
フェルミーはキャンセルされそうだね
このスレとかIntel次世代スレとか、木どころか葉脈見て森見ないようなやつばっかだな
BYTE
WORD
DWORD
QWORD
DQWORD/XMMWORD
YMMWORD
???
このスレ的にGPUとしLRBは期待できないでおk?
グラボはラデ音でも買えばいいと思うよ by Intel
了解。手ごろなHD5850買ってくる。
なんでテクスチャユニットついてるん?
>>907 普及させるために仮面かぶってるからさ。
なんでタイリングするん?
VRAMの帯域消費量を節約するため。
ピクセルライン単位でちびちび転送して処理するからあのデータが足りないとかいって
帯域をひたすら浪費する。
ある程度の大きさずつキャッシュに確保して纏めて処理したほうがトラフィック削減できる。
ああ、PowerVRがどうとか言ってるのはアホなんで構う必要なし。
そんな帯域狭いわけがないだろ。
>>909 過去のDXとかとの互換性であったほうがいいのかなぁ??
タイリングアーキテクチャはDxではキャンセルされてしまったので、グライドみたいな立ち位置じゃね?
VRAM転送だけで何十Wも消費するので、キャッシュを旨く使って消費電力を抑えれば
その分の余剰TDPキャパの枠内でコアをオーバークロックすることができる
なんて実装が登場するかもしれないね。
タイリングレンダで発生するシェーダ間の中間データはどこに置くん?
運が良ければそのままL2キャッシュにそのまま保持。
Cellじゃないんだからバケツリレーする必要なんてないよ。
ストリーム処理の粒度は粗くなり、今までのGPUでは絶え間なくなく流れてた
VRAMのフローは途切れ途切れになる。
いや、それがIntelの目論見なんだけど。
段階的にタイルに移行し、ゆくゆくはCPUコアと統合し、L3キャッシュでバッファリングすることで
より狭い帯域のメモリで動かせるようになったり、CPU間と高速にデータやりとりしたりってことが
できるようになる。
GPUは帯域食いのイメージがあるが、実は意外と食わないってのはあまり知られてない事実。
演算ユニット単位で見るとメモリ帯域はものすごく狭い。
要するにデータの局所性はCPUと比べてものすごく高い。
局所性があるならキャッシュは有効だ。
十分なキャッシュ容量を与えないからこそ無駄にトラフィックが浪費されるわけで。
GPUっていうかリアルタイム3Dグラフィックスは、もっと帯域食わない方法が沢山あるという事だな
ハードワイヤード実装でレンダリングパイプラインが固定され続けて15年が経った、と
俺たち末端のプログラマはそのハードの仕組みに従うしかないからなー
>>914 > 運が良ければそのままL2キャッシュにそのまま保持。
なんでそんな望み薄いことにかけるん?
テッセレータ死んでしもたん?
キャッシュ内タイルレンダで帯域ハッピーなんて
とてもじゃないがLarrabee世代で実現できるような話じゃない。
後プロセス3世代くらい進めば物になるのかもしれんが。
>>916 なんで「賭け」?
あったらあったでトラフィック削れるし、無いなら無いでかまわんのだよ。
キャッシュにないなら、メモリからとってくればいいじゃない。
そこは従来のGPUと変わらん。
ロードして必要データがキャッシュにある別の部位を処理するタスクに切り替えて間を繋ぐ。
そこも従来のGPUとかわらんし、むしろ条件は良い。
だが大丈夫、その程度で望み薄いとか言ったら、10分の1以下のL2キャッシュ容量しかないGeForceやRadeonは
「絶望的にありえない」から。
なぜ運任せになるかって、OSが入るから。カーネルタイムで処理が遮られるし、場合によってキャッシュが流される。
しかし全部のコアでカーネルが動くわけじゃない。
そこを避けさえすれば、明示的にコントロールすることすら可能だ。
あとFermiも含めテッセレータはソフト実装だから安心しろ。
FermiではCUDAで実装するんじゃね?
ソフト実装ではHull Shaderステージと内部処理レベルで統合してしまってもかまわんのだよ。
むしろそっちのほうが好都合だろう。
>>917 俺が言ってることを復唱しなくても十分だよ。行間読めない人?
>ゆくゆくはCPUコアと統合し、
が1世代の話に見えるか?
いずれにせよストリーム処理には変わりないが、きわめて高確率で処理対象の近傍のデータが
キャッシュに載ってるからメモリまで取りに行く頻度は激減する。
で、一世代目はいつ出るの?
早かれ遅かれ来年の中頃
なにげに楽しみだったんだけど、結構遅いんだな。
その論文のことじゃないが、
論文て肯定的な時だけ出すんじゃないぞ。±どちらでも書く。
これはこのように駄目でした、でも業績一つ稼げるんだから
こういう人達は素人fanboyみたいに、知らないまま否定する、ということは
しない。必ず検討する。そして検討に時間を費やした以上は
その労力を自分のキャリア・業績としてカウントされる形で残そうとする。
検討したということと、採用へ傾いたということとはほとんど独立している。
その言い分だと、彼に研究すらされてない
TeslaやFireStreamは検討にすら値しないってことだけどな
>>924 君が思ってる以上に米国の企業研究所は利益性に関してシビアだぞ。
なんで他社の製品の有用性を誇示し、自社製品のCellの商売上
不利益になりかねないレポートをIBMの名前で書かせる必要がある?
IBMが給料を出して研究者にLarrabeeの応用法を示させたことが
何を意味するのか、いくら鈍感でもわからないわけがないだろう。
>>927 IntelはLarabeeがx86であることを大きな柱として宣伝してるけど
>923 には既存の資産ではだめで新たに書き下ろさないと性能を
発揮させられないという意味の事が書かれている。
それなのに>927の目には、Intelの主張全肯定の”有用性の誇示”にみえるのか?
>>927 > IntelはLarabeeがx86であることを大きな柱として宣伝してるけど
それはx86は互換性くらいしかメリットが無いと思い込みたいお前の感想だろう。
[x86] [compatibility]でくまなく検索してみればわかるが
氏は一っ言も言ってない。
> 既存の資産ではだめで新たに書き下ろさないと性能を
> 発揮させられない
そんなのはCellは無論のこと歴代POWERアーキも通ってきた道で
ネガキャンには成りえない。
↓これは自分自身のことを言ってたんだね
> 素人fanboyみたいに、知らないまま否定する
テッセレータって結局分割自体より
増大後の頂点処理のほうが重かったりする
IBMがXeonサーバーばんばん売ってる間はインテル様もヨイショしないとな
Larrabeeお願いしますだぁって
滑らかな曲線描くために頂点を増やすとかやんなくてもソフト実装されるラスタオペレーション側で
補完したほうがよっぽど処理は軽いと思うんだがね。
とか燃料投下してみる
>>923のは普通にブックマークに入れてたわ。
Is Larrabee For the Rest of Us?
- Larrabeeは置き去りにされた人々にとって救世主になりうるか?
使い古された言い回しだが("the computer for the rest of us"って昔の末筋凸腫の売り文句)
高スループット指向のプロセッサが数値計算に特化したものばかり幅をきかす昨今
今回実装を紹介する正規表現エンジンのような非数値計算用途においても実用に耐えうる
プロセッサが求められてるってのが同氏の論点。
どっちかというと貶されてるのはGPGPU。Cellもそうかもしれないね。
IBMは競合他社の技術であっても、気に入ったものがあれが食いつかずにはいられない。
Sunに散々噛みつかれながらもJavaに肩入れしていったけど
そういう社風だからこそJVM-JITとかEclipseみたいな傑作が生みだされたわけで。
そもそもIBMは半導体製造業である前にソリューション屋だから
ソニー東芝の3馬鹿連合の腐れ縁引きずって商機を逃すような馬鹿な真似はしない。
>>918 >
>>916 > なんで「賭け」?
> あったらあったでトラフィック削れるし、無いなら無いでかまわんのだよ。
> キャッシュにないなら、メモリからとってくればいいじゃない。
> そこは従来のGPUと変わらん。
従来のGPUのグラフィクスはストリーム処理だから、そこでメモリにアクセスすることはないでしょ。
GPUの中をぐるぐる回るんだよ。
一方Larrabeeはタイルレンダのためそれができない。
VRAMに一時バッファを設けないといけない。
例えばテッセレーションする場合、分割しうる最大頂点数分バッファ確保しないといけない。
でそれが終わってタイルレンダ始めるときにL2に頂点が残ってる可能性なんて考えるだけ無駄。
Larrabeeでタイルを使うのは
>>910のような積極的な理由でなく、
そうしないといわゆるROPの処理(特にZCull)で性能が出ないから仕方なくという面が
強いと思うな。
団子さんもGPUとしはLarrabeeに期待してないでしょ?
>従来のGPUのグラフィクスはストリーム処理だから、そこでメモリにアクセスすることはないでしょ。
>GPUの中をぐるぐる回るんだよ。
はぁ〜?
Larrabeeに批判的なひとって
Larrabeeに対する理解どころか
GPUの構造に対する理解も無いんですね
メモリ(VRAM)はGPUの「外」にあります。カード上には溶接されてますけどね。
残念なことに、GPUの「中」に全部データ置いておけるほどFLIP-FLOP回路無いんですよ
>>938 > >従来のGPUのグラフィクスはストリーム処理だから、そこでメモリにアクセスすることはないでしょ。
> >GPUの中をぐるぐる回るんだよ。
>
> はぁ〜?
あ団子さんいたw
テクスチャとかのことでなく
>>913のことね。
だいたい従来のGPUはメモリに置き場所確保しないから置きようがないよ。
たとえばXbox360はVRAMの帯域狭い代わりに12MBのeDRAMがあって
ROPから吐き出されたラスタ出力データは(以下略
>分割しうる最大頂点数分バッファ確保しないといけない。
ちなみにこれは換言するならば、キャッシュ上にバッファの断片を確保できる分だけの頂点単位で
分割処理すればキャッシュミスなしでステージ間を繋ぐことができるってことね
>>942 それがLarrabeeとどう関係あるの?
360のタイリングはPredicated Tilingというやり方で最大4分割までと決まってる。
でプリミティブ単位でどのタイルに含まれるかを2bitのtagで残しておく。
LarrabeeのタイリングはPowerVRと同じなので360とは違う。
>>943 Larrabee専用にそう作れば可能だろうね。
でもピクセルシェーダを何回も回さないといけないので結局効率が落ちそうだよ。
>LarrabeeのタイリングはPowerVRと同じ
基地外キター
そりゃ全く同じじゃないけどさ、
そこは言葉のあやってことで許してよ。
あ、ちなみにL2にヒットするようにスケジューリングして動かすってのはLarrabee側の
タスクスケジューラの仕事であって、「専用」に組む必要は無いっしょ。
高級言語ランタイムで提供されるAPIで遣り繰りだけならね。
だが敢えてDirectXなどクソ食らえと言っておく。
音楽配信におけるApple、検索エンジンにおけるGoogleがそうであるように
猫も杓子もMSに主導権持たせる必要など無い。
しまった2bitじゃなくて4bitだった。
>>947 DX11は結構長く使われそうな雰囲気。
レイトレ時代は早くてその後だろなー。
コンシューマ優先のうちは、Xbox独り勝ちにでもならない限りは
どのみちクロスプラットフォームのミドルウェアで対応することになるからね。
柵の多いDirectXに囚われず自由にカスタムエンジン書きたい酔狂なエンジン屋さんがいるかぎり
ソフトウェアレンダラはそれなりに使われることになるでしょうよ
ちなみにEPICはLarrabeeべた褒め
因みに言うとEPICってFPSのデファクトスタンダードたる杏里あるエンジン作ってる所ね。
いまはIntelとガチ癒着状態。だからこそRTRTのデモがQuake Warsなわけで。
>>948 > レイトレ時代は早くてその後だろなー。
どのみちUE4はレイトレベースになるわけ無いから。
だがLarrabeeで本領発揮するエンジンになるのはほぼ確定。
> 360のタイリングはPredicated Tilingというやり方で最大4分割までと決まってる。
> でプリミティブ単位でどのタイルに含まれるかを2bitのtagで残しておく。
tagを8bitにすりゃ、Predicated Tilingは最大256分割できるってこったろ?
んで、各タイルを別コア別スレッドでバラバラに担当する
PowerVRだって次世代の奴はそんな感じの処理になってるでしょ、噂のPSP2の4コア版とかさ
あぁ、tagはタイルまたがるのか、んじゃ256bitねw
今までの3D描画って、頂点情報をケチりすぎだよ
954 :
Socket774:2009/11/26(木) 06:20:07 ID:MCZHFaAT
URLだけでFUDだとわかる
>>948 ちなみに今のゲーム業界ではマルチ開発が前提だからDXは大した支配力無い。
そもそもDXを直に叩いてゲーム作るデベロッパーなんて今時殆どいない。
ミドルウェア屋がゲームAPIの実権を掌握してる。
それでなくともデフォルトの左手系ではなくOpenGLと同じ右手系での利用が常態化してる。
そもそもIntelがLarrabeeをゲームGPUとして売り込むことに強気なのは、
DirectX(MS)のヒエラルキに縛られないフルプログラマブルGPUとして、
Tim Sweeney率いるEpic Gamesらの強い支持が得られてるからに他ならん。
DirectXやOpenGLは最初からレガシーAPIという位置づけ。
Epicは急進的で、C++やCUDAで全てのGPUパイプラインを実装できるように
すべきだと主張している。FermiもHPC市場を追いかけてるように見えて
実はEpicに合わせてプログラマブル化を進めている。
無論、Epicの連中にDirectXやOpenGLは死滅するなんていわれてMSは機嫌よくない。
GPGPU環境のより進んだGeForceをDirectX世代でRadeonの下位に位置づけることで
GeForceのほうが「世代遅れ」だとミスリードするに至ってる。
PS3のミドルウェアですらソフトウェア実装されてるテッセレータを
今更固定機能なんて時代錯誤もはなはだしいが。
>>954 Teslaはぶっ潰せる目処が立ったんだろうな
ミドルウェアやさんってMSほど分け隔てなく(実質はともかく建前上は)
GPUメーカーに配慮するかな?
DXがしかとされるようになったらミドルウェアやさんが気に入った
1、2社以外はスルーされるようになるんじゃないか。
今でさえ乏しいGPUハードの種類がもっと絞られそう
MSとべったりのAMDはどうなってしまうのやら
Unreal Engine 3は360重視でPS3は残念なことになってるからね。
(わかりやすいところで言うとPS3版ラストレムナント開発凍結)
360は元々256MBしか積まない予定だったがTimがゴネて512MBになった。
CPUとGPUのメモリ共用が理想で、その次の世代はCPU機能を持ったGPU
(あるいはその逆)を前提にエンジンを作ろうとしてた。
EpicにとってCPUとGPUを分け隔てるDirectXは邪魔で邪魔でしょうがない。
ソニーがPS4にLarrabeeを検討したのはCellの置き換えっていうよりは
Epicの機嫌をとりたいから。
CPUにCell、GPUにLarrabee(あるいはFermi)という構成をとる
可能性はあるが、どれを選んでもCellのSPEをもてあますので
悩ましいところでしょうな。
でもお高いんでしょう?
Epicのドル箱タイトルであるGears of War3を次世代機で出すといってるんだから
パブリッシャーのMSとベッタリついていくしか無いだろうに
Tim Sweeneyのララビマンセーは、要するに360の次世代機にLarrabee積めよという一種の要請だろ
さらなる次世代では、GPUはららびーが共通で、CPUがぱわーシリーズの特注って構図になりえるのかねぇ。
さらに、いんてるが、ららびー採用してくれたら、カスタムさんでーぶりっじを特価で!とかいったりするんだろうか。
PC版の次期UEでDirectX, CUDA(Fermi), LRBni のマルチバックエンド対応
ってのが落としどころになりそう。
PS4, Xbox3は2012年ごろと言われてるし、Larrabeeのローンチに際し
なんらかのタイトルを用意してるとすればそれが最初で最後の
プレゼンの機会になりそうだね。
おいおいw何しれっとFermi入れてんだw
966 :
Socket774:2009/11/26(木) 18:05:41 ID:zXd9r/pq
DXCSでプログラム書けばFermiでも動くんだからCUDA使う意味がわからない
Larrabeeは従来のGPUに比べて大きく変わってるから次世代エンジンの改革が生きてくるが
Fermiは既存のDXパイプライン処理の方が効率がよい
PhysX・・・
969 :
Socket774:2009/11/26(木) 21:21:37 ID:cgpBtAkP
そういえばCompute Shader上で動く物理エンジンってあったっけ?
一応HavokはOpenCL対応のあらゆるプラットフォームに移植されるが
UT3とかで使ってるPhysXのほうは・・・
なんなのかねNVIDIAの懐の狭さは
GPUにEvergreen世代で勝ちも負けも無いPS4完成
Larrabee採用よりもリアリティあるな
> TBDR based PowerVR 6
なにこれ
>>970 Compute Shader対応はまだじゃないかな。
SM5.0前提にせんと使い物にならなないから、
結局DX11対応ハードの普及がボトルネックに
なるんじゃないかと思う。
>>971 『僕が考えた最強ゲーム機PS4はこうだ!!』
>>976 久多良木さんのいた頃は、実際にそうだったんだからな。
僕(社長)の考えた最強ゲーム機。
恐ろしい会社だ。
>>974 Tile Based Deferred Rendering Based PowerVR 6
くどい言い方だw
PS4がPower7ってことは次期箱もPower7かのう
どっちもクロック限界が見えてるPower5のカスタムチップから互換性持ったまま性能向上しようとしたらそれしかなさそうだし
>>957 HPC版XeonMP(Nehalem-EX 6C)はLarrabeeをDMIリンクするための母艦だと思うんだ。
CPUコアだけならWestmere-EPの方が価格性能比で勝るだろうし。
FLOPS/$の安売りはしないってことだな
larrabee動かすのにxeonが要るのか?おれが見た図ではlarrabeeが互いに4つリンクされてた
あれは凍結。
てかDMIじゃなくてQPIか。
ハードウェアを仮想化して論理的に1チップ1コンピュータで動かすモデルになるとか。
アプリからはホストとゲストは別マシンで、高速なネットワークに繋がれてるように見える。
グラボ版と同じプログラミングモデルがとれる。
改めて読んだが日本語訳は信頼度低いな。
M-Y-Oだから共有仮想メモリモデルって訳するのが妥当。
新しい概念と見せかけて現行のGPGPU-ホスト間の接続モデルと変わらん。
ぬび厨は知ったかでものを言うから困る