【東芝,IBM】Cellプロセッサってどうよ?【ソニー】

このエントリーをはてなブックマークに追加
952Socket774:05/03/19 22:53:00 ID:iok8Q0Iu
>>927

何を言いたいのかさっぱり分からん、っつーか何も言ってないように
見える。

どうやら、SPEがPPEと互換性のある同期手段を持ってるらしい、とか
DMA経由でPPEと同じメモリ空間を触れるらしい、ってのはこれまでに
上がってる資料で分かった。

要するに、ユーザレベルの並列プログラミングに関してSPEはPPEと
機能的には同じことが出来るらしいってことだよね?

となると具体的な事例でSPEが使う方が性能が高いのか、PPEを使う
方が性能が高いのかってのは、同期処理のレイテンシ等のパフォー
マンス特性が次第ってことだよね?で、それは公になってはいない、と。

> SPEで実現するのが妥当だと思われますか?
>
> SPEで処理するだろうと言われればそれまでです。
> が、漏れなら全てPPEで処理します。

根拠が見当たらない断定口調。コボラー(2)は、「SPEはコプロ」という
結論を自分の中で出してから議論してるように見えるぞ。
953Socket774:05/03/19 22:53:46 ID:yZf9GBri
少なくとも頂点演算に関しては既にビデオカードでは
プログラマブルなSIMDユニットを6並列とかで
普通に動かしてるから特に問題無いだろうな。
954Socket774:05/03/19 22:55:53 ID:+rpU0p0W
Cellプロセッサってどうよ?SPE*2
http://pc7.2ch.net/test/read.cgi/jisaku/1111240473/

次スレ立ててみました。
なんかどっと疲れたけど・・・。
955Socket774:05/03/19 23:47:27 ID:XaPFtnSW
>>927
それおかしい。
テーブルでもってりゃいいだろ。
956Socket774:05/03/19 23:48:05 ID:XaPFtnSW
シーケンシャルにアクセスできるしどんなクソ実装を考えてるのやら。
957コボラー(2):05/03/20 00:40:35 ID:qhFkNca1
ちみら、マジで宗教か?と思うくらいに妄信しているのな。
>>922で引っ張ってきたところがどれほど致命的な意味を持つのかマジで解らないの??

まぁいいや。
気長に行くよ。
否定的な奴もいないと盛り上がらないだろうしね。
958Socket774:05/03/20 00:43:39 ID:Twtqiia2
>>927
を読むと、コボラーを詐称する人の主張は、
1) Itanium2やPower5クラスタ系スパコンが不得手で
 地球シミュレータやCRAYが得意な類の計算は
 cellも苦手だろう。

という当り前の推測を土台に、

2) 殆どの場合はSPEがストールするだのcellが使い
 ものにならない

という激しく飛躍した結論に到達する所が説明不足だ。
詐称氏は 1) が解ってもらえていないと思いたいようだが、
問題は 1) と 2) の間の論理の飛躍に説明が無い事だ。

と思ったよ。
959コボラー(2):05/03/20 01:17:37 ID:qhFkNca1
>>958
ごめん、地球シミュレータとか使ったことが無いので解らない。
どちらかと言うとSPEはストールを避けるために、外部からかなり独立した。
独立しているので外部との連携は激しく苦手だ。
と、言うこと。
960951:05/03/20 01:30:13 ID:OzwEKhE5
>>959
いや、あなたの主張する結論「外部との連携が激しく苦手」については
分かったから、PPE 単独で処理する方がましなくらい連携が苦手で
ある、ということを数値出して説明してよ。

少なくとも俺は、それを説明してもらえない限り、
>>922で引っ張ってきたところがどれほど致命的な意味を持つのかマジで解らないの??
はマジで解りません。よろしくお願いします。
961コボラー(2):05/03/20 01:44:41 ID:qhFkNca1
>>960
ごめん、無理。
なぜ無理かと言うと、実機も無ければ詳細も発表されてないから。
逆に貴方もCellに仕事を振ったほうが早いと数値を使って証明出来ないでしょ?
どうしようもない。
962951:05/03/20 01:58:25 ID:OzwEKhE5
>>961
俺のスタンスは、材料少ないから判断保留、ですよ。

当然、あなたの主張する結論は可能性としてはないわけではないので、
単に懸念として表明するなら理解できますが、数値挙げて説明が
出来ないのに PPE 単独で処理した方が速いって結論できるのは何故?
963コボラー(2):05/03/20 01:59:29 ID:qhFkNca1
>>960 後半

例えばPPEメモリ上の足し算
a=b+c;
これをSPEにもって行った場合にどんな修正をしなければいけないか考えてみてくれ。
初めからカプセル化を考えて書け?
じゃ、カプセルが戻ってきたら誰が面倒を見るんだと。
964Socket774:05/03/20 01:59:42 ID:KMJZ4GXl
PPEがSPE1〜8に処理用コードを送り込む。
SPE1がメインメモリからデータを取得する。SPE1は獲得したデータをSPE2にも送る。
SPE2はSPE1からデータを取得する。SPE2はSPE3にも(略)。

こうすれば読み出し帯域を節約しながら処理ができる。用途はレイトレ、物理エンジンなどの比較データ取得。
他にもいろいろ考えられるな。頂点計算や、圧縮したテクスチャの展開、ソフトにより生成、曲面データのポリゴン化、テッセレーション。

DMADMAと大騒ぎしてるが、どこに繋がっているかまったく理解してないのが笑える。
内部バスは4本でさらにパケットが複数持てるので、PPEのL2キャッシュやSPE1〜8のLS、メインメモリ、外部I/O、GPUの混載メモリ
へ並列してアクセスできる。

なんにも考えなくてもPPE単体よりパフォーマンスはデマス。
965コボラー(2):05/03/20 02:02:14 ID:qhFkNca1
>>964
漏れがSPEを全否定しているように思っているならばそれは違う。
ご指摘の用途ではSPEは大活躍するだろう
だがそれら以外の用途ではどうだ?と、いう話。
966コボラー(2):05/03/20 02:04:37 ID:qhFkNca1
>>965
加えて言うと、それらの処理ってnVidiaの領域が結構あるのでは?
967コボラー(2):05/03/20 02:11:18 ID:qhFkNca1
>>964
あ、あと…

>DMADMAと大騒ぎしてるが、どこに繋がっているかまったく理解してないのが笑える。
>内部バスは4本でさらにパケットが複数持てるので、PPEのL2キャッシュやSPE1〜8のLS、メインメモリ、外部I/O、GPUの混載メモリ
>へ並列してアクセスできる。

初めて知りました。良かったらソースpls
968951:05/03/20 02:19:41 ID:OzwEKhE5
>>963
何が言いたいのかわからないんですが。
AoS/SoA の話をしたいの?
969Socket774:05/03/20 02:19:54 ID:KMJZ4GXl
全部妄想で、Cellはショボイです。ソースもありません。
970Socket774:05/03/20 02:25:15 ID:oDDbsZMd
SPEを使いこなすにはセンスが必要。
でアホなコーディングをするとPPEへの負荷がボトルネックになる。
こんな感じかな。
971コボラー(2):05/03/20 02:26:46 ID:qhFkNca1
>>968
いや、単にそんな仕事はSPEに持っていかない。だってナンセンスでしょ?
と、言いたかっただけ。
じゃ、どんな処理を持って行けるのか〜と、つなげたい訳。


>>969
漏れは出来る限りのソースは出しているつもりなんだけどなぁ。
漏れからしたら〜〜は出来て当たり前だろ!
って人こそソースを出してほしいよ。
972Socket774:05/03/20 02:33:06 ID:qey/hJQ1
このお方のファビョり具合は>>938で察してあげてください。
973951:05/03/20 02:35:20 ID:OzwEKhE5
>>971
>じゃ、どんな処理を持って行けるのか〜と、つなげたい訳。

じゃあ、どうぞ繋げた話を続けてください。
あと、あなたの言う SPE が大活躍する以外の用途って何ですか?
974コボラー(2):05/03/20 02:44:30 ID:qhFkNca1
964が出てきてくれなくてかなり寂しい。
964と漏れは対立しているようでまったく対立していないから。
まぁ、それが解ったから出てこないんだろうけど。

>>973
>じゃあ、どうぞ繋げた話を続けてください。

漏れ一人では難しい。
そこら辺はバランス感覚なんだろう。
漏れの主張はづーっと変わっていない。
「ストリーム処理以外はPPE単独でやった方が早いんじゃないか?」


>あと、あなたの言う SPE が大活躍する以外の用途って何ですか?
ストリーム処理以外。
SPEは従来言われているストリーム処理よりは、まぁ、適用できる範囲が広がったと思う。
975Socket774:05/03/20 02:48:52 ID:qey/hJQ1
「以外」の一例くらいあげて見ろよ…
「以外」のほうが多いからあまり評価できないんだろ。
976Socket774:05/03/20 02:53:01 ID:5MzfngRa
つか、ゲーム向きの処理でも連携が取れない(非常に苦労する)から駄目ぽ。
と言い出したのかと思ったら全然違ったのかと。
977コボラー(2):05/03/20 02:55:07 ID:qhFkNca1
>>975
わかった。わかった。
例えば以前、誰かがあげていたZソート(クイックソート)
これなんか無理をすればSPE複数本で処理できる。
無理をすればね。
でも、複数本を使ってもPPE一本のほうが早そうに思える。
978コボラー(2):05/03/20 02:58:03 ID:qhFkNca1
>>976
もちろん、それがメイン。
でも、そんな大きな所を説明する能力が無いのよね。
979コボラー(2):05/03/20 03:03:41 ID:qhFkNca1
で、ZソートをSPEに回せばその間はPPEの手が開くからいいだろ!
と、言われるのならばまったくの正解。
でも、それってPPEが忙しいってのが前提条件だから。
その時点で、PPEには仕事がいっぱいあると理解しているから。
980Socket774:05/03/20 03:04:25 ID:5MzfngRa
…ってあれ?全角の人の別キャラですか。
あぼーんしま。
981Socket774:05/03/20 03:04:32 ID:qey/hJQ1
>>977
問題はゲーム(とりあえずゲームのみ)が完成して全体でどういう結果が出るか、なわけだ、
過程か早かろうが遅かろうが、結果どうにでもなる部分ならどうだっていいってことでもある。

その上でCELLのなにが問題なのか、と。
982コボラー(2):05/03/20 03:13:06 ID:qhFkNca1
誰だよ全角の人って。
しらんがな。(´・ω・`)

>>977
そなの。で、ゲーム用として考えてもEEよりは良いだろうと。
実機がないと漏れも確認しようが無い。
つらいわぁ。(´・ω・`)
なんで、こんなに激しく主張しているんだろう。
983951:05/03/20 03:25:53 ID:OzwEKhE5
>>977
SPE で処理するなら Bitonic sort とかを使用するんじゃないか?
SPE に適さないアルゴリズムを利用して使えない、って主張するのは意味なくない?
まず前提として、ゲームでストリーム処理以外で演算性能が大量に必要なものってなに?
984Socket774:05/03/20 03:26:23 ID:4GEWINO/
>>967
ttp://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/D9439D04EA9B080B87256FC00075CC2D/$file/MPR-Cell-details-article-021405.pdf

俺は964ではないが、例えばこの文書のMemory Flow Controller(MFC)ってのが、ここでいうDMAな。詳しくは中を読めばいいが、

>The MFC can also take the data from the SPE and load it directly into the Power core L2 cache as well.
MFCはまたSPEからデータを取り、それをPowerコアのL2キャッシュへと直にロードすることもできる。

また内部バス(EIB)には、LS(toSPE)x8、L2(toPPE)、MIC(toXDR)、BIC(toFlexIO)x2(GPUとIOPで2口)の、12ブロックがつながっているとNEにはあるな。
985コボラー(2):05/03/20 03:36:33 ID:qhFkNca1
>>983
>まず前提として、ゲームでストリーム処理以外で演算性能が大量に必要なものってなに?
あんまり無いと思うなぁ。
無いから実態として、CellはPPE+コプロ8発だと。

>>984
ありがとう。
へー、メモリではなくてL2に繋がっているんだ。
そりゃそうか。じかにメモリでは整合性に無理があるか。

NEってのは聞いたことがあるな。
DMAの速度は4000クロックで256K〜ソースはNEって感じで。
NEにたどり着けなかったから持ち出していないけど。
見てみるよ。
986Socket774:05/03/20 03:38:28 ID:4GEWINO/
>>985
>MIC(toXDR)

これがメインメモリだ。
987Socket774:05/03/20 03:40:59 ID:qey/hJQ1
となると実態としてスパコンにもレコーダーにも使われるんだから
どういう場合が「駄目だこりゃ」なんだ?
988コボラー(2):05/03/20 03:44:09 ID:qhFkNca1
>>983
ごめん、Bitonic sortってどんなアルゴリズムか解らない。
良かったら解る場所をリンクして。
ぐぐった感じではマルチプロセッサ向けみたいだけど。

まぁ、どちらにしろソートはSPEの尤も苦手とする分野だと思うけど。
こんな事を言われると嫌かも知れないが、貴方は私とかなり近い位置に立ってきた。
CellはPPEがまずありきだと。
989951:05/03/20 03:45:34 ID:OzwEKhE5
>>985
君の主張が、

>つか、ゲーム向きの処理でも連携が取れない(非常に苦労する)から駄目

であるのに、

>>まず前提として、ゲームでストリーム処理以外で演算性能が大量に必要なものってなに?
>あんまり無いと思うなぁ。

なのは矛盾してないか?
そもそも高い演算性能が必要ないゲームなら、わざわざ SPE を使う必要ないでしょ。
990Socket774:05/03/20 03:48:12 ID:qey/hJQ1
どうせそろそろ敗走だろ…
991コボラー(2):05/03/20 03:48:17 ID:qhFkNca1
>>986
>MIC(toXDR)これがメインメモリだ。

…それはまた嫌な情報ですね。
下手をするとL2に入っているデータは手動で書き換えろと言うことかしら?
いや、流石にそれは無いか……

>987
…使われないと思う。
992951:05/03/20 03:49:25 ID:OzwEKhE5
993コボラー(2):05/03/20 03:50:35 ID:qhFkNca1
989
>そもそも高い演算性能が必要ないゲームなら、わざわざ SPE を使う必要ないでしょ。

そう言われましても…
SONY様が世代交代と言われますので、ええ。
994Socket774:05/03/20 03:52:05 ID:3+rTjrq8
>>991
>…それはまた嫌な情報ですね。
>下手をするとL2に入っているデータは手動で書き換えろと言うことかしら?
>いや、流石にそれは無いか……

いや、単純にキャッシュを汚染しないためだと思うんだが…。
995Socket774:05/03/20 03:52:22 ID:qey/hJQ1
>>993
言ってるからなんだんだよ…ホントに頭悪いな。
996951:05/03/20 03:53:50 ID:OzwEKhE5
>>993
>そう言われましても…
>SONY様が世代交代と言われますので、ええ。

次世代ゲーム→高い演算性能→ストリーム処理→CELLが最適

で何が問題?
997コボラー(2):05/03/20 03:54:23 ID:qhFkNca1
>>992
了解。ちょっと勉強します。
998コボラー(2):05/03/20 03:59:24 ID:qhFkNca1
>>994
でもちょっと匂わないですか?
普通ならメモリに書いてL2を捨てるか、L2に書いてメモリはキャッシュに任せて終了にしたいと思いませんか?
999Socket774:05/03/20 04:02:55 ID:3+rTjrq8
>>998
いや逆に物理的に片方にしか接続しない事にするメリットがわからない。
PPUのL2にアクセスしたい時、したくない時それぞれ両方当然あるわけで。
1000Socket774:05/03/20 04:04:21 ID:3+rTjrq8
で後は次のスレにな。
10011001
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。