cellプログラミングしちゃいなよ4

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
前スレ
cellプログラミングしちゃいなよ3
http://pc11.2ch.net/test/read.cgi/tech/1215388508/l50
2デフォルトの名無しさん:2009/01/25(日) 02:18:57
Cell Broadband Engine 技術情報公開
http://cell.scei.co.jp/

PLAYSTATION3 Linux Information Site
http://cell.fixstars.com/ps3linux/index.php

The Cell Processor - PukiWiki
http://cell.fixstars.com/pukiwiki/index.php

developerWorks : Cell Broadband Engine resource center(IBMのCell技術情報)
http://www-128.ibm.com/developerworks/power/cell/

Cell Broadband Engine Architecture forum (Cellプログラミングの掲示板)
http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=739&cat=46

Multicore Programming Primer: PS3 Cell Programming
(マサチューセッツ工科大学のPS3を使ったマルチコアプログラム演習。ソースコードなど有り)
http://cag.csail.mit.edu/ps3/

CellPerformance
http://www.cellperformance.com/articles/
3デフォルトの名無しさん:2009/01/27(火) 19:50:39
推奨NGNAME:●
4,,・´∀`・,,)っ-○◎●:2009/01/27(火) 20:09:32
8.5・・・だと?
5デフォルトの名無しさん:2009/01/27(火) 20:15:29
6.5だろ
6デフォルトの名無しさん:2009/01/27(火) 20:21:20
じゃあ、俺は 7.0 位でお願いします。
7,,・´∀`・,,)っ-○◎●:2009/01/27(火) 20:21:36
アナルアナル言うからハッテン後なんだよ
8202:2009/01/27(火) 20:48:42
すげーな、8.5とか。
普通に32bit整数型で、ビット順そのままの乱数を生成してるのかな?
9デフォルトの名無しさん:2009/01/27(火) 20:55:29
脳内レジスタにはちゃんと順番通りにならんでるんじゃん?w
10,,・´∀`・,,)っ-○◎●:2009/01/27(火) 23:33:11
中の人の反応見るになんか迷走してるようだな。出題ミスってレベルじゃね−ぞ。
11デフォルトの名無しさん:2009/01/27(火) 23:52:27
え、何を瞑想してるの?
12,,・´∀`・,,)っ-○◎●:2009/01/27(火) 23:57:29
条件が変わるかも知れない
13デフォルトの名無しさん:2009/01/28(水) 00:01:28
またですか?
14579:2009/01/28(水) 01:27:02
>>10
公式見解でないねw

本当はコンテスト後に「当社のリファレンスコードは〜」って
シュバッとする予定だったんじゃねえの?

インラインアセンブラも、最初はまずくねー?、大丈夫だろ?
って方針がコロコロ変わったと考えると滑稽。

今から課題の条件を変えるのはバカ丸出し。
出題ミスを認めるのがそれなりに王道。
リファレンスコードなかったことにするのが正解。


>>前スレ995
そう焦るなって。コンテ終わったら公開するよ。

最適化のベースになるようなアイディアを放出してみんなに
迷惑かける気は、今のところはない。

ついでに、SPU に特化した最適化は、(個人的には)興味ない。
だから intrinsics 使わないで優勝しようと画策していたわけだが、
自分でダメにしちゃったw
15579:2009/01/28(水) 01:39:10
>>前スレ997
>つか64ビット整数で処理したら速くならない?
速くなると思うよ。

が、uint64_t が portable かといえば(まだ・そんなに) portable じゃ
ないからね。
16579:2009/01/28(水) 01:48:48
アナル拡大体なわけだが。
17デフォルトの名無しさん:2009/01/28(水) 07:20:46
Fixstarsの返事はまだか
既に提出してる人が何人もいて今更変更できないとか

それはそうと団子って再利用性がどうとか実用性がこうとか言ってなかったっけ
結局乱数列の生成には何の役にもたたないコード書いてんのな
今更Cにこだわる必要も無いと思うんだけどどうだろう
18,,・´∀`・,,)っ-○◎●:2009/01/28(水) 07:23:53
俺は俺なりに俺が他のアーキテクチャに移植しやすいように書いてるつもりなんだけど
他って具体的にSSE4/AVXなんだけど
19,,・´∀`・,,)っ-○◎●:2009/01/28(水) 07:31:37
てか、上位入賞者用の参加賞ってさ、どうせ

YDL6.1(ノンサポート版)

だろ?別に要らないんだが。
20デフォルトの名無しさん:2009/01/28(水) 07:48:15
新しいアルゴリズムだと生成された乱数を毎回デコードすると元より遅くなるんだろ
実用性があるとすれば生成されたそのままのフォーマットで演算に利用できる場合位かな
この大会にしか使えないものの移植性なんて考えるだけばからしいと思うが

PS3持ってない奴がYDL6.1もらっても悲しくなるだけじゃないかw
Fixstarsのロゴが入った写真立てとか置物とかじゃないかと思ってるんだが
21,,・´∀`・,,)っ-○◎●:2009/01/28(水) 08:14:17
とりあえず速度さえ出ればなんでもいいってことになれば、
2つのソースを送って古いほうを公開してくださいって言うだろうね。

いちおうPowerPCのMacには使えるだろ?俺的にTigerで充分だけど。

22デフォルトの名無しさん:2009/01/28(水) 09:32:27
分かってないんだけど、579 のは大量に読み飛ばす場合なんかには高速になるんでしょ?
充分有用だし、却下されるべきではないと思うけど。
23202:2009/01/28(水) 09:55:53
>>22
有用であるかどうかが基準のコンテストではないからな。

「同じ乱数列を生成する」という課題に対して、579の解法はチェックサムしか計算してない。
チェックサムを元に「同じ乱数列を生成する」事ができるが、計測している時間は「同じ乱数列を
生成する」時間ではなくて「チェックサムを計算する」時間でしかない。
他の人は、フォーマットの変更のあり・なしの違いはあるものの、「同じ乱数列を生成」した上で
チェックサムの計算まで行って、時間を計っている。

ルールがフォーマット変更可・不可にかかわらず、579の回答は課題の趣旨と違なる。
だが、配布されている課題プログラムでは、チェックサムさえ合ってれば通ってしまう。

「mt_kadaiはチェックサムしかチェックしてないけど、同じ乱数生成しないでチェックサムだけ計算する
のはあり?」と質問したので、回答待ち。
回答が「同じ乱数列を生成しないとダメ」だった場合、「バイト単位・ビット単位の順番を入れ替える
変形はあり?それ以上の変形はあり?」と、質問しなおす予定。
24デフォルトの名無しさん:2009/01/28(水) 10:00:02
こういうコンテストに応募するのはこういう人種になることくらい容易に想像できるんだから、
きちっと詰めておかないのは甘過ぎると言わざるを得ないなぁ。
25デフォルトの名無しさん:2009/01/28(水) 10:01:33
出来るってことは重要だけど使う場面はなさそうだな
普通乱数の和が欲しかったら統計的な方法使ってもっとはしょるだろうし
厳密に計算した乱数の和が必要になることがあれば有用かも
もちろん今回は乱数の和だっただけでいろんな演算を同じ様に高速化出来るかもしれないけどね

それはそうと乱数を大量に読み飛ばす場面ってのが初期化以外で思いつかない
それに読み飛ばすだけなら普通の方法の方が高速なきがする
26デフォルトの名無しさん:2009/01/28(水) 14:18:12
>>23
まぁ fixstars の回答待ちは変らんけど、「チェックサムを計算する」だけなのはなしだけど、
「バイト単位・ビット単位の順番を入れ替える変形はあり?それ以上の変形はあり?」に
関してはありな気がする、っていうか、ありでいいと思うなぁ。疑似乱数列なんて、順番を
入れ替えても乱数性が変らない事が重要なんだから、実用上そう困る事はないだろうし…
あるとしたら、他の環境で再現したいときとかくらいでしょ。。。ってそれなりに大事かw
27デフォルトの名無しさん:2009/01/28(水) 14:51:29
順番変えたらfixstarsの検証が大変だろ
(疑似)乱数って明確な定義がないんだぜ
28デフォルトの名無しさん:2009/01/28(水) 14:55:14
計算した値をとりだすことはできるから再現性とかの問題は無い
値をとりだすのに計算以上の時間が必要なだけ
SUMなら値をとりださずに計算できるから高速化可能という話
29デフォルトの名無しさん:2009/01/28(水) 15:02:52
しかしFixstars反応無いな
審議中なのか事態に気がついていないのか
スルーされた場合どっちを提出しようかな
30202:2009/01/28(水) 15:05:41
中の人はちゃんとこのスレ見てるよw
回答はちょっと待っててってメール来た。
31デフォルトの名無しさん:2009/01/28(水) 16:06:01
締切まで期限切られてるのに回答を先延ばしするのは理不尽以外のなんでもない。
結局、方針がどうなるか次第なわけだが、ヤマカンで当て込んだ人が特をするんだろ?

回答もらえたときには既に締切まで時間が足りなかったりする可能性を考えて欲しい
32デフォルトの名無しさん:2009/01/28(水) 16:41:00
>>27
??どういう意味で言ってる?順番変えても擬似乱数としては等価でしょ?
順番いれかえて使ったら乱数性が弱くなるなんて擬似乱数としてダメダメだし。
まぁ、応募コードの検証って意味では fixstars は若干大変になると思うがw
「擬似乱数列は、メルセンヌ・ツイスタの実装と同じ乱数列を生成すること。
 ただし、メモリおよびレジスタ上の配置方法については言及しない」
でいい気がするんだけどなぁ。(課題のページ、"似乱数列"になってるw)

あと、前 688 にあった、
> hash = genrand_mine(num_rand) + genrand_mine(num_rand2);
みたいなのも、本質的ではないからなしにして明言して欲しいなぁ。
33デフォルトの名無しさん:2009/01/28(水) 17:55:09
>>14
>最適化のベースになるようなアイディアを放出してみんなに
>迷惑かける気は、今のところはない。
曝しちまえって。そうすればコンテ側もそれNGにするからさw
尤もハッタリだったら曝せないだろうけどなーwwww
34デフォルトの名無しさん:2009/01/28(水) 18:09:46
チェックサムのみの検証だってさ!
ショートカット万歳!!
35デフォルトの名無しさん:2009/01/28(水) 18:20:32
>>32
temperingする前の乱数列だって乱数の1表現なんだぜ?
その値から一意に求めるデータを取り出せるんだからな
tempering前の方が乱数的に弱いんだけどそれでもbit自由に入れ替えておkっていえる?

結局おkになったんだけど
36,,・´∀`・,,)っ-○◎●:2009/01/28(水) 18:21:23
Hack the Cell 2009 ご参加の皆様

この度は、Hack the Cell 2009にご参加いただき、
誠にありがとうございます。

Hack the Cell 2009の課題について、お詫びと訂正をさせていただきます。

皆様から課題の検証方法に関して多数のご質問がありました。
課題内容が不明瞭であったことを深くお詫び申し上げます。

「課題の検証方法に関しては、チェックサムの整合性でのみ判断いたします。」

課題 kadai1.tar.gz に含まれるcompare関数が乱数列のチェックサムを検証するもので
あったにも関わらず 「mt19937ar.cと同じ乱数列を生成してください」という定義のあい
まいな表記がありました。

課題内容の不完全性を深く反省するとともに、既に課題を提出した方々を配慮し、 現段
階での課題プログラムの変更はせずに、乱数列のチェックサムの整合性により検証を行
い、順位を決めることにさせて頂きます。

自由な発想での最適化を歓迎いたします。

また予想以上の盛り上がりに感謝し、「実用性に優れている」と弊社にて判断したプログ
ラムに対して「フィックスターズ賞」を追加することに決定しました。

「実用性に優れている」と判断する基準
* MT 乱数 (tempering された乱数) を生成している
* オリジナルコードと同じ順序で乱数を出力している
* MT 乱数を簡単に取り出せること (関数の戻り値, 配列に格納, など)
* 高速である
※上記の基準をもとに総合的に判断します。
37デフォルトの名無しさん:2009/01/28(水) 18:27:15
どう見ても出来レースの悪寒。
38,,・´∀`・,,)っ-○◎●:2009/01/28(水) 18:51:25
優勝よりフィックスターズ賞狙うほうが俺のポリシー的にアリだな。
へたに優勝狙って3位とかになるよりは歯切れもいい。
39デフォルトの名無しさん:2009/01/28(水) 18:54:07
>>38
それには同意
しかしフィクスタ賞は倍率高そうだな
40デフォルトの名無しさん:2009/01/28(水) 18:55:32
このスレは202と団子が反省し合うスレになりますた
41デフォルトの名無しさん:2009/01/28(水) 18:56:28
主催者的にはフィックスターズ賞が優勝なんだろうなぁ。
42デフォルトの名無しさん:2009/01/28(水) 19:05:57
>>41
フィックスターズ惨めだなおい。
43デフォルトの名無しさん:2009/01/28(水) 19:06:15
>>35
tempering 前の乱数列はメルセンヌ・ツイスタの実装と同じ乱数列ではないよ?
順番を入れ替える(配置を変える)のは等価だけど、演算(tempering)を変えたら
そら違う乱数列でしょ。乱数列の使い方を変えただけなら価値は変わらん。
(endian 変えて使おうが、bit flip して使おうが、証明された乱数性は変わらん)

って結局おkになったんだけどw

いやー、でも、こうなると 579 のが本当ならやる気なくなるなー orz
44デフォルトの名無しさん:2009/01/28(水) 19:06:47
ってか、フィックスターズ賞の賞品はなに?w
45デフォルトの名無しさん:2009/01/28(水) 19:08:45
> 「実用性に優れている」と判断する基準
> * MT 乱数 (tempering された乱数) を生成している
> * オリジナルコードと同じ順序で乱数を出力している
> * MT 乱数を簡単に取り出せること (関数の戻り値, 配列に格納, など)
> * 高速である

さて、フィクスターズの暖めてたもはんかいとうを探ろうかw
46デフォルトの名無しさん:2009/01/28(水) 19:17:40
>>44
YDL6.1(サポート版) とかwwww
47デフォルトの名無しさん:2009/01/28(水) 19:26:12
>>32
注意事項の "似乱数列" が訂正線引かれてるのに擬似乱数に修正されてるw
どんだけここチェックしてんすかw
48デフォルトの名無しさん:2009/01/28(水) 19:30:45
> 一回 genrand_mine() を呼び出す前には必ず一回以上 init_genrand_mine() が呼び出される
あ、これ明記されたのね。前 688 をやる必要はなくなったな。
49デフォルトの名無しさん:2009/01/28(水) 19:47:43
>>47
でも実質ここが一番活発なフォーラムじゃない?
良くも悪くも団子が参加したからだけど。
50デフォルトの名無しさん:2009/01/28(水) 20:21:22
真の優勝争いは O(1) 計数を持ってきた者どうしとなる。
51デフォルトの名無しさん:2009/01/28(水) 20:34:08
>>43
temperingって言ってしまうとbitの順番を入れ替えてるだけで情報的には等価なんだが
52デフォルトの名無しさん:2009/01/28(水) 20:38:02
xor って順番入れ替えなのか? ってか情報的に等価ってなに?
53デフォルトの名無しさん:2009/01/28(水) 20:45:38
> 予想以上の盛り上がり
爆笑した
54,,・´∀`・,,)っ-○◎●:2009/01/28(水) 20:48:46
>>49
俺「が」中の人にマークされてるよ。
55デフォルトの名無しさん:2009/01/28(水) 20:54:31
あんまり書くなとか言われたのか?w
ってか、こんだけ無用に情報垂れ流してれば、そりゃマークされるわなw
56デフォルトの名無しさん:2009/01/28(水) 21:14:43
>>53
すまん、>>51みたいに言うと語弊があったな
bit入れ替えも演算だしxorとも大差無いって事がいいたかった
情報的に等価ってのは表現が違うだけで1:1で対応してて同じ情報を持ってるって話
2進数とグレイコードとかね
57,,・´∀`・,,)っ-○◎●:2009/01/28(水) 21:19:41
ただのビット入れ替えだったらもっと演算量減らせたんだが、全ビットにうまいことXORかけあわせてあんのな
58デフォルトの名無しさん:2009/01/28(水) 21:44:45
>>56
前にも出たけど、tempering も線形写像だし、そりゃ情報量的には等価だよね。
俺が言いたかったのは、tempering 後の bit 入れ替えだったら乱数性に影響は
ないが、tempering(xor) を変更すると乱数性(均等分布)に影響がある、って事。
乱数性に影響ある変更加えたら乱数性の再検証が必要だけど、配置を変えた
だけなら、tempering 後の bit 入れ替え相当だから再検証は必要なしでしょ。
59,,・´∀`・,,)っ-○◎●:2009/01/28(水) 21:46:19
そこでTempering Functionの逆写像をだな
60デフォルトの名無しさん:2009/01/28(水) 21:47:19
そこで tempering を LUT でだな
61デフォルトの名無しさん:2009/01/28(水) 21:49:43
>>58
前提条件が大分違うな
上の方で出てたレイアウトが違うって話はそもそも1つの乱数を表すデータが連続した32bitに存在するとは限らないレベルだと思って話してた
62デフォルトの名無しさん:2009/01/28(水) 22:06:55
>>61
ん?前提は一緒だよ? > "1つの乱数を表すデータが連続した32bitに存在するとは限らない"
レイアウト変更してから演算するのと、演算後にレイアウト変更するのは等価ってだけだけど。
63,,・´∀`・,,)っ-○◎●:2009/01/28(水) 22:08:11
こだわんなよ。優勝狙うにはレイアウトや演算順序なんて気にしちゃだめだぞ
64227 ◆eZQcaIaFJs :2009/01/28(水) 22:15:25
transum組に勝てる気がしないので、今週末にレポートでっち上げて終了の予定。

前提条件が無茶苦茶だったとはいえ、ここ一ヶ月でかなりの知識を吸収できた
事には感謝しています。また来年も期待してますよー
65デフォルトの名無しさん:2009/01/28(水) 22:23:02
>>61
それはそうだけどそれが良くてtempering前に演算するのがだめってのが納得いかないって話
結局話題の最初に戻ってきてしまったけど

tempering前とtempering後で乱数としての性質が変わってる事も乱数の性質上bitを入れ替えても乱数だって事も分かってるさ
でも少なくとも必要な情報が連続しない場所に配置されてた場合にはそのまま利用することは出来ないだろ?
tempering前の数列のレイアウト変えた数列も求める乱数列とは異なってかつ一定の操作でその乱数列に出来るって意味では大して違いはないんじゃないかって言ってるんだ
66デフォルトの名無しさん:2009/01/28(水) 22:39:21
この一連の流れを読んで殆ど理解のレベルを超えてるが、

まぁ、Fixstarsが「ポーティングを最適化する」レベルのプログラマには
全く興味がないというのは理解したw。

67デフォルトの名無しさん:2009/01/28(水) 22:41:33
>>65
"大して違いはない" ってのは主観だから、そう思うならそれでいいんでないかい?

ただ、wikipedia にも書いてあるが、
> 「調律」は生成された乱数のワードのうち数ビットだけを取り出したときの高次元超
> 立方体への均等分布(vビット精度n次均等分布)を改良して理論値に近づけるための
> 工夫である(メルセンヌ・ツイスタは「調律」がなくても623次元超立方体に均等分布する)
という tempering とレイアウト変更を大した違いと認識しないのは俺には理解できないかな。
68,,・´∀`・,,)っ-○◎●:2009/01/28(水) 22:53:34
>>66
だろうな。さすが灯台陶工台の博士を採ってるだけはある。
Googleとか入社試験に難解な数式解かせるらしいし。
69デフォルトの名無しさん:2009/01/28(水) 23:05:31
それにしても
>「実用性に優れている」と弊社にて判断した
   ~~~~~~~~~~~~~~~~~~
とか
>※上記の基準をもとに総合的に判断します。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~

とかって何だろな?どういう重み付けをするかは主催者の
エゴでどうにでもできるという意味か?


70デフォルトの名無しさん:2009/01/28(水) 23:07:23
別に賞品出すわけじゃないから、良ければみんなにくれるんじゃん?w
71デフォルトの名無しさん:2009/01/28(水) 23:07:41
>>67
temperingに意味がないって思ってるわけじゃないぞ
ただ原因が何であれ取り出せない乱数に意味なんて無いだろうに
72,,・´∀`・,,)っ-○◎●:2009/01/28(水) 23:08:38
・だんごやさんであること
73デフォルトの名無しさん:2009/01/28(水) 23:12:19
>>65
> かつ一定の操作でその乱数列に出来る
レイアウト変更した乱数列は、"そのまま使ってもいい" って点が一番違う。
74デフォルトの名無しさん:2009/01/28(水) 23:15:32
・2ch で無用に暴露してないこと
75デフォルトの名無しさん:2009/01/28(水) 23:29:19
>>71
それもレイアウト次第じゃないか
さっき言った様に32bit連続で配置されない場合もあるし
76デフォルトの名無しさん:2009/01/28(水) 23:32:17
>>61
すまん、読み違えてたかも。
> 1つの乱数を表すデータが連続した32bitに存在するとは限らない
の1つって、1回に作る 32bit の事だと思ってたんだが違ったかも。
77デフォルトの名無しさん:2009/01/28(水) 23:33:52
>>75
ぬぉ、入れ違った。すまんかったっす。勘違いしてた。確かに、32bit 中に空きがある場合はだめっすな。
78デフォルトの名無しさん:2009/01/28(水) 23:35:56
なんか、アンカーめちゃくちゃ。これは何かの暗号化?w
79デフォルトの名無しさん:2009/01/28(水) 23:46:50
>>77
とりあえず納得してもらえてよかった
少しむきになってしまって恥ずかしい限り

それはそうと結局Fixstars賞狙うことにしたけど倍率が気になる
80デフォルトの名無しさん:2009/01/28(水) 23:47:29
実行環境について特に触れてないけど、65nm版やPowerXCellを前提に
ストール対策なしのコードを書いて、65nm版又はPowerXCellで実行して
下さいって書いたらそれで通るのかな?
81デフォルトの名無しさん:2009/01/28(水) 23:49:09
大丈夫。ここに書けば近いうちに 90nm で実行します、って追記されるw
82デフォルトの名無しさん:2009/01/28(水) 23:50:30
>>80
倍精度でも使うのか?
83,,・´∀`・,,)っ-○◎●:2009/01/28(水) 23:53:01
履歴書に書けるんじゃね?
ニートはとりあえず挑戦しとけ
84デフォルトの名無しさん:2009/01/29(木) 00:12:15
>>66
元々 579 的な解+Cell最適化を想定していたのだけど、
普通に高速化する人が多くて、そういう人達が気分を
害しそうだから賞を追加した、ってのが真相な気がしてる。
空気の読めるインテリw
85デフォルトの名無しさん:2009/01/29(木) 02:39:42
>>80
無限ストールバグがないだけで、ストール自体はある
無限ストールは普通ハマることはない
86デフォルトの名無しさん:2009/01/29(木) 02:57:26
>>84
をぃをぃ逆だろ
実用に使える高速なMTが欲しかった
>>579なんて想定してなかった
が真相
87デフォルトの名無しさん:2009/01/29(木) 03:41:11
しかし >>579 の書いてた事は理解出来んのー。
嘘混ざってるせいなのか、単に自分がアホなのか。
GF(2^33)で計数はいいけど、そもそも何を集計すると
tempering 的処理がループ外に追い出せるかが思いつかない。
88デフォルトの名無しさん:2009/01/29(木) 05:31:02
結局ハッタリって事なんじゃないの?なんかみんな揃って
引っ込みつかなくなってるようにしか見えないんだが…
89デフォルトの名無しさん:2009/01/29(木) 08:33:12
少なくとも、数学的チートの方法をこんなに大々的にばらされる事は
想定してなかっただろうなw

ここ見てる人たちが次々とチート方法で提出してきて慌てたに一票
9022:2009/01/29(木) 10:38:45
わかってないんだけど、
信号処理で、波形のままいじるか、周波数空間でいじって戻すか、の差みたいなもんでしょ?
アフィン変換の4x4行列(の回転成分)とクォータニオンみたいなもんなんでしょ?
受け入れられない人の理屈が分からない。
91デフォルトの名無しさん:2009/01/29(木) 10:53:04
技術的に受け入れてない奴なんていないとおもうけど
単に乱数列を生成って公式に書いてたから抵抗があっただけでしょ
今となっては公式見解も出たしなんの問題もない
92デフォルトの名無しさん:2009/01/29(木) 12:16:02
S = Temper(x1) ^ Temper(x2) ^ .... ^ Temper(xn)
 = Temper(x1 ^ x2 ^ ... ^ xn)
ならともかく、「+」で出来るってのが俄かには信じ難い。
93デフォルトの名無しさん:2009/01/29(木) 12:48:22
インラインアセンブラ使わないほうがフィクスタ賞に選ばれやすそうだな
もともと禁止だったし
94デフォルトの名無しさん:2009/01/29(木) 12:59:48
>>92
S = Mod32( GF33( temper(x1) ) * GF33( temper(x2) ) * ... * GF33( temper(xn) ) )
こうですか!?わかりません!教えてください!
95デフォルトの名無しさん:2009/01/29(木) 13:29:33
いままで触れられてきたどの戦略も、一長一短だなおい。
96デフォルトの名無しさん:2009/01/29(木) 13:41:37
>>93
なにその団子を入賞させるための賞
97デフォルトの名無しさん:2009/01/29(木) 17:14:06
質問です、cellのソフトウエアをcygwinでクロス開発仕様と思っています。
http://cellbe-cygwin.cvs.sourceforge.net/viewvc/cellbe-cygwin/
こちらのページのrpmを使って、spu-gccは無事インストールできました。
しかし、ppu-gccは
$ rpm -i ppu-gcc-4.1.1-5.cygwin.i686.rpm
error: Failed dependencies:
ppu-sysroot is needed by ppu-gcc-4.1.1-5
ppu-sysroot64 is needed by ppu-gcc-4.1.1-5
と出てしまい、インストールできません。
ppu-sysroot-f7-2.noarch.rpmを探しだし、インストールしようと思いましたが、
$ rpm -i ppu-sysroot-f7-2.noarch.rpm
warning: ppu-sysroot-f7-2.noarch.rpm: V3 DSA signature: NOKEY, key ID 77550217
package ppu-sysroot-f7-2 is intended for a linux operating system
とでてしまい、やっぱり駄目です。いったいどうすればクロス開発ができるようになるでしょうか。
98デフォルトの名無しさん:2009/01/29(木) 17:29:47
VMWareにでもLiunx入れたら?
99デフォルトの名無しさん:2009/01/29(木) 17:38:25
PS3 買えば?w ゲームも出来るよwww
100デフォルトの名無しさん:2009/01/29(木) 17:43:46
確かにな。クロス環境を自力で作れない奴が入賞できるわけないしw
101デフォルトの名無しさん:2009/01/29(木) 18:09:36
>>97は別にコンテストに出場しているとは言っていないと思うけど
102デフォルトの名無しさん:2009/01/29(木) 18:34:10
あ、ここってコンテストのスレじゃないんだっけw スマソ
103 ◆iSaGiwaruI :2009/01/29(木) 22:13:25
遅ればせながらギリギリでエントリ。
104227 ◆eZQcaIaFJs :2009/01/29(木) 22:28:58
リアルで大事件が起こって困惑中。二ヶ月先すら見えない状況ですorz

>>90
2つの回転行列の補間をするのに、一度クオータニオンに戻して球状補間
するんじゃなく、行列同士を線形補完して直交させれれば終了、みたいな
ショートカットが出来るって事ですよね?

>>92
http://en.wikipedia.org/wiki/GF(2)
↑見てもさっぱり分からない罠。締め切り過ぎてからで良いんで、お勧めの
参考書とか有ったら教えてくださいな。
105デフォルトの名無しさん:2009/01/29(木) 23:47:39
>>104
細かい事に突っ込んで悪いけど、それじゃ結果変わっちゃうので
例えとしてはいまいち。
「行列の積じゃなくてクォータニオンの合成で処理して行列に戻す」
とかがショートカット。
106579:2009/01/30(金) 00:29:43
なんか席を外している間に fixstars はじまったな。
>>579ざまぁwみたいな展開を期待していたのだが。
コード公開するタイミング失ったではないか。

>>90
>>104
ニヤニヤ

>>33
>尤もハッタリだったら曝せないだろうけどなーwwww
もう少し上手く煽れよ。。。
107579:2009/01/30(金) 00:30:37
>>50 こうですね。わかります。
template<int s,int n,int p>struct M0;
template<int s,int n>struct MT{enum{N=M0<s,n,(n>>31)>::N};};
template<int s>struct M0<s,-624,-1>{enum{N=s};};
template<int s,int n>struct M0<s,n,-1>{enum{
P=M0<s,n-1,-1>::N,
N=(1812433253UL*(P^(P>>30))+n+624)&0xffffffffUL};
};
template<int s,int n>struct M0<s,n,0>{enum{
P=MT<s,n-624>::N&0x80000000UL,
Q=MT<s,n-623>::N&0x7fffffffUL,
R=MT<s,n-227>::N,
S=Q&1?0x9908b0dfUL:0UL,
N=R^((P|Q)>>1)^S};
};
template<int s,int n>struct T{enum{
P=MT<s,n>::N,
Q=P^(P>>11),
R=Q^(Q<<7)&0x9d2c5680UL,
S=R^(R<<15)&0xefc60000UL,
N=S^(S>>18)};
};
template<int s,int n>struct S;
template<int s>struct S<s,0>{enum{N=0};};
template<int s,int n>struct S{enum{
N=(unsigned)S<s,n-1>::N+(unsigned)T<s,n-1>::N&0xffffffffUL};
};
108227 ◆eZQcaIaFJs :2009/01/30(金) 00:41:47
>>105
チートしないと60fps出ない環境なんで、誤魔化せる所を探すのに必死です。
今日も境界判定のif文取ったり、エルミート補間を線形補間にしたりとかw

>>107
残念ながらC言語onlyな大会でございます。

http://ja.wikipedia.org/wiki/
%E3%83%86%E3%83%B3%E3%83%97%E3%83%AC%E3%83%BC%E3%83%88%E3%83%A1%E3%82%BF%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0
109,,・´∀`・,,)っ-●◎○:2009/01/30(金) 00:43:00
コンパイラが氏ぬwww
110,,・´∀`・,,)っ-●◎○:2009/01/30(金) 00:44:09
fixstarsはメタプログラミングって使わないんだろうか?
テンプレートによる再利用は俺も大好き
111579:2009/01/30(金) 00:46:35
>>86
つmc_rand_mt_u4
112,,・´∀`・,,)っ-●◎○:2009/01/30(金) 00:53:18
MTの本質は均等分布性にあるんであって数値の出る順番は本質じゃないと思うんだ
実際64ビット用MTは32ビット版と生成する値の互換をとってない。
113,,・´∀`・,,)っ-●◎○:2009/01/30(金) 00:57:18
んで、ビットの配置方法が違っても分布の均一性は変わらないわけで
極端な話トランザム(笑)でも再利用性があると思う
114デフォルトの名無しさん:2009/01/30(金) 02:20:33
まだ登録できたのか
115デフォルトの名無しさん:2009/01/30(金) 02:26:21
多分、団子はふぃっくすたーずの中の人から盛り上げるように頼まれてる。
116,,・´∀`・,,)っ-○◎●:2009/01/30(金) 04:19:00
中の人も一応は最新のIntelチップ相手だと分が悪いのは認識してるらしい。
(当たり前だ)

性能を引き出すことは、弱点を認識することから始まる。
117デフォルトの名無しさん:2009/01/30(金) 07:01:33
>性能を引き出すことは、弱点を認識することから始まる。
私の現場だと、最早「無駄な努力」と言われてしまう罠。

先日AMDの営業に話を聞いたのだけど、NVIDIAやIntelとの比較でしか性能を語れてないの。
ちょっと同情したw
118デフォルトの名無しさん:2009/01/30(金) 10:45:49
未だに13Cycleの壁と闘ってるんだがこのあたりってもうだれもおらんのか?
みんなこっちの道をあきらめてSUMを直接求める方向に行ってくれてるならそれはそれでいいんだけど
そっちの方向はいくら頑張っても数学に弱いやつは勝てなさそうなんで早々にあきらめてしまった
119デフォルトの名無しさん:2009/01/30(金) 11:52:50
>>118
比較的素直なSIMD実装でも頑張れば12切れる。
120デフォルトの名無しさん:2009/01/30(金) 11:57:47
>>119
まじで!
じゃあ本番は11台入ってからか
先は長いな
121デフォルトの名無しさん:2009/01/30(金) 13:00:17
項数爆発。こりゃだめだ・・・やり直し。
122デフォルトの名無しさん:2009/01/30(金) 15:15:37
お前ら楽しそうだな・・・
次があったら俺も参加したいぜ
123デフォルトの名無しさん:2009/01/30(金) 17:16:18
今からでも遅くはないZE!
応募だけしてみたら?
124デフォルトの名無しさん:2009/01/30(金) 20:30:44
私も参加賞狙いwで応募だけしてみました。
125デフォルトの名無しさん:2009/01/30(金) 23:25:04
>>103
そのトリすげぇなw
126デフォルトの名無しさん:2009/01/30(金) 23:33:48
トリップって狙って取れるもんなの?
127デフォルトの名無しさん:2009/01/30(金) 23:38:48
こら、そんなこと言うと五月蠅いのが飛んでくるぞ
128,,・´∀`・,,)っ-●◎○:2009/01/31(土) 00:28:48
ところで、優勝とフィクスタ賞を同時に狙う方法ってあるんじゃないの?
129,,・´∀`・,,)っ-●◎○:2009/01/31(土) 00:35:02
おっしゃ拡大体でトランザムktkr
130デフォルトの名無しさん:2009/01/31(土) 05:38:29
うわさをすればなんとやら
131デフォルトの名無しさん:2009/01/31(土) 06:01:15
あるかもしれんがそのトランザム次第じゃね
間違ってもO(1)で解ける様な話だとまず不可能だろ
132デフォルトの名無しさん:2009/01/31(土) 11:22:12
ところでフィクスタ賞って乱数がレジスタに現れるだけじゃだめなのか?
配列に格納・関数の戻り値など
などが何かはわからんがこれを見る限りじゃかなり厳格にやらないといけないかもしれんな
フィクスタ賞は規定を満たす中で一番高速なのが選ばれるってわけでもなさそうだし
配列に格納はまだしも関数の戻り値なんてやってたら大分コスト掛かりそうだ
133デフォルトの名無しさん:2009/01/31(土) 11:53:12
レジスタに現れるだけで実用性あるのかよ
134デフォルトの名無しさん:2009/01/31(土) 12:00:06
stqd入れるだけで出力可能って意味でかなり目標に近いとは思うが
そうじゃなきゃ完全にフィクスタ賞だけを狙うコードをつくらないといけないな
135デフォルトの名無しさん:2009/01/31(土) 13:22:36
実用的っていうのも中の人の主観で決まることだから、悩んでも無駄だろ。

そんなのよりも優勝目指そうぜw
136質問です:2009/01/31(土) 13:41:23
http://cell.fixstars.com/ps3linux/index.php/Cell_SDK_3.0%E3%82%92%E5%B0%8E%E5%85%A5%E3%81%99%E3%82%8B
この手順に習ってVirtualPCにインストールしたfedora9でCell SDK 3.0をインストールしたのですが、ppu-gccで
error:libspe2.h :No such file or directory が出てしまいます。
libspe2.hはいったいどこにあるのでしょうか・・・
137デフォルトの名無しさん:2009/01/31(土) 13:47:56
locate libspe2.h
してみれば
138質問です:2009/01/31(土) 13:59:32
/opt/cell/sysroot/usr/include/libspe2.h
と返ってきました。
標準のインクルードパスに加えるにはどうしたらいいのだろう・・・。
139デフォルトの名無しさん:2009/01/31(土) 14:31:31
試してないからだめかもしれないけど、環境変数 INCLUDEへのpathの追加とかは?

だめなら、とりあえずはコンパイル時のオプションで指定しとけば?

-I /opt/cell/sysroot/usr/include/
140デフォルトの名無しさん:2009/01/31(土) 14:52:12
>>135
優勝目指したいけど勝てる気がしないんだw
だって無茶な実装は3倍速なってるとか言う噂がが
141質問です:2009/01/31(土) 15:02:17
>>139
どうもありがとうございます。
単にMakefileの中身がppu-gccではなくgccになっていただけでした。
大変失礼しました
142デフォルトの名無しさん:2009/01/31(土) 15:17:23
団子のハッタリに惑わされているようじゃ参加賞止まり。
143,,・´∀`・,,)っ-○◎●:2009/01/31(土) 21:15:16
ハッタリだと認識してるようじゃ参加賞止まり
144デフォルトの名無しさん:2009/02/01(日) 01:37:52
だんごって学生部門に登録してるんだろ?
この中の何人が学生部門なんだろうな
意外と社会人より学生のほうが人数多いかもね
145,,・´∀`・,,)っ-○◎●:2009/02/01(日) 01:39:47
だれが学生部門じゃ
146デフォルトの名無しさん:2009/02/01(日) 02:47:16
前にそんなこと言ってなかったっけ
147デフォルトの名無しさん:2009/02/01(日) 07:06:43
>>146
デマだよ。デマゴーゴスだよ

このスレ自体がな
148デフォルトの名無しさん:2009/02/01(日) 10:28:39
コンテスト終了後なら、ソース見せてくれる?
純粋に興味がある。
149,,・´∀`・,,)っ-●◎○:2009/02/01(日) 11:14:53
ところでアセンブラ組はフィクスタ賞は諦めてるんだろ?
むしろ眼中にないんだろ?
ニヤニヤ
150デフォルトの名無しさん:2009/02/01(日) 11:55:57
いつぞやの693だけど俺はアセンブリ組
正直どうしたもんかね
俺も少し前に書き込んでた人間と同じくレジスタにだけ乱数が出現する状態だ
Even,Odd共に1サイクルの空きも無いから配列にはき出すコード埋めるだけでもオーバーヘッドがかかる
このままやってても優勝が難しい様ならフィクスタ賞向けのコードに書き換えなくちゃいかんのだが…
乱数のレイアウト変更した方もある程度の設計はしたものの思った程速くならない
プログラムとしては前者の方が気に入ってるから出来ればそっち出したいな

>>147
ゴマソースだよ。
151デフォルトの名無しさん:2009/02/01(日) 12:04:51
それはそうとだんごは学生部門じゃなかったんだな
それは非常に助かる
152デフォルトの名無しさん:2009/02/01(日) 12:20:18
今までの言動からすると、団子が本当のスタートラインに
立ててるかは疑わしいわけだがw
153デフォルトの名無しさん:2009/02/01(日) 12:34:19
>>152
フィクスタ賞できたから、遅くってもフィクスタ賞狙いだったって言い訳はできるなw
団子には是非優勝を狙ってると宣言して欲しいものだw
154デフォルトの名無しさん:2009/02/01(日) 12:56:00
再利用性にこだわってたからフィクスタ賞狙いでも別にいいけどね
フィクスタ賞とりつつ優勝者を上回るコードを締切と同時に公開したらかこいい
155,,・´∀`・,,)っ-○◎●:2009/02/02(月) 06:20:26
10パターンくらい用意しててどれにするか迷ってる状態。

>>152
そう思わないとつらいことでもあるんですか?(笑)
156デフォルトの名無しさん:2009/02/02(月) 06:25:31
10パターンってw
一番速いのか一番実用的なの
一番アルゴリズムが綺麗なの
3つ位しか選ぶ基準が思い浮かばねえ
157,,・´∀`・,,)っ-●◎○:2009/02/02(月) 06:50:49
何度も言ってるが出力が互換であることは実用性とはまったく関係ない。
158デフォルトの名無しさん:2009/02/02(月) 08:09:45
ならなおさら10パターンも思い浮かばないな
一番速いの選べばおk
159デフォルトの名無しさん:2009/02/02(月) 09:00:29
そこそこの性能を出しつつネタに走るとか
160デフォルトの名無しさん:2009/02/02(月) 09:39:19
>>157
デコードに何十種類もかかるフォーマットじゃなければな
161デフォルトの名無しさん:2009/02/02(月) 09:40:36
何十種類→何十サイクル
一体どんな残念な事が頭の中に起こってこの単語が出てきたんだ…
162デフォルトの名無しさん:2009/02/02(月) 09:57:59
IOCCCばりのネタプログラムを希望する
163デフォルトの名無しさん:2009/02/02(月) 10:02:10
>>160-161
ビット配列がどうなっていようと乱数は乱数なんだぜ。
たとえば公式のMTの64bit専用版は32ビットと生成式が違う
ビットの配列構造が違ってても乱数は乱数なんだ。

たとえば、32ビット乱数32個を行列転置したら乱数じゃなくなるのか?
164デフォルトの名無しさん:2009/02/02(月) 10:21:53
多分レイアウト変更組がやってることってのはそれだよね
みんな薄々気づいてただろうけど結局こうなったな
確かに転置したところで乱数であることには変わりはないね
で、それを読みだすのに何サイクルかかる?って話だよ
それとも0bit目を32個集めてそれも乱数って言ってる?
165202:2009/02/02(月) 10:26:06
>>164
MTの場合、それでも乱数といえそうな気がする。
bit単位のランダム性が特徴のひとつだから、ビットを特定の順序に並べ替えるだけなら
ランダム性が崩れない。
166デフォルトの名無しさん:2009/02/02(月) 10:30:33
>>164
ん?0ビット目を32個集めても乱数として使えるだろ?
同じサマリになるようにしろってのはフィックスターズの都合であって
現実にモンテカルロなどに使う場合はビット単位でのランダム性を破壊するような改変でない限り
十分実用的といえる。
167デフォルトの名無しさん:2009/02/02(月) 10:54:57
そうか
理解不足で混乱させてすまん
って事はフィクスタ賞も危ういなぁ
純粋な互換で勝負するのは無理があるか
168,,・´∀`・,,)っ-○◎●:2009/02/03(火) 03:45:54
herumi氏が苦戦してるの見ると小気味良いな
169デフォルトの名無しさん:2009/02/03(火) 04:00:52
>>129
あ り え な い 。それは。
GF2^33で tempering 処理を80%近くまで外部化してやらないと、そのトランザムは出来ない。
仮にビット単位の数え上げをMacWilliams恒等式で集中計算しても、ハミング距離が使えないその段階では
mod2^32 変換行列が手に入れられないはず。 妄 想 で つ か ?
とりあえず SIMD でループを大量にアンロールして合計値にどんどん足していけ。
アセンブラならABIに従ってレジスタ値取っておくのを忘れんなよ。説教くさくなってスマソ・・・。ついな・・・。
170,,・´∀`・,,)っ-○◎●:2009/02/03(火) 04:14:25
キョッキョッキョッキョッキョ
171デフォルトの名無しさん:2009/02/03(火) 04:29:05
スレ違いだったらごめんなさい。。
きく人がいなくてここに辿り着きました。

for ( i = iv->dim; i < new_dim; i++ )
iv->ive[i] = 0;

こんな感じの構造体のループって普通にSIMD化できるんですか?
構造体とかよく分からなくて…汗。

172デフォルトの名無しさん:2009/02/03(火) 04:30:51
それと、


register int i;
for ( i = 0; i < len; i++ )
out[i] = s*dp[i];

上の様なコードをSIMD化したかったら、

vector float *out_v, *dp_v;
for(i = 0; i< len/4; i++){
out_v[i] = vec_misaligned_load(*(out + i*4));
dp_v[i] = vec_misaligned_load(*(dp + i*4));
out_[i] = spu_mul(spu_splats(s), dp_v[i]);
vec_misaligned_store(out_v[i], *(out + i*4));
}
for(i = 4*(len/4); i < len; i++){
out[i] = s*dp[i];
}

こんな風にするしかないんですか?
outとdpは引数で、16バイトにアラインメントされてるか分からなかったので、この方法しか思いつかなかったのですが、何かこれじゃ余計遅くなるような気がして;;
173デフォルトの名無しさん:2009/02/03(火) 04:36:49
最後に、
for ( i = 0; i < px_size; i++ )
px_pe[i] = i;
がSIMD化可能とコンパイラに言われたのですが、適切なintrinsicsが思い浮かびません。どうSIMD化できるのでしょうか?

あと、signed int **a __attribute((aligned(16)));
と宣言したら、**a, **(a+4), **(a+8),...が16バイトにアラインメントされてることになりますか?

長くて&初歩的な質問ばかりですみません。
よろしくお願いします。
174,,・´∀`・,,)っ-○◎●:2009/02/03(火) 04:48:10
なんだそのやる気のない記法は。
outとdpのアドレスを16バイト境界にあわせられない理由がある?

最悪ストアだけでいいから16バイト境界にあわせること。
合わない部分はループの外に吐き出してOK。
175,,・´∀`・,,)っ-○◎●:2009/02/03(火) 05:01:17
16バイトにアラインメントされてるかを検定する方法を知らないとか言わないよな?

>outとdpは引数で、16バイトにアラインメントされてるか分からなかったので、
>この方法しか思いつかなかったのですが、何かこれじゃ余計遅くなるような気がして;;

判定方法が解らないとか言わないでくれよ?
ループ回数が十分大きければ、ループの外側での条件分岐はトータルの計算時間に大した影響は無い。

(address + 15) & ~15 などとして、16バイト境界を検出する。
んで、16バイト境界に合った区間だけのSIMD化を検討しる。



>>173
ならねぇwww
そもそもaの指す実体は何だよ
そいつがアラインメントされてるかどうか次第だ
176デフォルトの名無しさん:2009/02/03(火) 05:06:15
>174さん

あ、すみません。少なくともoutは代入されるだけなので16バイトにアラインメントしても問題ないですね。

dpの方が理解できないのですが、引数として貰ってくるものなので…いつアラインメントすればいいのでしょうか?
宣言された後で、dp __attribute__((aligned(16)))って書けば行列の中身も全部グッと(?)移動するものなんですか?

よろしくお願いします。
177デフォルトの名無しさん:2009/02/03(火) 05:13:45
>175さん
同時にアップしてたみたいです;;前の質問消しておきます。

なるほど!そうやってSIMD化するんですね!コード書きなおしてみます…。
どうもありがとうございます。

aの指す実体…。う〜ん、実はポインタ一週間前に覚えたばかりなんです。汗
ちょっと考えてからまた質問させていただきます。
ありがとうございます。
178,,・´∀`・,,)っ-○◎●:2009/02/03(火) 05:16:14
言ってる意味がわからん。
dpの配列の実体はダレが決めるの?君以外が決めるの?
君が自由に決めることができるなら、その配列に、alignオプションを指定しておきなさい。
自由にならないのなら、交渉しなさい。

駄目なら、そこではじめてミスアラインロードを検討すればいい。
__attribute__((aligned(16)))という指定は、配列の定義を指定された通りにデータを配置されるというもので
元々あるデータ配置を移動するものではない。

ポインタにalignやってもポインタ型が16バイト境界に配置されるだけで
実体は実体の定義通りに配置される。
179,,・´∀`・,,)っ-○◎●:2009/02/03(火) 05:17:08
ポインタ理解してないのにSIMDとか無茶ですから
180デフォルトの名無しさん:2009/02/03(火) 05:31:20
なんだかんだ言って親切だな。
181デフォルトの名無しさん:2009/02/03(火) 05:34:33
ありがとうございます。
meschachというライブラリの中のループをSIMD化しているところなんです。プログラム自体をあまり理解してなくて。。

あと、また質問なのですが、SPEプログラムで実行時間を測りたい場合って、SPU Decrementerでprof.star()とかやるしかないですか?
これってCELLシミュレーター上でしか使えないですよね?
#include <time.h>でclock()とか使ってみたんですけど(ps3上で)、エラー出たので、サポートされていないのかなと。

よろしくお願いします。
182,,・´∀`・,,)っ-○◎● :2009/02/03(火) 05:38:35
time.hは使えない。

SPU DecrementerはPS3やSpursEngine上のSPU実機でもつかえる。

183,,・´∀`・,,)っ-○◎● :2009/02/03(火) 05:43:55
>>180
ば・・・ばか!だんごやさんはもっと殺伐としてるべきなんだよ!!!!11111
184デフォルトの名無しさん:2009/02/03(火) 05:47:30
え、PS3上でも使えるんですか!?何でエラーが出るんだろう…。涙
ありがとうございます。
185デフォルトの名無しさん:2009/02/03(火) 08:05:13
根本的にスキルが足りてない気がするが……
ツンデレ団子がフォローしているから任せておくかw
186デフォルトの名無しさん:2009/02/03(火) 11:44:22
団子さんはherumi氏を超えた!
187デフォルトの名無しさん:2009/02/03(火) 19:40:21
しかもはるか斜め上!!
188デフォルトの名無しさん:2009/02/05(木) 13:55:16
ダンゴさんのネタ切れでスレが沈静化したな
189デフォルトの名無しさん:2009/02/05(木) 14:24:50
荒らすな。団子のせいにするな。
190デフォルトの名無しさん:2009/02/05(木) 14:55:40
んじゃネタ振り。

「任意の n に対し O(1) 解は存在し得ない。」

がんばって O(n) 最適化しよう。
191デフォルトの名無しさん:2009/02/05(木) 15:07:57
o(n)とO(n)が別物と最近知った俺には
ちょとむつかしすぎる問題だ
192デフォルトの名無しさん:2009/02/05(木) 15:08:52
正直現状で構わん。やってたこと荒らしと変わらないし。

>>190
n<=INT_MAXに限ればあり得るだろ?速度はさておき。
193,,・´∀`・,,)っ-○◎●:2009/02/05(木) 15:09:06
そこはO(log(n))解を探せよチキン
194デフォルトの名無しさん:2009/02/05(木) 15:25:55
おしまい
195デフォルトの名無しさん:2009/02/05(木) 15:54:06
O(n)に実質的に落ち着くんじゃないの?
196デフォルトの名無しさん:2009/02/05(木) 16:09:43
×O(n)に実質的に落ち着くんじゃないの?
>>195がO(n)のロジックしか思いつかない
197デフォルトの名無しさん:2009/02/05(木) 16:39:07
俺はO(n)で優勝する気満々だからおk
198デフォルトの名無しさん:2009/02/05(木) 16:39:47
ヒントを書かせようとしてる奴がいるな。
そんな奴はもう参加賞で我慢しる。
199デフォルトの名無しさん:2009/02/05(木) 16:55:41
>>197
無理だね。

気づいた人もいるだろうけど、O(n)を切るロジックは、ある。
200デフォルトの名無しさん:2009/02/05(木) 17:07:23
どうしてもCellっぽく書けない・・・
これじゃまるでHack the MTだ。orz
201デフォルトの名無しさん:2009/02/05(木) 17:11:20
なんか、13 も切ったしトランザムも(多分)解ったんだけど、なんか飽きちゃったw
202,,・´∀`・,,)っ-○◎●:2009/02/05(木) 17:17:25
ぶっちゃけCell自体に飽きた。

IntelのCtプログラミングの資料見つけたけどこれかなり面白い。
なによりC++ベースってのがよい。
CUDAやOpenCLよりよっぽど直感的に組める。__device__とか__gloval__とかアホか!
203デフォルトの名無しさん:2009/02/05(木) 17:45:28
話を逸らし始るくらいなら帰れ。
204,,・´∀`・,,)っ-○◎●:2009/02/05(木) 19:08:06
Frameworkの話なんだけど。理解できない奴は帰れよ。
CellをOpenCL対応させようとしてるのくらい知ってるだろ?
205,,・´∀`・,,)っ-○◎●:2009/02/05(木) 19:12:26
SpursEngineで遊ぶかな
206デフォルトの名無しさん:2009/02/05(木) 19:13:42
ところでCt使うと1000×1000の行列の逆行列が求められたりするわけ?
207,,・´∀`・,,)っ-○◎●:2009/02/05(木) 19:21:20
なんじゃそりゃ?
Intel CPUでできることは一通り出来ると考えて良いんじゃね?
仮想アドレッシングをデフォでメモリの制約は

プログラミングのノリとしてはThreading Building Blocksをもっと発展させたものって考えればいい。
見た目テンプレートベースのコンテナ、中身SIMD×マルチスレッドかな。

んで、中間言語がx86ベースで、ネイティブコードもx86。Intelベッタリ。
IntelのIntelによるIntel CPU/Larrabeeのための言語。
208,,・´∀`・,,)っ-○◎●:2009/02/05(木) 19:22:16
投稿ミス
×仮想アドレッシングをデフォでメモリの制約は
○仮想アドレッシングをデフォでサポートするからメモリの制約は基本的に無いと思って良いと思う
209デフォルトの名無しさん:2009/02/05(木) 19:38:12
要はFortranのベクタ演算の自動SIMD化っぽいものをC++でも出来るようにって事?
その程度のtemplateベースライブラリなら自作のがあるからなあ。
コンパイラの自動ベクトル化よりかは小回り利くけど
アドレスが単調増加しないような複雑なことをやろうとするとやっぱりOpenCLみたいな方がいいと思う。
ってOpenCL使ったことないで言ってる。

でもCtに関しては古い記事一つしか読んでないけど、仮装アドレッシングじゃなくて疎行列をサポートするって話じゃないの?
210,,・´∀`・,,)っ-○◎●:2009/02/05(木) 19:46:42
仮想アドレッシングはx86自体が持つ機能なので言語処理系でどうこうの問題じゃない。
VRAMが足りなくなればメインメモリやHDDにスワップということも理屈の上では可能ってこと。
結局はドライバに縛られるわけで、どこまでやるかは知らないが。

疎行列ねぇ。
それっぽいハードウェア機能はあるけど・・・。

CtはC/C++じゃなくて中間コードを吐く言語処理系だからC/C++の考え方はちと違う可能性はある

動的な再構成が可能って点ではネイティブのC/C++より優位性があるかもしれない。
SIMDが128ビットだろうが512ビットだろうが、1コアだろうが16コアだろうが
Ctのランタイムが動く限り、コアを有効に使うことが出来るって意味で。

CellでもSPMDのフレームワーク出てたよな?MARSだっけ?
ちと性能的にイマイチなんだが。。。
211デフォルトの名無しさん:2009/02/05(木) 19:49:25
>>209
密はダメか?
212209:2009/02/05(木) 19:56:44
>>210
とは言っても新しいベクタ長が出たらSIMDの基底型クラス追加するだけだし。
templateだから外側の配列クラスには影響しない。
当然多くの人にはそれが面倒だろうから助けにはなるだろうけど。

>>211
いや仮想アドレッシングをサポートするなら問題ないよ。
でもそうじゃないんじゃないの?ってだけ。
そうすると32bitプロセッサでは科学計算に使うようなばかでかい配列は用意できない。

メモリ4GB搭載も珍しくなくなって、OSも64bit版乗せるメーカーが出てきてるから
頑張って仮想アドレッシングをサポートしなくても
案外64bitへの移行は唐突にやってくるんじゃないかという気もしている。
213209:2009/02/05(木) 19:59:51
> 助けにはなるだろうけど。
「Ctの存在は」が抜けた。
214デフォルトの名無しさん:2009/02/05(木) 20:36:41
あー、ここでCtの話が始まってしまったか。
Intel某氏によると、CtのI/Fのオープン化を検討しているとか話があるようだから、
CellでもPLAでもなんにでも載せられる可能性はあるだろうね。
アーキテクチャごとに一一移植して調整すること考えたら楽になるよ。
215デフォルトの名無しさん:2009/02/05(木) 21:11:17
Ct を Cell に移植して調整するのはだれが?w
216,,・´∀`・,,)っ-○◎●:2009/02/06(金) 01:40:40
まあ、「Microsoft Visual Ct」が出てくるだけだと思ってるわけだが。

>>213
現時点ではLarrabee上でマイクロOSなるものが動くことが明言されてる。
インオーダでSIMDバリバリやる以上は、論理レジスタ16本くらい最低限欲しいから、
最初から64ビットになるんじゃないのかな。

ホスト上のOSとカード上のOSは基本的にメモリ空間が独立しててドライバ経由での通信になる。
このへんはフィックスターズの売ってるぼったくりCellカード上でYDLが動くのと同じ理屈かと。
217,,・´∀`・,,)っ-○◎●:2009/02/06(金) 06:16:36
困ったことに、PS4はGPUにLarrabee採用なんて噂が・・・
218デフォルトの名無しさん:2009/02/06(金) 07:30:58
んな話聞いたことねえよ。
中の人がお前にそう言ったのかもしれないし実際乗るかも知れないが、どう考えても(お前の/中の人の)脳内妄想の域。

開発するからにはあらゆる方法でスピードとコストバランスを検討するのは当然だから
その程度の噂でいいなら俺だっていくらでもホラ吹けるぜ。
219,,・´∀`・,,)っ-○◎●:2009/02/06(金) 07:33:25
220デフォルトの名無しさん:2009/02/06(金) 07:49:00
団子って、結構面白いところに居そうだよな。
そういうところに居る人間と居ない人間では触れる情報が全然違うんだから、
妄想だのなんだの言うだけ野暮。
221,,・´∀`・,,)っ-○◎●:2009/02/06(金) 07:59:48
居そうにみせかけてるだけで実は人一倍情報収集してるだけだったり。
Intelの開発者向けサイトなんて宝の山だぜ。
222デフォルトの名無しさん:2009/02/06(金) 09:05:26
Cellってもう4年位前のCPUなんだな
最新のCPUと戦い続けるのは無理があるだろうに
新型Cellとか出る気配もないしFixstarsこれからどうするつもりなんだろうなぁ
223デフォルトの名無しさん:2009/02/06(金) 09:11:19
Power ISA 2.06
http://www.power.org/resources/downloads/PowerISA_V2.06_PUBLIC.pdf
POWER 7に搭載されるVSXが追加
AltiVecの256bit拡張とか10年近く前から噂だけはあるけど全然見えてこないな。
224デフォルトの名無しさん:2009/02/06(金) 10:07:09
1337ページってすごいな
225デフォルトの名無しさん:2009/02/06(金) 12:30:50
Intel will design PlayStation 4 GPU
http://www.theinquirer.net/inquirer/news/851/1050851/intel-design-playstation-gpu

これが本当になったらfixstarsどうするの?
Cell専門って既に強みじゃないような気が・・・
226デフォルトの名無しさん:2009/02/06(金) 20:10:16
>>216
独自拡張の Visual Ct/CLI ですね、分かります
227デフォルトの名無しさん:2009/02/07(土) 03:30:32
アンローリング無しで20倍
HTC開始から40日。やっとここまでこれたわ
228デフォルトの名無しさん:2009/02/07(土) 16:15:27
>>225
MPUとGPUとは別にCell搭載するんじゃないの?
229デフォルトの名無しさん:2009/02/07(土) 16:25:38
sonyはCELLの為に工場作ったし、そう簡単にcellは捨てないだろう。
230デフォルトの名無しさん:2009/02/07(土) 16:32:51
団子より速そうな人のブログ見つけた。
チェックサムチートはしてないっぽいけど

結果が凄すぎて何やってるか想像つかない
231デフォルトの名無しさん:2009/02/07(土) 17:09:24
そのblog教えてください。
232デフォルトの名無しさん:2009/02/07(土) 17:22:46
近頃の奴は・・

ぐぐって探せカスが・・
つ"hack the cell"

それでも見つけられないならもう一度書き込め
233デフォルトの名無しさん:2009/02/07(土) 17:34:07
みつからねーよ
教えろ、このヤロー
234デフォルトの名無しさん:2009/02/07(土) 17:44:20
お前の書き方が気に入らないので教えない

1/31だ
235227 ◆eZQcaIaFJs :2009/02/07(土) 17:56:19
インラインアセンブラ無しで9.5cycleって神がかってるような…。
236227 ◆eZQcaIaFJs :2009/02/07(土) 18:04:10
ちなみに、Tempering+加算を「まじめに」やると11cycleかかるので、
トランザム組確定っぽいですな。
237デフォルトの名無しさん:2009/02/07(土) 18:52:25
>>234
ヒント
238デフォルトの名無しさん:2009/02/07(土) 19:25:18
>>237

235は自分でたどりつけたぞ。
お前もやれば出来るはず。

hack the cell
でググレば50件以内には出てるぞ
239デフォルトの名無しさん:2009/02/07(土) 20:45:22
ききっくすさんとかはまちさんとかその辺の人ことじゃないかなぁと予想
240デフォルトの名無しさん:2009/02/07(土) 22:13:06
トランザム組かそうじゃないかは処理時間/処理数の切片を見れば大体分かる
235のは概算で3000ticks位かかってるからトランザム組とみていいんじゃね
241デフォルトの名無しさん:2009/02/07(土) 22:15:21
>>236
なんか11である根拠とかあるのか?
15や13の壁だって破れるまではそこそこかかったはずだけど
と言いつつ俺は普通のやり方じゃ11.5も割ってないけど
242227 ◆eZQcaIaFJs :2009/02/07(土) 22:27:23
>>241
y ^= (y >> 11); // 2
y ^= (y << 7) & 0x9d2c5680UL; // 3
y ^= (y << 15) & 0xefc60000UL; // 3
y ^= (y >> 18); // 2
r += y; // 1

なもんで、11cycle切ってればトランザム組と判断してます。
243デフォルトの名無しさん:2009/02/07(土) 22:38:42
>>229
東芝に売却したような
244デフォルトの名無しさん:2009/02/07(土) 23:22:19
セカンドガレージってブログは団子さん家だったと思う。ちがったっけ?
245,,・´∀`・,,)っ-●◎○:2009/02/08(日) 04:07:27
>>242
そこも削れるだろ厳密に言えば
246,,・´∀`・,,)っ-○◎●:2009/02/08(日) 07:05:27
むしろtemperingを59命令未満にする方法を考えないと
247,,・´∀`・,,)っ-○◎●:2009/02/08(日) 09:04:32
なんで「second」なんだろうな?
たぶん、中の人の本サイトが別にあるからだと思うけど
248,,・´∀`・,,)っ-○◎●:2009/02/08(日) 09:26:26
>>229
あそにおると事件で有名な諫早のFabだろ?
既に東芝に1000億で売っちゃったよ。資金繰りに困って損切り。
249デフォルトの名無しさん:2009/02/08(日) 09:55:18
東芝も高い買い物したよなぁ。
250,,・´∀`・,,)っ-○◎●:2009/02/08(日) 10:06:23
ソニーからすれば減価償却考えても1000億は安すぎるわけだが
切らなきゃ大損害を被ってたろうね。

この度の不況により東芝は諫早も含めて生産規模縮小中。
251デフォルトの名無しさん:2009/02/08(日) 10:25:56
諫早はどうでもいいんだが、大分の縮小は困る。
252デフォルトの名無しさん:2009/02/08(日) 11:12:56
>>246
本命がその方法なら同じことをアセンブリでやってる俺の勝ちなんで非常に助かるんだがな
O(n)を切ってる奴には残念ながら勝てないがソース公開は楽しみでもある
253,,・´∀`・,,)っ-○◎●:2009/02/08(日) 12:25:55
残念だが俺は君とは違う方法をやってる
254デフォルトの名無しさん:2009/02/08(日) 13:08:53
団子さんの本サイトってどこ
255デフォルトの名無しさん:2009/02/08(日) 13:19:46
団子の正体は日本史の二流研究者
"日本史" "排仏毀釈"で調べれば見つかるぞ
256デフォルトの名無しさん:2009/02/08(日) 13:26:09
>>253
それは残念
3/20を楽しみにしとくよ
257デフォルトの名無しさん:2009/02/08(日) 21:42:58
コンテストと関係なくて初心者質問で恐縮ですが

SPEプログラムってマルチスレッドのみならず関数呼び出しの場合も
レジスタ全部退避するんでしょうか

もしそうなら全部main()で済ますのが正解?
258デフォルトの名無しさん:2009/02/08(日) 22:41:35
70番〜127番までのレジスタは関数呼び出しの前後で保存されてなきゃならないって決まりがあるっぽい
って事はレジスタが余ってる限りは退避しないようになってるんじゃないかと
確かめたわけじゃないから絶対とは言えんけどもレジスタ大量にあるのがSPEの特長だしね
259デフォルトの名無しさん:2009/02/08(日) 22:44:35
そういうのはABIで決まってるから
260,,・´∀`・,,)っ-○◎●:2009/02/08(日) 23:32:26
小さい関数なら__inlineキーワード付けなくとも最大の最適化オプションならインライン展開される
261デフォルトの名無しさん:2009/02/09(月) 10:49:54
素晴らしい解法を思いついたと思ったが
最終段がDLPだよ......orz.....検討し直し
262デフォルトの名無しさん:2009/02/09(月) 11:34:05
DLPって何の略?
263デフォルトの名無しさん:2009/02/09(月) 11:47:12
http://ja.wikipedia.org/wiki/DLP
プロジェクタの一種
264デフォルトの名無しさん:2009/02/09(月) 12:08:29
ありがと
265デフォルトの名無しさん:2009/02/09(月) 14:28:17
>>261
ニヤニヤ
266デフォルトの名無しさん:2009/02/09(月) 23:04:12
普通にやって10%切るの難しいって誰か書いてなかったっけ?
土曜から始めて、今、mtテーブルの初期化が終わった。
ループ展開などする前でも10%切るんだけど。かなりハードル低くないか?
それとも、このあとのTemperingがきついのかな?
267デフォルトの名無しさん:2009/02/10(火) 00:07:25
10%切るの意味が分からないけど10倍速は素直なSIMD化だけでできる
268266:2009/02/10(火) 00:16:40
>>267 普通そうだよな。それに、今回の課題はオリジナルがいちいち
関数呼び出しているからオーバヘッドが大きい。
だから、オリジナルの3%を切るくらいが普通の書き換え組みの最低ラインだろう。
とはいえ、俺がそのラインに届くかどうかどうか知らんが。
269デフォルトの名無しさん:2009/02/10(火) 10:30:49
3%はSIMD化してアンロールするだけで届く
普通の書き換えならそこからさらに倍速になってからが勝負
270デフォルトの名無しさん:2009/02/10(火) 22:57:42
駄法螺吹きが多いな、ここはw
271デフォルトの名無しさん:2009/02/12(木) 01:43:38
課題の制限で、mt_mine.c 以外のファイルを変更してはならないというのがあって、
spe 用のファイルの追加ができなくて困っているのだけど、
ttp://cell.fixstars.com/ps3linux/index.php/3.2%E3%80%80簡単なSPEプログラム

ttp://cell.fixstars.com/ps3linux/index.php/4.6%E3%80%80埋め込みSPEプログラム
以外で、どうやって spe 用のコードを書くのでしょうか。
272デフォルトの名無しさん:2009/02/12(木) 01:50:28
mt_mine.cをいじるだけで事足りるんじゃ?
273デフォルトの名無しさん:2009/02/13(金) 00:54:08
>>272
spe 用の main を mt_mine.c に書くと一つのバイナリに二つ main が入ることになってシンボルが衝突してしまいます。
また、spe2 のライブラリにリンクしないと、spe_program_load などがリンカエラーを起こします。
Makefile を変更しないとどうにもならない気がするのですが、何か根本的に間違えているのでしょうか。
274デフォルトの名無しさん:2009/02/13(金) 02:46:28
>>273
根本的に間違えてるよ

そもそもppeプログラムは不要で,speプログラムだけしかない.
コンパイルしてできた実行ファイルを実行すると1つのSPEにロードされて処理される.
275デフォルトの名無しさん:2009/02/13(金) 08:14:29
たいして量ないから課題についてきたすべてのファイルのぞいてみな。
全体の構造がわかるから
276デフォルトの名無しさん:2009/02/14(土) 00:48:22
>>267
ソース見せて?
いや、ホントに素直なSIMD化だけで?
277デフォルトの名無しさん:2009/02/14(土) 00:49:48
>>274
>>275
ありがとうございます。腑に落ちました。
278デフォルトの名無しさん:2009/02/14(土) 20:04:19
SIMD化したら単純に4倍になるだけじゃないからな
SPEでスカラ演算しようとしたらそれ以上のコストがかかる
279デフォルトの名無しさん:2009/02/15(日) 17:23:24
デバッグプリントはさむと実行できるのに
そのコードをコメントアウトすると10回に6回位実行が止まりやがる
どうやらSPEがDMA転送するあたりで止まってしまっているみたいだ
デバッグ難しいねえ
280デフォルトの名無しさん:2009/02/15(日) 17:55:51
>>279
普通のPCではお目にかかれない現象だなぁ。
なんちゅうシビアな。。。
281デフォルトの名無しさん:2009/02/15(日) 18:01:53
>>280
昔のPCだと、CPUクロックが上がった所為で周辺ICがついてこれず、ハングアップするなんてことがあった。
対処方法は、I/O制御インストラクションの間にnopインストラクションを幾つか挟むことだったり。
282デフォルトの名無しさん:2009/02/15(日) 18:10:33
>>280
PCでもデバッグするのにprintf入れたらバグがでなくなるとか遭遇しないか?w
283デフォルトの名無しさん:2009/02/15(日) 18:14:44
>>281
それもシビアですなぁ。CPUを待たせるっていうのは思考と対立するなぁ。

>>282
VCのデバッガ最強伝説。標準の関数消したら直ったっていうのはは今までないね。多分。
284デフォルトの名無しさん:2009/02/15(日) 18:19:24
あ、printf入れたらか。そっちもないけどさ。
そんなシビアな環境でやってないからかな。。。
285デフォルトの名無しさん:2009/02/15(日) 18:40:01
止まらなくなった。何が何やら分からない。きっと今日は風が強かったからCellBE様のご機嫌がちょっと
悪かったんだな、うん
286227 ◆eZQcaIaFJs :2009/02/15(日) 18:41:44
>>279
同じような事で悩んだりしたのでヒントっぽいものを。

・align16 付けてますか?(SSE と違って実行時の例外は無し)
・アセンブラから書き換えるグローバル変数は volatile にしてますか?

今のところ spu-gcc-4.3 の致命的なバグに遭遇した事は無かったりもします。

>>282
割り込み属性を指定してる関数で破壊するレジスタを待避しないコンパイラや、
ABIを無視して呼び出し先関数で使用しているレジスタしか待避しないコンパイラなら
見たこと有りますよ。
287デフォルトの名無しさん:2009/02/15(日) 18:42:14
と思ったけど止まったぜヒャッハァー
288デフォルトの名無しさん:2009/02/15(日) 18:44:36
まぁ、アライメントだろうな。
289デフォルトの名無しさん:2009/02/15(日) 19:08:21
>>283
デバッガ関係ないし。
シビアなマルチスレッドプログラミングしてたらよく起こる
290デフォルトの名無しさん:2009/02/15(日) 19:12:04
printfでうまくいくケースはメモリ周りだろ
アロケーションしてないとこの参照とかあるとそうなる
291デフォルトの名無しさん:2009/02/15(日) 19:31:26
みなさんどうデバッグしてます?経験?デバッガ?
292デフォルトの名無しさん:2009/02/15(日) 19:37:38
>>291
ただの趣味グラマだけど、基本はVCのデバッガで引っ掛けて、引っかかったらカンと経験っぽいもので何とかしてる。
一応、ユニットテストっぽいこともやるにはやってるかな。
293デフォルトの名無しさん:2009/02/15(日) 19:39:09
今回はprinf( )デバッグだけで済んだ。
というか、リモート・デバッガ動かなかったから
prinf( )デバッグしただけなんだな。
294デフォルトの名無しさん:2009/02/17(火) 02:58:04
コンテストも終盤だし、スレの勢いも落ち着いてきたね
295デフォルトの名無しさん:2009/02/17(火) 10:13:53
コンテストの目的って何なの?
Cellでなければ不可能な最適化や高速化の技術があるはずだ、って事なの?
SFMTとは違う事をやるの?
296デフォルトの名無しさん:2009/02/17(火) 10:48:13
>>294
誰ももう手の内を明かしたくないってことだろう。
>>295
いわゆる惰性って奴じゃないか?
297202:2009/02/17(火) 10:57:17
F1みたいに厳しい制限の中でトップを争うレースかと思ってたのに、
何でもあり or 曖昧な評価基準 のレースになってしまって、やる気が
無くなった。ここ2週間何もしてない。

一応提出できるレベルには持っていく積もりだけど、Fixstars賞すら狙えない
レベルに落ちぶれてしまった。
298デフォルトの名無しさん:2009/02/17(火) 14:20:34
今はCell Challengeの方やってんぜ
提出締め切りがこっちの方が近いからな
299デフォルトの名無しさん:2009/02/17(火) 15:32:43
>>298
俺もやってんだがこっちはツールキットの10倍すら厳しい・・・
しかもOpenCafe上でやるとたまにだが実行時間がめちゃめちゃ遅くなるし

今ホームページみたらQ&Aが更新されてた
遅くなる事象が報告されてるみたいだな
300デフォルトの名無しさん:2009/02/17(火) 19:47:29
いったいどんな属性のやつが優勝するんだろう?
301デフォルトの名無しさん:2009/02/17(火) 19:51:51
暇人である事は確かだろう
302デフォルトの名無しさん:2009/02/17(火) 20:20:34
おれは暇人に該当するがさすがに職場からリモートでするほどの勇気or気力はないな。
つか不景気だし。

カレーだいすき
れんこんだいすき
303デフォルトの名無しさん:2009/02/17(火) 22:14:20
>>295
本来の目的は前者、つまり、あなたが言うような「Cellでなければ不可能な最適化や
高速化の技術があるはず」だと思うよ。そこら辺が曖昧になったから、

>また予想以上の盛り上がりに感謝し、「実用性に優れている」と弊社にて判断した
>プログラムに対して「フィックスターズ賞」を追加することに決定しました。

>「実用性に優れている」と判断する基準
>* MT 乱数 (tempering された乱数) を生成している
>* オリジナルコードと同じ順序で乱数を出力している
>* MT 乱数を簡単に取り出せること (関数の戻り値, 配列に格納, など)
>* 高速である
>※上記の基準をもとに総合的に判断します。

という具合に「フィックスターズ賞」を作ったのだと思う。
要は、即戦力になる人材に応募して欲しいんだろ。

.>「実用性に優れている」と弊社にて判断した
^^^^^^^^^^^^^^^^^^
という一文が重要なんだよ。
304デフォルトの名無しさん:2009/02/18(水) 07:24:34
ノーベル賞も実用性、実効性が最初に問われるんだってよかったね。
305デフォルトの名無しさん:2009/02/18(水) 15:14:05
プログラミングの質問なんですが、
DMA転送する際に構造体のメンバがポインタだとSPUで読み取れないんですか?
306デフォルトの名無しさん:2009/02/18(水) 15:41:51
エスパーレスするが、
取得したポインタを用いてさらに別途DMA転送しろってことじゃないか?
307デフォルトの名無しさん:2009/02/18(水) 19:49:40
おいお前ら
メモリ足りてる?
308デフォルトの名無しさん:2009/02/18(水) 20:16:34
>>307
とりあえずループ展開終わっただけの段階だけど、足りてる。
ファイルサイズだと253.0k。チューニングすればもう少し減ると思うが
コンパイラがどう最適化するか判らないから、増えるかも?
309デフォルトの名無しさん:2009/02/18(水) 23:05:16
前スレの「ていうか頭足りてる?」を思い出した
310デフォルトの名無しさん:2009/02/19(木) 20:12:03
IBMのCell Broadband Engine Programming Handbookがリンク切れなのは何故。。
311デフォルトの名無しさん:2009/02/20(金) 02:34:19
消したって事は必要無いからなんじゃないかね?
PowerXCell 8iを含むって書いてあるけど、こっちで用が足りるんじゃない?
ttp://www.ibm.com/chips/techlib/techlib.nsf/techdocs/1741C509C5F64B3300257460006FD68D?Open&S_TACT=105AGX16&S_CMP=LP
312デフォルトの名無しさん:2009/02/20(金) 19:27:42
あと2週間、だっぞ。

159-1名の君たち、せいぜいがんばれや。
313デフォルトの名無しさん:2009/02/22(日) 00:33:27
159って何?
そんなに参加してるの?
314デフォルトの名無しさん:2009/02/22(日) 22:23:47
駄目だなぁ、どうしても3%を超える事すら出来ない。
命令順序を入れ替えても変化なしだ。
315デフォルトの名無しさん:2009/02/24(火) 21:22:11
フィックスターズ、Cell活用のH.264リアルタイムソフトウェアエンコーダ
http://journal.mycom.co.jp/articles/2009/02/24/fixstars_powerxcell8i/index.html
316デフォルトの名無しさん:2009/02/24(火) 21:33:44

ルイスvsホリフィールドを久々に見せてもらったよ
317,,・´∀`・,,)っ-○◎●:2009/02/24(火) 21:39:05
中の人が言ってたアレ完成したのか
318227 ◆eZQcaIaFJs :2009/02/25(水) 01:03:24
[チラシの裏]
プロファイラの結果見ながら片っ端からソース書き換える仕事も一段落して、
次はOpenMPのマルチスレッド地獄。楽だと思って甘く見てたら、今日だけで
落とし穴に2回も落ちてしもうたよorz 目標の100FPSまでもう少し。

>>297
気力出なくて放置してるのはわっちも同じです。トランザムさえ無ければ
5位以内に入れる自信は有ったのになぁ…。
319デフォルトの名無しさん:2009/02/25(水) 01:27:14
お互いに牽制し過ぎて、勝てないと思ってみんな提出しなくてノーマルな方法で優勝可能というオチだったりw
320デフォルトの名無しさん:2009/02/25(水) 01:38:04
159名がどこから来た数字かやっと分かった。
これは見つかるのかw
321,,・´∀`・,,)っ-○◎●:2009/02/25(水) 02:42:06
>>318
俺がガンダムだ
322デフォルトの名無しさん:2009/02/25(水) 10:56:18
SIMD化すると遅くなるんですがなぜですか?
323デフォルトの名無しさん:2009/02/25(水) 15:34:40
依存チェンじゃね?
とcellを知らないオレが答えてみる
324デフォルトの名無しさん:2009/02/25(水) 20:17:42
なぜですかって聞いちゃだめでしょう。ルール的に
325デフォルトの名無しさん:2009/02/25(水) 22:23:39
トランザムって何?
禁じてなのか
326デフォルトの名無しさん:2009/02/25(水) 22:27:28
>>325
俺も何か高等テクニックなのかと思って近くの奴に
トランザムって知ってるか?
と聞いたら最近のガンダムがどれぐらい面白いかの話をされた
327デフォルトの名無しさん:2009/02/25(水) 22:34:32
> トランザムって

厨二病
328デフォルトの名無しさん:2009/02/25(水) 22:39:49
トランザムシステム(TRANS-AM)
オリジナルのGNドライヴに予め組み込まれていたシステム。
機体内部に蓄積されていた高濃度圧縮粒子を全面開放することで機体が赤い光に包まれ、
スペックを3倍以上に上げることができる。しかし、このシステムは大量のGN粒子を消費し、
使用時間の制限と、時間終了後は粒子の再チャージまで機体性能が大幅に低下するなど、
諸刃の剣である。イオリアがヴェーダが何者かによって破壊、もしくは掌握されたときのために
温存していた最後の希望であった。
329デフォルトの名無しさん:2009/02/25(水) 22:53:24
>>322
俺がいる
330デフォルトの名無しさん:2009/02/25(水) 23:38:51
コンテスト終了後はソース公開されるんでしょ?
それ見ながら、このスレでトランザムについて解説してもらったらおk
331デフォルトの名無しさん:2009/02/26(木) 02:44:03
fixstarsが今度Cellプログラミング実践セミナーを開くそうだけど、行く人いる?
自分は考え中・・・
332デフォルトの名無しさん:2009/02/26(木) 12:53:22
俺はトランザムって、てっきり車(スポーツカー)の事だと思ってた。
まさか最近のアニメ(ガンダム00)の話だったとはw。
333デフォルトの名無しさん:2009/02/26(木) 12:56:33
>>332
それは元々、TRANS AMericanでアメリカ横断と言う意味だな。
334デフォルトの名無しさん:2009/02/26(木) 13:03:19
>321
「俺がガンダムだ」の意味が分かったよ。
そんなもん分かりたくもなかったがw。
335デフォルトの名無しさん:2009/02/26(木) 16:29:26
speedchallengeはもうだめだ
「他のジョブが動作中です」的なエラーがでて何も出来ない
336 ◆imos.WO182 :2009/02/26(木) 18:43:54
Cell Challengeだけどまだプログラムを書いてる途中で一度も動かしていない\(^o^)/オワタ
こんな長いコードのデバッグとか正直あと1日で無理だろ,常考…orz
337デフォルトの名無しさん:2009/02/26(木) 19:28:04
俺はバグとり合戦開始した。コンパイラはエラーはかないけど、正しい結果が得られない 
明日の夕方に間に合えばいいが
338 ◆imos.WO182 :2009/02/26(木) 22:50:55
ぉぅ,こっちは今からやっとバグ取り合戦だぜ.
徹夜してがんばろう.しかしチューニングまでは到達しないかもしれn…

Another jobが云々は他の人もがんばってるってことかな.
がんばらないと…
339デフォルトの名無しさん:2009/02/27(金) 01:57:17
>>335
ターミナルでcellunlockするといけるってどこかに書いてあった気がする
340 ◆imos.WO182 :2009/02/27(金) 03:20:47
90%ぐらいの確率で答えを正しくだすけどっていう状況になってしまた\(^o^)/
それも実行する度に正しかったり1違ったり…orz
DMA転送の付近で順序がおかしくなってるんだろうなー…
341デフォルトの名無しさん:2009/02/27(金) 03:24:40
間に合わないだろう、さすがに。
342デフォルトの名無しさん:2009/02/27(金) 05:23:23
あきらめってきもちいいです
343 ◆imos.WO182 :2009/02/27(金) 05:58:03
別のバグを見つけて解決したけどなぜ時々正解していたかは未だに謎
とりあえず命令順序を良いように変えてくれるコンパイラに感謝

ところで Cell challenge って短い文字列でも勝負やるのかね
もしかしたらそもそもSPU起動しない方が速いとかありうるけど
まぁあまり気にしないでおくべきか
344デフォルトの名無しさん:2009/02/27(金) 17:07:12
PS3に比べてOpenCafeだと全く速度が出ない
サイズの小さい問題ほど顕著で
128x256:7.3%
5120x5120:11.6%
20480x20480:42.4%
73600x73600:90.1%
の速度しかでない
PS3で開発してたもんだから今提出してがっかりした
何が原因なんだ
345デフォルトの名無しさん:2009/02/27(金) 17:27:16
実はPS3とOpenCafeのPPE-SPE間,SPE-SPE間通信時間を比べると
OpenCafeのほうが1.5倍の時間がかかってるんだよな

SPEプログラム呼び出しに至ってはOpenCafeのほうは絶望的に遅い
346デフォルトの名無しさん:2009/02/27(金) 17:47:00
少なくともSPEの起動・終了を使い回したりはしてないんだがなあ
SPE間通信とシグナル通知レジスタあたりが怪しい気がする
347デフォルトの名無しさん:2009/02/27(金) 19:44:24
単純にコンパイラの違いとか
348デフォルトの名無しさん:2009/02/27(金) 20:05:34
携帯電話に対抗するPSP2、CellとLarrabeeで揺れるPS4
http://pc.watch.impress.co.jp/docs/2009/0226/kaigai492.htm

349デフォルトの名無しさん:2009/02/27(金) 20:28:21
ゲハ厨?
350314:2009/02/28(土) 23:08:14
うーん、相変わらず駄目だ。2月に入ってから作成始めて、
出来るだけ土日のいずれかは使ってるんだけど、オリジナルの
3%を超えられない。
ぎりぎりまで頑張ってみるけど、コンテストに出さないかも。

いい加減、土日はフルに休みたいし、めんどくせぇなw
351デフォルトの名無しさん:2009/03/01(日) 00:51:06
135 の扱いが厄介だ。
352デフォルトの名無しさん:2009/03/03(火) 17:02:50
Cell Challenge予選の結果が発表された
(入力をまだみれてないのでおそらくだけど)
2^34の問題が0.2秒で解けてるチームが1位っぽい
353デフォルトの名無しさん:2009/03/03(火) 21:44:08
imosさんてチームimoか?はえーなあ
354 ◆imos.WO182 :2009/03/04(水) 15:43:01
お察しの通りチームImoですー
2^34が1秒切ったと喜んでいたけども1位とは4倍の壁…
evenの埋まってる率はおそらく7割以上なのでアルゴリズムの変更が必須で悩み中
355デフォルトの名無しさん:2009/03/05(木) 00:22:49
1位のチームの人Anthyの開発者?
356デフォルトの名無しさん:2009/03/05(木) 00:51:29
何気にハックざセルの提出期限近いな
優勝ラインはどれぐらいだろうな?

4.5Mぐらいだと予想しているんだが
357227 ◆eZQcaIaFJs :2009/03/05(木) 01:20:01
# OpenMP で並列化出来るところが少なすぎて発狂しそう…。

>>354
今週の土曜日になれば Hack the Cell のネタバレ解禁だと思うので、
パイプライン両方埋めるテクニックが盗めるかもしれませんよ。

>>356
数字書いちゃうとアレな気もしますが、一月末の時点で3.5M突破
している方もいますよ。
358デフォルトの名無しさん:2009/03/05(木) 01:39:03
それはすごいな。
でも、まだフィクスタ賞のチャンスは俺には残ってるはず。
359,,・´∀`・,,)っ-○◎●:2009/03/05(木) 03:57:11
ああ、ふぃく☆すた賞狙ってる人は、コンパイラを飼い慣らすテクニックのほうを重視したほうがいいかもです。
360デフォルトの名無しさん:2009/03/05(木) 08:54:15
コンパイラを飼い慣らすって
そんなに差がでるのですか
361デフォルトの名無しさん:2009/03/05(木) 11:46:33
え、gccに限らずVCだろうがiccだろうがコンパイラとの格闘だぜ?
362デフォルトの名無しさん:2009/03/05(木) 12:29:30
自分はオプションにアンロールとO3つけてstripぐらいしかしてないです。
さすがに-pgとかつけたままにしたりましませんが・・・
けどその位を殺っておけばいいだろうという認識です。
そんなに激しく差がでるのかー
363デフォルトの名無しさん:2009/03/05(木) 23:56:56
コンパイルオプションはいじったらだめなんじゃ…
364デフォルトの名無しさん:2009/03/06(金) 02:44:34
自分はcell challengeなので。
365デフォルトの名無しさん:2009/03/06(金) 11:43:09
無意味なラベルを入れておくとかそういうおまじないレベルの事はやらなくて大丈夫なんだよね?
366デフォルトの名無しさん:2009/03/06(金) 14:47:21
O3だと動かない\(^o^)/
367デフォルトの名無しさん:2009/03/06(金) 22:13:16
今日でひとつの祭りが終わるなぁ。勉強になったし楽しめたよ。満足満足
368デフォルトの名無しさん:2009/03/06(金) 22:37:56
残念なこともあるにはあるけどなかなか楽しめたな
しばらくしたらコード公開されるのかな
それとも20までお預けかな
369デフォルトの名無しさん:2009/03/07(土) 01:56:36
へるみさんは80倍ちょっとか。
370227 ◆eZQcaIaFJs :2009/03/07(土) 02:35:40
ビット入れ替え思いつかずに、12cycleの壁超えられなかったもします。
フィックスターズ賞狙いですが、99%越えの接戦に勝てるか不安…。
371デフォルトの名無しさん:2009/03/07(土) 10:32:23
トランザムってどうやって加算したの?
spu_cntbとかをうまく使うの?
締め切りすぎたけど、結果発表までは内緒なのかな…
372202:2009/03/07(土) 11:05:43
俺なんか12.3cycle/qwordだ。ランク外orz
373デフォルトの名無しさん:2009/03/07(土) 11:48:08
で、トランザムって何なの?
俺が・・・が出自ってことは分かったけれど
374,,・´∀`・,,)っ-●◎○:2009/03/07(土) 11:50:25
>>371
spu_cntbは最初に思いついたね

たとえば、
cntb(a) << 24 | cntb(b) << 16 | cntb(c) << cntb(d)
を8組作って、左シフト+加算で畳み上げるってのはどう?
8ビット単位のシフト+論理和ならspu_shuffleでできるからOddパイプ側で処理を割り振ることもできるし
このへんはいろいろやりようは有ると思う。

どっちかというとmt[]の更新のほうがめんどいんだ。
どういうレイアウトを組むかによってOddパイプの演算量が全然変わってくる。
375371:2009/03/07(土) 11:51:50
>373
たぶんbitを90度回転したんじゃないかと。
01234...
01234...

0000
1111
...
な感じに。
376,,・´∀`・,,)っ-●◎○:2009/03/07(土) 11:59:16
( cntb(a) << 24 ) | ( cntb(b) << 16 ) | ( cntb(c) << 8 ) | cntb(d)
に訂正しときます

>>373
俺が最初に言い出しました。transpose + sumだからトランザム(笑)
あと速いし。さすがにmt[]の更新のほうがネックで3倍にはならないようだけどね。

なんのことはない、1bit×128並列のSIMD演算ですよ。
暗号のクラックなんかでよく使う方法です。
377デフォルトの名無しさん:2009/03/07(土) 12:41:24
>>376

やっぱり1bitx128並列の事だったか。
その方法ならshift無くせるしxorとかの回数も減らせることは気が付いてたけど
めんどくさいからやらなかった。

やった場合には1要素平均何cycleまでいくものなんだろう?
378,,・´∀`・,,)っ-●◎○:2009/03/07(土) 12:48:45
>>377
ブログなんかで「大台」って言ってる人がいるけど、これは100倍のことだと思うよ。
だから2クロック切るくらいかな。
379デフォルトの名無しさん:2009/03/07(土) 12:57:04
鬼すぎるw
380227 ◆eZQcaIaFJs :2009/03/07(土) 12:57:45
The Art of Multiprocessor Programming 届いた。普通に神本っぽい。
ところで、KLabの中の人ってこのスレの住人だったりするのだろうか…。

>>372
12.3は何とか超えたけど、その少し先で詰まっていたりもします。

>>376
普通に translate + sum だと思ってましたo r z
381,,・´∀`・,,)っ-●◎○:2009/03/07(土) 13:21:59
ちょうどビット配列の転置アルゴリズムを「ハッカーのたのしみ」なんかが扱ってる

http://www.hackersdelight.org/HDcode/transpose32.c
382デフォルトの名無しさん:2009/03/07(土) 13:45:25
temperingはそれこそすげー速くなるんだけどMT[i+1]とMT[i+M]のロードがなかなか難しいよね
いろいろやったけど命令数的に90倍速程度が理論限界で諦めた
コンパイラはレジスタ足りないってわめくし

結局普通の方法で11.75/cycleの68倍速で提出したよ
こっちのコードの方が最適化自体に手間掛けたから気に入ってるんだ
383デフォルトの名無しさん:2009/03/07(土) 13:46:47
11.75cycle/QWORDだた
384デフォルトの名無しさん:2009/03/07(土) 15:08:23
ところでオレ以外に学生部門の人はいないの?
学生参加は手を上げて!!
385,,・´∀`・,,)っ-●◎○:2009/03/07(土) 15:14:07
>>382
mt[i+1]のほうは奇数・偶数みたいな分け方をすればpermuteの回数を「減らす」
くらいは出来るという結論に達した。

幸いなことに先頭から226個まではは並列実行できるし。
ただ、128ビット全部使うことは諦めないといけない。
1レジスタにビットを限界までの6分割とか8分割とかにしないといけない。


参加者が少なかったせいか10倍すら超えなくても参加賞は貰えることになったらしいので
ウケを狙うのもアリだったな。
386,,・´∀`・,,)っ-●◎○:2009/03/07(土) 15:15:37
○1レジスタにビットを限界まで詰めることを諦めて104ビットずつ6分割とか78ビットずつ8分割とかにしないといけない。
387デフォルトの名無しさん:2009/03/07(土) 15:35:29
>>385

全員参加賞もらえるなんてどっか出てたか?
フィクスタの社長ブログとかには参加者159人とか載ってるし、参加者少なすぎとかは無いんじゃないか?
388,,・´∀`・,,)っ-●◎○:2009/03/07(土) 15:38:20
http://cell.fixstars.com/challenge/entry.html

参加者特典
課題提出者全員に参加賞をプレゼントいたします。



ボールペンかなんかの予感
389デフォルトの名無しさん:2009/03/07(土) 15:41:17
>>388
ほんとだ。疑ってすまんかった。
いつの間にか変わっていたんだな。
390デフォルトの名無しさん:2009/03/07(土) 17:39:43
「トランザム」 = 「とらん、sum」かとおもてたよ
Tempering後のchecksumをとらないのかと。どやってやるんだそんなのと
391デフォルトの名無しさん:2009/03/07(土) 17:46:47
kikxさんとこのが良く分からない
乱数生成の順番は入れ替わりそうだけど転置ではなさそうだ
392,,・´∀`・,,)っ-●◎○:2009/03/07(土) 17:52:46
> z = si_lqx(spu_slqw(spu_gather(y), 4), mag_lut);
> r = spu_xor(spu_rlmaskqw(y,-1), z);

懐かしい


左4ビットシフトもspu_shuffleでできるよね?
このへんはみんな気づいたかなと思うけど。
393デフォルトの名無しさん:2009/03/07(土) 18:23:39
シャッフル1回でってこと?
想像もつかない
394227 ◆eZQcaIaFJs :2009/03/07(土) 18:26:58
何となく11.75になる方法分かったorz
395デフォルトの名無しさん:2009/03/07(土) 18:32:16
>391
mt[]の中の順番が入れ替わるだけ、かな?

>392
団子さんは結局何倍までいけました?
396,,・´∀`・,,)っ-●◎○:2009/03/07(土) 18:35:33
spu_gatherやるとさ、プリファードスロットの下位4ビットにLSBが集約されるじゃん。
で、他は0になるじゃんじゃん。

spu_shuffleの第一引数に
{ 0x00, 0x10, 0x20, 0x30, 0x40 ,,, 0xF0 }
ってベクトルブッ込むわけだ。

spu_shuffle( pattern, pattern, (vec_uchar16)spu_gather(y) )

これで
spu_slqw(spu_gather(y), 4)

とまったく同じ結果になる筈。

397,,・´∀`・,,)っ-●◎○:2009/03/07(土) 18:36:06
>>395
ノーコメント
398,,・´∀`・,,)っ-●◎○:2009/03/07(土) 18:40:04
shinhさんが俺をオフ会に誘ってるようですなwww
399デフォルトの名無しさん:2009/03/07(土) 18:42:31
>>396
なるほど
そういえば最初のうちは似たような使い方することで
shuffleの定数生成機能を利用して1bitシフトしようとかしてたなぁ
400デフォルトの名無しさん:2009/03/07(土) 18:45:48
でも、フィックスターズで会合セッティングするって、
社長blogに書いてあったよね。
401デフォルトの名無しさん:2009/03/07(土) 18:49:47
団子の自演か。
402デフォルトの名無しさん:2009/03/07(土) 18:49:50
入賞者以外も招待されるとしても気遅れしてしまって行けそうにない
403,,・´∀`・,,)っ-●◎○:2009/03/07(土) 18:59:24
そもそも人材スカウト前提のプログラミングコンテストじゃねーの?
shinh氏はGoogleだから興味はなさそうだなー
404デフォルトの名無しさん:2009/03/07(土) 19:22:19
>>403
おたくは誘われたら行くの?
それとももっと良いとこに勤めてたりすんの?
405,,・´∀`・,,)っ-○◎●:2009/03/07(土) 19:25:38
そもそもFixstarsっていいところなのかね?
Cellに将来性を感じない
406デフォルトの名無しさん:2009/03/07(土) 19:26:29
なんという正直な意見
407デフォルトの名無しさん:2009/03/07(土) 19:34:30
現状じゃCellにいいことないよね
LarrabeeとかGPUとかにも浮気するのかCell自身の発展があるのかどちらかじゃないと
それに
>経験、能力を考慮の上、当社規定により決定
は怖すぎる
408デフォルトの名無しさん:2009/03/07(土) 19:38:01
団子の自慢か。
409デフォルトの名無しさん:2009/03/07(土) 20:01:06
shuffleでシフトって意味あるの?
命令数も使用パイプラインも変わらない気がするんだけど…
410,,・´∀`・,,)っ-○◎●:2009/03/07(土) 20:03:46
要素単位のシフトはevenでshuffleはodd
411デフォルトの名無しさん:2009/03/07(土) 20:11:52
すると>>396はこういうこともできるってだけで
別に意味はないのか
412,,・´∀`・,,)っ-○◎●:2009/03/07(土) 20:15:06
ところで貴様らソースコードの先頭ってコレ入れた?

/*
* Copyright 2008-2009 ***********. All Rights Reserved.
*
* Redistribution and use in source and binary forms, with or without
* modification, are permitted provided that the following conditions
* are met:
(中略)
*/


いや、BSDLで公開するなら常識だよな?
413,,・´∀`・,,)っ-○◎●:2009/03/07(土) 20:16:36
>>411
あるよ。普通の方法でやるとevenが余る。
evenでもoddでも等価な演算が出来る場合は、パイプラインの充填率をみて微調整ができるだろ。
414デフォルトの名無しさん:2009/03/07(土) 20:27:23
そしたらslとslqwの使い分けでいいような
415,,・´∀`・,,)っ-○◎●:2009/03/07(土) 20:35:43
それもそうだな

ケースを選ぶけどvec_uchar16に対応するシフト・ローテート命令としても使えるんだよ
416デフォルトの名無しさん:2009/03/07(土) 20:39:16
これって優勝と準優勝しかないんだろ?
せめて参加部門中で自分が何位くらいだったか知りたい
417,,・´∀`・,,)っ-○◎●:2009/03/07(土) 20:40:13
それでもFixstarsならブービー賞を用意してくれるッ!
418デフォルトの名無しさん:2009/03/07(土) 20:43:15
>>417
あるかもなそれも。あったとして賞品はなんだろう?

てか俺は賞はいらんから純粋に自分がどのくらいの実力なのか
相対的な位置を尻たいのさ
419デフォルトの名無しさん:2009/03/07(土) 20:44:12
>>415
ああ、確かにslqwでできなくてshuffleでできる演算はあるな
参考になった、ありがとう
420,,・´∀`・,,)っ-○◎●:2009/03/07(土) 21:27:20
んなところでオリジナルのGNドライブ(違)です

http://tripper.kousaku.in/20090307.html
421デフォルトの名無しさん:2009/03/07(土) 21:40:27
トランザムはともかくアルゴリズムについてはもともと分かってた人間もいると思うぞ
422 ◆imos.WO182 :2009/03/07(土) 22:00:11
cntbだけじゃなくsumbのことも忘れないでやってくださいです…
423 ◆imos.WO182 :2009/03/07(土) 22:41:49
ってよく見たら本文に書いてあったね,すませ.
しかしできればコード本体も書き直したのを載せておいた方が後の人のためにも.
424,,・´∀`・,,)っ-●◎○:2009/03/07(土) 22:43:09
書き直したやつ上げといた
425,,・´∀`・,,)っ-●◎○:2009/03/07(土) 22:44:47
shinh氏のはsumb使うときにオール0のレジスタ指定とかやったらしいが
実はそれが敗因だったんじゃねーのか?
いや、mt[]のほうが大変なんだけどね
426 ◆imos.WO182 :2009/03/07(土) 23:35:18
すばやい対応乙です
しかし実はこのスレに圧倒されてHack the CellからCell Challengeに逃げ(ry
とまぁそれはさておきここのsumbの引数の活用は意外と大きいかも?
単純計算0.5cycle/qwordは変わるし
427デフォルトの名無しさん:2009/03/07(土) 23:55:47
あれ、cntb はレイテンシ4じゃねの。そしてsumbはevenじゃねの。
428 ◆imos.WO182 :2009/03/08(日) 05:04:38
スループットのみを考えての計算だったのだけど
128個に対して16命令余分→4個に対して0.5命令余分みたいな
もしevenが余ってたらあまり増えない可能性も十分にあると思うが
429,,・´∀`・,,)っ-●◎○:2009/03/08(日) 05:46:51
コメントはかなりいい加減です。
430,,・´∀`・,,)っ-●◎○:2009/03/08(日) 05:49:02
>>428
mt[i+1]なんかの算出の平均コストはそんなもんじゃすまない。
431 ◆imos.WO182 :2009/03/08(日) 14:51:27
>>430
というかトランザムって言ってるなら+1なんてローテートの長さが変わるだけなんじゃ?

自分の書いた古いメモには128個の生成に1行あたり
LD,LD,ROT(16),ROT(16),SEL,XOR,XOR*.5(mag01),(*tempering),ROT*2(29=256-227),SEL,ST
(*tempering)=XOR*2.5,CNTB,SUMB,ADD
みたいなことが書いてある
実装してないので抜けや間違いがあると思うが
432,,・´∀`・,,)っ-○◎●:2009/03/08(日) 14:59:28
静かになるな
当分はこんなところか

・Cell Speed Challenge参加組
・shinh氏主催のオフ会ネタ
・Cell@ム板スレのみんなで何か作ろうぜ
433デフォルトの名無しさん:2009/03/08(日) 15:46:51
作ろうぜってw

実質 PS3 環境で価値のあるものって何かあるか?
434,,・´∀`・,,)っ-○◎●:2009/03/08(日) 15:54:41
PS3持ってる人でなおかつLinux入れてる変態専用だからなぁ
その意味じゃGeForceさえ刺さってれば直ぐ試せるCUDAは敷居が低い
にしても
NVIDIA CUDA質問スレッドとくだすれCUDAスレが同時進行してる様は気味が悪かった。
435デフォルトの名無しさん:2009/03/08(日) 18:49:50
kikxさんとこのが想像以上に頭良すぎてわろたw
これは勝てないわ
436デフォルトの名無しさん:2009/03/08(日) 23:27:43
fixstarsのチュートリアルがつながらんのお
437,,・´∀`・,,)っ-●◎○:2009/03/09(月) 00:55:20
> 松本先生の書いたドキュメントを読んでると、状態空間は624ワードじゃなくて623ワード+1ビットであることが分かります。
> これをワード単位に切り上げた実装が624ワードになってるだけです。

32 * 623 + 1 = 19937
438デフォルトの名無しさん:2009/03/09(月) 18:31:43
>>376
前スレ1000に "let's transpose!" って書いてある件w
439,,・´∀`・,,)っ-○◎●:2009/03/09(月) 19:18:10
>>438
いやそれ以前に俺はbitsliceって単語出してるけどなwww
440デフォルトの名無しさん:2009/03/09(月) 21:56:53
っていうか、団子がずっと bitslice に気付いてなかったっぽいのが・・・
自分であんだけ色々弄ってるんだからとっとと気付くだろー、ふつーw
441デフォルトの名無しさん:2009/03/11(水) 01:25:49
ひょえー、120倍でも勝てないのかよw
442デフォルトの名無しさん:2009/03/11(水) 02:22:18
cell challengeのほうは予選の時点でおそらく220倍ぐらい
いかないと勝てない件
443デフォルトの名無しさん:2009/03/11(水) 04:22:07
120倍で勝てないってHack the Cellの話?
444デフォルトの名無しさん:2009/03/11(水) 13:01:02
445,,・´∀`・,,)っ-○◎●:2009/03/11(水) 19:22:12
懇親会の連絡来たお
446202:2009/03/12(木) 15:35:12
fixstarsとshin_hさんの、両方参加する。
447デフォルトの名無しさん:2009/03/12(木) 15:49:45
これみんな参加するの?正直気が引けるというか・・・
448,,・´∀`・,,)っ-○◎●:2009/03/12(木) 22:38:10
フィックスターズさんへ
首都圏限定の懇親会楽しいですか?
次のコンテストから応募要件に「首都圏在住であること」って
入れておけばいいよwww
449デフォルトの名無しさん:2009/03/12(木) 23:10:53
地理的にも精神的にもイナカモンなんだな
450デフォルトの名無しさん:2009/03/12(木) 23:22:59
優勝して交通費請求すれば出すんじゃね?
451デフォルトの名無しさん:2009/03/12(木) 23:53:45
都民にあらずんば人に非ず。

というか、普通に考えたら首都圏在住の人間が一番多くなるんだから当然でしょ。
他にふさわしい所があるってんなら言ってみ?
452デフォルトの名無しさん:2009/03/13(金) 00:54:42
沖縄
453,,・´∀`・,,)っ-○◎●:2009/03/13(金) 01:03:30
>>450
舐めんな。平日じゃなきゃ、のぞみでも使って自腹で逝ってやんよ


そうだ!関西にLarrabeeトータルソリューションカンパニーの設立を!
454,,・´∀`・,,)っ-○◎●:2009/03/13(金) 01:08:19
梅田の空中庭園あたりでなんかやるっていったら集まる奴おるか?
455デフォルトの名無しさん:2009/03/13(金) 01:12:27
交通費出してくれたら行ってやるよ
456デフォルトの名無しさん:2009/03/13(金) 01:18:57
つまり団子が自費で全国から招集のオフ会でも開くのか?
457,,・´∀`・,,)っ-○◎●:2009/03/13(金) 01:26:28
458,,・´∀`・,,)っ-○◎●:2009/03/13(金) 02:02:59
ええわ。誰も来るな。
一人でCUDAまいてやる
459デフォルトの名無しさん:2009/03/13(金) 02:23:06
誰が上手い事言えと
460デフォルトの名無しさん:2009/03/13(金) 09:59:43
CELLを使った電子会議システムでバーチャル懇親会をやればいい。
461デフォルトの名無しさん:2009/03/13(金) 14:51:50
>>448
団子の精神年齢は相当低いなぁ…
462デフォルトの名無しさん:2009/03/13(金) 15:52:12
団子の起業フラグだな
463デフォルトの名無しさん:2009/03/13(金) 17:59:29
本当に行きたかったらどんなに遠くても行くだろう
まぁ行く気が起きない遠さなのも確かだが
465デフォルトの名無しさん:2009/03/13(金) 18:44:50
かおでかいよ
てか人集めたいなら休日にやればいいのに
466デフォルトの名無しさん:2009/03/13(金) 19:25:04
平日だと何ででれないんだ?
どうせ暇だろ?
暇など無い
468デフォルトの名無しさん:2009/03/13(金) 19:59:19
いつものようにインフルエンザのふりしたらいいじゃん
悪いな。今度のプロジェクトは必ず成功させなきゃいけないんだ。
470デフォルトの名無しさん:2009/03/13(金) 21:38:13
休日出勤したらいいじゃん。
別にいらねーよ景品なんて
472デフォルトの名無しさん:2009/03/13(金) 22:16:36
平日はないよなー。何を思って平日にしたのだか
473デフォルトの名無しさん:2009/03/13(金) 22:31:13
そりゃ主催側社員が休日出勤したくないからだろ
474デフォルトの名無しさん:2009/03/13(金) 22:33:10
>>469
これは死亡フラグですか?
フィクスタも企業として勉強が必要ですなぁ
>>474
だが、心配のしすぎではないか。

 _/_          |/
  /_  __/- ―‐、 /
  _/ /_/ヽ    _/ |__

  __ / / / ̄//>    _   __/_ ヽ /   __   _/_
    ///   7" /   / /\   /| 三/三     /   /、_
   //|   / /-/_\ /  /  / // | ヽ//  ̄ ̄/ ̄ ̄  / \
 /_,/ \_  ̄ ̄ /__/  \/ _/   / /_/ ヽ    _/     ヽ_

    / ̄ ̄/     // ――     ___   /  ___
  / ̄ ̄/  / ― // ――          / /      /
  / ̄ ̄/  /      /   /   ̄ ̄ヽ   /  \    / ̄ ̄ヽ
 _フ"て_  レ \  /   _/     _/   \_    \   <二/


だけだぜ?
477デフォルトの名無しさん:2009/03/13(金) 22:37:57
>>472
休日は場所押さえられなかったとかもありえんじゃね?
478デフォルトの名無しさん:2009/03/14(土) 01:16:22
団子は平日無理ならshinhさんの反省会の方でればいんじゃね?
>>478
呼ばれてたけど参加の返事出す前に定員超えちゃったらしくて。

もっとも、メルセンヌツイスタとかの話題なら、全くの素人同士で議論交わすよりも
東広島の某大学にメール投げてたほうが収穫有りそうだし
どのみち話すことはないな。
480デフォルトの名無しさん:2009/03/14(土) 01:25:33
レス早いなw
まだ募集してるみたいだぞ。
まあ興味ないなら行かないほうがよいと思うが
松本教授あたりが招かれてるならさすがに逝く価値あると思うが
Cellに特化した話題なら別に興味ないよ。
会場がなぜかFixstarsの本社になってるあたりでテンション下がった。
482デフォルトの名無しさん:2009/03/14(土) 11:34:10
平日にしたのは平日にも来られるような現在プーの奴らを安く雇うためでないか?
ただし使えそうな奴限定で。
483202:2009/03/14(土) 11:37:46
>>482
東京のIT業界では、平日の7時くらいからいろいろな勉強会、懇親会が各地で
開かれてる。大阪から東京に出てきたクチだけど、この勉強会の多さには驚いた。

まぁ、その前日はLLVM勉強会があったりして、平日の方が多いとは言えないんだけど。
484ヽ・´∀・/)っ-●◎○:2009/03/14(土) 11:55:54
げっそり


>>482
shinhさん主催のほうもなぜか会場をFixstarsが提供してるのは
つまりそういうことだろうね
485デフォルトの名無しさん:2009/03/14(土) 14:03:18
団子厨はビビってるんだろ?
そしてリバウンド


こっちだって近場でいろいろセミナーあるからね。
交通費出すのも馬鹿馬鹿しく思えてきた。
487デフォルトの名無しさん:2009/03/14(土) 14:42:54
団子さんは大阪かー
488デフォルトの名無しさん:2009/03/14(土) 14:43:25
太りすぎだぞ、デブ
489227 ◆eZQcaIaFJs :2009/03/14(土) 18:21:18
仕事のプレゼンと被ってしまったんで両方とも不参加です。

アセンブラのスケジューリング+レジスタのカラーリングまで自前で
やっている人が多くて驚いています。今回は完敗ですなぁ。
490,,・´∀`・,,)っ-○◎●:2009/03/14(土) 18:33:32
【告知?】
関西慰労会は日本橋のベヒんもスで開催なのは確定的に明らか。
491デフォルトの名無しさん:2009/03/14(土) 20:44:12
fixstarsで働きたい輩は参加すべきなのだろうなぁ。やっぱり
でも参加できねぇえええ
492デフォルトの名無しさん:2009/03/14(土) 21:07:11
団子さんはintel以外アウトオブ眼中なんで
493デフォルトの名無しさん:2009/03/14(土) 21:21:48
インテルハイッテル!
インテルハイッテル!
インテルハイッテル!
494,,・´∀`・,,)っ-○◎●:2009/03/15(日) 00:29:11
ネタも尽きてきたことだしこいつで遊ぼうぜ
http://www.kurims.kyoto-u.ac.jp/~ooura/pi_fft-j.html

pi_ca 4194304桁でベンチ

Total 96 sec. (real time), chksum= 14fa @PPE
Total 104 sec. (real time), chksum= 14fa @Atom N270 @1.6GHz

SPEへの移植だけど、スワップするのにDMA使わないと無理だと思うんだ。
でも、DMAが使えなきゃCellを使いこなしたことにはならないんだぜ
495デフォルトの名無しさん:2009/03/15(日) 00:41:06
cellスレ的には素敵な燃料投下ね
興味は、ある
496デフォルトの名無しさん:2009/03/15(日) 01:29:49
>>490
いや、そことっくに閉店してますしおすし。
497デフォルトの名無しさん:2009/03/15(日) 02:01:06
DMAとか面倒くさいですぅ
498デフォルトの名無しさん:2009/03/15(日) 10:16:06
fuck the cell 2ch
499,,・´∀`・,,)っ-●◎○:2009/03/15(日) 10:23:28
むしろ、なんでI/O禁止だったのか考えてみようぜ。
CellのもっともCellらしいところじゃないか。

(GF拡大体による解法は想定外ということにして)
DMAを使いこなすテクニックより、SIMDレベルでの最適化ができる
人材の発掘を重視したんじゃないかと思うわけで

つまり、フィクスタはCell専業やめようとしてるんじゃないのかと
邪推してしまうんだが
500デフォルトの名無しさん:2009/03/15(日) 10:28:45
そういや45nmプロセスの話はどうなったんだろ。
501デフォルトの名無しさん:2009/03/15(日) 12:45:06
DMAからむと毎回実行クロック変わるからそれが嫌だったんじゃね?
502デフォルトの名無しさん:2009/03/15(日) 15:18:40
敷居を下げて参加を増やすためじゃないんかな
Cell Challengeの方はCell全く知らない人が参加しようと思うと結構面倒だ
503デフォルトの名無しさん:2009/03/15(日) 21:30:01
>>499
現時点でのCellに関する知識量に依存しすぎるからだろ。

そんなピンポイントの技術で人材採用してたら、会社続くわけないじゃん。
邪推しすぎ。
504デフォルトの名無しさん:2009/03/15(日) 23:34:09
そもそも人材を手に入れるってのが邪推じゃなかろうか
505デフォルトの名無しさん:2009/03/16(月) 02:57:33
別に何も意図していなかった、というのはどうだろう?
Cellプログラミングやってる人なら制限付きのお題投げとけばあとは勝手に最適化するよね、と。
506デフォルトの名無しさん:2009/03/16(月) 19:11:49
これまで fixstars 知らなかった者としては、売名のためとしか思えんのだがwww
507デフォルトの名無しさん:2009/03/16(月) 19:22:28
Cell Challengeそろそろ高速化のネタが尽きてしまった
Hack the Cellに比べると難しいな
1位とかほんとにアルゴリズム一緒なんかと
508デフォルトの名無しさん:2009/03/16(月) 19:47:37
予選の結果とか参考にしてどのチームが勝つか予想しようぜ
509 ◆imos.WO182 :2009/03/16(月) 21:50:27
上位3チームは変わらないようにしか思えない今日この頃だ…
2^34に対してどれくらいのチームが1秒を切れるかが気になるかな
# しかし自分は別の大会の〆切りの方が先なので今はそっちをやっていたり…orz
510デフォルトの名無しさん:2009/03/17(火) 02:26:15
上位3チームも速度の傾向違うから違いそうだけども
511デフォルトの名無しさん:2009/03/17(火) 14:36:45
上位早すぎて自分早くならなすぎで萎えてきた
自分の能力では張り合えない

Cellアンチになってしまいそうだ
512デフォルトの名無しさん:2009/03/18(水) 22:43:51
これって4位以内なら入賞出来るんよね
いけっかな―
513デフォルトの名無しさん:2009/03/19(木) 22:15:41
ハックザセルの結果出てる
団子入賞できてないんじゃね?ww
実を言うと、参加資格なくなったんだ
意味解るよな?
515デフォルトの名無しさん:2009/03/19(木) 23:04:23
>>514
中の人が増えすぎた?
516デフォルトの名無しさん:2009/03/19(木) 23:05:33
あまりCellの悪口を書けなくなったのかよw
というのは冗談で、トップ争い馬鹿馬鹿しくなって匙投げた。
仮に優勝してもテレビとPS3程度じゃ馬鹿馬鹿しいだろうと思った。

いや、たとえばの話だよ。
某GPUメーカーが、Tesla搭載のXeon DP機を無償提供してくれる
とかいう美味しいシチュエーションになってみろよ。
いちいちPS3 2台目狙いの商品レースなんて馬鹿馬鹿しくなるだろ

・・・いや、あくまでたとえ話だよ。実際そうだなんて言ってないんだからね><


もちろん中の人に干渉されるのは嫌いですよ。

ええ、 『あ な た』 のことです。
518227 ◆eZQcaIaFJs :2009/03/19(木) 23:20:09
ttp://www.jagoon.com/temp/htc2009.zip

またもや仕事のプレゼンが伸びちゃったし、これからどーなるんだろ…。
三連休はSO4で現実逃避の予定が、金土出勤と言う事になってしもうた。

っgenrand_mine(0);
519,,・´∀`・,,)っ-○◎●:2009/03/19(木) 23:26:28
Wiiタクティクスオウガの死者の宮殿ばっかしやってましたよ
520デフォルトの名無しさん:2009/03/19(木) 23:31:51
hack the cellの結果、70倍と90倍の間に壁があるな。
そこがトランザムの壁か?
521デフォルトの名無しさん:2009/03/19(木) 23:43:18
CellよりGPUのほうが効率いいんじゃないの?
522,,・´∀`・,,)っ-●◎○:2009/03/19(木) 23:46:59
もちろんCUDAのMTのサンプルほぼそのまんまで菊やん氏のコード超えると思うよ。
まだ試してないけどCore 2/i7だと150倍相当いくんじゃないかと思う
523デフォルトの名無しさん:2009/03/19(木) 23:51:42
しかもそのCUDAすら団子さんの本命じゃないんだよね
cellに興味持てなくて当然だね
524,,・´∀`・,,)っ-●◎○:2009/03/20(金) 00:02:01
いや、いかなる条件でも最善を尽くすのがプロでしょ。
俺は選り好みしたがる時点で負けてるよ。
525デフォルトの名無しさん:2009/03/20(金) 00:19:01
つか、総評とかコンテストレポートって出ないの?
どっかに出てるけど俺が見落してるだけ?

1位2位は単純に速度で優劣つくから納得だろうけど
ふぃくすた賞選別とかは流石に釈明が必要だと思うんだが。
526デフォルトの名無しさん:2009/03/20(金) 00:31:17
なんかみんなすげーわ。
プログラムの書き方が根本的に違う。
つかプログラムに見えないwww
527,,・´∀`・,,)っ-●◎○:2009/03/20(金) 00:41:49
>>525
所詮学生主体のコンテストだからなって妙に納得したけど
528デフォルトの名無しさん:2009/03/20(金) 00:45:07
社会人凄いなぁ。学生と比べると圧倒的じゃないか
学生でトランザムっぽいのは一人だけか・・。
529,,・´∀`・,,)っ-●◎○:2009/03/20(金) 00:46:49
来年あったら放送大学の学生として参加しようかなwww
530デフォルトの名無しさん:2009/03/20(金) 01:28:13
SPE1基で120倍ってことは6基使ったら720倍か・・・
531,,・´∀`・,,)っ-●◎○:2009/03/20(金) 01:36:31
ならねーよ。
状態に依存関係があるし
532デフォルトの名無しさん:2009/03/20(金) 01:52:59
うむ、「1/6の稼働で120倍」と言えば嘘じゃない。
533デフォルトの名無しさん:2009/03/20(金) 09:46:12
学生部門の課題提出者は16人か
少ないなぁ。スピードチャレンジもあったしなー
534デフォルトの名無しさん:2009/03/20(金) 09:55:34
終わってみれば >>5 がビンゴな件
535デフォルトの名無しさん:2009/03/20(金) 10:02:03
正直最後までインラインアセンブリの使い方わかんなかったよ
ていうかまじめに調べてなかったけど。
536202:2009/03/20(金) 15:07:13
537デフォルトの名無しさん:2009/03/20(金) 16:31:46
団子イタイなぁ…
538,,・´∀`・,,)っ-○◎●:2009/03/20(金) 16:37:26
うん、いたいよ。
539,,・´∀`・,,)っ-○◎●:2009/03/20(金) 16:53:28
>>536
なるほど、KLabの人だったのか
540デフォルトの名無しさん:2009/03/20(金) 17:06:43
んで、団子は何倍出たんだい?
541,,・´∀`・,,)っ-○◎●:2009/03/20(金) 17:09:30
bitsliceで100倍まではいけたけど、提出したのは従来の方策。
542デフォルトの名無しさん:2009/03/20(金) 17:10:27
ああ、やっぱり100倍は越えれたのか
543,,・´∀`・,,)っ-○◎●:2009/03/20(金) 17:40:04
(笑)
544デフォルトの名無しさん:2009/03/20(金) 20:01:09
bitsliceなんていう手法があったのですね・・・!!
545デフォルトの名無しさん:2009/03/20(金) 20:06:38
なんかfixstarsの結果発表あっさりしすぎてるな
なんかこう、、、ないの?
なんのためにやったんだこれ?
546デフォルトの名無しさん:2009/03/20(金) 20:42:26
>>545
自分はなんのためにやったの?
547デフォルトの名無しさん:2009/03/20(金) 21:43:31
フィクスターズ賞は何が決め手だ?
548,,・´∀`・,,)っ-○◎●:2009/03/20(金) 22:02:01
549デフォルトの名無しさん:2009/03/20(金) 22:11:02
アッー!
550デフォルトの名無しさん:2009/03/20(金) 22:12:09
気になるなら来週のMT勉強会に出る人に聞いてもらえば
551デフォルトの名無しさん:2009/03/20(金) 23:08:05
>>548>>549
枕?アッー?

>>550
みんなブログにいろいろ書いてくれればおk
552,,・´∀`・,,)っ-○◎●:2009/03/20(金) 23:34:32
別にMTの高速化方法なんて無駄知識なんだしいちいち拘ったって意味ないぜ
来年同じ問題が出る訳じゃ有るまいし。

まあ、x86バイナリアンが上位に残ってるのは感慨深いね。
職業Cellプログラマってそんなに居ないのかな?
553デフォルトの名無しさん:2009/03/20(金) 23:37:45
ゲーム屋以外にどこにいるんだ?w
ゲーム屋もミドルウェア買ってるところはSPUあんまり叩かないんじゃないか?
554,,・´∀`・,,)っ-○◎●:2009/03/20(金) 23:48:45
上位者にゲーム屋は(ほとんど?)居ないっぽい
555デフォルトの名無しさん:2009/03/21(土) 00:03:19
レポートは後で公開されるみたいだね。
まずはとりあえず結果とソースだけって感じか。
556デフォルトの名無しさん:2009/03/21(土) 00:09:35
表彰式はやらないのかな
557デフォルトの名無しさん:2009/03/21(土) 00:14:49
>>556
勉強会に優勝者くるっぽいから参加者で表彰してあげればいいんじゃね?
558デフォルトの名無しさん:2009/03/21(土) 00:17:00
準優勝の人がキャメロットのプログラマだね。
Cellのコンテストなのに任天堂系の開発会社の人が入賞してるところがなんともw
任天堂的には良い宣伝になりそう。
ゲハネタにももってこいだなw
559,,・´∀`・,,)っ-○◎●:2009/03/21(土) 00:19:57
キャメロットはみんごる5なんかも開発してるぞ
560,,・´∀`・,,)っ-○◎●:2009/03/21(土) 00:25:08
すまん違ったわ。
いま開発してるのはキャメロットから独立したクラップハンズって会社だね。
561デフォルトの名無しさん:2009/03/21(土) 00:27:39
みんゴル5はクラップハンズだよ
キャメロットは初代みんゴル
公開情報を見る限り、最近はPSの仕事はしてないはず
562デフォルトの名無しさん:2009/03/21(土) 00:29:20
SCEはこの結果を見て歯ぎしりしてるかもw
また一つネタが増えたね
563,,・´∀`・,,)っ-○◎●:2009/03/21(土) 00:36:08
っていうかむしろSCEは参加禁止なんじゃないの?
564デフォルトの名無しさん:2009/03/21(土) 00:39:31
Fixstars社員じゃないから応募は可能
565227 ◆eZQcaIaFJs :2009/03/21(土) 01:16:38
今日はビルド待ち時間に入賞者のコード見てニヤニヤしてましたが、
両パイプライン埋めただけじゃ歯が立たないと言うことを痛感してます。

>>554
ゲーム屋(今はDirectXで3D)ですが、仕事でCell触ったことは有りません。
566デフォルトの名無しさん:2009/03/21(土) 12:20:36
なんというゲハ脳。
業務上 Cell を扱った事のある人は、守秘義務契約上
参加出来ない、或いは非常に参加しにくいのは当たり前。
567,,・´∀`・,,)っ-●◎○:2009/03/21(土) 12:32:51
ま、テクニックを不特定多数に公開することになるから、そう言う意味ではまずいかもしれんね。
まあ、連中の実力も大したことはなさそうだが。
568デフォルトの名無しさん:2009/03/21(土) 12:39:53
最後の一行が余計だよ
569デフォルトの名無しさん:2009/03/21(土) 13:34:29
SPU一個のDMAなしでしょ?
ゲームやさんはタスク並列にチャレンジしてるわけだし
その先に行ってると思うけどな。
むしろタスク並列やっていたらあんまりタスク内の最適化は
しないかもね。
ボトルネックにならない限りやっても意味ないことが多いだろうし。
570,,・´∀`・,,)っ-●◎○:2009/03/21(土) 15:42:32
んなこと言うならSPE6コア全部使って200倍でも出して見やがれですぅ
571,,・´∀`・,,)っ-●◎○:2009/03/21(土) 16:05:02
俺もその方法ちょっと考えてみたんだけどね。
全部同じmt[]に対してまったく同じ更新処理をする。
んで、tempering + sumだけを分担して処理する。

N = 624だから104ずつで並列化できるでしょ

わざわざDMA使ってMTの状態をコピーするくらいなら
それぞれで独自にテーブル持ったほうが速いんじゃないかって思ったんだ

あ、もっといい方法があるなら指摘ヨロ
572デフォルトの名無しさん:2009/03/21(土) 17:12:22
>>571
使用目的にもよるけど、それぞれ違う初期値で別々に動かせばいいんじゃない?
そうすればSPEの数に合わせてリニアに性能伸びるよ
573 ◆imos.WO182 :2009/03/21(土) 17:18:26
新しく組んだプログラムのバグが直らず前のままですたorz
縦方向で各マス2ビットを用いた方法を使ったんだけどなー…うーむ
574デフォルトの名無しさん:2009/03/21(土) 17:26:15
今年のCell Challengeの問題はデバッグが大変だったな

局所的に何か間違った結果が出ていても計算結果の距離は合ってたりするから困る
練習問題と予選問題だけではバグが取りきれない
575,,・´∀`・,,)っ-○◎●:2009/03/21(土) 17:27:55
うーん、斜め上の回答ありがとう。
「同じチェックサムになるような疑似乱数を生成する」って縛りがなければ
ハッキリ言ってなんでも出来るだろ。
576デフォルトの名無しさん:2009/03/21(土) 17:38:44
問題設定自体に現実味が無いな

それと違う初期値で別々に動かすのは乱数が被ることもあるからNG
577572:2009/03/21(土) 17:53:09
>>576
だから「使用目的にもよるけど」って書いてあるだろ。
意味なくね?
579デフォルトの名無しさん:2009/03/21(土) 21:55:07
mtの更新については、累積変換行列をひとつ用意しておけば
ワープは比較的容易じゃないかなぁ。で、各SPUに時間差を
付けた集計を割り当てておいて最後に足すと。どの位の単位で
割るかや、勿論にテストケースにもよりますが、SPU数分-α
位の倍率はそんなに非現実的でも無い様な気はします。気が
するだけだけど。
>累積変換行列
どのくらいの規模になるんかね?
HDDにスワップするような規模なら本末転倒だが
581デフォルトの名無しさん:2009/03/21(土) 22:17:23
つか並列は可能。
SPU単位でも、8並列すればselbを追放できる。
そうすればODD側がネックになってくるけどな。
582デフォルトの名無しさん:2009/03/21(土) 22:18:28
>>580
大きく見積もっても32*19937bitじゃないかな。
583,,・´∀`・,,)っ-○◎●:2009/03/21(土) 22:23:59
行列うpきぼんぬ
584デフォルトの名無しさん:2009/03/21(土) 22:46:00
やっぱり目的は乱数の発生じゃなくてチェックサムの計算なのかw
585,,・´∀`・,,)っ-○◎●:2009/03/21(土) 22:53:37
pmt(笑)は結局無かったことですか?
586デフォルトの名無しさん:2009/03/21(土) 23:25:05
前出の人の話は私もわかっていませんよ。
mt の更新は本当に線形変換するだけなので、
出来ると思いますが…ちょっと実装してみますが
それなりに手間かかるかも。
587デフォルトの名無しさん:2009/03/21(土) 23:54:22
>569 に対する >570 がおかしいでしょ。
588デフォルトの名無しさん:2009/03/22(日) 00:06:34
>>573
それってバグ直れば上位に匹敵するタイムを出せる方法?
>>587
ごめんね。

いや、要するにさ、経験がないことを言い訳にしてるんだよね。

そりゃ詭弁だぜ
今回のコンテストで初めてCellに触った人すら上位に入ってるわけで。

まあなんにせよCellプログラミングの経験を重ねた人間よりも
地頭のある人間を選別するテストとしては、Fixstarsの今回の課題は有効だったわけだ。

590デフォルトの名無しさん:2009/03/22(日) 02:12:10
>>583
http://longlong.way-nifty.com/blog/2009/03/post-fb6a.html
こんな感じでどうでしょうか?
591,,・´∀`・,,)っ-○◎●:2009/03/22(日) 02:22:17
このスレ監視されすぎです
KOEEEEEEEEEEEEEEE
592デフォルトの名無しさん:2009/03/22(日) 02:38:27
実力ある人は実に謙虚だ
593,,・´∀`・,,)っ-○◎●:2009/03/22(日) 03:04:57
>>592
だんごやさんから傲慢とったら何も残りませんよ
594デフォルトの名無しさん:2009/03/22(日) 09:19:08
>>591
mjd?
595デフォルトの名無しさん:2009/03/23(月) 08:42:43
Cell Challenge予選1位のチームの戦略
ttp://mono.kmc.gr.jp/~oxy/d/?date=20090323

300倍とか凄すぎる
スライド見ると彼ここ見てたのが分かるw
596デフォルトの名無しさん:2009/03/23(月) 11:36:08
じゃあCELL2になったら1/4時間でエンコ終了するのか
597デフォルトの名無しさん:2009/03/23(月) 17:55:31
いいこと考えた
SPEベースに普通のCPU作ったら良いじゃん
なんだ、ただの神か

# 京大マイコンクラブってよく名前聞くよな
599デフォルトの名無しさん:2009/03/23(月) 19:19:28
>>597
Spursエンジンですね。わかります。
600デフォルトの名無しさん:2009/03/23(月) 21:41:48
あれだけ偉そうなこと書いてるくせに
KMC知らないとか…
601,,・´∀`・,,)っ 【dango:0】 :2009/03/23(月) 22:25:00
なにをおっしゃいますやら
PLAMOが初めて使ったLinuxディストロですよ。
例の本の初版も持ってましたよ。こじまみつひろ氏ね。
602デフォルトの名無しさん:2009/03/23(月) 22:26:10
一瞬殺人予告にみえた。Orz
603デフォルトの名無しさん:2009/03/23(月) 23:55:18
Plamoとか東広島ネタとかやめてくれw
自分が書き込んだかと錯覚してしまう
604デフォルトの名無しさん:2009/03/24(火) 03:40:34
>>601
> 例の本の初版も持ってましたよ。こじまみつひろ氏ね。
なんぞ恨みでもあるのか?氏ねなんて・・・。
605デフォルトの名無しさん:2009/03/24(火) 04:45:54
それはさすがに2ch語に毒されすぎだ
606デフォルトの名無しさん:2009/03/24(火) 19:28:04
最近ぬるぽしても叩かれないから淋しい
607デフォルトの名無しさん:2009/03/25(水) 04:47:08
>>606
ガッ
608デフォルトの名無しさん:2009/03/25(水) 20:15:01
Cell Challengeの結果が出たけど
10問中5問がSPEの起動すら不要らしい
Cellでやる意味が無いな
609デフォルトの名無しさん:2009/03/25(水) 21:08:03
ソース
610,,・´∀`・,,)っ-○◎●:2009/03/25(水) 22:52:25
あのプリントTシャツどうする?おまいら


Larrabee新命令のプロトタイプ仕様出ました。
http://software.intel.com/en-us/articles/prototype-primitives-guide/
Prototype Primitives Guide
This .inl file provides a C++-implementation of the Larrabee new instructions.

Cellがコアを構成するトランジスタを削ることSIMD利用時の電力効率を向上させているのに対し、
Larrabeeはスカラ演算・マスク演算を活用し、データバスの電力をカットを減らすことで
結果的に電力効率を上げる方策のようですな。

さて、32コア時代のCellはどんな拡張やってくるんでせう?
611,,・´∀`・,,)っ-○◎●:2009/03/25(水) 22:53:07
×データバスの電力をカットを減らすことで
○データバスの電力をカットすることで
612デフォルトの名無しさん:2009/03/26(木) 22:22:05
IBMがCell/B.E.およびPowerアーキテクチャから撤退か?

IBM DeveloperworksでのCell,Powerコーナーが終了する。
サイトには夕日の絵が描かれURLには「pa-goodbye」(pa = Power Architecture)の文字が。
投稿日は3月13日の金曜日とされている。(実際に掲載されたのはもっと後。)
ttp://www.ibm.com/developerworks/power/
DeveloperworksでのPowerに関する記事は2008年11月25日で更新が止まっていた。
613,,・´∀`・,,)っ-○◎●:2009/03/26(木) 22:41:42
今なら言える!
Fixstarsさん、LarrabeeやろうぜLarrabee
614デフォルトの名無しさん:2009/03/26(木) 23:03:30
おっ、最適化レポートがでてるぞ。
何故かフィックスター賞のだけでてないけど
http://cell.fixstars.com/challenge/result.html
615,,・´∀`・,,)っ-●◎○:2009/03/27(金) 00:13:56
YDL6.1をUSBメモリにインスコ中。
使えるようならHDD全部ゲーム用にまわす。
616,,・´∀`・,,)っ-○◎●:2009/03/27(金) 00:56:37
developerWorks Multicore acceleration zone changes
http://www.ibm.com/developerworks/library/pa-goodbye/index.html

Summary: The Multicore acceleration zone on developerWorks is no longer
publishing weekly content.

Soon the Multicore acceleration zone will no longer be an official
developerWorks zone with weekly content publishes. We will continue to offer
and update Cell/B.E. resources in the Cell Broadband Resource Center. You'll
see Multicore acceleration removed from the zone table of contents, and
you'll see the link to the Cell Resource Center with the Related Links under
the zone table of contents.
617デフォルトの名無しさん:2009/03/27(金) 07:38:52
どういう事?
Cellリソースセンターで更新するからそっち見ろよ、って事?
つうか、Cell/B.EやPowerアーキテクチャからの撤退とか関係無くね?
618デフォルトの名無しさん:2009/03/27(金) 22:48:48
Cellリソースセンターも去年から更新されてない。
結局Cell、POWER関係は過去の主要コンテンツは残しとくけど
新規コンテンツの追加はもうやらないよって話。
アーキテクチャ全般のページも削除するようだから、
今後はアーキテクチャに関してはx86で行くんだろうと見たが。

今回のHack the Cellはこのスレのおかげで盛り上がったけど、
最後の打ち上げ花火だったかなと。
619,,・´∀`・,,)っ-●◎○:2009/03/27(金) 23:14:43
PS3みたいなオープンプラットフォームはPS4時代では実現しそうに無い
(PS4があるのかってのも疑問だが)

620デフォルトの名無しさん:2009/03/27(金) 23:31:52
しかしFixstarsとかどうすんのかね?
Larrabeeはまだ無理としてもGPGPUとかやっとかないと
Cellと心中だぞ
621デフォルトの名無しさん:2009/03/27(金) 23:44:13
別にCellだけの能力の奴らじゃないだろ
なんだったら今度俺が奴らを使ってやるけどな
622,,・´∀`・,,)っ-○◎●:2009/03/28(土) 00:28:01
ビッグなマウス入りましたー
623227 ◆eZQcaIaFJs :2009/03/28(土) 02:19:02
プレゼン延期で本日も出社\(^o^)/ まだヒープ破壊バグ潜んでるっぽいし、
おまけにデバッグせずに機能追加してる人ばかりで、もう何もかもだめっぽい。

という訳で、PostMortemな人は楽しんできてください。レポート待ってます。
624デフォルトの名無しさん:2009/03/28(土) 02:35:24
新しいアーキテクチャが出てきたらいち早く参入して次々に乗り換えていくのが
一番おいしいような気がするな。
一つのアーキテクチャに固執したらだんごやMACオタみたいな人になってしまう。
625デフォルトの名無しさん:2009/03/28(土) 02:39:07
でもCellはやっといて無駄じゃないよ。
特にマルチコアでの並列化のスキルは今後どのアーキテクチャでも
必ず必要になる。
Cellを使いこなせる人はLarrabeeも使いこなせる。
626,,・´∀`・,,)っ-●◎○:2009/03/28(土) 02:40:38
CUDAやATI Streamが出てもCell専業に拘ってる時点で心中する気満々だと思うが

俺はいちいち固執してねーから某社の開発者支援プログラム(仮)に選ばれてるわけだが。
627,,・´∀`・,,)っ-●◎○:2009/03/28(土) 02:43:27
>>625
x86のSSEと比べてCellのどこが弱点なのか見抜けない人には
Cellと心中するしかないと思うよ。

Larrabeeの組み込み関数、なんでああいうインターフェイスになってるのか俺は一発で理解できたよ。
628,,・´∀`・,,)っ-●◎○:2009/03/28(土) 02:54:36
629デフォルトの名無しさん:2009/03/28(土) 03:02:28
Larrabeeの先行学習するのにSSEならまだしもCellを勉強する意味はないと思う。
SIMD・マルチコアならCeleron・Atomでも充分だし。

むしろスカラの扱いがアレだったり、ローカルストレージとDMAとか
つぶしがきかないような蛇足な知識が多いぞ。
630デフォルトの名無しさん:2009/03/28(土) 03:10:37
まあ今からCellやる意味は皆無だけどな。
でもLarrabeeは100%性能を引き出そうとするとCellと同じようなことやらないといけないんだ。
ちゃんとLarrabeeのこと調べてる奴なら分かるはず。
631,,・´∀`・,,)っ-●◎○:2009/03/28(土) 03:15:27
きちんと調べてる奴なら、TBBを使ったCore 2等向けのプログラムをほぼそのまんま利用できて
車輪の再発明がほとんど必要ないことも知ってるだろう。
632,,・´∀`・,,)っ-●◎○:2009/03/28(土) 03:17:36
まあ、そもそも守備範囲が違うだろう
SCEと東芝が辞めなきゃCellは続くかもね


ま、どっちも辞めそうだけどな
633デフォルトの名無しさん:2009/03/28(土) 03:20:14
そういえばCell Challenge 2009と同じ課題のGPU Challenge 2009の結果発表がもうすぐあるな。
Cellがどれだけ差を付けられてるか見ものだわw
だいたいGPGPUが出た時点でCellの存在意義なくなってるんだよな。
応用範囲も同じぐらいだしプログラミングのしやすさについてはすでにGPGPU勢に抜かれてるし。
優位なのは消費電力ぐらいか?
634デフォルトの名無しさん:2009/03/28(土) 03:21:08
>>631
ちゃんと嫁おばかさん

100%性能を引き出そうとすると
635,,・´∀`・,,)っ-●◎○:2009/03/28(土) 03:29:29
別に電力効率も良くないよ。
「汎用」をうたうプロセッサの中ではトランジスタあたりのSIMD演算性能が比較的高いだけ。
そりゃスカラ演算専用の機能を削ってるから当然だけど。

家電用には過度な汎用性といわれるし、PC用としてはSIMDに特化しすぎて使えない。
HPCも単純にLINPACKで計ったFLOPSだけで実効性能が決まるわけではない

むしろFLOPS値すら、128ビットSIMDベッタリのSPEが、2年以内には出てくる
256-bit/512-bit SIMD拡張を備えたCPUに対抗できるのかという疑問もある。
636,,・´∀`・,,)っ-●◎○:2009/03/28(土) 03:33:14
>>634
性能を100パーセント引き出すためのノウハウはCellとIntelアーキじゃ全然別物だぞ
レジスタの本数も演算ユニットの構成も全然違うもの。

共通してるのは、「泥臭い努力」が必要なこと。
それを言ったらARMだろうがZ80だろうがみんな同じですよ。

あと、Intelがかねてから用意してるCtはJavaライクな動的コード生成をサポートするぞ。
637デフォルトの名無しさん:2009/03/28(土) 03:41:04
しかしIntelのCPUも急激に速くなったよな。
今まで出し惜しみしてたとしか思えない。
GPGPUやCellが出てきて本気出したんだろうな。
敵が追いついてくるまでは100%の力は出さないのがIntel
638,,・´∀`・,,)っ-●◎○:2009/03/28(土) 04:09:27
一つのSIMDレジスタ上で{x, y, z}からなる3次元座標をSIMDレジスタでどう表すかってのも
一つのテーマだぜ。Cellならそのまま[x, y, z, *]だろう。

しかし512ビットだとさすがにそういうわけにもいかないだろ。
Intelの例のカンファレンス逝った人なら知ってるだろうけど、たとえばLarrabeeなら

v0 = [x0, x1, .... x15]
v1 = [y0, y1, .... y15]
v2 = [z0, z1, .... z15]

みたいにワード配置を変換して使ったりします。
データ構造を変換するために膨大なPermuteパターンが必要かって?いいえ、ケフィアです。

Larrabeeはgathering/scatteringを命令として備えてますから
それぞれのベクトルごとにロード・ストアは1命令ずつですみます。

あと、ベクトルが長くなれば、どれかは演算を行いたくない要素があるかもしれないね。
そのために16要素それぞれに独立に作用するマスク機能がほぼ全ての命令に備わってたりします。

この辺のプログラミングパラダイムの「違い」は認識しておかないと、100パーセント云々は
語れませんぜ。
個人的にはIntelの用意してくれるフレームワークで富豪的プログラミングでも満喫すれば
充分だと思うんですが。
639デフォルトの名無しさん:2009/03/28(土) 05:57:23
>そのために16要素それぞれに独立に作用するマスク機能がほぼ全ての命令に備わってたりします。
生半可な知識の私が見ると、この辺りはCUDAっぽいと思った。
まぁ、某芝がCellをCPUとしては見限っているのは間違いないでしょ。
# スパースエンジン使ってHPCとか言っているらしいけど。
640,,・´∀`・,,)っ-●◎○:2009/03/28(土) 13:33:17
スタンフォードの同じ研究室の出身者がIntelとNVIDIAという別の会社で
同じようなアーキテクチャを作ってるって話になってたかな。

似てるところも出てくるでしょうね。
641デフォルトの名無しさん:2009/03/28(土) 17:18:10
>>638
誰も突っ込んでくれなかったらちゃんと自分で自演して回収しろよw
いつものように
642,,・´∀`・,,)っ-○◎●:2009/03/28(土) 20:25:13
はいはい
643デフォルトの名無しさん:2009/03/29(日) 03:55:04
何でこのスレの人はまだ、ここにいるの?
Cellは産廃だと思うんだけどw
644デフォルトの名無しさん:2009/03/29(日) 05:55:55
[GDC 2009#30]ついにソフト開発者向け情報も出てきた「Larrabee」
http://www.4gamer.net/games/049/G004963/20090328006/
645デフォルトの名無しさん:2009/03/29(日) 13:34:48
>>644
「Cellプログラミングは非人間的」なって書かれているなw
たしかにCellは変態的脳みそ持った連中向けで、世の多くのプログラマが使いこなせるようなもんじゃないな。
しかも、苦労して書いた割には全体で10倍とかの性能しかでないし、作り上げたソースは保守性なんて、
あったもんじゃなくなる。あと、ハードウェアやOSも実績がたくさんあるものじゃなくて、
Cellが使える専用のもの使わなきゃならない。

「普通」のCとかC++で組めて、たいした苦労せず性能あげられて、
x86系の環境が使えると来れば、普通のプログラマでも、すごいありがたいと思う。
今までと同じスタイルで数倍でも高速化されるのであれば、それはすごいメリット。
広く普及すれば、Cellみたいに新しい製品がででこなくなるようなこともないだろうし。

ハードウェアの性能をフルに引き出せるかどうかとかは期間とか保守のことも
考えなきゃいけないし、別次元の問題。必要性があれば、徹底的にチューニングすればいいだけで、
今のCellは何でもかんでも、かなりチューニングしないといけないのが問題だと思う。

...と、元プログラマで趣味でCell触っているだけの俺が熱く語ってみる。
646デフォルトの名無しさん:2009/03/29(日) 14:31:46
cellはspe使うと早いけど使わないとアホの子だから扱いづらいわ
647デフォルトの名無しさん:2009/03/29(日) 20:02:52
期待とは常に裏切られるものである。
その殆どは失望によって。
648デフォルトの名無しさん:2009/03/30(月) 06:39:14
http://pc.watch.impress.co.jp/docs/2009/0330/kaigai497.htm

後藤が「Cell B.E.の影が薄いOpenCL」なんて書くなんて・・・
IBMは大規模リストラ策を打ち出してるし、PS3販売終了で収束なのかな?
649MACオタ>団子 さん:2009/03/30(月) 19:41:31
>>638
  --------------
  Cellならそのまま[x, y, z, *]だろう。
  --------------
また後藤弘茂並みのトンデモ説を(笑)
16-way SIMDをどう埋めるかという問題は10年前にAltivecが通過した道です。
http://www.freescale.com/webapp/sps/site/overview.jsp?nodeId=0162468rH3bTdGmKqW5Nf2F9DHMbVXVDcM
当時のキラーアプリがRGBの各要素1-byteの画像処理で、現在のキラーアプリがxyzの
各要素4-byte FPの3D処理だというだけの違いなのでは?

AIMはvector permuteを選び、Intelはより古いscatter/gatherを選んだというのは特許の話は
別にしても興味深い話です。
650ペニスは帰れ:2009/03/30(月) 19:53:41
また井の中の蛙の残念な子が来たよ。
GeForceのLSUですらscatter/gatherをサポートしてんのに。
651デフォルトの名無しさん:2009/03/30(月) 20:09:43
SPUの場合、LSUとshuffle、MFCIOが同じOddパイプだから
内積や回転を多用しないならPermuteせずに128ビットアラインされた
3(4)ベクトルとして使った方が速いんだが
652デフォルトの名無しさん:2009/03/30(月) 22:18:27
OpenCLはIBMが入ってたんだが、そのIBMがもうCellには注力していないようだしな。
IBMがCellから撤退したらCell SDKの開発も止まるしCellによるグリッドコンピューティングも
日の目を見ないまま終わるだろう。
東芝のSPURS搭載PCもさっぱりだったしSPURSカードも肝心のエンコード品質が低くてお通夜状態。
極めつけがSCEまでPS4でLarrabee搭載を検討する始末。
オープンソースのCellプログラマもネットを見渡しても100人いないような状態。
しかもほとんどのプロジェクトが2007年あたりで開発がストップしている。
数千億円かけた巨大プロジェクトの結果が3社の経営を傾けただけだったなんてのは笑うに笑えない。
653デフォルトの名無しさん:2009/03/31(火) 03:29:38
Macpro買う金無いからPS3ほしい、自作ベンチマークでニヤニヤしたいんです><
でも、バイトもしたことないんで貧乏なんですう><
654デフォルトの名無しさん:2009/03/31(火) 04:59:49
まず自分のLinuxでも入れてCellのSDK突っ込め。
んで、シミュレータ使ってみろ。
あまりの融通の利かなさにガッカリするのは買ってからでは遅いぞ。
655デフォルトの名無しさん:2009/03/31(火) 05:19:27
ubuntuのリポジトリにあるやつでいいの?
656デフォルトの名無しさん:2009/03/31(火) 05:25:54
シミュレータ類はIBMからじゃないと落とせないと思うが・・・
Fedora推奨
657デフォルトの名無しさん:2009/03/31(火) 05:37:27
あーこれはちがった^q^
658デフォルトの名無しさん:2009/03/31(火) 08:48:52
IBMなりfixstarsみたいなCell向けソフトやっているところが、
もっと広く使えるような普及活動すりゃよかったんじゃね。
今は、研究者のおもちゃになっている状態だし。
一般人がPS3にLinux入れても、それで何に使えと・・・?
659デフォルトの名無しさん:2009/03/31(火) 09:46:21
参加賞の商品とどいた?
660デフォルトの名無しさん:2009/03/31(火) 19:01:19
なにあのTシャツ
661デフォルトの名無しさん:2009/03/31(火) 19:59:11
>>658
ゲームOSからLinuxを仮想マシンのゲストOSとして起動できて、
データのアクセス以外は制限がなかったら・・・。
662デフォルトの名無しさん:2009/03/31(火) 21:40:08
>>661
たとえRSXが使えてたって盛り上がってねーよ
根本的に足りないのはSCEのやる気
お祭りの音頭をとる人物の不在
663デフォルトの名無しさん:2009/04/01(水) 00:37:07
音頭とってた人首切られてるからねぇ。
664デフォルトの名無しさん:2009/04/01(水) 21:58:40
一般人の定義によるけれども、一般人なんて全く関係無い。
どんなプログラムするのが一般人なんだ。
非共有メモリ型マルチプロセッサの、ラジカルな一つの形態が Cell だろう。


それと、 Larrabee の話だけど、検討はするだろうけど、ライフサイクルの関係で、
発売後何年も経った後に、Intel が同等品を生産してくれるか、生産プロセスが進化
したんだから安く生産してくれるか、ということを考えたら、まともに取り合おうという
気は失せるんじゃないの?
665デフォルトの名無しさん:2009/04/01(水) 22:45:27
>>664
いまだにXBOXのカッパーマイン生産してるって話が前あったなぁ。
MSは箱○をシュリンクしてるみたいだけど、契約によっては同等の事ができるんでないかな??
666デフォルトの名無しさん:2009/04/01(水) 23:04:54
>> 664
普及さえすればってことだと思う。
いいのか悪いのかは何とも言えないが、Powerやx86のように積極的に上位互換で、
世代が進んでいく。量産もされ、製造コストも価格も低くなる。元々、製造コストが
高いMPUだから、これは必須だと思う。
現実的には商売なんだから、どんな形にせよ、一般人でも恩恵を得られるような
ものにした方がいい。
667デフォルトの名無しさん:2009/04/02(木) 00:32:41
新発想!SPUを汎用プロセッサとしてPPUとGPUの助っ人に活用する「GOW III」流並列プログラミング
http://game.watch.impress.co.jp/docs/series/3dcg/20090401_80260.html
668デフォルトの名無しさん:2009/04/02(木) 02:32:23
>> 626
プレスリリース出てんぞ。
669,,・´∀`・,,)っ-●◎○:2009/04/02(木) 02:37:40
2009年4月1日 [プレスリリース]
フィックスターズ、NVIDIA CUDAによるGPUソフトウェアサービスの提供を開始



Cellトータルソリューションカンパニー→マルチコアトータルソリューションカンパニー

さてはエイプリルフールネタで団子の中の人を釣る気だな!
釣られないぞ!









俺の時代ktkr

来年はHack the CUDAですか?
670デフォルトの名無しさん:2009/04/02(木) 05:27:04
Hack the OpenCLだったりしてw
671,,・´∀`・,,)っ-●◎○:2009/04/02(木) 06:16:06
実践CUDAプログラミングセミナー
http://www.fixstars.com/company/event/gpu_seminar.html
672,,・´∀`・,,)っ-●◎○:2009/04/02(木) 06:25:56
Teslaの提供も始めてるし。
いつから決まってたんだ?
673202:2009/04/02(木) 18:03:59
Cell専業をやめること、懇親会・反省会参加者にはプレスリリース前に教えてたよ
転職しちゃいなYo > だんごさん
674,,・´∀`・,,)っ-○○◎:2009/04/02(木) 19:21:02
仕事だけはやり遂げるぜ
675デフォルトの名無しさん:2009/04/02(木) 22:59:58
Fixstarsか、HPを見た時に「そのうちに上場」とか書いてるのを見て
所詮山師集団だと思ってたが、どうやら間違ってなかったみたいだなw
676デフォルトの名無しさん:2009/04/03(金) 12:47:49
hack the cellとcell challengeが終ってからのスレの流れが…
掌返したってレベルじゃねーぞ
677デフォルトの名無しさん:2009/04/03(金) 19:22:02
なんか、みずほ証券に入ってるCellはFixstarsのライブラリを使って
一秒に108.8億の乱数を生成してるらしいぞ

おまえら作ったのは何個くらいなんだ?
678デフォルトの名無しさん:2009/04/03(金) 19:43:22
そのCellは何Gで動いてるのさw
679デフォルトの名無しさん:2009/04/03(金) 21:20:33
>>678
知らん
普通のやつじゃね?

ソースはグリッド協議会のサイトで見つかるぞ
680202:2009/04/04(土) 19:55:17
>>677
それがあるから、今回の課題にMTを選んだんだってさ。
最初はこんなに盛り上がるとは思ってなかったから、自分らのコードよりも
速いコードが出てくるとは思わなかったそうな。
681,,・´∀`・,,)っ-○◎●:2009/04/04(土) 19:58:20
まあ、いろいろ文献漁ったけど暗号的強度はダメダメですがな。


682デフォルトの名無しさん:2009/04/04(土) 20:17:36
暗号にMT使うわけねーじゃんバカじゃねーの?
683,,・´∀`・,,)っ-○◎●:2009/04/04(土) 20:23:56
わかるよ。
暗号的強度ってのは乱数の質を語る上でも重要なんだ。
長い零超過状態がある時点で質はあまりよろしくない。

Cellでも一応整数乗算は使えるんだからMTに拘る必要もないと思うんだが。
684デフォルトの名無しさん:2009/04/04(土) 20:37:43
証券会社+MTって言ったら結論は一個しかないだろ
685,,・´∀`・,,)っ-○◎●:2009/04/04(土) 20:46:51
モンテカルロだろ。
686デフォルトの名無しさん:2009/04/04(土) 21:32:23
>RSX側の頂点シェーダーは活用せず。実は、最近のPS3タイトルはこの実装が多い。
>RSXは評判が悪いが、SPU頂点シェーダーはすこぶる評判がいいのだ
最初からGPUに使ったらどんな?
687,,・´∀`・,,)っ-○◎●:2009/04/04(土) 21:41:18
着眼点は良かったが、まだ時代が追いついてなかった。
DX11が出てきて、追いついてきたと思ったらCellが既に時代遅れになってた。
688デフォルトの名無しさん:2009/04/05(日) 01:12:52
そりゃ高々2億5千万Tr規模のプロセッサだしな
ネタで良いから時代に合わせて4チップ密結合させて
6〜8億Tr規模の性能評価に使えばいいのに
689,,・´∀`・,,)っ-○◎●:2009/04/05(日) 06:50:13
別にチップ数だけの問題じゃないよ。
たとえばLarrabeeは10:10:10:2とか11:11:10とか、32ビットフィールドに固定小数データを3〜4個
詰め込んだような形式とか、16ビット浮動小数に対するロード・変換を一発で行うことができる。
DirectXやOpenGLでは普通にデータ形式として使われてるものだよ。

スカラデータのロード命令すら備えないCellの出る幕はないのよ。

力技で構造体解析してやればいいだろうって?
そういっちゃうRISC脳は嫌いです>< 何サイクルかかんだよ。
ハードウェアとして備えるべき機能の取捨選択を見誤ってはいけない。

なんにせよ垂直方向の演算を一纏めにできるというx86命令セットの相対的利点を
見失ってないLarrabeeは流石だと思った(ようやく命令仕様読み終えた)
690デフォルトの名無しさん:2009/04/05(日) 10:46:46
比べるべきはCellじゃなくてGPUでは?
half float、 sin、 cos使えるの?
691デフォルトの名無しさん:2009/04/05(日) 12:57:14
なんにせよ技術サイクルが早すぎ。
692,,・´∀`・,,)っ-●◎○:2009/04/05(日) 18:27:45
>>690
ベクトル高級関数は、ハードワイヤードではなく、ユーティリティとして
提供されるとある。

んで、
float16, float11, float10, *norm16, *norm18, norm10, norm2, srgb8

このへんのロードあるいはストアは、モダンDirectX/OpenGLの要件だから
必要に駆られてLarrabeeがサポートしたわけですよ。

中にはGPUではシェーダではなく専用ハードウェアでやってた処理もあるだろうよ。
でもLarrabeeは全てソフトで記述する必要があるからね。

NVIDIAもGPU固定機能のソフト化を進めてる段階だから方向性としては正しい。


Vertex Shaderの代替そのものはSIMDが遅くなくて物量さえあれば
どんなCPUでも出来る類の処理なので別にそれが出来るからって
どうってこともない。RSXがショボすぎただけ。
CellがGPUの中核を賄えるかって言うと、足りないものが多い。

Intelはx86をGPUとして使うために命令セットの大拡張を行ってるわけだが
果たしてSPEの命令セット符号化方式でそれだけのことをやる余地があるか?
693デフォルトの名無しさん:2009/04/05(日) 20:26:42
もうCore2Duoのコアを16個乗せた方がよかったんじゃね
694デフォルトの名無しさん:2009/04/05(日) 21:02:51
今日も団子の後出しっぷりがいい感じだ
695,,・´∀`・,,)っ-●◎○:2009/04/05(日) 21:41:15
それと、Vertex ShaderってあくまでPixel Shaderの機能補完的なもので
VSだけでGPUが作れるわけじゃないんですぜ。
RTRTとかA-Bufferみたいな近未来的なレンダリングアルゴリズムを使うにしても
テクスチャなしに何かしらできるもんでもない。

んで、PSには圧縮テクスチャを高速展開・あるいは圧縮して書き戻す機能が必要。
無圧縮の単精度ベクトルデータそのままメモリ流せばいいとか思うだろ?
メモリの帯域・容量どんだけ必要なんだよ。

norm16(short)とfloat32の変換機能を兼ねたロード・ストア命令はゲームキューブの
CPUであるGekko(今のWiiのBroadway)にも搭載されてるもので
GPUにかかわらずゲームで使われだした

AMDもSSE5でfloat16データのロード・ストアをサポートするけど、Xbox後継機を狙うだけあって当然ですな。
ゲームにかかわらずオフラインの画像処理分野においても、(A)RGBデータは整数(固定小数)じゃなしに
float16で扱ったほうがいいなんて言われてたりします。
696デフォルトの名無しさん:2009/04/05(日) 23:09:00
スレチな上にかじっただけの知識ばかりでクソワロタ。
697,,・´∀`・,,)っ-○◎●:2009/04/05(日) 23:12:40
CellがGPUとして使えるかどうかの話をしてるのにスレ違いだと認識しちゃうほうが
よっぽどシッタカですけど?
698デフォルトの名無しさん:2009/04/05(日) 23:24:35
使えないって事でいいんじゃないの?
699,,・´∀`・,,)っ-○◎●:2009/04/05(日) 23:33:32
PPEのAltiVecのほうで1:5:5:5のピクセルフォーマットを扱えるけど既に時代遅れの代物ですしおすし
700デフォルトの名無しさん:2009/04/06(月) 00:06:57
自分でもGPUで大昔から当たり前だって分かっている(軽く触れてる)のに
今更Larrabeeで10bitとか11biなんてどうでもいい話を持ち出している時点で話が破綻している。自分が知ったことを喋りたいだけ。

単にIBM他2社がタコなだけなのに、RISCとかCISCに分別したがるし。
人を見たら文系と理系に分けないと気が済まない人でしょ。
701デフォルトの名無しさん:2009/04/06(月) 00:17:40
否定することで自分のポジション作る人なんでしょきっと。
口開くと最初に「いやそれは違うんだよ、」って言うんだぜ。
702,,・´∀`・,,)っ-○◎●:2009/04/06(月) 00:28:29
学がないね(笑)
LarrabeeはCRISCなんて言われたPentium Proより前の
P5アーキテクチャをベースにした純然たるCISCだし
CellのSPEはどっからどうみても古典的なRISCですよ。

固定長命令でデコードが楽なのがRISCだし
可変長命令で垂直方向の演算密度を高くできるのがCISCです。

vfmadd231ps v1{k1} v2, [rbx+rax*4+12345678]{float16}

・[base + index * scale + displacement]によるメモリアドレッシング
・float16からfloat32に型変換してロード
・積和算
・マスク

なんて芸当ができるのはCISCならではですよ。凄い演算密度だろ?
固定長命令でこういうことはできないんだ。

IBM筆頭の3馬鹿がどうかってより、RISC型の命令セットがそういうもんなんだ。
703デフォルトの名無しさん:2009/04/06(月) 00:34:25
すげぇな団子
話の流れが全然読めてねぇw
薬足りないんじゃないか?
704,,・´∀`・,,)っ-○◎●:2009/04/06(月) 00:35:29
レベル下がったな。
残念だがお前は話の流れを作れてないよ。
705690:2009/04/06(月) 01:50:25
>>692
> >>690
> ベクトル高級関数は、ハードワイヤードではなく、ユーティリティとして
> 提供されるとある。
>
> んで、
> float16, float11, float10, *norm16, *norm18, norm10, norm2, srgb8
>
> このへんのロードあるいはストアは、モダンDirectX/OpenGLの要件だから
> 必要に駆られてLarrabeeがサポートしたわけですよ。

それを要件というなら、sin、cos、tan、とその逆関数、log、expもろもろ
すべてプログラマブルシェーダで要求される機能だよ。
そうそうsrgb8があるなら、その逆変換も必要だな。(expでいいけど)

多分それら全部ソフトウェア的にテーブル実装で提供されると思うけど
使うたびに各コア256KBのL2がよごれるってのがいやだね。
SoAでばらばらな16wayの各要素を変換する場合のオーバーヘッドがでかそう。

Larrabeeはテクスチャフェッチは専用ハードなのにROPはソフト実装という
ところが、現実的なんだろうけど、アーキテクチャ的になんか中途半端だと思うな。
データ型変換の機能はきっと重複してるよね。

いずれにせよ、上記はCellとLarrabeeを比べて言ってるわけではなく
既存あるいは近い将来のGPUと比べてのことなのであしからず。
スレ違いだな、すまん。
706,,・´∀`・,,)っ-○◎●:2009/04/06(月) 01:53:15
> 使うたびに各コア256KBのL2がよごれるってのがいやだね。

全てのメモリアクセスにノンテンポラル指定ができますがwww
707,,・´∀`・,,)っ-○◎●:2009/04/06(月) 01:57:06
あと、Pentiumそのものは8087 FPU命令があってスカラでなら高級関数命令は使えるから、
同じルーチンを使うことはできると思うよ。
それこそ、命令セット側からは見えないROMと裏レジスタを使って、だな。
708デフォルトの名無しさん:2009/04/06(月) 01:58:05
それってなに?
キャッシュ(L1, L2)に残らないってこと?
709,,・´∀`・,,)っ-○◎●:2009/04/06(月) 02:07:03
Yes, ガチROM
除算や数学関数はx87はROM上の定数テーブルを参照して処理する。

テーブルのバグ騒ぎで回収になったのもP54Cだったな。
それがあったからそれ以降のIntelプロセッサの内蔵ROMはフラッシュメモリになった。

命令セットの解析結果をもうじき俺のサイトに上げておく。
710デフォルトの名無しさん:2009/04/06(月) 02:23:51
普通ストリーミングデータならキャッシュに残さない制御やると思うけど
テーブルデータとかはどうだろね。
711,,・´∀`・,,)っ-○◎●:2009/04/06(月) 02:31:03
ん?テーブルの書き換えが必要なの?定数テーブルなら内蔵ROMでよくね?
712デフォルトの名無しさん:2009/04/06(月) 07:39:41
>>699
われのネ実民かー?
713デフォルトの名無しさん:2009/04/06(月) 12:06:09
団子の都合のいいように呼んでるだけだろ。
SSE5が発表されていない世の中だったら三項演算を指してRISCだって喚いていたに違いない。
714デフォルトの名無しさん:2009/04/06(月) 14:15:01
Larrabee の優位性の説明はこっち
【マルチコア】並列化について語る【使いこなせ】
http://pc12.2ch.net/test/read.cgi/tech/1137540671/l50
でやりなよ。

結局 Cell が Larrabee に比べて廉価で新規性が無いというだけの話だろう?
後続の、ターゲットが違う CPU もってきてそんな当たり前の指摘をするのはスレ違いだろう。
715デフォルトの名無しさん:2009/04/06(月) 15:13:27
団子相手にそんな話をしても無駄
一連の書き込みを見てわかるとおもうけど
誉めてほしいだけなんだから

そんな不器用な団子萌え
716デフォルトの名無しさん:2009/04/06(月) 15:26:26
団子はその時最も活気づいてるスレに行って同じ持論を延々繰り返すだけだよ。
どのスレ行ったって面子は殆ど同じなのにね。
717デフォルトの名無しさん:2009/04/06(月) 18:51:33
ぶぉ〜んが勝ったのか
718,,・´∀`・,,)っ-○◎●:2009/04/06(月) 21:12:01
>>713
はい問題
lea eax, [ebx, ecx*4 + 1234]

これは何項演算ですか?

まあ、とりあえず君の脳内ではSuperHやMIPS16は2レジスタオペランドだから
CISCでなんでしょうねw
可変長フォーマットにものを言わせてレジスタオペランドを増やし、
演算密度を引き上げるなんてのは、CISCならではのアプローチですよ。

CISCとRISCの違いは、可変長か固定長か、
ロード・ストア以外でメモリアドレッシングできるか、レジスタ間演算しかないか
それによってデコーダの負担が重いか軽いか、そういったもっと根本的なところにある。
719,,・´∀`・,,)っ-○◎●:2009/04/06(月) 21:22:38
こうだった
lea eax, [ebx + ecx*4 + 1234]

720デフォルトの名無しさん:2009/04/06(月) 21:24:15
なこたわかった上で世が世ならと言っている。

お前は先週まで自分でさえ知らなかった事を、今日知らない人を見つけて
「そんなことも知らないの?この業界じゃ当たり前だよ?」って言うような奴だって言ってるんだよ。
721,,・´∀`・,,)っ-○◎●:2009/04/06(月) 21:29:38
自己紹介すんなよ。
722デフォルトの名無しさん:2009/04/06(月) 21:33:56
丁寧に説明する為にかみ砕いて説明するならいざ知らず
馬鹿にするために相手を無知な奴だと落とし込むのはどうにかならんのかなあ。

このスレや他のお前が出入りするようなローレベルのテクニックで盛り上がるスレで
そこまで無知な奴は荒らし以外レス付けないと思うんだが。

荒らしだと思うなら無視しろ。
そうでないなら自分だけが分かっているという選民思想を捨てて話せ。
723デフォルトの名無しさん:2009/04/06(月) 21:36:36
>>722
とりあえず、アンタもトリップつけるなりすれば?
724デフォルトの名無しさん:2009/04/06(月) 23:04:39
人間性の問題だし説得は難しいと思うがなぁ。
団子のこと知らないなら過去ログ見ればどんな人間かわかるよ。
このスレの書き込みはまだ可愛い方。
725デフォルトの名無しさん:2009/04/06(月) 23:10:40
しかし団子のこのスレ上でのCell challenge参戦が
コンテストを盛り上げたという事実
726227 ◆eZQcaIaFJs :2009/04/07(火) 00:39:37
スレ違いで申し訳無いんですが、LarrabeeのDriver Timeってどれくらいに
なるんでしょうかね。シングルスレッドで秒間10万回程度DrawPrimitiveを
呼び出すと、処理の1/3位がGeForceのドライバに食われたりもします。

実際シングルスレッドアプリではRadeon(ドライバレベルでの並列化有)の方が
GeForceよりも速度出てますし、GeForceは描画を別スレッドに切り離しただけで
フレームレートが4割上がったりもしました。

Larrabeeのドライバが重いようなら、処理を隠蔽するのがこれまで以上に
大変になるので、その点だけが気がかりだったりもします。
727,,・´∀`・,,)っ-●◎○:2009/04/07(火) 03:55:46
GeForceは1SMあたり8SPで1ワープ=32スレッドだから、最低4回クロック単位で
インターリーブすることになる。
んで、アクティブワープは1〜16ワープまで(GPUとして使った場合の限界は24あるいは32ワープ)だろ。
だから、シェーダコアが1.2GHz前後で動いてても実質シングルスレッド性能は数十〜百MHz程度分と考えたらいい。

Larrabeeは1コアあたり4スレッドのFGMTだけどスレッド間切替はソフト側で制御できるらしいので
シングルスレッド性能はクロック数相応ってことになる。
4つのスレッドも同じタイルに対する処理を分担するために設計されてる。
餅つきのごとく声を掛け合いながら連携して動く、的な。




んでも、CellもGeForceの悪いところと似たようなもんだと思うよ。
128ビットSIMDの3.2GHzだと思ったら命令間のレイテンシ大きくて、
8並列くらいにインターリーブしないとレイテンシ埋まらないから
実質400MHz程度だろ。

ってのはさすがに極論か。
728,,・´∀`・,,)っ-●◎○:2009/04/07(火) 04:07:22
ごめん、よく読んだらドライバの話ね。空気よめなかった。
GeForceはドライバ機能のCPU依存度が一番高いね。

Larrabeeは独立したメモリ上でLarrabee専用のOSが動いて、
自分自身でドライバ相当のソフトウェアを動かして自律処理できるらしい。
ホスト側のドライバは最低限の手続きと、あとはメッセージパッシングを
やるだけで良いみたいな感じになる。

CellのSPEもホストのメモリ空間と独立した別のマシンみたいなもんだが、
各コアごとに256KBのローカルメモリと、数百MBのVRAMじゃえらい違いでしょ。
729,,・´∀`・,,)っ-●◎○:2009/04/07(火) 04:10:46
これでもちゃんとCellの話を絡めてやってるんだぜ><
730デフォルトの名無しさん:2009/04/07(火) 08:23:08
癪だけど、まぁ、ためにはなっているよ。
731デフォルトの名無しさん:2009/04/07(火) 10:56:06
>>729 たまに可愛いから困るw
732デフォルトの名無しさん:2009/04/07(火) 10:56:41
お前らがそうやって甘やかすからw
733227 ◆eZQcaIaFJs :2009/04/07(火) 23:33:07
>>778
疲れが溜まってたみたいで、寝ぼけた文章書いてましたorz

> Larrabeeは独立したメモリ上でLarrabee専用のOSが動いて

Intelなら毎秒10000回以上のCPU-GPU同期処理を楽々こなせるようなドライバを
書いてくれると願うばかりです。
734227 ◆eZQcaIaFJs :2009/04/07(火) 23:34:15
× >>778
>>728
735デフォルトの名無しさん:2009/04/07(火) 23:45:25
放置してたって勝手に暴れるから、だったらこっちの役に立つ情報でも書かせた方がいいってもんだ。
736デフォルトの名無しさん:2009/04/08(水) 03:15:41
http://game.watch.impress.co.jp/docs/20070316/pe.htm
Xbox 360でうまくいっていたポリゴン予算をPS3に持ってくると、頂点性能が足りなくてうまくいかず、ポリゴン数削減に迫られるというのだ。
「SPUを頂点処理に使う」ということに気が付いた開発者は、逆に口を揃えて「RSXの頂点シェーダは要らないですね」とまで言ってくる。
とある開発者は「PS3からEEがなくなりますけど、RSXの頂点シェーダもなくなってもいいかな、なんて(笑)」と冗談を言っていた。
737デフォルトの名無しさん:2009/04/08(水) 09:23:17
あればそれは使えるんだから、足りなくなってからSPEで補えばいいだけだよね。
738デフォルトの名無しさん:2009/04/08(水) 10:26:09
>足りなくなってからSPEで補えばいいだけだよね。

GOW3がそういう感じなんだっけか
739デフォルトの名無しさん:2009/04/08(水) 15:23:50
SPEって何で頂点には使えて、描画には使えないの?
例えばPPEのキャッシュに描画できるようになるとか、
そういう簡単な機構でGPU的に動けそうなもんだけど
740デフォルトの名無しさん:2009/04/08(水) 16:54:17
>>739
VRAM に繋がってないから。
741デフォルトの名無しさん:2009/04/08(水) 17:00:58
ランダムアクセスするわけじゃあるまいし、
バースト転送でどこにVRAMあろうと影響少なそう。
実は当初の予定だと、RSXにもXDR採用する予定で、
二つに分かれてなかったのかも。そうすると
ROPはたとえ少なくとも、書き込みにしか使わないだろうから、
合計読み25GB/s、書き25GB/sって帯域得られる。
742デフォルトの名無しさん:2009/04/08(水) 17:15:41
CEDEC 2006 - CellプロセッサをGPU的に活用することができるのか
ttp://journal.mycom.co.jp/articles/2006/09/14/cedec3/index.html

13380ポリゴンの恐竜モデルを1280×720ドット解像度で描画したときのパフォーマンスは14fps〜33fps。
なお、これは2.8GHz動作のCellの4基のSPEのみを活用した時の結果だそうだ。

今回、併せて4基のSPEの稼働率(ロードバランス)を表した性能解析図が示された。
SPEはインオーダー型の2命令同時発行型のアーキテクチャになっていて、
2つあるパイプラインのうち片方が演算系、もう片方がその他の実行系(読み書き、分岐など)というふうに、
パイプラインごとの分担が明確化されている。

なかなか2命令同時実行を行わせ続けることは難しいはずなのだが、それでも15〜30%と、
そこそこ高い2命令同時発行(Dual Issue)のパーセンテージが実現できていて興味深い。
743デフォルトの名無しさん:2009/04/08(水) 18:36:10
レイテンシが読めるという点もSPEの強みだね。
744,,・´∀`・,,)っ-○◎●:2009/04/08(水) 20:44:23
>>739
レジスタ読込時に圧縮テクスチャデータを展開する命令とかあるなら多少性能出るけど、無いだろ。
無圧縮状態で128ビットアライン状態で並べておけとか、EIBの帯域いくらあっても足りない。
745デフォルトの名無しさん:2009/04/09(木) 00:27:18
つ PhyreEngine
つ Edge

てかSPU使ってエフェクトかけてて、
帯域ネックになったことはないな。
746デフォルトの名無しさん:2009/04/09(木) 00:31:09
>>739
描画にも使ってますよ。うまく使えばRSXより綺麗ですよ。
747227 ◆eZQcaIaFJs :2009/04/09(木) 01:29:16
>>745,746
ソフトパーティクルに必要なのは (1280/2)*(720/2)*4(RGBA)=900KB なので、
テクスチャを含めて何とかLSに載る大きさですね。
748デフォルトの名無しさん:2009/04/09(木) 01:41:15
パーティクルなんてどうせモヤモヤさまーず状態なんで
1/4レゾでもいいと思いますよ。Zでジャギは出るけど。
749デフォルトの名無しさん:2009/04/09(木) 02:23:41
もしかしてどこもXDRの帯域使い切れて無いんじゃ?
750デフォルトの名無しさん:2009/04/10(金) 07:44:16
帯域より容量が足りてない気が
751デフォルトの名無しさん:2009/04/10(金) 09:38:00
団子は自分の能力の限界と物自体の限界の区別が付かないから困る。
752デフォルトの名無しさん:2009/04/10(金) 09:43:00
俺は限界のない自分の才能が怖い
753,,・´∀`・,,)っ-○◎●:2009/04/10(金) 20:57:26
>>747
そっちですかいな。各値8ビットのデータなら確かに収まるだろうけど
packed-normやfloat16はどう扱うんでsky?


>>748
たまたま上手く収まる例だけで万能だと思うおまいは無能だのう。
それで納得しちゃうおまいは要するに話を理解できてない。

各要素がunsigned charなら攪拌処理+浮動小数変換だけで展開出来ちゃうんで
その辺は楽に出来て当たり前なんだよ。
しかし、PS3リリース前の公称の1920x1080にはその程度ですら2M必要だから、
タイルレンダでも使わない限り無理。

9400Mクラスのモバイル向けGPU積んだ2kg未満のノートですら出せる720pほどの解像度に
パーティクル被せるくらいで妥協して貰ったって困る。
754,,・´∀`・,,)っ-○◎●:2009/04/10(金) 21:03:39
ついでだから聞いておく

http://dango.chu.jp/tripper/20090409.html
Cellではこういう問題とか扱うの?無理?
755デフォルトの名無しさん:2009/04/10(金) 22:01:27
PS3の発売前もそうだったけど、出てないものが優位なのは当たり前じゃないの?
単に無い物ねだりして叩きたいなら「SSEには要素ごとのシフトがないいぃぃ!」とかいくらでもコケに出来るけど。
でも、「で、あったところで何に使うの?」って言われて終わりでしょう。
756,,・´∀`・,,)っ-●◎○:2009/04/10(金) 22:15:26
>要素ごとのシフトがない

スカラでやって挿入すれば?
757,,・´∀`・,,)っ-●◎○:2009/04/10(金) 22:35:18
要素単位で別々の〜って要求をしだすときりがなくて
「別々のアドレスとってきたい」って場合は、スカラロードと挿入が重要になる。
んで、究極の形はLarrabeeのようなGather/Scatterだ

んで、更には要素ごとに別々の命令ポインタが必要だって思うわけだよね
それSIMDやなくてMIMDやんけ
758デフォルトの名無しさん:2009/04/10(金) 22:45:30
かみ合わんな
759デフォルトの名無しさん:2009/04/10(金) 22:58:41
>>753
爆笑
760デフォルトの名無しさん:2009/04/10(金) 23:01:00
なぜタイル分割してはいけないと思うのか
逆に知りたい
761デフォルトの名無しさん:2009/04/10(金) 23:05:45
SpursJobQueで充分並列だけどなあ
16msに間に合えばいいんだから
762,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:17:55
んで、その60fps出てるゲーム見せてよ。
600p@30fpsとかばっかしなんですが。
763デフォルトの名無しさん:2009/04/10(金) 23:27:23
逆でしょ
まず自分から
タイリングしない理由を
示さないと。
764デフォルトの名無しさん:2009/04/10(金) 23:31:48
どういう時に帯域ネックになるのかも知りたいなあ
765,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:32:15
360の場合は10MBのeDRAMでメインメモリの帯域をセーブしてるよね


ついでだから聞こう。
Cellを拡張していくとしてLSを増やすことってあると思う?
LQD/STQDって、なんでディスプレースメントの下位2ビットを捨てる実装にしたの?
上位2ビットを無視って仕様なら、そのまま1MBまでは拡張できるでしょ。

そもそも256KBが上限としか考えてないんじゃないかと
766デフォルトの名無しさん:2009/04/10(金) 23:33:22
話そらさないでよ
767,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:37:29
話にすらなってませんが。

1080pで60fpsコンスタントに出てるゲーム見せて?さっさと見せて?

存在してねーじゃん。
768デフォルトの名無しさん:2009/04/10(金) 23:42:11
wipeout
Edgeつかってるよ

で、なぜタイリングしないの?
どういう時に帯域ネックになるのかな?
769,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:44:16
SCEA渾身のKillzone2が720pの30fpsだよ。
おまいらどんな凄いゲーム作ってるんだよ。
オラわくわくしてきたぞ。
770,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:45:18
> で、なぜタイリングしないの?

これは逆じゃね?タイリングする「しかない」んじゃね?
771デフォルトの名無しさん:2009/04/10(金) 23:46:34
Kz2はSCEAじゃないんですが…

もう知ったかぶりはやめようよ
772,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:48:03
SCEEのほうだったね。ごめん。
773,,・´∀`・,,)っ-●◎○:2009/04/10(金) 23:51:54
あと、ソースコードうpお願いね
774デフォルトの名無しさん:2009/04/11(土) 00:09:12
Deciかsnで確認すればいいじゃん
775デフォルトの名無しさん:2009/04/11(土) 00:12:26

どんなエフェクトだと
帯域ネックになるのかな?
EIBが帯域ネックになるんだよね?
776,,・´∀`・,,)っ-●◎○:2009/04/11(土) 00:33:06
>>775
君の作ったゲーム見せてよ(笑)
777デフォルトの名無しさん:2009/04/11(土) 00:38:49
EIBの帯域が足らないエフェクト(笑)
778デフォルトの名無しさん:2009/04/11(土) 00:39:56
早くエフェクト教えてよ
779,,・´∀`・,,)っ-●◎○:2009/04/11(土) 00:40:31
他が足引っ張って720p・30fps以下しか出ないから
結果的にネックにならないんですね、わかります
780デフォルトの名無しさん:2009/04/11(土) 00:41:04
実在するかは知らんが、物を見せればいいだけだろ。
ソース晒せとかクレクレにも程がある。
781,,・´∀`・,,)っ-●◎○:2009/04/11(土) 00:41:56
言いだしっぺ自身の作品が見たいのだよ
782デフォルトの名無しさん:2009/04/11(土) 00:43:25
言い出しっぺのエフェクトが
知りたいんだよ。
783,,・´∀`・,,)っ-●◎○:2009/04/11(土) 00:48:36
結局60fpsはハッタリなのね
実際見たこと無いし

そもそもなんで「エフェクト」になってるのか意味不明なんだが
GPU自体の代替だろ?
SPU単独でテクスチャの取得からフレームバッファへの描画までやるそのレベルの話かと思ったら
パーティクル限定とかさ、一体何なのよ
784デフォルトの名無しさん:2009/04/11(土) 00:52:37
PSSでワイプアウト買えよ
1080 60pだぜ
785デフォルトの名無しさん:2009/04/11(土) 00:54:49
何さりげなく単独SPUの話に変更してるんですか?
後だしジャンケン以外できないんですか?
786デフォルトの名無しさん:2009/04/11(土) 00:58:58
帯域ネックの話で
なぜパーティクルがでてくるかも
わからないんですか?
787デフォルトの名無しさん:2009/04/11(土) 01:03:56
ワイプアウトくらいその筋の人で話題になってそうとは思ったけど
知らなかったのはちょっと残念
788デフォルトの名無しさん:2009/04/11(土) 01:06:53
>>787
団子は「その筋の人」じゃないんで…
いくつか仕込んである、「その筋の人」なら
すぐに気づくウソにも全然突っ込んでこないし。
789デフォルトの名無しさん:2009/04/11(土) 01:11:56
たぶん次は「ゲーム屋ごときが」とか言ってくると思うんですが、
他人の批判の前に、まず知ったかぶりやめろと言いたい。
790,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:15:28
で、えらそうなクチを叩いても
自分で作ったゲームでは60fps出ないんですね(泣)
791,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:29:39
俺は最初からpacked-normとかfloat16に言及してたわけで
その時点で、GPU全処理について言ってるのだと足りないと言ってたんですよ。
帯域ネック以前に演算ユニットが追いつかないでしょうけど。

エフェクト1個限定とか、後出しじゃんけんなのはどっちですかww
792デフォルトの名無しさん:2009/04/11(土) 01:30:38
プレイステーションエッジやファイヤーエンジンというのを使って
中小のソフトハウスでも低予算で最低限見栄えのするゲームは作れるの?
793デフォルトの名無しさん:2009/04/11(土) 01:33:52
まとめ。

739「描画にSPUを使うことはできないのか?」
団子「EIBの帯域がいくらあっても足りないから無理だ!」
745「PhyreEngineとかEdgeとかで描画もSPUでやってるし、帯域ネックになったことはない。」
747「ソフトパーティクルも解像度の設定とかうまくやればLSに載せられるね。」
団子「>>747 packed-normやfloat16はどう扱うんですky?」
団子「>>748 お前はバカだ。パーティクルごときで妥協するな。タイルレンダしないと無理。」
団子「1080 60pのゲームは存在しない!!」
団子「ソースコード出せ!あとお前の勤務先も教えろ!!」
団子「どうした?出せないのか?やっぱり1080 60pのソフトは存在しないじゃないか!!」


回答。

・wipeoutを購入してください。1920x1080 60fpsで滑らかに動きますよ。
 GDCで直接プログラマと話しましたが、SPUでEdge使ってますよ。
・ソースコードは出ません。勤務先も教えられません。まず団子さんの勤務先を教えてくれたら教えますよ。

・ソフトパーティクルの描画に通常、"packed-norm"や"float16"という単語は出てきません。
 そもそも映像産業従事者は通常、"float16"とは呼びません。

・帯域ネックになりやすい描画の代表例として、パーティクルエフェクトで話をしているのであって、
 「パーティクル描画」と呼んでもいいですよ。それで満足するならば、ですが。

・「GPU自体の代替をSPUで行う」などという会話は、団子さんの発言以外どこにも出てきません。
 「描画をSPUで行うことはできないのか?」という問いのみが存在します。

・パーティクル描画を例にとっても、
 SPU単独でテクスチャの取得からフレームバッファへの描画までやってる例はあります。
 すでに発売されている Killzone2が代表例ですが、wipeoutのパーティクル描画もSPUで行われています。
794デフォルトの名無しさん:2009/04/11(土) 01:38:49
>>792
http://gamecolumn.blog17.fc2.com/blog-entry-2506.html
こんくらいの絵はすぐ出ます。
795,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:39:01
>そもそも映像産業従事者は通常、"float16"とは呼びません。

悪かったwwwD3Dでは「FLOAT16」だったねwww
ASCII文字でも5文字も0x20ほど違えばえらい差だね。

っていうか映像産業(笑)
おもちゃ産業だろ(笑) 日本の税関の扱いがゲーム機=玩具だし
796デフォルトの名無しさん:2009/04/11(土) 01:40:43
相変わらず病的
797デフォルトの名無しさん:2009/04/11(土) 01:40:48
halfがどこから来たのかすら知らないのかこの人は…
798,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:41:32
うちもある意味映像産業だけど何か?
799デフォルトの名無しさん:2009/04/11(土) 01:42:50
団子センセーがバイトでかかわったゲーム教えてください><
「業界に携わったものとして云々」とか豪語しちゃうんだから
さぞ凄いんでしょうネ
800,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:44:52
ちなみに本物の映像産業では16ビットFloatなんて低精度データはゴミだよ
801デフォルトの名無しさん:2009/04/11(土) 01:46:55
pixarとILMのレンダリング結果はゴミということがたった今決定いたしました。
802デフォルトの名無しさん:2009/04/11(土) 01:49:20
都合の悪い質問には
一切答えないよなあ
803,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:49:47
なんでそうなる。ピクセルデータとして使う分には8ビットや10ビットRGBよりも有効だが
座標データとしては使えないね。
804デフォルトの名無しさん:2009/04/11(土) 01:51:18
団子描画まわり詳しくないんだからやめとけw
805,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:51:59
806,,・´∀`・,,)っ-●◎○:2009/04/11(土) 01:56:18
使えないことも無いか
807,,・´∀`・,,)っ-○◎●:2009/04/11(土) 03:26:45
HTCにカスリもしなかった連中が声がでかくなるのはどういうわけだろうな
まあ、アレに関しちゃ俺も手抜いたが
808デフォルトの名無しさん:2009/04/11(土) 07:35:01
俺最強を豪語していていながら結局途中で逃げ出したコンテストの名前を自分で持ち出すなんて墓穴にも程がある。
809デフォルトの名無しさん:2009/04/11(土) 09:32:21
ギスギスしすぎわろた
810デフォルトの名無しさん:2009/04/11(土) 11:51:21
IBMのCell SDK3.1をUbuntu 8.10 on PS3に入れた人います?
YDLは何かいろんなパッケージが古過ぎてムカついたんでUbuntuにしようかなと
思ったんですがUbuntuはUbuntuでspu-timingとかどのパッケージから持ってくれば
いいのかわからないのでCellSDK入れちゃおうかと思ったんですが・・・やっぱ無謀?
811,,・´∀`・,,)っ-○◎●:2009/04/11(土) 17:52:17
rpmコマンド追加すればいけると思うよ。
rpmをdeb形式に変換するコマンドがあったと思うが。

YDLが旧いってことならFedoraでいいと思うが。10でSDK 3.1動くし。
軽量インストールしないと酷いことになるけどね。
812,,・´∀`・,,)っ-○◎●:2009/04/11(土) 17:53:06
>>808
そして逃げ出した奴がリークした水準にすら到達してな(ry
813,,・´∀`・,,)っ-○◎●:2009/04/11(土) 17:53:58
てか、俺より上の人はほとんど知ってるんだがwww
814,,・´∀`・,,)っ-○◎●:2009/04/11(土) 18:03:07
GLの起源がSGI云々なんて最早どうでもいいけどね。
潰れる前から空気化してたし

別のSGI(池田大作ファン倶楽部)のほうがよく聞いたくらいだ。
815デフォルトの名無しさん:2009/04/11(土) 18:14:10
> てか、俺より上の人はほとんど知ってるんだがwww

kwsk!
816デフォルトの名無しさん:2009/04/11(土) 20:15:49
散々話をすり替えて、今度は僕ちゃんの知人はエラい自慢ですか。
817,,・´∀`・,,)っ-○◎●:2009/04/11(土) 20:19:50
数少ない60fpsを自分の手柄にしちゃう子って一体www
そもそもレンダリング対象のオブジェクト出さなきゃ120だろうが1000だろうが余裕ですけどね
818デフォルトの名無しさん:2009/04/11(土) 20:31:51
> 数少ない60fpsを自分の手柄にしちゃう子って一体www

団子が言うと重みが違うな
819,,・´∀`・,,)っ-○◎●:2009/04/11(土) 20:47:45
セガ(笑)とかその下請け零細あたりの子なんだろうなとは思うけどね
820デフォルトの名無しさん:2009/04/11(土) 22:13:26
団子さんはどこで働いてるんですか?

やねう企画ですか?
821,,・´∀`・,,)っ-○◎●:2009/04/11(土) 22:39:44
あそこ計画倒産じゃね
どこでって、巨大資本の真下で働いてます。
822デフォルトの名無しさん:2009/04/11(土) 22:42:21
巨大資本キター!
さすが帝王学を学ばされた社長の息子w
823デフォルトの名無しさん:2009/04/11(土) 22:45:12
> GLの起源がSGI云々なんて最早どうでもいいけどね。

何に関連してOpenGLの話してるの?
824デフォルトの名無しさん:2009/04/11(土) 22:47:53
>>820
お前は俺か。

長けている部分とイカれている部分が被るんだよな。
825,,・´∀`・,,)っ-○◎●:2009/04/11(土) 23:01:06
社内にインド人がいたっけな
まあ最近は珍しくもないが
826,,・´∀`・,,)っ-○◎●:2009/04/11(土) 23:11:08
カレーやさんだよ(嘘)
827デフォルトの名無しさん:2009/04/11(土) 23:14:52
ちょっと磯崎さんこんなところで何してはるんですか
828(`ω´)っ-○◎●:2009/04/11(土) 23:16:37
だれが磯崎じゃ
829,,・´∀`・,,)っ-○◎●:2009/04/12(日) 06:52:40
2009/04/10 21:45:22
ホスト名gatekeeper1.scei.jp

2009/04/10 21:45:22
ホスト名gatekeeper1.scei.jp


「本物」が見張ってるねwww
830デフォルトの名無しさん:2009/04/12(日) 11:09:19
懐かしいなぁ。
俺も中学生時代は、自分のblog(当時はweb日記だったけど)に
scei.jpとかSony.CO.JPとかあるとワクワクしたもんだったよ。
今も中学生と同じ感性を持ってる団子さん素晴らしいです!
831デフォルトの名無しさん:2009/04/12(日) 11:15:50
>>829
そういう露骨な嘘を書くのはやめとけ。
というか、それ自分自身じゃないのか?
832デフォルトの名無しさん:2009/04/12(日) 11:18:32
これだけは絶対に言えるけど、
どう見ても団子はSCE関係者じゃないですよ。
fixstars関係者ですらないと思う。
833デフォルトの名無しさん:2009/04/12(日) 11:24:05
団子、もしかして本当にやねうらおなんじゃねーかな?
834デフォルトの名無しさん:2009/04/12(日) 12:51:09
>>831
嘘じゃないだろ。
何もない俺のサイトでさえ来るぞ。

そんな報告しても恥ずかしい自己紹介してるだけだから>>830みたいのが煽りになる。

が、団子も830も荒らしだ。スルーしろ。
835デフォルトの名無しさん:2009/04/12(日) 12:59:37
巨大資本の真下のプロジェクトのナンバー3なんでしょ。
やっぱ団子ってすげーんじゃねーの?
836デフォルトの名無しさん:2009/04/12(日) 13:20:00
俺なんか自称は世界的大企業のバイスプレジデントだぜ
837デフォルトの名無しさん:2009/04/12(日) 13:25:04
会社から団子のブログ読んでるのおれだわw
じゃあ来週は15:00きっかりにアクセスするからよろしく!
838デフォルトの名無しさん:2009/04/12(日) 13:38:18
団子は某芝だよ
839,,・´∀`・,,)っ-○◎●:2009/04/12(日) 16:55:57
間違いなくこのスレからのアクセスです。ピンポイントですね。
なんでまったく同じ時刻に2つもログ残ってるかようやく理解できた。
「記録」されてますよ。お気をつけください。

#現在の .htaccess
deny from geakeeper1.scei.jp


別に.go.jpとか??tel.comとかからアクセス来ても今更驚かないよ。
840,,・´∀`・,,)っ-●◎○:2009/04/12(日) 16:56:41
↑おっと、これじゃ弾かないなwww
841デフォルトの名無しさん:2009/04/12(日) 17:07:14
http://game.watch.impress.co.jp/docs/series/3dcg/20090410_110682.html
今回のPS3版の開発ではSCE提供のライブラリ、Playstation Edgeにかなり助けられました。これに含まれる、
CELLプロセッサ内のSPE(Synergistic Processor Element)を頂点シェーダー的に活用するEdgeジオメトリの活躍が著しかったです。
カリングはもちろんですが、特にスキニングの効果が凄くて PS3のRSXだけで処理させた場合の10倍はパフォーマンスが向上しましたね(笑)
842デフォルトの名無しさん:2009/04/12(日) 17:23:04
>>841のゲームのフレームかぞえあそび
http://zoome.jp/ps360/diary/124/
843デフォルトの名無しさん:2009/04/12(日) 17:54:25
>>823 この一連の流れは病的で怖い
844デフォルトの名無しさん:2009/04/12(日) 17:58:06
>>842
Xbox360が22fpsまで落ちているのは計測誤差?
845,,・´∀`・,,)っ-○◎●:2009/04/12(日) 18:56:45
wii  61万本
PS3  30万本←wwww
xbox360  44万本
846デフォルトの名無しさん:2009/04/12(日) 19:13:10
童貞もたいへんだ。
847デフォルトの名無しさん:2009/04/12(日) 23:33:29
結局団子はどの質問にも
答えてないよね。
848,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:22:36
はっきり言います。

  R  S  X  を  一  切  使  わ  ず  に

60fpsでお願いします。

丁度いまのPS3 Linuxが、フレームバッファにCPU描画してる状態だけど、
「SPEだけでここまで出来る」の魅せ所じゃないでしょうか
849デフォルトの名無しさん:2009/04/13(月) 00:23:44
何勝手に問題セット変えてんの?
850デフォルトの名無しさん:2009/04/13(月) 00:25:20
クソ噴いた。
>>849に激しく同意。
851,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:27:00
勝手なこといって逃げてるのはどっちですか?
GPUの代用できるんだろ?やってみろよ

以下に性能足りないかが解るはずだ
852デフォルトの名無しさん:2009/04/13(月) 00:36:43
739のどこに
「RSXを一切使わないで」
って書いてあるんですか?
853,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:39:36
やってもみないうちに、できない言い訳ですか?w
854デフォルトの名無しさん:2009/04/13(月) 00:40:08
礒崎さん
はよ答えてくださいよ
855,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:41:12
磯崎じゃないから答えません
磯崎のブログに凸してこいよ
856デフォルトの名無しさん:2009/04/13(月) 00:51:17
vui8 outL=shufb(madd(shufb(in1,in1,shuf00010203),alpha,mul(shufb(in2,in2,shuf00010203),(256-alpha))),shuf12340000)

同様にRも計算してorするだけでなんとアルファブレンドが。
19201080でも2spuで60出るよ。

次はRGBA8888の文句でもいうのか?
857デフォルトの名無しさん:2009/04/13(月) 00:53:08
もちろんラスタforとDMAは省略した
858,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:53:51
それを実際やってみてよ
859,,・´∀`・,,)っ-●◎○:2009/04/13(月) 00:55:35
>>856
sRGBのデコードなんてどうせハードワイヤードロジックに勝てないだろうから
10:10:10:2おながいします
860デフォルトの名無しさん:2009/04/13(月) 00:58:26
> どうせハードワイヤードロジックに勝てないだろうから

……え?
861デフォルトの名無しさん:2009/04/13(月) 01:01:37
おやおや後だしジャンケンですか?

色空間のsRGBと
テクセルフォーマットの10:10:10:2を
混同してるのも謎
862,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:03:37
え?はこっちだよ。
Larrabeeでは組み込みのNumeric Converterで処理できるんですが。
命令もこんな感じで記述できます。それ専用の命令がある?とんでもない
既存の命令のビットフィールド変えるだけです。

fmadd231ps v1, v2, [mem]{srgb8}
863デフォルトの名無しさん:2009/04/13(月) 01:04:08
そしてRGBA8888とsRGBを混同してるのも謎
864860:2009/04/13(月) 01:05:17
そうだね、Larrabee最強だね。よしよし。

って煽り書いて送信しないで思い留まったのに、
本当にそこまで馬鹿だとは思わなかった。
うわぁぁぁん。
865,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:05:23
>>861
いいえ、sRGBだと苦しいのかなと思って。俺は慈悲深いのでな。
その反応見る限り、もっと無理だった?
俺もそう思うよ。
866デフォルトの名無しさん:2009/04/13(月) 01:06:11
で、>>739のどこに
fp10限定って書いてあるんですか?
867,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:07:24
GPUの代用ができる云々言うなら当然備える機構でしょ
性能おかまいなしにソフト的にやればいいってならCore 2 Duoで充分じゃん
868,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:09:46
>>863
読み間違えた。RGBAフォーマット自体はいいと思うよ。
そうだねやっぱりsRGBは無理だよね
ごめん変なこと言って。アハハハ
869デフォルトの名無しさん:2009/04/13(月) 01:10:13
>>746
> >>739
> 描画にも使ってますよ。うまく使えばRSXより綺麗ですよ。

こいつが言葉足らずなのも確かだな。
いわゆるポストエフェクトに限ればSPUはGPUの代わりとして使えるし、
実際に使っているタイトルもある
ってことでしょ。
これは認めた上で話をしようじゃないか。
870デフォルトの名無しさん:2009/04/13(月) 01:12:21
>>868
LarrabeeはsRGBデコード/エンコードの命令なんてあるのか?
テクスチャユニットにはあるだろうけど、CPUに。

いずれにせよ、sRGBデコード/エンコードなんて重要性0
871デフォルトの名無しさん:2009/04/13(月) 01:12:37
sRGBは色空間
fp10は数値表現形式

物理次元の違う単位同士を比較されても
意味がわからないんだが
872,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:14:10
>>870
それ専用の命令は無いよ。あくまで>>862みたいに透過的に使う
873,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:15:02
>>871
どっちも32ビットの構造体にパックする方法だよね
874,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:17:30
っていうか、もちろんテクスチャユニットの処理もCellでやるんだろ?
875デフォルトの名無しさん:2009/04/13(月) 01:18:29
>>873
いいえ
876デフォルトの名無しさん:2009/04/13(月) 01:18:45
>>872,873
確認だけどsRGBのデコード/エンコードには実数指数のpowの計算が必要
ってわかってるかい?
877デフォルトの名無しさん:2009/04/13(月) 01:20:14
どんどん条件が
追加されてきましたね
878デフォルトの名無しさん:2009/04/13(月) 01:23:42
>>870
そういう問題ではないだろう。

>>739の言う「GPU的に」の解釈がそれぞれで異なっているのと、
団子が論点ずらしまくってるのと、勝手なルールを作っているのが問題なんだ。

全員一旦頭を冷やそう。
それこそスレタイを見て来た人がホビーで言ってるんだったら
1080pである必要性も60fpsである必要性も無いだろう。

そしてRSXやCellがクソであることと>>739への回答には関連性があるが、Larrabee信仰は何の関係もない。
そもそもLarrabeeが出てくるならGPUの領分だろう。
GPUでは無いから「GPU的に」と言っているのに、GPUが土俵に上がってくる意味が分からん。
879,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:31:22
>>875
ああ、ごめん、Cellでは基本128ビット単位でパックしたデータしか効率的に扱えなかったねだ

>>876
デコード時は定数テーブルで線形変換できると思うが。
デコードのほうはメモリオペランドをとれる全ての論理算術演算命令で使えるはずだよ。

エンコードのほうは
CVT_PS2SRGB8 (Convert Float32 Vector to SRGB8 Vector)
って命令があるね

んで、これを最低限読んでくれ
http://software.intel.com/en-us/articles/prototype-primitives-guide/
880,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:32:20
>>878
結局都合が悪くなるとGPUじゃないって言うんですね
881デフォルトの名無しさん:2009/04/13(月) 01:34:05
ちょっと待て、いつGPUだって言った。
882デフォルトの名無しさん:2009/04/13(月) 01:34:52
結局都合が悪くなると
後出しでルール変更するんですね。

結局都合が悪くなると
質問にも答えないんですね。
883,,・´∀`・,,)っ-●◎○:2009/04/13(月) 01:35:54
ルールなど変えてない。一貫して、GPUの代用になりませんよねって言ってるだけ
884デフォルトの名無しさん:2009/04/13(月) 01:44:43
でもSPUでGPUの代わりにポスト処理ができている事実はあるわけで
そこは否定できないよ。
またフラグメントシェーダの完全な代用になると思っているやついないと思う。

ようするに団子は誰に反論してるのかがわからん。
885デフォルトの名無しさん:2009/04/13(月) 01:45:54
それは739に対してのレスとしては
おかしいだろ

「CELLで(何らかの)描画ってできないの?」
「GPUじゃない!!一貫して!!」

って日本語不自由すぎるだろう
886227 ◆eZQcaIaFJs :2009/04/13(月) 01:47:05
このスレのカオスっぷりにはワロタ。

とりあえず、RSXとかXBOX360とか触ったことのない人から見たら、1920*1080で
60fps出そうとすると、500〜600BatchでGPUが限界になってくると思うんですよ。
そこで、前フレームの結果+Zバッファを元にSPUでエフェクト出せれば、その分
GPU側の負荷が減って…、とか考え出したら思考が止まらなくなってきたんですね。

あと、それ以上に怖いのがDriverTime。あくまで予想でしか無いんやけど、
PS3はGeForce系だから30%以上食われてるんじゃないかなぁ…。

まぁ、デザイナーさんからの要望で上司が突然FarClipを2倍にしたりとか
コンシューマー組からしたらアリエナイ事を平気でやるのがWindowsですよw
DualCore -> QuadCore でフレームレート2割上がったとか喜んでいても、
次の日にはその苦労が水の泡になってしまうんですねorz
887,,・´∀`・,,)っ-●◎○:2009/04/13(月) 02:05:51
>>884
その程度ならx86はWin95のDirectXの時代から、前半部分をMMXや3DNow!でやってきたわけで

むしろ今のPCの場合は「グラボ差し替えろ」で終わるからやらないだけだろ?
ていうか、NVIDIAやATIから金貰ってもっとグラボの性能必要なゲーム作ってくれって頼んでやってる状況。
そして、GPUで出来る仕事をとってやるよりAIや物理演算にまわしたほうが有意義だからCPUでやらないし
やる必要も無い。

GPUとして設計されてないプロセッサでGPUの代替やるのは不幸でしかないだろう。

それにしても、自称PCの20倍の性能を誇るゲーム機が、Call of Duty 4を
1024x600pの30fpsだとかなんの冗談かと思ったが。
だってさ、ASUS N10J並みだぜ?
888デフォルトの名無しさん:2009/04/13(月) 02:19:38
じゃあRSXを叩きなよ
CELLを叩くのは筋違いじゃん
889,,・´∀`・,,)っ-●◎○:2009/04/13(月) 02:20:55
Cellだけでやろうとして破綻したからNVIDIAに泣きすがったなんてのはゲイツですら知ってるだろ
890デフォルトの名無しさん:2009/04/13(月) 02:24:31
そうだね、Larrabeeえらいね。で?
891,,・´∀`・,,)っ-●◎○:2009/04/13(月) 02:29:22
キャッシュに対するスクラッチパッドメモリの優位性ってどこいったんだろうね。
892,,・´∀`・,,)っ-●◎○:2009/04/13(月) 02:31:33
>>889の前提がある俺と、経緯を知らない(あるいは知らないふりをしてる)おまいらじゃ、
話がかみ合わないのだろうな
893デフォルトの名無しさん:2009/04/13(月) 03:16:40
>>891
トランジスタ数つまりダイサイズの優位性かと思った
どのみちララビで非マルチコアプログラム走らせても、大して性能伸びない、
最適化が必要、最適化すりゃもうキャッシュもいらなくね?って発想でさ。
894デフォルトの名無しさん:2009/04/13(月) 03:19:41
>>889
破綻というより、スケジュールの都合だったんじゃないかなあ。
IPとか。ソフトウェアで解決したとしてIPも同時に解決するとは限らんから
個人的にはララビだろうとCellだろうとGPUとして動くのを見て見たい。
Nvidiaすっかり嫌いになったし。
895デフォルトの名無しさん:2009/04/13(月) 03:23:24
LarrabeeってあれSPEじゃねえの?
896デフォルトの名無しさん:2009/04/13(月) 03:23:40
仮定として、例えばCellがどのくらいの規模になったら、
せめてRSX程度にはエミュレートできるようになるんだろうか?
現行Cellだけで考えようとする発想の幅も狭まってしまうんじゃないかな。
897デフォルトの名無しさん:2009/04/13(月) 03:34:17
>>839
何処の誰だかわからんのだし、守秘義務がらみだと思う。
足跡残してるのもそのためだろう。まあ企業防衛的にちゃんと仕事してる…
っていうか三菱UFJの流出あれ企業テロだろ
898デフォルトの名無しさん:2009/04/13(月) 06:02:37
>>893
キャッシュの方が独立メモリのローカルストレージより理屈の上でトランジスタ食うのは
間違いないけど、その差は多寡が知れてる。
ディレクトリやコントローラ、あと仮想記憶をサポートするならTLBが必要だけど
このへんはそんなにトランジスタ使うわけがないし使えるわけもないんだよね。

たとえば、Core 2 Duo E8000シリーズの約4億1千万トランジスタのうち
IntelいわくL2を除いたロジック部は1コアあたり約1900万トランジスタ程度。
それが2つだから3800万程度。残りは3億7千万ちょいになるはずだ。
で、L2の実際に記録する部分は、6T SRAMが、1byte=10ビット構成(ECCのため)
として、6MBで3億7748万7360トランジスタ。
つまり、それ自体、誤差の範囲ってこと。


もちろん実際にキャッシュにしようと思ったらL1とL2に分ければその分は増えるんだけど、
L1命令とL1データとL2に分けることで、命令フェッチとレジスタ間ロード・ストア、DMAを
同じタイミングで行うことができるというメリットが出てくる。

トランジスタ効率のこと言うなら、むしろMFCって本当に1コアごとに必要だったのかと。
全体で一つの共有分散型L2キャッシュとして使えた方がLUTとかに使う幅ができて
性能的に有利ということもある。
L1命令キャッシュの帯域は他に取られることはないから、フェッチもクロック毎
1〜2命令ずつでよくなって、分岐ミスのペナルティも少なくなるかもしれないね。

ローカルストレージを採用したのはコーディングの手間とかだけじゃなしに
性能面でもトレードオフがあると見てる。
899デフォルトの名無しさん:2009/04/13(月) 06:51:55
ごめん大嘘ついた。8ビットに対して6ビットで容量2倍で2ビット追加だから
64byteごとにECCフィールドは18ビットで結局3億1260万6720程度。

1バイトごとに2ビット付加するのは別モノ

ただバスコントローラとか電源管理ユニットとかも食ってるから6千万トランジスタあまりが
まんまL2のロジックとして食われるってのは断じてない。
900デフォルトの名無しさん:2009/04/13(月) 07:38:08
>>889
> Cellだけでやろうとして破綻したからNVIDIAに泣きすがったなんてのはゲイツですら知ってるだろ

某芝系の社員なら破綻させたのが誰かよくご存知では?w
901デフォルトの名無しさん:2009/04/13(月) 07:47:41
>>898
MFCがなくて共有L2だと、ISAもがらりと変わるしシングルスレッドなのもまずいね。
で結局普通のCPUになりそう。
SPUはそのままでもMFCがもっと賢くなったら使い勝手はあがると思うけどな。
902デフォルトの名無しさん:2009/04/13(月) 08:12:24
寝てた間に進んでるな。

>>891 また違う話題に持っていって誤魔化すか。
優位性はレイテンシ。でもキャッシュの方が遙かに便利で盲腸。こう答えれば満足ですか?

>>892 実際にその場にいないから事実は知らないが噂程度なら知ってるわボケ。

>>893-895 同じ課題に対してSPEはLSと128本のレジスタ、LarrabeeはキャッシュとSMTを持ってきているので方向性が真逆。
俺は断然Larrabee派。削られる性能は微少で、命令の拡張性と浮く開発コストは膨大。

開発コストが浮くという事はエコシステムが回るということ。
つまりピークに近い性能を出すまでの開発期間が短くなるということ。
結果的に真のピークが高いはずのSPEよりも速いソフトウェアがゴロゴロ出てくる。

で も そ う い う 話 題 じ ゃ な い だ ろ
何故Larrabeeが土俵に上がってくるのだと言っているのだ。
釣られてるだけだぞ。
903デフォルトの名無しさん:2009/04/13(月) 08:17:14
>>898 俺はトランジスタの詳細は知らないんだが、MFCは各コアに載っているのか?
ドキュメントには各コアに載っているかのように振る舞わなければならない、としか書いてないが。
904デフォルトの名無しさん:2009/04/13(月) 08:26:41
やっぱ団子ただのワナビーだよ
知ったかがひどすぎる
905デフォルトの名無しさん:2009/04/13(月) 08:30:21
900はわかってそうだが、
889とか爆笑モノの発言だよなあ
906デフォルトの名無しさん:2009/04/13(月) 08:46:08
SPUを頂点シェーダとしてつかって、
RSXのそれは使用しないって方が性能高いって話
これって本当?
単純に、頂点シェーダでやる仕事を2つに分けて
前半SPU、後半RSXの方が効率よさそうだけど
907デフォルトの名無しさん:2009/04/13(月) 11:41:15
RSXも使用したほうが効率いいと思うけど?
キャッシュを最大源に活用すればRSX単体でも実用に十分な性能を発揮するし。
元々SPEを汎用シェーダとみなして、処理能力足りない時に頂点シェーダや
ピクセルシェーダとして使う設計なんだし。
908デフォルトの名無しさん:2009/04/13(月) 17:39:43
rsxのキャッシュ?
909デフォルトの名無しさん:2009/04/13(月) 18:52:52
>>906
Cell の話じゃないからヨソで聞いた方がいいと思うけど。

描画負荷のチューニングでは、結局 ROP ユニットをどれだけフル稼働に近づけるかという話になる。
頂点シェーダがネックになると、ROP どころかピクセルシェーダまで働かなくなる。
もし頂点シェーダがネックになることがあるのなら、その程度の部分は CPU で事前処理した方が描画性能が上がる。

さらに、背面カリングや画面外カリングは、GPU のみで行う場合には頂点シェーダの出力を待ってからでないとできないが、
カリングされた場合にはピクセルシェーダが待ちになる確率が上がる。
事前に CPU でカリングしておけば、この待ち時間が削減できる。

という一般論もあるが、実際のところ、計測しないと、何をどれだけ CPU に持っていくべきかは分からない。
面倒なことして CPU に割り振ったのに性能上がらないなんてことにもなるからな。

というわけでその質問の回答は「嘘」。
910デフォルトの名無しさん:2009/04/13(月) 18:55:30
>>886
> PS3はGeForce系だから30%以上食われてるんじゃないかなぁ…。
仕事で PS3 やれば、資料も計測ツールもあるよ。
自分で 30% 以上食うドライバ書かなければそんなことにはならないよ。
911デフォルトの名無しさん:2009/04/13(月) 19:46:19
ROPってWriteのみでしょ?
テクスチャをメインメモリに置いとけば、
RSX側の帯域全部Writeに使えるんじゃ。
912デフォルトの名無しさん:2009/04/13(月) 19:58:59
ttp://www.nicovideo.jp/watch/sm6730346

ジオメトリ処理関連のSPU委任の定番と言えば、ソニー謹製のSPUベースのジオメトリ・プロセッシング・エンジン「Playstation Edge」(PS Edge)だ。
「GOW III」では、頂点データはすべてPS Edgeで処理してしまい(≒SPUでの頂点シェダー処理)、PS3のGPU(RSX)に受け渡している。
つまり、RSX側の頂点シェーダーは基本的に活用しない実装としたのだ。
913デフォルトの名無しさん:2009/04/13(月) 20:01:39
リンク間違えた
ttp://game.watch.impress.co.jp/docs/20070316/pe.htm

「GOW III」では頂点シェーダーはSPUで代行。RSX側の頂点シェーダーは活用せず。
実は、最近のPS3タイトルはこの実装が多い。RSXは評判が悪いが、SPU頂点シェーダーはすこぶる評判がいいのだ

ジオメトリ処理関連のSPU委任の定番と言えば、ソニー謹製のSPUベースのジオメトリ・プロセッシング・エンジン「Playstation Edge」(PS Edge)だ。
「GOW III」では、頂点データはすべてPS Edgeで処理してしまい(≒SPUでの頂点シェダー処理)、PS3のGPU(RSX)に受け渡している。
つまり、RSX側の頂点シェーダーは基本的に活用しない実装としたのだ。
914デフォルトの名無しさん:2009/04/13(月) 20:02:41
915デフォルトの名無しさん:2009/04/13(月) 20:20:14
PS2エミュに帯域が足りないってあるけど、
GSの仕様どおりテクスチャをメインメモリに置いて、
タイルレンダリング分必要な枚数だけ頂点をSPUに垂れ流させとけば、
GDDR3のDRAMの帯域ではない書き込み効率は上がってるのかしらんけど、
上がってれば何とかなりそうな気がしないでもない。
GSだってWriteは19GB/s程度だし。
916デフォルトの名無しさん:2009/04/13(月) 20:21:45
ごめんタイルレンダは関係ないや
LSをVRAMとして使う場合とごっちゃになってた
917,,・´∀`・,,)っ-○○○:2009/04/14(火) 05:23:31
15時に本当にくると思ったら15時31分だったでござるの巻
918デフォルトの名無しさん:2009/04/14(火) 08:12:33
>>911
それは理論値? 実測? あてずっぽう?
919,,・´∀`・,,)っ-〇〇〇:2009/04/14(火) 18:45:02
リアルGKといえば品川のほうに今年入社した後輩がいたな
私用ノートはVAIOっていう筋金入り
920デフォルトの名無しさん:2009/04/14(火) 18:59:26
かわいい後輩だなw
921デフォルトの名無しさん:2009/04/14(火) 23:10:23
>>919
次からはその後輩のことをちゃんと○○さんって呼べよ
922,,・´∀`・,,)っ-○◎○:2009/04/14(火) 23:18:56
おう、鏑木さん
923デフォルトの名無しさん:2009/04/15(水) 01:26:51
今日は17:17ごろにしておいた
924デフォルトの名無しさん:2009/04/15(水) 13:04:51
// vp1とvp2は__vector int*型
if(!(*vp1++ == *vp2++)) return 1;

gcc43ではエラーでてコンパイルできないんだけどなんで?
vectorは比較しちゃだめなの?比較したい時はどう書けば?
925デフォルトの名無しさん:2009/04/15(水) 13:32:06
なんで != じゃないのか気になった俺は負けか?
926デフォルトの名無しさん:2009/04/15(水) 13:42:46
ってのは置いといて、分岐命令が判定するのは32bitだけだから
vector 比較はだめかもね。cmp, gather, cmp とかするのかな。
927デフォルトの名無しさん:2009/04/15(水) 15:46:55
こんな感じにしてみた。
if(!(spu_extract(spu_gather(spu_cmpeq(*vp1++, *vp2++)),0) == 15)) return 1;

なんか嫌だ。
928デフォルトの名無しさん:2009/04/15(水) 20:50:26
extractはcastに。
929,,・´∀`・,,)っ-○◎○:2009/04/15(水) 23:24:48
http://software.intel.com/en-us/contests/Threading-Challenge-2009/codecontest.php
Intelだけど新たなコンテスト開催ですよ
930デフォルトの名無しさん:2009/04/18(土) 08:45:37
PS3を介して高速AVC変換できるPCソフトがNABに出展
−フィックスターズ開発のエンコードソフト。6月発売
http://av.watch.impress.co.jp/docs/news/20090417_125913.html
931デフォルトの名無しさん:2009/04/20(月) 05:43:42
複数台のPS3繋げられて処理能力が向上するとかだったら面白いんだが。
932デフォルトの名無しさん:2009/04/20(月) 12:47:21
>>930
SPEはネットワークでグリッドするのも一役狙ってたんだが、肝心のソフトが出てこないね。
933デフォルトの名無しさん:2009/04/20(月) 12:51:47
SPEってどっちだよ
934デフォルトの名無しさん:2009/04/20(月) 13:12:12
SPUだった。そーりー。
935,,・´∀`・,,)っ-○○○:2009/04/20(月) 20:03:44
ソニーピクチャーズ
936デフォルトの名無しさん:2009/04/22(水) 18:14:33
>>930
PSEDGEでエンコってできるの?
937デフォルトの名無しさん:2009/04/22(水) 19:30:12
>>936
それって3Dライブラリじゃないの?良く知らんが。
Cellでエンコするなら別のコード書くんじゃない?
938デフォルトの名無しさん:2009/04/27(月) 19:47:01
ミスタエッジ
.
940デフォルトの名無しさん:2009/04/28(火) 00:24:59
長い実行時間のJOB を流しながら短い時間のプログラムのデバッグを
していたら長い方のJOBが引っかかって停止(ループ)したようなんですが
そんな経験ありますか。
941デフォルトの名無しさん:2009/04/28(火) 00:31:24
と言うか、タスク切替えの時にSPUの情報は退避されないとかの仕様ですか。
>>940
あります

>>941
普通のコアならレジスタさえ退避しておけばメモリ勝手に流れるけど、
SPEは独立メモリだからそういう細工が出来ない模様
943デフォルトの名無しさん:2009/04/28(火) 09:14:43
それがネックになってCELLの評価キットでの開発が頓挫した経験ならあります。
要は、SPEを使うようなプログラムを複数動かさなければいいんだろうけどねぇ。
944デフォルトの名無しさん:2009/04/28(火) 09:21:39
まさかの団子の低脳レス
945デフォルトの名無しさん:2009/04/28(火) 10:34:17
回答ありがとうございます。思い切った仕様ですね。

あれから実験してみまして表と裏で流すSPEの数の合計が6を越えなければ
避けて実行してくれるみたいなんでしばらくそういう形でいきたいとおもいます。
946デフォルトの名無しさん:2009/04/28(火) 19:53:07
SDK3.2まだー
947デフォルトの名無しさん:2009/04/29(水) 15:48:36
Xserver を SPE 使って書いたりできないってことですよね。
948デフォルトの名無しさん:2009/04/30(木) 09:12:48
>>947
いいえ、どんなプログラムであろうともSPEを使うように書くことはできます。
SPEを使ってXServerプログラムを書くことも、難しいかもしれませんができないことではないと思います。

どちらにしても、意味がないだけで。
949デフォルトの名無しさん:2009/05/01(金) 04:55:02
spuでls内の数kバイト連続したベクタデータを何回もコピーする必要があるのですが、memcpyでコピーするよりも、DMAでコピーしたほうが速いですか?
memcpyだと3GB/sec位しかでませんでした。
ちなみに、ベタでループで代入する方法で、-funroll-loopsオプションをつけたら、memcpyよりも高速でした。

これは、memcpyが1バイトごとにコピーしているのに対してベタなのはベクタデータでレジスタ沢山使ってコピーしているからですかね。
memcpy意外で、賢いやり方はありませんか?
DMAだと、レイテンシが馬鹿にならないので。
950デフォルトの名無しさん:2009/05/01(金) 11:58:47
ループ代入でコピーする方法では25.6GB/sec近くのコピー速度になるとは思いますが
それでも不満でしたらコピーしないですむ方法や同時計算を考えるしかないと思います。

どんな処理をするのかはわかりませんが
例えば、コピーした後何らかのデータ更新をするというなら
コピー元からロードして、更新したらコピー先にそのままストアするといった具合にです。
951デフォルトの名無しさん:2009/05/01(金) 23:54:28
>>950
ここで仰る25.6G/sというのはDMA転送のことなのでしょうか?
それとも、LS内部でのことでしょうか?

やりたいことは例えばベクタ配列A[1000]とB[1000]があって、
下記の様な処理を行いたいと考えています。
(DMA転送部分は簡略化しています。)
for(i=0;i<1000;i++){
DMAGET(A, MainMem_Addr+i*addr, 1000*sizeof(vector float));
for(j=0;j<1000;j++){
A[j] = A[j] + B[j];
}
B[0] = A[j-1];
memcpy(&B[1], &A[0], 999*sizeof(vector float));
DMAPUT(A, MainMem_Addr1+i*addr 1000*sizeof(vector float));
}

ここで、memcpyを行うよりもDMAの方が高速であればそれでよいのですが、
このような処理が各SPUで行うので、帯域が足りなくなり、そこがボトルネックになります。
極力DMA転送を減らしたいと思ってこのような方法を考えたのですが、
memcpyが思ったよりも速度がでないのでは、DMAでやった方がいいのですかね。

952デフォルトの名無しさん:2009/05/02(土) 08:24:52
Aと同じ大きさのバッファをもう一つ持ってダブルバッファリングして、
Bはなくしてしまえばいい。memcpyが不要になる。

vector float A[2][1000];
int idx = 0;
int offset = 0;

A[1](旧B)の初期化処理
for(i=0;i<1000;i++){
DMAGET(A[idx], MainMem_Addr+i*addr, 1000*sizeof(vector float));
vector float *temp_0 = A[idx];
vector float *temp_1 = A[idx^1][1000-offset];
for(j=0;j<offset;j++){
temp_0[j] = temp_0[j] + temp_1[j];
}
vector float *temp_2 = A[idx][offset];
vector float *temp_3 = A[idx^1][0];
for(j=0;j<1000-offset;j++){
temp_2[j] = temp_2[j] + temp_3[j];
}
DMAPUT(A[idx], MainMem_Addr1+i*addr 1000*sizeof(vector float));
idx ^= 1;
}
ちゃんと確認してないから間違いはあるかも。
トリプルバッファ使ったりすればDMA転送の時間も一部隠蔽できるけどね。(余裕があれば試してみればいい)
953デフォルトの名無しさん:2009/05/02(土) 08:28:22
>>952が難しければ16byte単位でコピーするmemcpyを自作して置き換えるだけでも少し早くなるよ。
LSに余裕があるなら、ここに特化した999のvector floatをループ無しでコピーする専用の処理を作るのもありだw
954,,・´∀`・,,)っ-○○○:2009/05/02(土) 09:54:23
「笑えよベジータ」←いまここ
955デフォルトの名無しさん:2009/05/02(土) 13:34:30
なにこの癒されbar
956デフォルトの名無しさん:2009/05/02(土) 14:57:48
/opt/cell/sdk/src/demos/FFT16M

の実行された方いますか。サイズを変えたりとか。
957デフォルトの名無しさん:2009/05/03(日) 01:38:02
DMAって同じLS内にかけられたっけ?
やったことないや。
EAにマップされてるから指定自体はできそう。
DMAかけるとそこは並列に動くのでパフォーマンスあがる可能性はあるかもね。
それよりまず>>951はダブルバッファからだけどw
958デフォルトの名無しさん:2009/05/03(日) 15:46:27
SPE で処理をさせている間に PPE でも処理をさせたいので
PPE で生成した子スレッドで spe_context_run() を呼び出そうと
思うのですが子スレッドがSPEの処理を待っている間は PPE のCPU時間
の半分を使ってしまうのでしょうか。
959デフォルトの名無しさん:2009/05/03(日) 16:05:32
スレッドはブロックされるとのことで CPU 時間はほぼ消費しないようですね。
おさわがせしました。
> リアルSCEIの人

インソムニアックがLarrabeeの調査してるみたいだね。
いろいろ勘繰りたいこともあるんだが、おまいら、本当にそれでいいのか?
961デフォルトの名無しさん:2009/05/04(月) 22:25:14
そりゃ調査させるくらい安いもんだろ
962デフォルトの名無しさん:2009/05/04(月) 22:59:42
LRBは使えないってことで結論でたよ
963,,・´∀`・,,)っ-○○○:2009/05/04(月) 23:22:08
残念、現在進行形
964,,・´∀`・,,)っ-○○○:2009/05/04(月) 23:31:27
産業で大胆仮説いっちゃうよ

インソが
ゲイツ(Xbox陣営)に
NTR
965デフォルトの名無しさん:2009/05/04(月) 23:36:22
そのLarrabeeですら現在進行形
まあ、幾つかベンチスコアでっちあげて
お蔵入りになるだろうね。Intelではよくあること。
966,,・´∀`・,,)っ-○○○:2009/05/04(月) 23:46:24
グランツーリスモ5のことですね。よくわかります。
967デフォルトの名無しさん:2009/05/04(月) 23:52:14
次世代XBOXのGPUは継続してAMDって話をきいたが
968,,・´∀`・,,)っ-○○○:2009/05/05(火) 00:21:54
誰に聞いたの?
君のおとうさんの知り合いのインターネットの会社の人?
969デフォルトの名無しさん:2009/05/05(火) 00:42:10
>>968
お前と同じくインターネットの情報だよ。
970,,・´∀`・,,)っ-○○○:2009/05/05(火) 00:59:39
>>960のソースは俺だぞ
検索しても出てこない
971MACオタ:2009/05/05(火) 01:49:59
>>970
ことの顛末は、コレ。
http://pc11.2ch.net/test/read.cgi/jisaku/1238152183/610-614
団子さんをイタい子と見るか、興味深い情報と見るかは自由かと…
972,,・´∀`・,,)っ-○○○:2009/05/05(火) 02:52:14
ついでだからここで君のループアンロールの知識を披露してくれ。
袋叩きにあうから
973デフォルトの名無しさん:2009/05/05(火) 03:34:31
>>952

>>951です。

ありがとうございます。
既にダブルバッファを使っていて、DMAがいっぱいいっぱいになってしまっていて、
SPUが遊んでいて、DMA帯域にを少しでも軽減できればLS内でのmemcpyと思っていました。

>idx ^=1

こんなやり方があったのですね。
idx = (idx+1)%2
とかやっていました。
974,,・´∀`・,,)っ〜[◎〈〈〈] :2009/05/05(火) 15:33:40
こいのぼりやさんだよ
975デフォルトの名無しさん:2009/05/05(火) 17:18:22
今日も団子さんのリファラオナニーが冴えてるな
976,,・´∀`・,,)っ〜[◎〈〈〈] :2009/05/05(火) 17:55:05
うるしあこいのぼりぶつけんぞ
977,,・´∀`・,,)っ〜[◎〈〈〈] :2009/05/07(木) 23:56:24
gatekeeper2.scei.jp

↑ねえこれ新しいサーバ?
978デフォルトの名無しさん:2009/05/08(金) 03:00:20
名乗ってるだけマシ
979デフォルトの名無しさん:2009/05/12(火) 21:22:31
団子さんを毛嫌いしている訳じゃないし、
実力のあるお方だとは思うけど、
その実力以上の口だけ者感は否めなかったなぁ〜

なんだかんだでスレは(前々からの事で)勿論、こないだのコンテストにも貢献してたと思うけど
980デフォルトの名無しさん:2009/05/12(火) 22:40:27
>>977
前からあります
981デフォルトの名無しさん
SPE から呼び出せるLAPACKとかがないとつかいにくいね。