並み居るプロセッサより高性能なCell搭載PS3がもうすぐ発売 と言う事はCellプログラミングでスパコンが家庭に
_, ,_ スパコーン
( ‘д‘)
⊂彡☆))Д´)←
>>1
4 :
デフォルトの名無しさん :2006/09/18(月) 15:01:42
_, ,_ スパコーン
( ‘д‘)
⊂彡☆))Д´)←
>>2
宣伝文句だけは凄かったが、結局PCの画質に劣るゲームしか存在しないPS2。 PS3でも同じ事を繰り返す。
PCに勝るゲーム機はない
かつての巨人IBMも関係してるから、スパコン事業は好調のようです。
ジャニーさん?
SACSIS 2007でCellプログラミングコンテストが予定されてます
中国企業に買収された I・B・M! I・B・M!
早くWindows・PCが対応しねぇかなぁ。
ええと、Cellは予測分岐を実装しないからPC用としてはゴキブリ並みなんだが。
15 :
デフォルトの名無しさん :2006/09/18(月) 19:02:57
ブランチフリープログラミングスキルの真価が問われる
ソニータイマーであぼんだろw
>>14 そのためにヒント命令があるんだろ。
ハードの負荷を減らすためにソフト面(特にコンパイラ)でカバーするのは
新規アーキテクチャでは結構基本となってると思うが。
ていうか、GKはあれだけPPCはカスとかこき下ろしてたのに、 Cellが発表されたとたん手のひら返したなw
実際にゲームが出れば、結局PCに及ばないというのが明確になるだろう。 最初の頃のソフトは性能が発揮できないというのを言い訳にするだろうけど、 発揮できる頃にはPCの性能はもっと上がっている。
>>14 静的分岐予測と、実行時に飛び先を動的に与えられるヒントがあるぞ
Win系プログラマにはCellは難し過ぎるのかな? 具体的肯定も否定も少ないですよねw
24 :
デフォルトの名無しさん :2006/09/19(火) 07:36:00
IBMもほったらかしにしてたと思いきやスパコンに使ってきたし 今後PC市場に投入されてもおかしくはないわな
IBMはスパコンに無理矢理Cellを使おうとして、 単体では無理がありすぎたからOpteronと併用する羽目に。
Cellはいじってるけどほんと駄目 具体的に言うと夢を見てる純粋なソニーファンボーイが落胆しちゃうから言わないけど
PS3単体買ってきて、実際 プログラム組んで演算サーバとして使えるのか それすら怪しい。 PCだとかなんとか言って結局 BruRayプレイヤー付きゲーム機なんだろ。
28 :
デフォルトの名無しさん :2006/09/19(火) 21:03:35
>>10 PC部門だけをRenovoに売り払っただけなのに買収されたことになってる
相変わらず脳みそ沸いてるなこの馬鹿固定
_, ,_ スパコーン
( ‘д‘)
⊂彡☆))Д´)←
>>1
30 :
デフォルトの名無しさん :2006/09/19(火) 22:15:11
Lenovoな 売却したのか逆に買収したのかよく分からん状態だが。
_, ,_ スパコーン
( ‘д‘)
⊂彡☆))Д´)←
>>1
>Broadband Engine 今となってはこのネーミングは恥ずかしいと思うがどうか
Cellでx86のエミュ作ってるんだろうな…
時代遅れの考えかもしれんが、 マルチプロセッサのデスクトップにCellOSまたはTron搭載したらどうなるかな。 日本独自文化を取り戻せるかねー。 まー、PPC(PPE)はいってるから無理か。
>30 多分、IBMが切ったのだと思うけど。根拠はない。 スパコンが主力なようだし、売れるうちに売ったって印象だなー。
>>26 どんな所で触れるんですか? もう見てないかな…
今のところゲームメーカーしかなさそうだけど・・・
40 :
デフォルトの名無しさん :2006/09/25(月) 17:12:11
41 :
デフォルトの名無しさん :2006/10/11(水) 12:16:40
ネタないの〜?
コンピュータとして売り出すとか言いつつ、何もしないんだもの。 年数回技術カンファレンス開くのとか、IntelやMSなら普通にやってること。 GK部門に金使うくらいならまともなことに使えと言いたい。
板違いの痛いやつが粘着してるスレ
ブレードサーバとしては既に出荷され始めてるだろ ロスアラモスの核実験シミュレーション用のスパコンにも使われる予定だし
PS3でSPUが1個死んでることになってるが、 分散コンピューティングでこの死んでる奴を流用する事になったら、 ソニーまたは、IBMは結構な処理能力を手に入れるんではないかと思う。 れっつぱらさいと。
46 :
デフォルトの名無しさん :2006/10/18(水) 04:04:10
http://www.terrasoftsolutions.com/news/2006/2006-10-17.shtml Under basic agreement with SCEI, Terra Soft was granted a unique opportunity to develop and bring
to market a complete Linux OS for the Sony PLAYSTATION 3. In development of Yellow Dog Linux v5.0,
Terra Soft integrated and enhanced code from Barcelona Supercomputing Center, Sony Group, and Fedora
in order to offer the following:
- kernel 2.6.16
- gcc 3.4.4 and glibc 2.4
- Cell SDK 1.1
- OpenOffice.org 2.0.2
- FireFox 1.5.0 and Thunderbird 1.5.0
- Nautilus 2.1.4
... and a suite of Personal Accessories, Development Tools; Sound & Video, Internet, and Networking applications.
こんな変体CPU使えるかwwww。
>>45 根本的にEIBの帯域が狭いんだろwww。
196bit*1.6Ghz*4ライン*11ポイントくらいだっけか。 メモリよりはSPE同士のが速いけども。
49 :
デフォルトの名無しさん :2006/10/19(木) 03:21:18
424 名前:名無しさん必死だな 投稿日:2006/10/18(水) 16:04:49 ID:nmUnDIac
ノーサポートならPS3のLinuxは無料だからな
1か月待てば無料版がダウンロードできる
http://ps3.ign.com/articles/739/739688p1.html Following the company's standard release system, v5.0 will be made available in a
three-phase product rollout. At launch, users of the company's YDL.net service
(which comes at a cost) will be able to download the OS to their computer and burn
a bootable disc for installation on the PlayStation 3. Two weeks later, the
company will offer ready-made installation discs for purchase through the site.
Two weeks after that, it will be made freely available on public mirrors.
In short, if you're willing to wait one month after the system's release, you'll
be able to download Linux for it for free.
そいつがOpenGL含んでないのが気になる。 グラフィックがSPEだと割とションボリなことになるだろう。
またMESAか? nVidiaがドライバ書いてくれるとは思えないなぁ。
PowerPC版のnvドライバってないの?
CellPCが発売されたとしても、OSはLinuxとかBeOSくらいしか動かないじゃん。
このスレって火星の中の人ばっかりでしょww? MIXIでもWebでも露骨だからわかりやすすぎ。
56 :
デフォルトの名無しさん :2006/12/04(月) 13:46:10
みんなWiiに夢中かwww
58 :
デフォルトの名無しさん :2006/12/04(月) 21:21:18
5星の目的ってなに? ・実はSCEの回し者 ・cellの将来性を本当に信じてる ・趣味が講じて ・ジャーゴンをまき散らしてIPOウマー
久多良木は会長就任で事実上経営から撤退。 SCEは売却されて終了だろ。 PS3の将来?んなもん最初からない。
60 :
デフォルトの名無しさん :2006/12/05(火) 00:10:53
基地外乙
62 :
デフォルトの名無しさん :2006/12/10(日) 15:07:04
Cellスピードチャレンジ2007課題発表キター 【課題】 【規定課題概要】 多数のデータの系列が入力として与えられたときに, これらをある順序にしたがって並び替える処理をソーティングと呼びます. Cellスピードチャレンジ2007の規定課題は「ソーティング」です. ソーティングでは,データに含まれる並べ替えのために参照される項目をキーと呼びます. このキーは単精度の浮動小数点数(C言語におけるfloat型)とします. また,キーの値が昇順(小さい値が前方,大きい値が後方になるような順序)になるようにデータを並び替えるものとします. たとえば,高校などの学籍名簿のn個のデータ系列(A1, A2, ..., An)を, 学籍番号順に(学籍番号をキーとして)並び替える処理を考えます. 各データAiは,学籍番号の他に,その番号を持つ学生名や入学年月日などの情報をもつかもしれません. ソーティングはこれらのAiを学籍番号の小さい順に並び替えるという処理です. 例題: 次に示す10個の浮動小数点数をキーとするデータ系列をソーティングせよ.(この例題ではキーの値のみを示していることに注意してください.) 34.5 10.2 76.9 68.0 99.3 27.4 93.4 70.0 23.8 57.4 答え: 10.2 23.8 27.4 34.5 57.4 68.0 70.0 76.9 93.4 99.3
63 :
デフォルトの名無しさん :2006/12/10(日) 15:49:06
このデータ数じゃ、CELLの必要性を感じないどころか、 1G個程度の要素の並列ソーティングぐらいにしないと 低レベル過ぎてこのコンテストの必要性も感じないな。 情報処理学会の研究会レベルだとすると、B4程度クラスなんだろうが。
例題、れいだい、レイダイ
float4つ分の比較・スワップならこんだけだろ?
vector float v0 = (* (vector float *)&v[0]);
vector float v1 = (* (vector float *)&v[4]);
vector int vmask = spu_gt(v0, v1);
vector float vmax = spu_sel(v0, v1, vmask);
vector float vmin = spu_sel(v1, v0, vmask);
10要素ならループすら要らんぞこれ。
>>63 流石になさ過ぎる
10個のは例題だっつの
もんもうwwww
×spu_gt ○spu_cmpgt つーか、10要素って8の倍数個じゃないから逆に困るけどな。 レイテンシ隠蔽しようがないから命令の選び方が問われるし。
ここはスーパーハッカーが自慢のテクニックを惜しげもなく披露するスレになりました
PowerPCスレへどうぞ。
71 :
デフォルトの名無しさん :2006/12/13(水) 05:23:36
SPE一個で浮動小数点計算をひたすらやらせるプログラム作って、 比較で4年前のxeon1CPU(2G)にも同じ演算やらせたんだけど… Xeonの方が4倍くらい早い。ただし時間の計測は、自分で計算にかかった秒数 を数えるという原始的なやりかたなんで、問題あるかもしれないけど。 (SPEの方はSIMD化は全くさせず、どちらもGCCで計算させた。) SPEひとつでも、Pen4より全然上だと聞いていたので(ただしSIMDをフル につかったとき)、4年前のxeonには負けんだろうと思っていたのだが。 これで手間かけてSIMD化してもXeon2Gととんとんだと思うと、むくわれんなあ。 もちろん、コアの個数だけまだ早くなるけど、苦労してかいて、 二桁演算スピードが上がるかどうか…。
>
>>65 なにこれC言語標準ライブラリにないものばっか
C++マスターの俺にさえなにやってんのかわからん
LSサイズ512KBでcell厨死亡wwww
事前に真偽両方の結果を計算しておく奇怪な分岐法でswitch厨死亡wwww
___attribute___(16)とつけるのが面倒くさくてスカラー厨死亡www
77 :
デフォルトの名無しさん :2006/12/13(水) 21:28:29
>76 情報ありがとう。 各種最適化は、できる範囲これからやってみようかとは思っているんだけど、 今回は、もっとも単純な状態で、ひとつのSPEのCPUとしての性能はどんなもんか というのをちょっとみてみたら、あれ?こんなもんかという結果だったということ。 だからSIMD化もしてないし、DMAもほとんどつかわず、ただ浮動小数点演算させただけ。 SPE単体の持つトランジスタ数は、Pen3ぐらいしかないというのをどっかで聞いて、 そんなんでも高性能なの?って疑問がすこしあったからっていうのと、あとただ単純に、 最適化をいきなりするのがしんどいので、なんもしてないだけです。
78 :
77 :2006/12/13(水) 21:39:31
ちなみにこれから、型をfloadからdoubleに変えたらどれだけ早さは変わるのか とか、簡単に試せるのでやってみようと思ってます。 たしかピーク性能10倍くらい下がるといわれていると思ったけど、それはdoubleだと SIMDのベクトルの要素数が半減して、同時実行できる命令数が半減するっていうのが、 おおきいとすると、今はSIMD使ってないのでそんなに性能落ちないのかな?と思って ます。 あとSIMD化もしようと思ってるんだけど、SIMDの算術命令に指数関数とか対数関数の 命令ってないのかなあ?誰か知ってたら教えてください。
>>72 俗に言うAltiVecってやつよ。
GCCでコンパイルできるよ。
>>79 AltiVecじゃなくてspuの組み込み関数じゃね?
演算基そのものが別物。
驚くべきことに倍精度ユニットは単精度より小さい。
パイプライン化されてないとか変換コストがかかるとか色々言われてるが、
ベクトル性能のスループットで単精度の1/10程度ならスカラでも1/5程度になることは覚悟した方がいいかも。
レイテンシも大きいからそのへんが響いてるかも。
>>74-75 あんまり扱いにくいもの作ってもPS3が自滅するだけなんだけどな。
国内サードはWiiやDSに逃げてるし。
でも新しいルールが取り入れられたCでプログラム組むのは良い頭の体操になりそう
vectorキーワードはもともとCodeWarriorがAltiVecのためにサポートしたもので 以後PPC系のSIMD拡張で標準的に使われるようになった。 あとはただのCPU独自の命令にほぼ一対一で対応する組み込み関数。 Intelだと__m128とかのSIMDレジスタ型があるけどあれと同じこと。 SPEにはスカラなユニットもレジスタもないから、スカラな演算はベクトルの最初の要素だけを使ったコードになる。 コンパイラ次第ではループ内で配列にアクセスするような演算や分岐を並列実行できるかもしれない。 まあ、極力は組み込み関数でベクトル化したほうがいい。 STLのvalarrayとかでラッパー作ってしまえばあとが楽かも。 つーか、ベクトル演算を駆使して分岐先のスカラ演算を両方同時に実行するとかはMMX/SSEでも使える テクニックではあるが、分岐予測にまかせたほうが性能が出るから推奨してないだけ。 逆に分岐予測すらない多段パイプラインだからそれに頼らざるを得ないんだSPEは。
ハッカー様 あなただけが便りです これからの活躍に期待しています 頑張ってください
>>85 何をどうやって欲しいんだよwwwwww
据え置きの需要自体がDSに大幅に食われたと思う。
PS3 Linuxでどうこうやってもさ、それに食らいつくのは同じようなマニアなわけで。
ゲーム機としては終わってると思ってる。
87 :
デフォルトの名無しさん :2006/12/15(金) 23:40:27
ちょっとCellプログミングしてみた感じ、普通のCで書いたソースをCell用に変えるのって、 そんなに大変ではないような気がする。OpenMPが並列計算の指示を既存のCのソースに書き加え る程度でできるように、「ここはSPEにやらせろ」とかもっと簡単にかけるシステムができそう。
NvidiaがGPUを開放してくれれば、まだ面白いことできそうなんだけどね。
SPEはおもに何に使われることになるんですか?
何も読まずにレスするが、CellってAltiVec使えるんだよな?
PPE自体はそうだが、SPEをフルに動かしたらPPEでSIMD演算なんてやってる余裕ないと思うぞ
>>88 今頃そんなこといってるようじゃ、やる気もなしに
適当に書き込んでるのがバレますよ。
93 :
77 :2006/12/16(土) 12:13:41
浮動小数点演算の計算時間を計測して、最適化一切なしで、SPE一基 ws Pen4 3.4Gをやってみました。 ともにGCC。すると、Pen4が25倍早い…。なんじゃあこりゃ! これはいくらなんでもおかしいと思いつつ、最適化オプションを-O3つけてみたところ、CellもPen4も約1.5倍 くらい早くなりました。 それにしてもSPEはこれじゃあ遅すぎるなあと思いながら、 「Cellでがんばってみた」をのぞいていたら、expはexpfにしないと float型として計算されないというのを目撃。 さっそくexpfに変更するとずいぶん早くなって、Pen4との差は約9倍にまで縮まった。 SIMDも一部だけ試してみたところ、4倍相当はやくなったので、全体にSIMDを使えば、 Pen4 の半分くらいまでの早さに迫れそうな予感。 「Cellでがん〜」も最終的にSPE一基でアスロン2/3くらいの早さになっている ので、こんなもんかもしれない。 しっかし、Pen4にインテルコンパイラ使ったら、ぐっと差が広がりそう…。むなしい…。
しかしまあ、それが8個搭載されてるんだから、理論上データが増えれば増えるほどPen4を凌ぐことになるですか?
完全にSIMD化・パラレル化出来る処理で200GFlopsとかさ どんだけ特殊環境ですか SPU組み込み関数とか使って明示的にベクトル化すれば多少性能良くなるかも。 まあPen4でも同じなんだけど。
たしかねー、SPUは分岐予測をハードで持ってないから、 簡単にクリティカルなミスをおかすんじゃないかなー。 癖をつかんでやっとこLV1ってとこかも。。。
なんでPen4でプログラムしないの?
スレがそうだから? っていうかそれってリンドバーグの事?
99 :
77 :2006/12/17(日) 03:28:25
>97 もうある程度やって、あまりみこみがないならCellプログラミングはやめ ようと思っているところ。プレステ3せっかく買ったのにもったいねー。
東芝が募集してるプログラムに応募でもしてみたら? 同等性能をPen4で出せたら、Cellイラネに同意しよう。
>>99 もし出せるようなら、ためしに組んでみた奴うp希望。
Pen4なら厳しいがCore 2 Duoなら余裕で勝てそうな勢いではあるな。 ゲームハードなんて5〜6年はスペック固定だしな。
103 :
デフォルトの名無しさん :2006/12/17(日) 14:56:19
cell SDK2.0 kitakita
ゲームハードなんてずっとスペック固定だよ
修理星のやつはできればコテつけれ。 誰が書き込んでるのか特徴があるので つけなくてもわからなくは無いけど万度草。
>>77 の人は諦めた?
今Linux板の方に、マンデルブロ集合書いてみたって人がいるよ。
67 :login:Penguin:2006/12/18(月) 13:54:57 ID:mz3eZPDt
ホビーで軽くC#で書いたのとSPEを使って軽く本気で書いたのとでは雲泥の差があるね。。。
マンデルブロ集合(解像度 = 2048x2048, 繰り返し = 1024回, 途中での発散判定無し) を描くプログラムを
1. C# / Windows (デュアルコア用にSystem.Threading使用)
2. C++ / PS3 (SPE6個を使って軽く最適化)
で、HDDに書き出す/ビットマップに変換する時間抜きで判定してみた。
1. 02:02:08.36
2. 00:00:02.11
…えーと、クロック(PC環境 == Pentium Dの2.66GHzのタイプ)を合わせても2887倍ですか…
なんかSSE2辺りで本気で比較したくなってきた。
107 :
77 :2006/12/19(火) 06:34:14
まだあきらめてませんぞw その後Cellの方のプログラムをSIMD化してみたんだけど、すんげはやくなった。 Pen4が4秒かかる計算がCellでは20秒。 ただしCellはSIMD化してるので、演算量は4倍。だからspe一基でPen4にほぼ匹敵。 普通の算術演算子でコードするより、SIMD用の関数でコードするほうが全然早いよう。 ベクトル演算だから4倍早いっていう意味じゃなくて。 a+bよりspu_add(a,b)のほうが断然レイテンシが小さいようだということ。 でもちゃんとクロック単位で計測とかしたわけじゃないんでわからんが。
>>107 アセンブラに抵抗が無いなら、gccの吐くコードの差を見てみれば?
a+bにかなりの無駄なコードが混入されてるのかも。
>>106 間違えなくトップガンです。
世界最初のトップガンとして認定しました。
おめでとうございます
110 :
デフォルトの名無しさん :2006/12/19(火) 21:29:38
>>109 そのトップガン君は
【SPE】PS3 Linux Part 4【YDL】 スレにいるよ。
相手がC#だからだと思うがwwwwwwwwww
>>112 C++でしかも、SSE2アセンブリで書き直したバージョンでもこうらしいよ。
78 :67:2006/12/19(火) 08:34:31 ID:7kKm0jbR
(
>>76 続き)
PC : Pentium D 930 (2.66GHz) / 2GB Memory
このとき、結果がこんな感じだった。
PS3 : 1.87sec
PC : 57.32sec
比率(速度比のみ) = 30.65 : 1
比率(同クロック) = 25.48 : 1
ってとこか。結構速いねぇ。
# つーかC#が遅すぎる訳だが。
>>113 ソース読むまでは何とも言えんな。。。
NetBurstも結構コツが要るし。
まあPenDじゃCellの浮動小数のスループットには及ばないかもしれないが。
LSの空きメモリってどこで調べるの? もしくはロードしたプログラムのサイズが得られればおおよその空きが分るんだけど
プログラムコードのサイズなんて コンパイル時点でわかるだろ しかも1命令4バイト固定だし
オブジェクトのサイズで見積もってるけどね。 実行バイナリは300KBもある罠。
heapサイズ取得とかは?
Cellスレとは思えないぐらいレベルが高い さすがトップガンの本物の実力を見たぜ
>62 規定課題には学生しか参加できないんだな。 そんな制限要らないと思うがなー
SPEって7〜8個あるのに6つしか使えないんだな
SPEは8個搭載します ↓ 実際に動くのは7個だけです ↓ 使えるのは6個だけです ↓ ('A`) ドラクエ発表以降店頭在庫がちらほらとか ところで、中国が買いあさってるって、別の意味でヤバくね?
とりあえずPS3はダウンロード位別スレッドでやるべきだと思うんだよ
もう転売には適さないPS3だからNDS辺りに移動するんじゃね? つーかCellの話に絞ってくれ。買い占め論はゲハでやれ。
ヒント:北朝鮮はアレはもう自滅を待つだけだが中共はヤバイよ つーか、個人で使えるCellマシンが実質PS3一択だし。 そりゃ100万とか200万とかかければもっとメモリとか載るだろうけど。
>>127 キミが言いたいことは、たぶんキミより分かってるが
ゲハか政治でやってきてくれ。
中共ネタでなく、技術ネタのスレだ。
Cellの技術論やプログラミングの話以外は見たくない。
LSからのロードがレイテンシ6、ビット論理演算ですら2なんだけど、コンパイラの最適化MAXでどんくらいアンロールするもんなの?
サンプルコードくれれば試す
エンディアンが違うからか結果が異なるけどいいか?
エンディアンの違いが出るような処理だったっけ? むしろIntelインラインアセンブラ要求するところがあるのが気になったが
アセンブリは時間計測とかだから即移植出来た。 それより、SPE向けにコンパイルしたら .bss exceeds local store range とかいいやがんの。んなでかくねーって。
>>124 別におかしくは無い。SPE7のうち1つはOSが使う物。
単にユーザーからは直接触れないってだけ。
逆に言うとOSは1つしか使えないの? それともマスターがひとつ?
ハイパーバイザだよ。 7つのx86があって1つはVMWareが使ってデバイスをエミュレートして 中の人に6つのx86をそのまま見せてる、みたいなイメージ。
【SPE】PS3 Linux Part 4【YDL】
120 :67:2006/12/21(木) 20:37:59 ID:IJtDThab
ん〜変化が無いのは寂しいねぇ。
というわけで燃料投下。
中身はSPEプログラミングをちょっと楽にする
(適当に作った)ライブラリ/フレームワークです。
サンプル1個しかないけど…
http://n-exp.com/dl/libspem-0.0.1.tar.gz この程度のライブラリでも面倒なモノはかなり吸収できてると思うんだ。
宣伝乙 問題はせっかく苦労して作っても 誰も使わない、使えない、評価できない、事だ まさに豚に真珠、ぬかに釘、PGにCell、だ
俺は評価したぞ。 自分の持っている物より目新しいものは無かったからスルーしたが、今後に期待はしてる。
新しいことをやろうとしてる人を
>>139 みたいに言ってるのを見ると、
プログラムが好きな人間だったら貶めないと思うけどな。
未踏の地は踏みたくなるのが人間らしいと思う。
>>139 2chの二大嫌われ派閥の一つゲハ厨乙。
全部C++でラップしてしまってもいいんじゃまいかと思った。
>>139 自体煽りだからな。そう言う目で見れば脳内フィルター張れんだけど。
123 :67 :2006/12/22(金) 05:32:29 ID:C7rpnh+2 ベンチマークの方だけど、かなり間違いをやってたみたいで、現在のところ 最適化しなおしたSSE2 : 4.36秒 CELL版(ジョブスケジューリングあり) : 1.19秒 クロック当たり = 1 : 3.046 って感じ。分岐が思ったよりも負荷になってる感じかも。
オレ的には東芝のコンテストが気になり。
>>142 もう1つはなんだろ。
最悪板の1つがゲハなのは確実だけど。
ゲハとVIPと東亜&ハングル 他の板に街宣するからな。
手元に Cell マシンが無いので試してないのだけど、 -fprofile-arcsや-fbranch-probabilitiesって実装されてる? あるなら、プロファイルによるブランチヒントの挿入とかやってくれるかも。 動的な分岐予測を持ってないPPE/SPEにとってはありがたいと思うのだが。
LLVMとか
gcc3系列のプロファイルってRTLベースだからあんまりたいしたことやってない
それにヒントの挿入はやってない
154 :
デフォルトの名無しさん :2006/12/28(木) 10:53:32
PPEだけだと遅いってよく言われてるけど、実際自分で組んでみると速いな。 メモリ帯域が速いからかな? ネットの情報を鵜呑みにせず自分の目で確かめた方がいいとおもた。 悪意のあるやつは「本当っぽいウソ」を書くからなあ。 なぜかそういう奴ほど検索で上位に来たりするんだよね。組織的にやってんのかな。
遅いと聞いてたから速いと思うんだろう。遅いと言ってる連中も同様に期待してたからだろう。 EE の時だって初めのうちは遅いと言われてた。 そのうちみんなコツをつかむさ。
確かに、速いとか遅いとか、具体的な数字を出さないのはイカンよね。
157 :
130 :2006/12/30(土) 15:13:49
>>131 set_cache_stateを省略したらリンク出来た。
ただし
>>132 で言った通りエラーが起きている。
PPE:
testing the Sarwate algorithm..............................passed
testing the slicing by 8 over 64 bit algorithm.............error
passed
Slicing by 8 Algorithm (cycles/byte), 5.976562
CRC calculation error
Sarwate Algorithm: (cycles/byte), 18.777344
SPE:
testing the Sarwate algorithm..............................passed
testing the slicing by 8 over 64 bit algorithm.............error
passed
Slicing by 8 Algorithm (cycles/byte), 5.996093
CRC calculation error
Sarwate Algorithm: (cycles/byte), 22.332029
>461 名無しさん必死だな sage New! 2007/01/07(日) 14:50:51 ID:oNdJEXRL >SPEで、あるタスクを実行しながらDMAで次に実行するタスクのプログラムとデータを読み込み、遅延なくそれを繰り返すっていうことできるのかな? こういう書き込みがあったんだが、案外簡単に作れそうな気がする。 1: SPEに流し込む為のバイナリ生成方法を確立 2: タスクを読み込むDMA部分を書いてSPEバイナリに入れる 処理が有限の小さなタスクを順次DMAで読み込んで実行する事が出来るな。 ちょっと面白い事が出来るかも。 問題は1だが、elfspeか何かのソースを読めばいけるのかね。
なにこの復活の呪文みたいな意味不明な専門用語の羅列
メモリ配分も解決しないといけないか。 現在のタスクが処理中のメモリと、DMAで読み込む次のタスクのメモリをどうするか。 メモリを半分に分割して、バイナリはPICにすべきか。
>>159 固定アドレス用に作ってstrip したモノが一番手っ取り早いと思う。
可変にするとなると結構面倒。
固定アドレスにしてしまうと、現タスク処理中に、 次のタスクを読み込むのに支障がでないかい?
>>163 elfspeは参考にならなかったハズ…だし、
他のプログラムの実行中にELFをロードするメソッドもなかったはずだし、
そういう支障を来たさないためには、
・ ロードするアドレスに応じて(2つ以上の)バイナリを作っておく
・ 可変アドレスのためにダイナミックに(しかも手動で)ロードする (カーネルがやってるのと同じこと)
のいずれかが必要。
>>164 プログラムを差し替えたいなら SPU Overlay を使えば?
John the Ripperを移植しようかと思ってる俺
PS3買ったの?シミュ?
シミュ。 ってよりLinux嫌いなので Excelでレイテンシ計算しながらコード書いてる。 そのLinux環境すらVPC
>>168 odd/even のパイプライン管理と 128個のレジスタ管理に Excel は必要だよな。
レジスタは結局いくつあっても足りねえ。
60GBが最安55000円くらいまで来たのでもうじき買い頃 てかHDDなしで\39,800希望 ノート用のHDDちょうど余ってるから
よし!一からDMAの勉強をするぞ!
LSとLSのDMAをやるぞ!
ふむふむ、SPEのLSのアドレスは32bitの実行アドレスとしてあらわされるんだな! 実行アドレス?まあいいか。
他のSPEのLSにDMAするには、その32bitの実行アドレスのLSへのポインタがいるのだな!
そうか、だからDMAの前にmailで通信するのだな。
spu_writechは、SPU チャネルにデータを書き込む関数か。 MFC_WrTagMaskっていうチャネルがあるのかな?そうっぽいずら。
spu_read_in_mboxっていうのは、着てるメールを受け取るのね。眠い。また明日。
今日はちょっとDMAから離れて、条件分岐をif文無しでやる方法を学んだ。
x86でも効果あるし、実際使われてるよ。リンク先読んでないけど。 100を使うか200を使うかみたいのはコンパイラが値の差分でやるし、 aかbかみたいのもコンパイラオプションで強制すればcmovを使う。 でも効果があるのは予測出来なくてかつ超単純な演算に限られるから、 コンパイラが自動で行う事はあまり出来ない。 予測出来る場合は予測分岐でペナルティを無くせるし、 式が長いと両方計算するのは無駄。 ってことで、そこまで追いつめられる程の技量のあるプログラマは 当然各自意識してプログラミングする事になる。 ただ実際にはそこを考える前にアルゴリズムを見直す方が 何倍も何十倍も効果がある。
>184 すごく詳しく教えてくれてありがとう! 最後の部分だけど確かに条件分岐を減らしてみても、今の自分がやってる計算では 速度にほとんど影響なかった。普通にif文使わないのが面白かったのでやってみたけど こだわって書いた割にはあまり甲斐がなかったなあ。 だから本当に速度出そうと思ったらプロファイルをやることが必要だなあと実感。 プロファイルの仕方もぼちぼちやっていこう!
条件分岐を減らすためにややこしくなったり、
プログラムサイズが増えて、キャッシュを圧迫なんて事もあるしな。
もしチューニングにこだわったプログラムを書きたくなったら、
Grate Code Vol.2を読むべし。まぁ
>>184 の言う通り、
アルゴリズムを見直したりするのが先だろうけど。
1. アルゴリズム&データ構造 ← データ構造を忘れない 2. 急所を探してそこだけチューニング 2.1 インラインとかマクロとか 2.2 intrinsicを利用 2.2 アセンブラを使う キャッシュ&パイプラインを意識する&レジスタをうまく使う 間違ってもプログラム全体をチューニングしたりしない様に
うおー、みんなありがとう。このスレはなんかいい人ばっかだなあ。 チューニングとかって、具体的にどうやればいいかってcellで初体験 だから、わからないことが多くて、でも面白いね。 例えばパイプラインを意識したチューニングとか具体的にどうすれば いいのかまだわかってないんだよね。speはアウトオブオーダーがない から、それを意識しろとかね。とりあえず、本は入手してみるよ!
IA-32のMMXやSSEでもマスク生成命令あるけど、プレディケーションのためじゃない。 なぜなら普通に分岐予測ハードに頼った方がよっぽど効率がいいから。
190 :
sage :2007/01/24(水) 10:25:56
SPEとSPEとの間でDMAってできる?
自SPEと他SPEならできる。 まだ試してないから嘘言ってたらすまん。
ちょっとずつだけど勉強してくぞ! spu_read_in_mbox とにかく来たメールを読み込むのね。
spu_mfcdma32 spu_mfcstat たいていこの二つは組でつかわれているんだよなあ。spu_mfcstatは転送を 待つか待たないかってことかな。このブロックのタイプをどう選ぶかが ものによって重要な予感…。
spu_mfcdma32 spu_mfcstat たいていこの二つは組でつかわれているんだよなあ。spu_mfcstatは転送を 待つか待たないかってことかな。このブロックのタイプをどう選ぶかが ものによって重要な予感…。
spe_get_ls でLSのアドレスを取得できるみたいだね。
196と198の2つのSPEーSPE間のDMA転送をみて、ようやくわかってきた。 198のほうは、PPEとSPEがメール通知をしながら転送に必要な情報を取得しつつ、 SPE間のDMA転送をしている。 196のほうは、PPEであらかじめDMAに必要な情報を取得してしまって、それを 各SPEに先に送って、後はSPEにやらせるという感じかな(?)。 一回プログラムが始まったら、SPEで勝手にやってもらうというのが自分の 理想なので、196のほうを本格的にみていこうかな。ちょっとこっちは長いんだけどね。
200 :
デフォルトの名無しさん :2007/01/31(水) 04:53:02
1台辺り3万円以上の赤字って言われてるからコスト削っても値下げはないな。
店頭レベルでなら現状4万切るところも出てるが
めも:うんどーずのeclipse+CDTでPS3に接続 ビルド:sambaでマウント。ssh/rshでホストベース認証(ssh-agentとかでも可?)、ビルドのコマンドにssh/rsh デバッグ:新し目のgdbのソース(cygwinのパッケージのはだめ)をビルド、--target=powerpc64-ps3-linuxとか。ホストでgdbserver
LS間のdmaのレイテンシは、約100ns。core 2 duoのコア間はL2キャッシュ 介するならその10分の1…。 LS間のdmaでは、データは一回メインメモリにマップされて、それからdmaされるようだ。 なんで直でLS間で通信できないんだろうか。せっかくリングバスでつながっているのに。 たぶんメールのやりとりはできるんけど。 LS間の直の転送って自分が知らないだけでできるんだろうか?
204の疑問から、SPE間のデータ転送は、PPEを介して(結局メインメモリを介して) やってもかわんないなあと今思っとります。データの転送量でいえばむしろへるし。 というのは、全SPE(6個)に全SPEと通信させたとして、6×6=36の通信が発生するのに対して、 全SPE→PPE→全SPEなら6(全SPE→PPE)+6(全SPE→PPE)=12の通信ですむから。 うーん、やっぱマルチコアは通信のことを考えるのがやっかいだ〜。
なんのこっちゃ?
>>205 Broadcastやりたいならpoint-to-pointは検討する迄もないだろ
>>204 LS間のDMAは、直に行っているぞ。
それから、PPE<->SPE より SPE<->SPEの方が高速。
SPE<->SPEは片方向の場合、理論値25.6GB/sに近い速度がでる。
実はにゅーらるねっとをCellでやろうと思ってます。 ちょっと特殊な用途を勝手に想定していたんで皆さん混乱させたかも。 ごめんなさい。 以下興味のあるひとは読んでみて下さい。 にゅーらるねっとはユニットが連絡しあうことで情報処理を行います。 Cellでやる場合、このユニットをSPEに振り分けて計算させるのがいいと思います。 ユニット同士の連絡のデータ量というのは、画像とか音楽のエンコードに比べると 、全然少ないと思うんですけど、連絡は常にしないといけないのです。 そうすると、リングバスの広い帯域で大容量データ転送というより、SPE間で レイテンシの少ないこまごました通信をしたいということになるわけです。
ニューロン6個ってことは無いだろうから ユニット一個に数百個のニューロンが含まれるとすると 256KBのLSではかなり辛くない? それはさておき 一塊を複数のSPEで処理するのは(完全結合だと)通信が多過ぎて無理っぽい もし多層モデルなら各層をSPEに割り当ててパイプライン的に処理した方が速かろう いずれにせよ通信量が減る構成or構造を考えないとそっちがネックになるべ?
>> 209 真面目にやる気がある人みたいなんで 漏れが知ってる限りのことは教えてやろう >ls-lsのDMAはメインメモリにマップされて、転送というのしかみたことがないのです。 メインメモリにマップされるってのは嘘だ。正しくは、実効アドレス空間にマップ、だな。 実体がメインメモリにあるんじゃない。メモリマップドI/Oみたいなもんよ。 まああれだ。IBMの記事とかにもたまに怪しいのがあるぐらいなんだから、 そーゆー怪しい所の記事をうのみにするのは、、、な。 で、問題のレイテンシだが、元々リングバスなんて帯域は広くても レイテンシには弱いはずだな。それにSPEの物理的な距離の差でも レイテンシは変わるはずなんじゃないか? 測ったことはないが。 あとちなみに、DMAだと128バイトってマジックナンバーがあるから それに合わせた設計すると、転送量に気持ち余裕ができるぞ。
MMIOってのが解ってないんじゃ? ぶっちゃけた言い方すれば、EAにマップされたSPU1のLSがあって、 SPU2がそのアドレスにDMA転送かけるってのは、(メインメモリは関係無く) SPU1のLSに対する読み書きをするって事。 転送先のアドレスがメインのDRAMなりVRAMなり他のデバイスのメモリなりレジスタにマップされてれば、それぞれへの読み書きになる。 所で実際にニューロン1つにプロセッサ1個必要なら、EIBより外部バス(PS3ならGbEとか?)の方が問題になりそうな。知らんけど。
>211
まだ最終的にいくつユニットをつかうとか決めてないんだけど、
なるべく多くのユニットでやって見たいなと思ってます。LSの容量の問題があるけど、
ユニット自身の計算している間に、DMAで次のユニットのデータをロード
するような仕組みでいけば、LSの問題は一応解消できるかなと思ってます。
面倒くさそうだけど…。
>>212 、213
私、はずかしながらMMIOというものをわかっていませんでした。了解です。
PS3でクラスタ組むということもちょっと考えているんだけど、たぶんGbE
のレイテンシ(10μsオーダー?)なら、そこそこいけると思ってます。
とりあえず1台でできたら、次にやろうかな。きっとその頃にはPS3も安くなってるでしょう…。
215 :
209 :2007/02/09(金) 03:40:26
あ、名前らん間違ってた
なにこのスパイの暗号みたいなスレ
>ユニット自身の計算している間に、DMAで次のユニットのデータをロード >するような仕組みでいけば、LSの問題は一応解消できるかなと思ってます。 俺もこれやりたい。 libspe2には一応オーバレイの仕組みもあるけど、 そういうことをDMA使って自分でやりたいんだよね。 自分で組めばオーバレイのダブルバッファリングができるはずなので。 でもリンカのスクリプトとかわけわからんwwww どっかに資料ないかなあ・・・
>>214 がやりたかったのは多分そういう単純な
バッファリング(ダブルである必要は無いが)だろうな。
>>217 はテキスト、つまりプログラム断片を動的に読み込みたいんだろ。
グローバル変数とかが要らないんだったら、テキストセグメントの
アドレス指定してELFつくればなんとかなるんじゃね?
つか、libspe2にそんな機能あるの? リファレンスには載って
なかったような気がするが
オーバーレイなんて百害とまではいかないが一利ないよ。
>>219 CBE SDK2.0のISOイメージの中にあるpdfの、
cpbprg00.pdf (Software Development Kit 2.0 Programmer's Guide Version 1.0)
これの4章に説明があるよ。
IBMのサンプルコードにもoverlayっていうのがある。
一応テストしてみたけど、それなりに高価なのでループの中の関数には使えないな。(当然か)
ゲームループの中で数十回タスク切り替えする程度なら十分使えそうだけど。
>>220 分散メモリ環境だと
データ常駐,コード取っ替え引っ換え
コード常駐,データ取っ替え引っ換え
のどちらかでやるのが速そう
コード&データを取っ替え引っ換えってのもあるけど
使用頻度多い方を常駐させればよいと思いますよ。 動的に変更できるように設計しましょう。
使用頻度とサイズの両方考えた方がベターなような だとすると大抵はデータ常駐になるか
225 :
209 :2007/02/11(日) 22:14:11
引き続きLS間のDMAを試しております。 DMA転送をさせるられるようになってきたけど、まだいろいろ苦闘しております。 なんでかというと、SPE間の同期をとりつつうまく転送するというのが 簡単そうでなかなか難しい。 やっていて感じたのが、個々のSPEの演算の進み具合はかなりバラけるよう。 先入観で、きっと大して同期とらなくてもおんなじ演算させてりゃ勝手にあ うだろうと思ってたら、甘かった。
226 :
209 :2007/02/11(日) 22:21:11
あとDMA転送するデータ量がそんなに多くない場合、DMA転送のバックで 計算させて時間を稼ごう(レイテンシを隠蔽しよう)とかしても、ほとんど 演算時間の短縮に効果がないということが少しづつ判明して参りました。 100ns前後の遅延は、10の7乗回積み重なってやっと1秒だし。 将来、ネットワークを大きくしたときトラフィックが膨大に増える 可能性があるので、本格的な最適化はそのときにしようと思っとります。
サンプルコードやライブラリ等を集めたHPでも、誰か作らんの? 俺は、そもそもPS3買う予定もない人間なんだが。
PS3買ってきたけどFedoraとYDLどっちがいい?
YDLの利点はLANの設定がほとんど要らないなのとLibspe辺りが始めから入ってる位 Linux慣れてるならFedoraを薦める 詳しくはLinux板見るベシ
Yaneurao Dynamiclink Library
231 :
デフォルトの名無しさん :2007/02/12(月) 13:34:54
>230 ハァ?
YDL落とした。 こんがり焼けました。
PS3が焼けたのか?w
VH
ミスった S端子接続って画質よくなる? アプコン使ってVGAに接続してるんだけど。 ちなみにHDMI対応ディスプレイなんてものはうちにはない。 まあ普段はtelnetで十分ですよね
sshで十分
VNCで
sshに一票。 ただしビデオ叩くのはちゃんとディスプレイからログインしないと駄目。
239 :
209 :2007/02/13(火) 06:07:50
LS間のDMAのデータ転送がようやくできてきた。 もうバスエラーが出まくって、なんで?なんで?って大変だったです。 データ転送する前にSPE間で同期をとる必要があって、そんなことは やったことがないのでとりあえず適当にやってみるが、ちょっとでも 穴があると、みんな勝って気ままにどっかへいってしまう。 幼稚園児を整列させるようです。 DMAのありのと無しの計算からレイテンシを見積もると、約15ns。 おー、早いなあ。 ただ、SPEの数を3、4…と増やしていくと、計算時間は、レイテンシ以上に 増加していく。 原因ははっきり調べてないけど、同期に時間がかかっているんだろう。
240 :
209 :2007/02/13(火) 06:13:48
まだまだ同期や通信のレイテンシを減らすことはできそうだけど、 トータルの計算時間中の通信時間がいまでも十分小さいので、とりあえず これでよしとしよう。わーい。
>ただ、SPEの数を3、4…と増やしていくと、計算時間は、レイテンシ以上に 増加していく。 リングバスの(衝突/混雑の)せいじゃなく?
>>240 おめ&がんがれ、応援してるぞ
徹夜のようだが無理すんなよ
243 :
209 :2007/02/13(火) 17:18:31
>>241 SPEが4個の時、DMAキューは最大12なんだけど、リングバスの最大DMAキューと
同じだから、多分4つまでは飽和しないと思うんだ。でも、2、3、4…と増やすにつれ
レイテンシはだんだん増加するから多分同期のせいだと思うんだ。調べられたら
調べてみます。
>>242 あんた体まで心配してくれるなんてなんていい人なんだ!
ちなみに早起きしただけだから、大丈夫だよ!
圧縮機能つきDMACをSPE使って誰か作ってくれ
Cellの開発費削減だってね。
>>246 まぁ45nmはなかなか厳しいので正しい判断ではあるよな。
開発費ではなく製造ラインへの投資だろ。
45nmに限らず、プロセスルール競争はIntel帝国対IBM連合に台湾だからね。 投資効率考えたら当然ではあるんだが、日本の景気が良いうちにソニーにかぎらず ここら辺の先端技術でリードできる立場になっておいて欲しい所。
とりあえずはIBM連合あたりに任せればいいんじゃないかな。
251 :
209 :2007/02/15(木) 22:04:53
IBMはPower6とは別に、Intelのメニーコアへの対抗として、 CELLをつづけてくれればいいんだけどなあ。 まあIntelのやつはもともとCELLに触発された部分が大きいのかも知れないけれど これからこのCPUは先細りするといわれるとプログラムのやる気がちょっとダウンするなあ。 。
もっと前から作ってんだろw
45nmについてはIntelもIBMも2年以上前から言ってたけどねぇ
IBMはeDRAM発表したね Inteも欲してる技術じゃなかろうか
>>251 どんどん先細るよ。45nmの次が32nmくらい(プ
それでも今後三年間?で3000億円規模の半導体投資なわけだから、 カスタムやマイナーチェンジなんかも楽勝では。 いままでは65nm工場開発と、Cellの研究開発で5000億でしょ? その二つ得た今となっては45nm研究しない分物凄い潤沢資金なはずだが。 あとIntelの奴はそれこそ専用用途にしかつかえないっぽいが。
CISCもこれからはRISCだからと謂われていたけれど復活したじゃん。 メニーもヘテロも本格的には出て来たばかりでどちらがなんてまだ分からないと思うけど。
259 :
209 :2007/02/17(土) 00:02:39
倍精度強化かつメモリ強化(3倍容量)のCELLとか、でても すんげーたかいんだろうなあ…。 たとえば、65nmのcore 2 quadのXeonなら 倍精度50Gで、たぶん30-40万くらいで買えるでしょ。 強化型CELLは倍精度100Gflopsで100万じゃかえんだろうなあ…。 PS3に乗るわけないしなあ。
Blue/Gene買うやつはいないっていいたいの?w
今のcellでも1個で倍精度20Gflopsあるのにね。
>>259 =209
なぜそんなに高くなると思うの?
PCベースのワークステーションより数が出ないぶん部品は高い。 何が高いって、XDRメモリが高い。 数が出ない云々以前に、RAMBUS利権もあるし。 メモリコントローラがオンダイでXDR-DRAMきめうちだから、FB-DIMMなんかは無理。
現状でもCellの先にSDRAM繋がってるワークステーションあるのにねぇ。
ダイレクトに接続できたっけ? CellアクセラレータボードがXDR 1GB(ダイレクト)+DDR2 4GB(I/Oコントローラ経由) だった気が。
まぁそもそもXDRとかFB-DIMMじゃないと帯域が足りないと思われ。
267 :
209 :2007/02/17(土) 20:54:38
>>262 90nmのIBMCELLサーバーでも200万位するでしょ。それがさらに量産効果が
でにくそうな倍精度強化版CELLじゃあもっと価格がはね上がりそうな気が…。
あとメモリも高いんすね。
100Gflops欲しかったら、PS3を5台買えばいいか。20万くらいだしね。
単精度なら約1Tflops!
ハード以外のコストを考えなくていい次元に住んでるなら その方がいいと思われ。
269 :
262 :2007/02/18(日) 01:59:35
あ,でるかどうかも分からないメモリ強化版のCellの話なのに 高くなると推定するのが不思議だったんで訊いたんだわ つまり周りがどうなるかの見当が付いているのかな?と 今のCellの単なる倍精度版なら今と同程度かちょっと高い位になると 考えるのが当然だけど
何が当然なんだか
271 :
269 :2007/02/18(日) 02:12:09
さてそれでそのPC3で組んだ高性能マシンを何につかっているのかね?
>>267 出血サービスのPSというかたち以外でCellが庶民の手の届く価格で
販売されることはないというのが普通の考え方だよね。
65nmは倍精度強化版onlyみたいなことになると楽しいんだけど。
C2Dの2.5GHzで20Gflopsあるのに、わざわざPS3でクラスタ組もう
とする貴方はとってもマゾヒスト。
274 :
209 :2007/02/18(日) 14:19:24
>>272 ,273
趣味でCELLで大規模な科学技術計算やってみたいなあと思ってんだけど、
冷静にCELLとcore 2で価格と手間を天秤にかけると、微妙なんだよね。
去年は、CELLに対して脳内にかなりお花畑が広がってたんで、何も疑問も持たず
CELLのプログラミングとか勉強してたんだけど、最近のcore 2の性能とシュリンクの
進み具合を見ていると、天秤が今水平に近づいている感じ。
それでもやろうっていうのは、CELLはやっぱいじってると面白いというのと
まだLSの構造にわずかに可能性を感じているというのが理由。あとは手軽に扱える値段かな。
275 :
209 :2007/02/18(日) 14:35:10
CELLいじるまで細かいレイテンシなんか気にしたことなかったから、 それをいろんなCPUと比べたり、プログラミングに反映させたりするのが すごく面白かったし勉強になった。 で、いじってみた結果、用途によって、CELLは向き不向きが激しいことがわかってきた。 倍精度ではCore2と価格性能比が倍くらいしか違わない。
276 :
デフォルトの名無しさん :2007/02/18(日) 16:24:51
某板よりコピペ 多数のオブジェクトの衝突判定を並列化する方法 移動後の座標をボクセルに振り分ける。 1つのボクセル内に存在するキャラを総当たりで衝突判定。 処理の順序としては、移動、振り分け、衝突判定、衝突処理。 これで処理を並列化できる。 もう少し詳しく言えば、衝突判定をしやすくするために、 ボクセルに振り分ける時点で座標値などをボクセルごとの一時バッファに複製しておく。 これにより巨大なバッファをLSにロードする必要がなくなる。 衝突の連鎖については次フレームに回す。それで結果的には再帰処理になる。 普通は移動後に振り分けるというより ボクセル内のオブジェクトを管理するバッファを常設しておいて 移動でボクセル外に出たときだけバッファの更新をするでしょ。
ダンゴの人のブログにも書かれてるけど、Coreなどは汎用で性能が出るからな。 SPEはタイト過ぎるから、用途派生のCPUを作ってくれなきゃ中途半端で手が出ない気がする。 それはそれで、また別の問題が……
正規表現エンジンのSIMD実装の論文とかってないよね? なんつーか、オートマトンを順番に辿っていくような処理はベクトル演算は不向きっつーか 分岐が致命的に痛い。
しかしゲハと何も変わらん雑談スレだな
>>279 そう思うならこのスレ来ないほうが君のため。
>>275 論文書きたいならCell。
Cellでこんなこともできました、こうやって速くしました、で論文になるよ。
科学技術計算の結果の方が必要なんだったらCore2のほがいいかな。
282 :
209 :2007/02/18(日) 23:53:40
>>281 Cellでやっただけで論文になるというのが、そんなんでいいの?って気が
はじめはしてたんだけど、最近成り立ちそうな気がしてきました。
たとえばニューラルネットの話だけど、コアにどのようにユニットを割って
どのような通信をさせるかというのは、以外に簡単じゃない。
結合がないユニットを担当するSPE間では通信の必要がない。また結合があるユニットは
同じSPEで計算させたほうが情報を共有できていい。でも各SPEはなるべく同数の
ユニットを割り振るほうがいい。
これを決めるにはCellのアーキテクチャが関わってきて、同じマルチコアでも
たとえばcore 2だと状況が変わってくると思う。めんどくさくもあり、面白くもあり。
こういうことが実行するプログラムによっても、パラメータによっても変わってくる。
283 :
209 :2007/02/18(日) 23:55:45
まあもうそういう議論はしつくされてるかもしれないけど、実機で実際に それを試してみるというのは意味はありそうですな。
>>274 そうそう、やっぱCELLはいじってて面白いんだよ。
ヘテロコアの可能性も感じるしね。
CELL自体が商業的に成功するかどうかはわからないけど。
終わってると言うよりまだ始まってない感じ
始まってないことを今は終わってるって言うのか?
>>278 正規表現をSIMDで効率的に動かす方法か。
4並列の手動投機実行みたいな事は出来ないのかな。
289 :
デフォルトの名無しさん :2007/02/19(月) 21:22:04
CPUの寿命は10年単位でみないとわからない。 お前にはそれがわかってない
25年は基本アーキティクチャを変える必要がないと豪語したAlphaは...
291 :
209 :2007/02/19(月) 23:11:51
>>289 cellの命運を決めるものは、なんになるだろう。
自動並列化コンパイラが完成したら、cellは成功するだろうか?
PS3がPS2並に普及が必要だろうか?
cellのアーキテクチャがすでに成功を決定付けているだろうか?またはその逆に
失敗を決定付けているだろうか?
cellの家電搭載化が必要だろうか?
linuxでのcellのppeとspeのフル稼働化、エコシステムの構築が必要だろうか?
292 :
209 :2007/02/19(月) 23:14:02
個人的には、PS3の高スペックlinuxパソコン化が、かなり需要があって普及の手助け になる気がする。5万円でハイスペックで、Blue ray付きのPCがかえるとなったら mac並に選択肢にはいるんではなかろうか。RSX&メモリ開放とSPE活用さえできれば、 実現できそうだけど、ありえないのかなあ。
Linuxインスコできるようにしたのは快挙だと思うんだけどSCEはそれを全然前に出さないんだよね。 なんか裏ワザっぽい扱いのままで。もったいない。
Linux前面に出して本体が売れても、ゲームが売れなきゃ赤字が増えるだけだからな。
結局、SPE を使った実用的or面白いソフトってあるのか?
将棋とかのAI組むにはCellってどうなんだろうね そういうゲーム出てきてないけど 定石をBDメディアに大量に入れておいて探索するだけ?それじゃつまらんな。
CELLプログラミングって、ClearSpeedのプログラミングと似たところがあるんだよね。 ClearSpeedのコンパイラ自体は使い物にならないんだけど。
メモリが少なすぎるからなぁ。せめて倍はつんで欲しかった。 単純なCPUでメインメモリの多い箱○にインスコした方が性能でるだろ。
>>298 何をするのかによるのでそれは言い難い。
>>296 向いてるような向いてなさそうな...どうなんだろ?
分散して同時並行して調べることができるなら
単一のCPUつかうよりも深読みとかできそうだ
将棋とかのルールに沿ってコマを動かすって
けっこう細かい if がつらなると思うんだけど
そういう処理って Cell は苦手そうだし
あと同じような局面で過去にあったかどうか調べるのに
メモリがたくさんいりそう
どれもプログラムの作り方次第かもしれないが
整数条件を外した緩和問題をうまく構成して悪手を枝刈りしまくる、 という方向なら結構いけるかも?
Cellで将棋はネタとして検討してみたが、本読んだり、Bonanzaの話を見ている
限りだと、Cellを使っても爆発的な強さは得られないように感じた。
計算量増えたところで読める深さはたかがしれてる。
現状だと、棋譜からDB構築も含めた質の良い評価関数の作成の方が効果は高そう。
>>301 去年の将棋大会で(初出場で)優勝したBonanzaは枝刈りしていないらしい。
ちなみに、ソースも公開されてる。これをCellに落とし込むだけならそんなに
難しくないと思う。コンピュータ同士で対戦させるためのプロトコルも
定義されているから興味のある人は調べてみるといい。
でも、やる価値が無いとは思わないよ。 これで飯食えないかなー?と真面目に検討した結果、計算量によって 圧倒的な強さを得るのは難しそう、と感じただけ。 リバーシの感覚で気軽に考えたのが甘かった。
取った駒を置けるからチェスよりも計算量が莫大になるんだよな。
ゲハの空気の読めなさは流石隔離。
ゲームニュースでないの?
>>306 実質、不成を選択できるのは香と桂と銀だけだけどな。
香と桂は次に動かすときには必ず成らないといけないからさほど状態爆発はしない。
銀は敢えて成らないのも戦法としてある。
後の打ち歩詰めを避けるための不成りってのも(理論的には)有るから 他の駒でも常に成ると決めてしまうわけにはいかない
プロでも不成は対局でけっこううっかりやるね 歩はならなかったら成らなかったで前に1ますしか進めないから状態は増えないな。 飛車角も同じ。成ると動きが増えるが、成らなかったからむしろ動きの可能性が収束するだけ ちなみに成らないと次に動けない位置に達したら確実に成らないといけないし そういうところに打つのも駄目。反則負けになる。 やっぱり銀だね。成るか成らないかで戦局が大きく変わることがある。。
飛車角は成らない理由ある? 歩の「打ち歩詰めを避ける」ってのもよく判らんし。
歩に限らんだろ 手持ちが歩だけで、 最後の一手で歩を打って詰みになってしまうとき わざと成らないで逃げ道作って詰めるときはある
>>312 団子は探索型のプログラム書いたことないの?
飛車だろうが角だろうが成る/不成で状態数は増えるぞ
>>313 羽生氏ですら稀にあるよ。
うっかりだとか、裏返す暇がなかったとか。反則にはならない。
古畑任三郎のネタであったな。
後一手で飛車成で勝負が決まるところを
飛車の裏に被害者の血痕がついてたがために
別の方向に動かして・・・・
成らなかったところで動きが増えないだけだからむしろ状態は絞られるだろ
>>314 それは突き歩詰めと言う奴では?
べつに、と金になったら詰めないわけじゃないだろ。
うっかり二歩のほうがむしろ怖い
駒の種類として「歩」と「と」は区別する必要があるから状態数は増える (局面の状態=駒の種類と位置) あそうか.将棋のルールを知らないんだw
コンピュータ将棋で成らないことを仮定する必要なんて無いじゃん 桂・香・銀以外は不成のパターンは無視していいに等しい
そんな風に仕様を勝手に断定するからバグが(ry
>>320 だから、成れば動きが増えても減らない駒で自ら不成として可能性を狭めても
自分のクビをしめるだけで相手に弊害はない。むしろ手が絞り込めちゃう。
「と金」をとろうが「歩」をとろうが持ち駒になるのは歩だしね。
俺が知る限りではコンピュータ将棋で不成を選択できるのは3種類だけだよ。
>>321 には胴衣
AHO 相手の手の合法性のチェックはどうやってするんだ?
動きそのものは桂馬・飛車・角よりもナイト・クィーンのほうが自由度高いしね 将棋も持ち駒うてなかったらおそらく解法はチェス同等かそれより簡単になるとオモ
>>324 それは将棋というゲームのルールですかという疑問
つか、将棋の話はストップ 続きは
>>321 で。
馬鹿にかまってスレを無駄に消費するより NG登録しましょう
表か裏かの情報なんてせいぜい1ビットのフラグで表せるし、その程度の 情報が増えるくらいのことを状態爆発とは言わない どんだけ効率の悪いコード書いてるんだよ
いやフラグとか記述方法とかそういう問題ではないんだけど、ひょっとしてプログラムとか書いた事ない?
いやそれはお前だろ たとえば歩を成らずに進める可能性を考慮してどれだけ状態が増えるんだよ 前にしか進まないだろ
マジで逝ってるのか…
それともお前の脳内ルール上の歩は斜め後ろにでも移動できるのか
だからそういう問題じゃないって…
たとえばRPGのキャラクタは経験値という状態を表すだけで16777216種類のデータが必要か? それがわからないならプログラム向いてないよ。
だからデータ量の問題じゃないって…アルゴリズム計算量が見積もれない方がよっぽどヤバイと思われ
327はこの手のプログラムを書いたことが無いんだよ。
アルゴリズム計算量が、歩を成らずに進めた場合を想定すると、しない場合に比べて どれだけ上がるのか説明してみてくれ
所詮口だけか(笑)
自分がアホなこと逝ってる所為だとは思わないのか FSMを構成してみればわかるだろが
真性アフォがいると聞いて飛んできました。
歩ってかならず成らないとダメじゃなかったっけ?
ダメじゃない ただ歩は成っておいた方が状態数(選択肢)が増やせるし、成った事によるpruningも発生しない
わかってるじゃないか。 成らない可能性を考慮しようがするまいが大して状態数は増えないんだろ結局。
個々の駒の動き自体は元々チェスより少ないくらいだ 持ち駒という概念が状態数を爆発させる最大の要因であって 成って損のない駒が成るか成らないかなんてことに拘る方がアホ
なんか成りあがれるのが歩だけだと思ってるのか、このアホは?
成らないほうがいいこともある駒は銀桂香くらいだが? 駒の復活による計算量の爆発に比べれば遙かに小さい 見積もりも出来てないのはお前だろアホ
>駒の復活による計算量の爆発に比べれば遙かに小さい だから何?
チェスのQueenよりも表裏の2状態がある飛車や角の方が とれる動き方の状態が多いとが本気で思ってそうだなこの馬鹿
飛角歩を不成とするようなのは最初から定石パターンからは除外される 素人はこれ以上反論しても無駄だからオムツ替えて寝ろ
駒の動かし方しか考えてなさそうなんだけど、もういいや寝るよ
GKの内ゲバスレはここですか? 将棋の探索アルゴリズムを本当に複雑化させてるのは持ち駒を打つとき。 持ち駒というやつは盤上の空きのどこにでも打てる(歩・香・桂馬には若干の制限がある) 盤上の駒を動かすより遙かにオーダに大きい。 成ると駒の動き方が変わることなんて問題としちゃ小さい小さい
チェスは駒がどんどん減っていくから次の手はどんどん無くなっていくし オセロも置ける場所が減っていく。白黒合わせて60手までで必ず終わる。 将棋は局面が進んでも盤上に取った駒を復活させることができるからなかなか収束しない。 だから将棋のアルゴリズムは、定石パターンと照らし合わせて絞り込むことが重要になる。 愚直に総当たり検索なんてやってたらいくらリソースあっても足りない。 削れる枝は大胆に削るのが鉄則。 表か裏かでいちいち状態数云々考える時点でアルゴリズムのセンスなし。
そんなこと以前にSPE+LSじゃ探索なんて出来ねーよ。 既存のソースは使い物にならないし かといってPS3向けに最適化する暇人もいないだろう。
結論:みんな口だけ
354 :
デフォルトの名無しさん :2007/02/25(日) 05:51:29
PPE単体でもCele600MHzくらいのパフォーマンスは有りそうだし 少ないとは言っても200MBくらいのメモリは使えるんだし PCの数年前の将棋ソフトくらいに匹敵する強さにはなるだろう。
>>352 まぁ考え方は根本的に変えなけりゃダメだろうな。
たとえば局面評価にしても、ここがこうだから何点などという手続き的な
やり方じゃなく、ひとつの評価関数(どんな複雑なものになるかわからんが)に
落とし込んで、整数条件を緩和して上界を求める、とか。
そこでモンテカルロ将棋ですよ
やっぱりここは最良優先探索だろう PPEでキューを管理して SPEで次のノード探索タスクを並列して実行すれば 幅も深さも適当な探索ができる気がする
将棋も将棋のソフトも全然わかんないんだけど、演算速度が例えば100倍早いと つよくなるものなの?処理に使える時間が重要?覚えておくパターン数が重要?
思考時間が無限にかかるCPUは最弱といわれるだろうから 当然短時間でより多くの処理ができる方が強いということになるだろうな。 まあメモリ640kbのZ80マシンでも将棋ソフトは作れたんだしなんかは作れるだろ。
ちょっとまて 普通の将棋には制限時間というものがあるお
そうなんだ。ググレカスです。わたしは。
普通の将棋ってのが公式のなんかルールですかね。 時間制限ありでやったことはほとんどないんでわからんですよ。
世界コンピュータ将棋選手権に PS3 で参加!とか格好いいな
それで優勝したらもう大変
次スレは将棋板でおk?
CellがintelやらAMDやらのCPUに将棋で勝ったら、もう失敗作だとゲハで 叩かれないですむだろうか(涙)
ゲハがいくら頑張ってもここの連中には効かないというか そんなところに当たり判定は無いというか。
頑張って俺様スパコンしてるのだろうから、あまり可哀想なこと言うなよ。
同じプログラム使えばより強くなるんでは。8コアだし。
SPEはそれなりに考えて組まないとパフォーマンスを発揮できないが、Core2辺りだと Intelコンパイラ使って何も考えなくてもパフォーマンスが得られることもあるからなぁ。
?
共有メモリじゃないからマルチスレッドと言ってもコードは大違い<CELL
マルチスレッドは普通メモリ共有してるものだけを指すんじゃね。 奇天烈なCellプログラミングは最早マルチプロセスだと思う。
375 :
デフォルトの名無しさん :2007/03/01(木) 01:11:17
さて、ps3クラスタをのんびり〜つくリはじめてみようと思います。 目標はクラスタで大規模数値計算。 計算はニューラルネット。単体で動かす分は大体できた。
ニューラルネットを作るのもいろいろ、紆余曲折がありました。 一番やっかいだったのはコア間の同期と通信。 送ったはずなのにたま〜にとどいてなくて、悩んで数日。 メモリの一貫性(というのか?)を身をもって体験しました…。
他にもいろいろ面白いことが。 最適化の作業ってはじめての経験でしたが、ループアンロールというのを やってみたところ、ある部分ではもんすごいはやく(大体8倍)なって、びっくり。 あとどうしてもスカラで分岐でしかかけないところがあって、やっぱり遅くて ここも将来何とかできないかなあとは思ってます。
さてPS3クラスタ。 まだ2台目すぐには買えないので、ゆくっりとプランをねります。 とりあえずMPIで通信、gigabit eatherでつなぐと。 クラスタ作るのも初めてなんですが、gigabit eatherのMPI通信のレイテンシは 普通100μs位らしく、まあなんとかなりそう。 でもあと半分くらいになってくれたらうれしいなあ。ちょっと手を入れると 早くなるそうだけど、ど素人なのでいつかできたらね。
そこでちょっと気づいたが、MPIやるとしたら、基本的にPPE間で通信して、 それをSPEにさらに送ることになるだろうということ。 ということは、通信する必要があるデータは、PPEに集めてそっから別PS3に おくらにゃいけません。 今はPPEは全然使ってないんで、書き換えねばならぬ。失敗した。
そこの書き換えと、MPI用PPEコードをちょっとづつ勉強していこう! あとPS3のおき場所と電源を考えねば…。安く売ってるとこも探そうっと。
中古の良品が45000円切ってるよ
>>381 PPEにお仕事ができて丁度いいじゃん。普通に書こうとするとPPEに仕事させないのが速いから
どうしてもPPEが遊びがちになるから。
385 :
ps3cluster :2007/03/01(木) 23:48:22
>>382 当初に比べると安くなったなあ。あと65nm版がでることを願っているが、半年はかかるかなあ。
>>383 PPEはSPEのMFC的に通信で単独に動けるから、クラスタではうまくはまりそう。
>>381 HPないよ。
うお、あげてしまった。 計算とレイテンシについてかんがえて見た。 大雑把にみて、PPE間の通信が例えば100μsの場合、SPEでデータ転送が必要になる間隔が100μsなら、 PPEが転送してる間にSPEに計算させることで、通信のレイテンシを隠蔽できる。 ほんとは、通信が待ってからじゃないと計算できないはずだけど、ニューラルネットの場合 そこが融通がききます。
ps3一台のときに、同じレイテンシの隠蔽をSPE間の通信でやろうとしたら、 SPE間の通信速度があまりに速くて、隠蔽するまでもなく通信が終わってから計算しても 十分早いという結果になった(SPE間の通信のレイテンシは2,30ns程度)。
現状でSPEの通信が必要になる間隔は60μsなので、ちょっと足引っ張られそう。 SPEにもっと重い計算をさせ、通信間隔が伸びるようにすれば一応、解決になる。 実際にMPIでどれだけレイテンシが発生するかまだわからないので、とにかくつくって はかってみてから、調整しよう!
ガンバレ。期待している。
YDL糞重いってレベルじゃねーぞwwwww
John the Ripperそのまんま動くね。当たり前だが。 まだPPEだけだけど。 2スレッド動かさないとピークでないっぽいので、MPI対応パッチ当ててみるか。
SPU使ってみたんだが、SIMDに向かない処理をどう高速化するかが課題だな ビットストリームで切れ目が無いものをビット単位に処理するとか。
>SPU使ってみたんだが、SIMDに向かない処理をどう高速化するかが課題だな んなこたない Cellに向かない処理はCellでやらなければいいだけの話 なんでもかんでもCellで出来ないかとか妄想するから ヘッポコCPUの烙印を押されてしまうんだと気がついた今日この頃
>>Cellに向かない処理はCellでやらなければいいだけの話 なんかそれも違う気がする 得意じゃないのであって、出来ないわけじゃない ペナルティがあったってやらなきゃいけない事はやらなきゃ。 (アクセラレーターがあるわけじゃあるまいし
言い方が悪かったか。 ペナルティはあるが、複数のSPUで任せたほうが早い場合、ネックになる部分を どうするかでさらに高速になるかという話ね。 時間がかかっているところに重点的に手を入れるのは常套手段だし。 PPUでやろうと思ったが、SPUに処理を投げているだけなのに意外とあき時間が無いんだよね。 現時点ではデータ分割で100個に分割したとして、5個のSPUに20個筒一気に投げると 先に終わったSPUの遊び時間が長くて無駄。1個筒投げる方がいい。 最初に半分SPUに投げて、PPUで1個やって、残りを終わったSPUに1個筒なげるとやっても、 結果としては早くならなかった。
>>395 何か根本的にずれてるよ、
そんな歪な最適化してどうする。
>>395 > 5個のSPUに20個筒一気に投げると
> 先に終わったSPUの遊び時間が長くて無駄
分割した各データの処理にかかる時間がバラバラってことか。
とりあず、その文章だけだと何が悪いのかこちらに伝わらないので、
まぁ、とりあえず同じデータに対して PPU でやったときにかかる時間と、
SPU に投げて処理させて帰ってくるまでの時間を計測して、
何がボトルネックなのかを解析した方がいいと思われ。
SPU は DMA 転送に掛かる時間と SPU 上の計算時間を別にプロファイル
とるといいよ。
プロファイルは片っ端から取ってるけどね、
SPU内部に限っていえば、DMA転送やメールボックスなどといったシステム側?
の処理は1%ぐらいの割合かな。SIMD化が難しいところが半分以上の時間を食っているので
その辺をどうするか次第かなと。
通常のスカラー演算と条件分岐の組み合わせの多さが問題なのかなと。
分岐予測コードも入れてみたが入れたほうが遅くなった。
PPU側からはメールボックス経由でSPUをキックしているが、RunCntlチャンネル
で実行自体を制御したほうがいいのか、アトミックDMAでメモリ監視がいいのか
まだまだテストすることは多い。
>>395 kwsk
日経エレクトロニクス 2006年12月4日号に東芝とフィックススターズの人が Cellのプログラミングについて9ページほど書いているのは既出? SPE内部では条件分岐は算術処理に置き換えるべきなんだそうな (分岐予測が外れると18サイクルのオーバーヘッド) あとはTimingTool(プロファイル計測)を解析してパイプライン・ストールをなくしたり 2命令を同時発行する頻度が高くなるように命令を並び替えたりすること。 PPE側の処理が間に合わないのはデータをキャッシュして使い回していた (サンプルプログラムは7万ポリゴンのレイ・トレーシング)
timingツールで解析結果は眺めたけど、特に手を入れるところはなさそう。 この辺はアンロールしておけばコンパイラがある程度はやってくれるらしい。 算術処理で置き換えるのは分岐内が簡単な計算の場合で分岐失敗コスト以上の 処理が必要な分岐はやっぱり分岐のほうがいい。分岐の除去はGPUで経験済み。 ストールもほぼおきていないが、順次データを計算して使っていく個所では 仕方ない個所も多いかなと。 例えばビットストリームからデコードするとき最大16ビットで最大16段階の分岐は 8ビットテーブル3つで最大3回の分岐に減らしてはあるが、これを16ビットテーブル化すると 128KiB使用するのでとても作れない。 このスレのリンク先を読んで基本的な知識を身に付けてる感じです。 日経エレクトロニクスは読んでないので、ちょっと探してみます。 バックナンバーは図書館かなぁ
>このスレのリンク先を読んで基本的な知識を身に付けてる感じです。 嘘でもいいからこのスレを読んで、と言ってやれよ
正直メモリ空間独立がここまで厳しいとは思わなかった。 Xbox 360で動くLinuxとかのほうが、あったら幾分か楽だろーね モニタにも困ること無いし。
最初から躍起になってLSで納めようとしない方がいいよ。 まずはコードサイズ抑えて、データは全部DMA経由でも動きゃいいって。 最適化なんてボトルネックが分れば自然と出来るもの。
>>402 だが、このストイックなまでの縛りがいい。
趣味でいじってる分には。
そろそろRSXのシェーダ使わせろと(ry
ここはCellプログラミングスレ
<backOfChirashi> X86のプログラムをPPEに移植してみた。 入力値はバイナリデータを転送して実行…… うぁはは、エンディアンが違ってたぜ。 速度的には、PPEだけじゃ話にならないね。 </backOfChirashi>
PPEの性能自体はG4以下なんだよな
>>410 実際にゃSPEの管理までやっとるからな 働きもんだz
>>406 これ聞いていると SPURS を公開してほしくなるな。
libspe で書いてると、他の SPU モジュールと協調できないのが悲しい。
公演聞いてて思ったけど、LameとかH.264はSPURSで実装すべきだよな。
IBMのひとは声に聞き覚えがあるな。Sonyの人のはSPURSの説明だし、 IBMのブレードサーバやボード、東芝のリファレンスキット、 PS3開発機とPS3LinuxでSPE管理ライブラリはそれぞれ違うだろうし、なんとも。 それでも、説明を見ていて、処理割り振りの新しい方法を考えついたので試してみるかな。
>>409 あれ? エンディアンは両方対応じゃなかったっけ?
後藤のクタタンとのインタビューでそんなの見た記憶があるんだけど。
今CBEハンドブック見たけどBigEndianだと書いてあった。 ついでにビットは上から数えると書いてあったのも見つけた。
418 :
416 :2007/03/07(水) 12:48:12
お、あったあった。こいつのことだな。 >Load Double Word Byte Reverse Indexed X-form.
419 :
デフォルトの名無しさん :2007/03/08(木) 06:46:48
>>406 早起きしたので見てみた。
要するにSPURS使わない開発は無いな。
エンディアン変換ってAltiVecのvec_permとかじゃだめなのかな? SPUにも同じ命令あるし。
SPURS公開されないのかなぁ? あの公演聞くかぎりCellプログラミングでは必須のようだけど。
今日読んでた資料によると32bitの積はコストが高いらしい。 Cで書くとかってに格上げされて32bitの積になるんだろうか?
アセンブラ命令リファレンスでみると理屈はわかるかと 掛け算をサポートしてるのは vector unsigned short×vector unsigned short vector float ×vector float vector double×vector double だから ・doubleにアップキャストする ・shortに分解して積和をとる などのアプローチを採らなきゃいけないんだけど どっちもあんまり効率よくない罠
もうひとつあった ((int)((float)A * (float)B) & 0xFFFF0000) | (((short)A * (short)B) & 0xFFFF)
積和の命令フォーマットが無理あり過ぎなんだよな。 そこを割り切ったおかげで32ビットの命令長のまま レジスタ128本も用意されてるわけで大歓迎なんだが。
>424って、floatで32ビット整数の積を計算させると精度が落ちるからそこをshortの積で補うってこと?
それ以上の補完が必要かも知れない。 int→float→intで下位8ビットは落ちるから、16ビットくらいは落ちるものと想定。
32bit乗算のコストが高いといっても mpyh,mpyu,aのアセンブラ3命令でいっぺんに4つ計算出来るから別にいいんじゃない? 16bitならmpy一発だし
>>424 は忘れてくれ
上位からしか精度保持出来ないから大きな値同士だと誤差でまくり
__,,,,,,,,,,,,,,,,,,,,,,,,_ ,,;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;,,,, ,,;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;, | ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; | | ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; | | ~~;;;;;;;;;;;;;;;;;;;;;;;;;;;;;~ | ______ 「 | _____ ''''''''''''''' _ |│ / ↓| \. ’ゝ ∠’ / |丿< 生意気だよ、おまえら | | cι | / \ ヽ | ._,,,,,,_┐| /  ̄ ̄ ̄ ̄ ̄ ̄ '''-|_  ̄ _/-' '''---''''
__,冖__ ,、 __冖__ / // ,. - ―- 、 `,-. -、'ヽ' └ァ --'、 〔/ / _/ ヽ ヽ_'_ノ)_ノ `r=_ノ / / ,.フ^''''ー- j __,冖__ ,、 ,へ / ,ィ / \ `,-. -、'ヽ' く <´ 7_// / _/^ 、`、 ヽ_'_ノ)_ノ \> / / / _ 、,.;j ヽ| n 「 | /. | -'''" =-{_ヽ{ ll || .,ヘ / ,-、 | ,r' / ̄''''‐-..,フ! ll ヽ二ノ__ { / ハ `l/ i' i _ `ヽ l| _| ゙っ  ̄フ.rソ i' l r' ,..二''ァ ,ノ |l (,・_,゙> / { ' ノ l /''"´ 〈/ / ll __,冖__ ,、 > >-' ;: | ! i { l| `,-. -、'ヽ' \ l l ;. l | | ! |l ヽ_'_ノ)_ノ トー-. !. ; |. | ,. -、,...、| :l ll __,冖__ ,、 |\/ l ; l i i | l ll `,-. -、'ヽ' iヾ l l ;: l | { j { |l ヽ_'_ノ)_ノ { |. ゝ ;:i' `''''ー‐-' } . n. n. n l | ::. \ ヽ、__ ノ
intelのquad coreですが、今年後半には266ドルだそうです。 Core Clock L2 FSB 現在 4/22 6/3 Q3 x4 2.40GHz 4MBx2....1066MHz .C2Q Q6600 $851 $530 ---- $266 ということはxeon2cpuを10万でPC組めるかな。倍精度ならcellの2倍。単精度でも同等くらい? 倍精度だとすでにCellの価格性能比にアドバンテージはない…。TDPも全然駄目。 プログラムの困難さやハードの増設ができない分、PS3は計算機としては…。 すくなくともあと2年は、32SPEcellなんてでないだろうしなあ。 2年後にIntel cpuはさらに32nmにしゅりんくしてるんだろうなあ。
それ以前に、PS3は作れば作るだけ赤字(つまり価格設定が適当でない)から論外として、 CELLのアクセラレータが100万単位ということを考えると最早Intelの敵ではない。
あれは専用のメモリ(XDR 1GB+DDR2 4GB)なんかも含んだ価格だし あまり競争がないパーツは基本的に高くなるのはPC業界の常
core2を持ってきて比較する意味がまるでわからない。
>>432 は、4コアのCPU2つ搭載すれば高い効率で使い切れると思ってるんでしょ。
SPE使い切るよりは楽だと思うが。
>>435 超高性能PS3 LinuxでWintel脂肪wwwww
とか妄想が激しかったからな。実態がわかるまでは。
そんな妄想してた馬鹿居たの?w PPEから省かれてる時点で見えてたろ。 既存のソフトが、わざわざSPEを使い倒す様に 片っ端から書き換えられるなんて妄想してたのか?
共有メモリでコアだけ増やしても性能出るわけないだろ
そう思ってた時期がありました、ってか? キャッシュコヒーレンスのオーバーヘッド云々よりも SPU専用にプログラム書き直さないといけないことのほうがデメリットだな 性能云々よりも、既存のコード資産が全く生かせないことのほうが (Linuxマシンとして使うには)デメリットとして大きいよ。 プロセス一覧見るとmingettyってプロセスが6つ走ってるが これってSPUのヘルパー? spufsとかってデバイスも見える。
今調べた 逝ってよしですな俺
>既存のソフトが、わざわざSPEを使い倒す様に >片っ端から書き換えられるなんて妄想してたのか? IBM製超AI搭載コンパイラが既存のシングルスレッド用のコードを7分割して 自動的にSPEに振ってくれるんだよ。
それくれよ! IBM製超JavaVMが既存のJavaアプリを最適分割して 自動的にSPEに振ってくれるものでも良いから。
馬鹿は構ったらいかん。 そんな事よりもSPURSをフリーで出してくれ。
>>447 PS3ライセンシを結ぶとSPURSが提供されるのか。
ソースコードも付くらしいが、Linux側は指咥えて見てるだけかねぇ。
オープンソースのパワーなめんなよw すぐにコピー品が(ry
>>447 コンパイラは技術の結晶
ちゃんとIBMと連帯しろよSCEI・・・
Intelコンパイラ使っててもMMX/SSE Intrinsicsを明示的に使うと全然性能違うよ
命令スケジューリングを自動でやってくれるものだと割り切ったほうがいいお
一時、コンパイルだけIntel純正使う時期あった 面倒だったけど、明らかに早かったな
人間が気がつかないような最適化をコンパイラがやってくれてるうちは使った方がいいが ごく単純なものとアルゴリズムレベルの最適化は人間がやったほうが速かろう。 結局、局所的な例外な最適化になるわけで、汎用コンパイラじゃ無理だ。
組み込み命令つかってチューニングしたら、そのソースはICCのほうが遅かったよ。 盲信は危険だな。SPUのコンパイラはそれなりにパイプライン入れ替えてくれるよ。 ただ、組み込み命令以外は最悪。
なにと比較した結果? 生成コードをみてもVC++よりIntel CPUのほうが レジスタカラーリングが上手いと思ってるが。 GCC/x86とAthlonは相性がいいと聞いたことはある。 つーか、モダンx86アーキはOoOがあるから少々下手なコード書いても そこそこ動くと思うのだが。 つーか、GCCのエンジンはレジスタが無限にある仮想アーキテクチャ向けに スケジューリングしてからアーキに特化したレジスタカラーリングを行うから、 レジスタの多いSPUでは比較的性能は出しやすいらしい。
>451 その場合例えばどれくらいはやくなるの?SSEだから4倍近くとか早くなるの?
ps3clusterって突然、糞みたいな質問してくるな ってか釣り?
いや〜、x86系でsseつかったことないからさあ、実際どれくらい早くなるのか 気軽に聞いてしまったよ。 CellだとSIMD使って、単純にベクトルの要素数倍か、それ以上に早くなったりするけど、 Pen4以前のCPUでは、SSEだとむしろ遅くなることもあるって聞いたからさあ。
>>459 該当ロジックだけなら、doubleで2倍、floatで4倍にできるよ。iccで。
Core 2だけな
>>456 VC2005とICC9.1でSIMD組み込み命令を使った計算とメモリアクセス部分だけの計算。
手動アンループ後では10%ぐらいICCのほうが遅かった。
組み込み命令を入れた最初のバージョンではICCのほうが10%程度速かったけどね。
_mm_prefetchは入れるとちょっと遅くなったし、
_mm_stream_si128は計算時間が倍ぐらいになった。
石はPenDの2.8Gぐらい。
ぐぐったかぎりではprefetchはAMD系には効くらしいし、streamは入出力が異なると効果があるぽい。
>>464 > streamは入出力が異なると効果があるぽい。
キャッシュにされてないアドレス領域に書き込もうとすると、その領域を
キャッシュに取り込んでから書き込む。
streamはキャッシュをバイパスして書き込むから、キャッシュを汚さずにすむ分速いし。
キャッシュに載っかってる場合は逆に遅くなる。
PS3にmpich2インストールしてた。インストール自体は非常にすんなり できてしまった。ただ、各種設定はまだ。今年度完成を目指しますよ! さらにPS3の2台目もかってしまった。20Gが中古で4万ジャストで買えた。 一台目は6万5千とちょっとぼられたので、お得感です。 さすがに2台のPS3が並ぶと、俺なにやってんだろと思いますなあ。 20GにFedora5入れたけど、フルで入れると空き容量が1G程度しかないので、いらない のをどんどんアンインストール。何とか2Gほど空きを確保。HDDが足らんとスワップすら 圧迫するせいか、もんすごいもっさりでしたが、それも多少解消。
>>466 裸族のケーブルとHDDを買ってきなされ。。。
自分にとってマルチCPUでの並列計算自体が今回はじめての試みなわけですが、 とりあえず1台やって、次もやってみないとわかないけど、大体こんなもんだ というめぼしは大体ついて、いろいろわかってきました。 Cellの最適化は面白いし、それほど難度も高くない。ただ変なピーキーさはあって 知らないと痛い目をみるところが結構ある。知ってれば問題ない。ただ最適化した ピーク性能は単精度での話で倍精度ではPCに比べおいしくない。例えば倍精度環境で intelの最新cpuならintelコンパイラ使っただけで、最適化したcellのプログラムと とんとん。
それでもintel最新cpu搭載機の価格はそれなりのお値段がするので、 現在ではPS3でクラスターというのは、コスト面での利点はある。 しかし、問題は将来の話。 cellをいじり始める前にも散々考えたんですが、cellの将来は有望なのか? 例えばps3が失敗すれば、cpuとしてのcellの運命にもよくはないでしょう。 それに開発環境がまだ整っていない。ノウハウも蓄積されてない。エコシステムもない。 その点、intelがx86アーキテクチャは一応安泰だし、すでに開発環境が整っている。 その他にもGPGPUとかFPGAという手もあって、果たしてCellはそれらに対してアドバンテージはある のか?
ps3クラスターつくっててなんですけど、将来のCellのアドバンテージって あまりないのかもしれません。2010年に32spe集積したcellを出す予定らしい ですが、それでも1Tflops。倍精度なら500Gflops程度。今のGPUやGrapeDrと そんなに大差ないから、たぶん抜かれる。
それでもCellをやったのは、SPEが高級言語も受け付けるので、 GPGPUとかFPGAよりはずっと敷居が低く、自分のように知識がそこそこしかなくても 扱えたということ。しかもちょっとお高いゲーム機を買う価格で趣味としてで きたことが大きいです。
CellでCPUアーキテクチャやマルチコアプログラムを勉強出たので、将来性が なくて損したとかはまったく思ってなくて、逆にこのタイミングでやれる環境 に出会えてよかったと思ってますが、これから将来のことを考えるなら、 Cellではないなと思うのです。でも、じゃあなにがくるのかといったら、 全然わからん…。
Intel CPUが無難というつまらない答えはいやだけど、そうなりそうだなあ。 >467 そんな贅沢するお金はないのです。
>>473 私のところの会社と客先でやっている高速化のテーマと着目点が被っているので参考にさせてもらってますよ。
尤もこちらは、金額よりも安定性が重視されるのでPS3クラスタは論外なんですが。
GPUやFPGAよりCELLの方が敷居が低いのは同意ですね。勿論、Core2 w/Iccは更に敷居が低いわけで、
それに(将来的にも)勝つにはなかなか大変なんですが。
去年Intelが80coreのCPUを研究開発とかやってたけど、同じコアを複数という 路線は現在のWindowsやLinuxなどのOSの移植という意味では敷居が低く将来性は あるとは思う。 逆にCellのアドバンテージとしてはSPUをOSの管理外で昔のDOSの時代みたいに 100%使い切ることができるてんで、リアルタイム処理を行うシステムでは 処理落ちの危険性が少なく、組み込み系での将来性は高いと思う。 既出のシェーダ系にSPUをというのも、制限がはるかに少なく組みやすい面も大きいと思うが 問題は家電に搭載してもコスト的に問題が出ないぐらいの低価格化が肝になるだろう。 現在は100万ぐらいかかってしまうし、 PS3以外に楽にさわれるシステムには載せにくいだろう。
>>475 あれ単なるデモだろ。
ヘテロの方向に進んでるんじゃないのか?今は。
スレ違い
folding@home,激早だね、Core2Duoは1フレーム20秒ぐらいで処理するけど Cellは0.07-0.04秒で処理してる。
PC用はバックグラウンド動作前提で5%くらいしかCPUパワー使わないらしいが それでも20倍くらいは速い計算になるな。
>>480 バックグラウンド動作て、メインで使ってない分を全部使うんじゃないの?
Idle優先度にしているだけなら100%使うと考えていい いまどきCPUはほとんど寝てる
>>479 そこそこグチャグチャした計算でもspeed出るんだね。
これ、ソース公開してないのかな。
>>479 Cell単体じゃなくて、RSX@GPGPUも含めたPS3全体での処理です。
ハイエンドGPUだとPS3の倍のスコア出るみたい。
RSXは絵を出しているだけだそうだ
AMDの石だと遅くてCore 2だと若干イイってことらしいから 256KB付近でのメモリ帯域が鍵を握ってそう
>>484 PS3のビデオカードは今そのへんにうってるGeforce7600だかのバリアントだろ。
あれで計算してるとは思えない。
488 :
487 :2007/03/24(土) 11:58:43
>>484 そういや、乱数生成の話、実際の業務で使えるかもしれん。
>>480 PCでも実行中はパフォーマンスメータで普通に100%いく
CPU温度もぐんぐんあがる。ただし優先度が低い為、
重い処理意外はめだたない。
G7xはGPGPU的処理は遅いからなあ。G80ならいけると思うが。
どこだったかにあったけど、G7xは直前の演算結果を参照するのが遅いとかなんとか。
スレッドの粒度がかなり大きいし。
folding@homeのFAQに、NVIDIA用にも作ってたけど、ATiのが速かったから
そっちに注力したみたいなことが書いてある。
そんなわけで、仮に一緒にRSXにも仕事をさせても、
あんまスコアの向上に寄与しなさそ…。
>>487 シェーダ構成はGeForce7800/7900GTXと同等、
ROPとかメモリ帯域、バス幅は7600GTくらい。
>>488 いまそれ、公開のためにコード整理してる。
広島大学・松本研究室には確認取ってないが、とりあえず
BSDライセンスに従う方針で。
ちなみにPS3内で完結するの?それともネットワーク越しに?
GbEの帯域いっぱいいっぱいまで乱数使うくらいなら、
PPEだけでも十分なスループットは得られてると思うのだけど。
今回の1.60で、PS3 Linux向けに改良が入ったという情報もあるけど 欧州リリースに先駆けたものらしいし、何かしらあるかも たとえば ・RSXが使えるようになります ・WXGA+, WSXGAが選べるようになります ・HDCPなしディスプレイでも使えます とか(全部なさそう
>>491 100万円のCell PCI-Ex16カードですら帯域が足りない、乱数生成器としては、
既に過剰品質だ、ってのがあんたの話の趣旨だと思ってたんだが。
494 :
デフォルトの名無しさん :2007/03/24(土) 21:20:08
>493 ハァ?
LSの中で乱数テーブル生成してさらにそれを別の領域にコピーという無駄な行程が発生してるから、 ダイレクトにDMA転送すれば一基でも更に性能出せるカモよ
Folding@Homeがちょっとした祭り状態になってる。 面白いので張り付いてスレなどを観察しているが、PS3の演算量の伸びが異常w 総演算量の70%をPS3が占め、PS3だけでもそのうちペタフロップスに達する。 今回のFolding@Homeでの性能のアピールでは大成功だろう。 少なからず、他のCPUメーカー、科学分野、社会はなにかを感じるだろうな。 その結果、今後は何がどう展開するかだなあ。 ・ボランティア的なプロジェクトだけど、Sony株が上昇につながるのかなあ。 ・他のゲームメーカーやCPUメーカーもこういう形の性能競争に入ってくるかも しれない。 ・科学技術計算でのCellへの注目度は飛躍的にあがるだろう。 ・PS3が教育に使えるなんて方向にもいくかもしれない。 夢のような話ばっかりだが、今回の成果はそれに見合う夢のあるもんだ。 しかし、ゲーム機による数の力は凄いなあ。BD市場もそれでごり押ししてるし。 きっとHomeも面白いことになるだろうなあ。
ゲハに帰れ
MTの件斉藤くんがメールで直々にアドバイスくれたお 流石数学専攻だなと思った(いい意味でも悪い意味でも SPE向けにハンドオプティマイズしまくって「CBEMT」とかの名前で SourceForge(敢えて洋フォゲ)で出そうと思うがどうよ
GPLにしてゲーム屋に踏ませてやれ。 4/1に起動すると乱数0しか吐かなくなるようなコード仕込んで汚染を確認。
エイプリルフールになんとかリリースしたい
名前変えないでくれる?
見たくないなら2ch来なきゃいいだろ?
それ何て中二病? Linux の方ってまだ立ってないのかな。 良くスレタイで揉めてたけど、どうすんだろ。
ヒント:重複スレの再利用
>>508 まだまだ、乗り越えるべき壁がたくさんあるけどな
SPEコードのJITアセンブラとか誰か頼む
JAVAでも走らせるつもり?
状況に応じて分岐命令そのものを除去できるからさらなる高速化ができる。と思ったり。
508で晒された中の人です。
>>509 実現出来るかは別にしてkwsk。
>>510-511 それが一番やりたい。でも高尚過ぎ。
>>512 結局JITが代わりに分岐するわけで、全部PPEで請け負ったら判定コストが馬鹿にならないかと。
その考え方を押し進めるとちょっと無理はあるけど原理的にはHTTが出来るので、そのうちやってみたいと思ってます。
それだったらSSE/AltiVecに対応しているLLVM移植した方がいいかと。
>>516 そんなところ。あくまで SPURS 的なものを目指すということ前提だけど。
SPURS を使ったモジュール同士なら SPE を効率的にシェアしながら共存できる。
<ぼそっ> masがcygwinで通らねぇ。 </ぼそっ>
書き込みしてて、思いついてしまった。 次はCELL2ではなく、”CELLキューブ” どうでしょう?
522 :
デフォルトの名無しさん :2007/04/14(土) 23:49:43
openSUSEでも開発ってできるの?
523 :
デフォルトの名無しさん :2007/04/15(日) 00:11:31
なぜLinux上からはSPEを6つまでしか扱えないの?
>>521 なんつーか、PPEの上にSPEが"載る"んか。。。
>>523 HyperVisorがSPEを一つ占有している為、だったはず。
526 :
デフォルトの名無しさん :2007/04/15(日) 09:24:02
つうか組み込み系しかもDSPとか扱える香具師でないとCellの性能なんて引き出せないだろ 従って組める香具師なんて少ない
ほぼAltiVecじゃん。 性能引き出すって意味なら、あの程度も使いこなせないなら何も作れんよ。 キャッシュだとプリフェッチ命令使わなくても自動でデータはフィルされるが そんかわりストールするだろ。同じだよ。 ただ単にメモリフローの制御を手動でやるだけの話。 プリフェッチ命令がそうであるように、DMA転送なんかもコンパイラ任せにすることはできる。 XL C/C++ならね。
御託並べる団子にゃ何も作れないよ。 2ヶ月経っても何も出て来ないでしょ? 性能とか使いこなしとか何言ってんだかって感じ。
S-Boxだけなら動いたよ(1SPEあたり毎秒180万cryptは出せた) って言っても、ここの性能が一番重要で、まあオフロード すべきなのはS-Boxくらいなんであとは雑多なPPEコードを 書けばほぼ完成だったりする。
>>529 つきっきりで作ってるんじゃないんだから2ヶ月やそこらでグダグダ言わない。
それにしても団子はPS3買うまで散々Cellを叩いてたのにな。
今も批判はしているが明らかに柔らかくなったw
あんま人を外見だけで批判しない方がいいよ。
しかし仮に便利なコード書いても実行環境整えるのに一苦労だな。 これじゃ流行らんわ。
>>531 あんたのblogどこだっけ?
6SPE使って、1000万/s超えは達成したということ?
団子のチラ裏はここ
tp://kaze.s41.xrea.com/test/read.cgi/ra8/1073831664/l50
>>535 が探してるのはたぶんこれ
tp://tripper.kousaku.in/
ブログには書いてないよ 纏めるのめんどくさい人だから。
>>536 もうそこには書けないな俺www
mixiでやるか
>>534 え?YDLで十分じゃないの?
起動画面で小さいペンギンが6体出てきてるならSPEは使える状況だと
思ってたけど。
必要なモノってビルド時にスタティックリンクされるんじゃないの?
ところで、誰か、「SPU」にかけて6体のスプーが出てくる2chオリジナルの
ディストロ作りませんか
ところでおまいら今日情報の試験じゃないの 俺は受けるものが特にない人(DB受けてもいいんだけどろくに勉強してないし
>YDL 某芝のリファレンスキットの方がずっと楽……
kwsk それって数十万するハードじゃね?
某所でロハで使えますぜ。尤も、運が悪いと取り合いだけど。
>>543 ゲーム屋は、この手の話に関心がないんかい?
以前、ゲーム制作技術板を覗いたが影も形もない。
cpuをいじるための(バッドノウハウ込みの)ノウハウが広く浅く蓄積されるってのは、
一般的には良い話だと思うんだけど。
それとも、アルゴリズム入門本定番のようなアルゴリズムまで全部囲い込んだ方が、
利益になるって判断?
家でまでやる気にならないから、どこまでオープンなのか分からず(調べず)、書き込まない。
レイトレースをリアルタイムで処理できる時代がついにやってきたのか
PS3 Linux本結局買ってきてしまった
あれか? 上司が買ってきた薄い本。あれのことなら団子辺りは要らんだろう。
いや、libspe2の関数リファレンスが欲しかった
くたたん…(涙)
想定内だな PSブランドを確立させたのもPSブランドを崩壊させたのもこの男 坂口博信みたいだな。
想定内か。自分は一緒に泥舟に乗ってた口だから、 「まだいける、まだいける」って夢にうなされてたなあ。 もう終わっちゃった人なのかな、くたたん。 でもこの人のビジョンって、方向性は間違ってないと思うんだよなあ。 虚言といわれることも、10年後の世界だったら当たり前のことばかりだと思う。 しかし、くたたんの2002〜4年ごろの発言は、 今の現実と照らし合わせてみるとほとんど詐欺だな。 きっと最後のほうは、頭の中の沸いてくるビジョンを抑えられなくて、 崩壊したんだろうなあ。アキラの鉄雄の末期のような感じかな。
生産中止決定したら5台くらい買いあさる自信はある
生産中止決定したら、客先に10台くらい抑えておいて貰おう。 処で、ただいまテストプログラムを某所でチューニング&動作テスト中。 目標Xeon単体と同タイム。現在1/36倍速から1/22倍速まで改善w
くたたんはホンダの初代社長みたいな感じだったのかな。
PS3が生産中止なんてことになったら、大変なことになるな。 Cellの開発も影響うけて終わりそうだ。BDも沈没。 あらゆる、マイナスの波及効果が発生するな。ブランドのイメージダウンもさけ がたいし、ソニーへの影響ははかりしれないなあ。 こうやって考えてくと、やはりこのタイミングの退任はどう考えてもおかしい。 いったい、なにがおこっているの?
HD-DVDがあの低落でBD沈没はないっしょ。
SMEの幹部の話だと、BDさえ普及すればPS3事業の赤字をチャラに できるくらいの収益がグループに入ってくるとか。 しかし、どうも内ゲバの臭いがする。
よーし!明日Cell買ってくるぞー
ゲバ臭よりもゲハ臭が酷い Cellプログラミングスレなんだからクタとかどーでもいい
65nm版のcellは、すべて倍精度強化版cellってわけではないよね? 倍精度強化版cellの詳細はcool chipsで発表されてるけど、通常版は みつからないから、よくわからなくてさ。 倍精度強化版cellって、ダイサイズも消費電力も90nm版と大きく変わらなくて、 ps3に採用する利点があまりないんだよな。 個人には倍精度強化版cellでいって欲しいんだけど、そうするといろんなコスト があまりさがらなそうで、将来的にうまくいかなそうな気もする。悩ましいなあ。
それにしてもクタタン死なずのようだな…。
まあ、情報家電として倍精度がそれほど重要とも思わないな
IBMのサーバー向けでしょ。 元々単精度に比べて倍精度が遅すぎたから、やっと普通のレベルになったってところかね。
PS3で使う分には単精度で充分だから(そしてそれは充分早いから) 倍精度強化版使う理由無いね PS3の後継については以前に日経エレクトロニクス(2006/11/20号)で PS4はどうなりますか、との質問に「PS3は最後のクライアント機だと 思っています。その後はPS3とCellサーバーが進化します。Cellが相互に つながりCellサーバーが大きくなるイメージです。理想は巨大なCell サーバーと小さいCellのユニットが追って認証だけしているような形です。 そこまでは行かないかもしれません。 これまでは、ゲームのプラットフォームといえばハードウェアでした。将来の プラットフォームは,ネットワーク上に溶け込みます。Cellの集合体としての サーバーというプレイステーション・プラットフォームが継続的にどんどん 進化します。ユーザーが利用する端末は、携帯電話機でもパソコンでも いい。ネットワークがトランスペアレントになれば、AVやCE(消費者家電) の世界は情報処理の中に融合していくと思います。」 と述べている。まあ,これの延長上にあるのだろうね。
とりあえず目先の問題に対処した PS3.1 は出ないものかな。 ゲームソフトの互換性を考えれば、LSやDMAに手を付けるのは無理かな。 個人的には、Linux動かすときしか恩恵を受けられなくてもいいんだけど。
PS3に関してはコスト削減優先でハードは変えないでしょ Cellに関してはSPUを増やすかLSを増やすかだけどSPU増やす方がありそう
PS3はPS2互換チップを除去した廉価版が出るんじゃない?
Ver3.1はリアルモードをサポートしなくなりました。
>>572 あ,ヨーロッパではもうそっちなんだっけ?
575 :
デフォルトの名無しさん :2007/05/02(水) 16:18:22
CellSDKってFedora Core以外にもインストールして使うことはできるの?
うーん、倍精度の高速化はやって欲しいけどそれよりL/Sのメモリを何とかして欲しい気も。
>>575 CellSDKってIBMの? 恐らくカーネルバージョンがあっていれば他のディストリでも大丈夫だと思けど、確証は無い。
処でSPUでの演算ロジック(よくある積和)をベクタ化をしてみた。以下その抜粋。
--
typedef union {double d[2]; vec_double2 v;} vDouble;
vDouble sum = {{0, 0}};
double sum1 = 0;
for (int ix = 0; ix < xEnd; ++ix) {for (int iy = 0; iy < (yEnd / 2) * 2; ++iy) {
vDouble sx1 _GALIGN = {{sx[ix], sx[ix]}};
vDouble cx1 _GALIGN = {{cx[ix], cx[ix]}};
vDouble * sy1 = (vDouble *) & sy[iy];
vDouble * cy1 = (vDouble *) & cy[iy];
sum.v = spu_add(sum.v, spu_mul(k, spu_add(spu_mul(cx1.v, sy1->v), spu_mul(sx1.v, cy1->v))));
}
if (iy < yEnd) {
sum1 = k * (cx[ix] * sy[iy] + sx[ix] * cy[iy]);
}
sum1 += sum.d[0] + sum.d[1];
spu-gccが賢いと思ったのは、sum.v代入の部分でdfm, dfma, dfmaに落とす辺り。
577 :
575 :2007/05/02(水) 17:41:52
>>576 ありがとう。
CELLの開発ってIBM以外にもあるの?
578 :
576 :2007/05/02(水) 17:59:41
>>577 某芝製。一般に公開されていないかもしれないけれど、
ユーザグループに参加できればSDK使ったプログラムをオンラインでビルドしてCBEで動かせる。
579 :
575 :2007/05/02(水) 18:29:32
580 :
デフォルトの名無しさん :2007/05/03(木) 10:11:07
いやー笑わしてもらった 対象コアだと何もしなくてもマルチスレッドになるが Cellのような非対象コアだとマルチスレッドプログラミングを自分でしないとならない、 だからPS3は開発が難しい だってさww 勝手にマルチスレッドとして分解してくれるならどれほど楽であることかw インテルがCPUが自己判断して分解し、並列処理するCPUを設計中なのは知ってるが
ゲハにお帰り
>>580 どこに笑う要素があるんだ?当たり前のことじゃないか。
585 :
デフォルトの名無しさん :2007/05/03(木) 20:14:28
586 :
デフォルトの名無しさん :2007/05/03(木) 21:29:27
何もしなくても勝手にマルチスレッドしてくれるんなら、 Free lunch is over なんて言われないよw
オーバーレイなんてメモリが足りない時の苦肉の策だよ。8080の頃からある。 ライブラリの関係もあるので、オーバーレイを使ってもダメな時はダメ。
つーか、Unix流のメモリを潤沢に使うスタイルのプログラムを移植することを考えると、 オーバレイできることよりも……
589 :
デフォルトの名無しさん :2007/05/07(月) 02:30:57 BE:585371276-2BP(1512)
このスレを見ている人はこんなスレも見ています。(ver 0.20) Cell 86 [ハード・業界] PS3 Linux 初心者質問 Part 2 [Linux] Intel uPs Info 2 [新・mac] CPUアーキテクチャについて語れ 7 [自作PC] フレッツISDNを申し込んだら驚かれたが何か? [プロバイダー]
>フレッツISDNを申し込んだら驚かれたが何か? [プロバイダー] ( ゚д゚) (つд⊂)ゴシゴシ (;゚д゚) (つд⊂)ゴシゴシ _, ._ (;゚ Д゚) ・・・ェッ?!?
591 :
デフォルトの名無しさん :2007/05/07(月) 02:58:58
592 :
デフォルトの名無しさん :2007/05/07(月) 03:02:18
Cell用のBOINCを作ってみよう
594 :
デフォルトの名無しさん :2007/05/19(土) 11:29:59
ほしゅ
団子見てるか? -funroll-loops 入れただけで SFMT のスピードがかなり上がるぞ (450ms)
>>595 やってる。
てかSPEのほうが速い。
ロード・ストアとPermute命令がどっちもOddパイプなんだが、どうにかならんかな。
598 :
595 :2007/05/20(日) 01:58:49
もちろんSPEスタンドアロンの話 パイプのODD/EVENはなぁNOP入れるしかぁ
599 :
595 :2007/05/20(日) 02:02:52
あ悪い悪い数値間違えてた 145msだわ(M19937) しかしコードサイズと実行時間が周期長に対して不規則に変わるのが不思議
ちなみにLS→LS転送? LS→メインメモリのほうが理屈の上ではスループット高いんだが ちょっと作り替えが必要かも。
601 :
595 :2007/05/20(日) 03:01:49
いや転送はしてない つーかSFMT.cその他をそのまま-mstdmainでコンパイルしただけ もちろんSIMD(Altivecもどき#define置換)使って
その発想はなかったwww
603 :
デフォルトの名無しさん :2007/05/21(月) 00:29:40
Cellプログラミングの本ってあの黒いPS3Linuxの本しかないっすか?
そっすね。
あと参考になるのはIBMやSCEのPDFくらいだね。 東芝もあったかな。
気づいたんだが、SFMTの4423あたりまでならレジスタ上に乱数配列を全部配置できないか? 大幅にスループット上げられる気がした。
ただレジスタを配列の様に添字でアクセスすることができないから ループを全部手で展開しないといけないのがえらく面倒そうw あ,まともなマクロアセンブラがあれば何とでもなるか
SPEでIntrinsic書いた物をアセンブリ出力すると、レジスタの使い方が凄いんだよね。 あーこんな無駄な使い方するならスタックなんか使わんでくれと思うことしばしば。
>>603 本よりウェブサイトの実例の方がよっぽど役に立つ
物によってはMITの授業のとこにあるソースも
>>607 俺面倒なループ展開はRubyでプリプロセスしてるよ
日本のメーカーにハードを作らせれば解決なんだけどな。 どっちにしてもHDTVゲームは、MSがこけたらWiiの後継が主流になるでしょ。 ただPS3も撤退するまでは一定のシェアを録り続けるだろうから 現状から大きく変わることは無いでしょ。 むしろCellによる機器が多様になった時でしょ、日の目を見るのは。
Cellでサーバーをつくる
Xeonよりも圧倒的に遅くて高いのに誰がサーバなんか作るかね。
7SPE Cellの製造原価は1万程度らしい。 ボってる感もするが、むしろXDRが高いんじゃないのか
Wiiは顧客満足度が低すぎるから後継機種には誰も期待してない。
Wii+Cell
まあここで話す話題じゃないが、WiiでHDTVゲームはありえないだろ。 たぶんWiiの後継機でも。
手につけるコントローラを使った後続のWiiはどう? Cellでコントローラの複雑な情報を処理するとか。
621 :
デフォルトの名無しさん :2007/05/27(日) 17:52:33
ソニーのパワーグローブもどきあんじゃん。 普通の綿手袋に、センサーを搭載した奴。 それつけて手を握ると、キャラも手を握る。 ゲーム内のキャラをオブジェクトの前に行かせ、 プレイヤーが手を伸ばして掴むしぐさをすると キャラもちゃんと掴む 投げる仕草をすれば、キャラも投げる動作をする 手を開けばオブジェクトは落ちる あれこそゲーム向きだな。 FPSで手榴弾投げたりするときは、そのままプレイヤーが投げる動作をすればよい。
普段撃ち合いの中で使おうとすると面倒だが、 デモのリモートクレイモア起爆は使えそうだ 起爆装置を持つように手を形作って、 親指を三回曲げると起爆
PS3いらねぇじゃんwwwwwwwww
俺、自由課題部門の神経回路網シミョレーションの内容が知りたいな。 やっぱりソースは公開されずに論文として発表されるだけなのかな?
論文なら、ソース付属するでは?
627 :
デフォルトの名無しさん :2007/05/30(水) 20:27:33
俺どーもオートマトンが苦手でな 自動で肉を混ぜてくれるものしか思い浮かばない。 それか、自動でドジッてくれる。 頓馬な事をやらかしてくれる。
ソースが公開されるのは規定課題部門だけみたい。この大会ってまた開かれるのかな?
Cellの楽しげなAPLどこかに公開されてないの?
CellUsersGroupに入れば……
ゲハ板止まってる割にここ静かだな
っていうかPS3に限った話題じゃないんだからゲハとか関係ないし
その分他板に流入してるけどな、AV機器なんかにもゲハ厨が流れてきてる 人生終わってる奴らでも見た感じだけはわかるんだろうな
GSが届いてやっとSXGAモニタで使えるようになった。 これでちょっとはやる気がでそうだw
その辺にあったTVに会社で買ったPS3繋いで黄犬入れたら、(VGA解像度しか出なくて) ユーザ設定やネットワーク設定のダイアログまで見切れていて使い難いったらw 現在PS3本体にはLANケーブルと電源ケーブルのみで、コントローラ以下全て箱に戻してしまいましたよ。
637 :
デフォルトの名無しさん :2007/06/07(木) 21:04:49
Cellのプログラムなんて組んでなんになるんだろ IBMの事だから3年後には作ってなかったりする気がする(互換上位CPUも)
>637 IBMは半導体事業に対してはしつこいよ。 大型サーバーやUNIXサーバーを製造し続ける技術力の源泉だからね。 他のハードウェア事業とは重みが違う。 それにCellはソニーや東芝との共同開発だから そちらが使えば幾らでも製造は請け負うはずだよ。 Cell自体が誰にも使われなくなったりしたらそりゃ、 世の中から消えるだろうが。
>>635 テレビだと四隅削られて表示されるのが多いからそのために多少狭くなってるからね
Altキー押しっぱなしでタイトルバーでなくともウィンドウをドラッグできる。
あとPS3はコンポーネントケーブルとVGA変換ケーブルで普通のPCモニタに繋げられる
という裏技がある。
>639 いや、Yellow Dog LinuxはGUI解像度が720Pデフォーだから 欠けるのは多少じゃ済まないw。
641 :
635 :2007/06/07(木) 22:49:19
>>636 建前:実験用
本音:某芝からの風除け
>>639 ドラッグできてもどっちみち、必要な情報が同時に見えないからねぇ。
#ボタンの位置はタブの回数で覚えたw
>>640 480iで使えばいいじゃん。ちなみに720pで起動すると画面に映りすらしない。
ビデオまともに使えないからSambaとSSH設定してWindowsから使った方が楽
644 :
635 :2007/06/07(木) 23:12:17
そこで何故、Windowsなんかを持ち出すんだろう…… つーか、既にモニタケーブルは箱の中だってば。 #ユーザ設定とネットワーク設定さえしちゃえば取り敢えず用はない。
まあSSHクライアントさえあればMacでも商用UNIXでもなんでもいいんだが。 パイプラインフローの計算にExcelは便利だぞ
> そこで何故、Windowsなんかを持ち出すんだろう…… 厨なことは分かったw
648 :
デフォルトの名無しさん :2007/06/11(月) 19:52:28
今度のカンファレンスで何か動きありそうかな
結局Intelもインオーダーメニーコアか。
まあ、SIMDユニットを増やしたり 別の種類のコアをガンガン載せるならインオーダーのほうがいいわな プログラマさえ気をつけていれば、最適にできるんだから
Cellがインオーダだって馬鹿にしてたやつらはとっくに言った事忘れてんだろうな。
2年後に、IBMのCell、Power6、IntelのCore、larrabee、AMDのFusion、opteron がどのような勢力図になるか、まったく未知数で面白いな。 基本的にcellのアーキテクチャに似たものによってきている(?)が、その次は一体 どこに向かうだろう? メニーコアの流れは止められないとすれば、メモリ、キャッシュの構成で各CPUの 特色がでてくるだろうか。cellはLSで、個性的だったが、ほかはどうでてくるか。 また、cellはcellで、単にコアが増える以外で、アーキテクチャの進化はないのかどうか。
現行の将棋なんかの並列処理と違って、モンテカルロ囲碁は、 試行が独立していて並列性が高いのでCellには有利と思います。
あらら。あまり強くないんですね。 ハッシュメモリの差ですかね? 仮にCPU数を同じとして、使用メモリサイズをx86とCellでそろえてみたら、 どうなんでしょうね?
単純にissue/clockを比べればCore2の方が速い モンテカルロ碁のUCTパート(シミュレーション結果をまとめるところ)の並列化は難しいし 今はソースがほとんど共通らしいからこれからどれだけチューンするかが勝負だろ
>>656 >仮にCPU数を同じとして、使用メモリサイズをx86とCellでそろえてみたら、
CPU数をどう解釈するかだな。
尤も、1チップとしても今だとXeonの4coreかな。同一クロックでも勝負にならないじゃん。
659 :
デフォルトの名無しさん :2007/06/13(水) 21:19:27
っていうか、物理演算のような浮動小数点演算を見るとCell圧勝 Core2でさえ1〜2フレームでモタモタしてるのに Cellは平然と60フレーム出す VertexシェーダをCPUで肩代わりしたときも同じ 3DMARK06でのCore2の遅さったら散々なもの。 CellはRSXの肩代わりをできるほど そもそもCore2はAthlon64と比べても、浮動小数点演算がクソ遅い。
分かったからさっさとゲハに帰るんだ
>そもそもCore2はAthlon64と比べても、浮動小数点演算がクソ遅い。 ネタ? Core 2のSSEはAthlon64のスループット倍だけど。 x87やスカラ演算ならクロック数の高いものもってくればクロック数の分優位になるだろうけど。 あー、でもCellでスカラ演算なんて糞そのものだからそもそも論ずるに値しないわな。 CellでRSXの肩代わりじゃなくて、RSXが糞だからCPUでやらなきゃならんだけだろ。 わざわざ遠いメモリアクセスしてまで。 しかもHDで出すとアンチエイリアスもきかない糞だし。
>>661 記者の勘違いだろう。
ただ単にUSBメモリ上に音響測定用のOSのブートイメージと、
OS本体(たぶんLinux)が入ってるだけと思われ。
>>662 >>651 頭ごなしにCellを糞呼ばわりするならLarrabeeも対等に扱って下さい。
Core2がAthlon64より遅いというのがアレなのは同意。
GK乙
>>664
何を言ったところで馬耳東風
Larrabeeは既存のx86アーキとコード互換だしな。 どっちかというとCellよりNiagaraのアプローチに近い。
Cellの計算能力が糞なんじゃない。LSの狭さとDMA転送のオーバヘッドが糞なんだ。
それは違うだろ。 使い方間違えてるんじゃないの?
Larrabeは共有キャッシュモデルを採用するらしいから MFCを各コアに抱えなくて済む分経済的だな
>>666 言いたい事が見えて来ない。
LarrabeeがSMTにするのはインオーダのせいでチェインに弱いのにも関わらず
命令アーキテクチャ上レジスタの数を増やせず
且つレジスタリネーミングしない(インオーダなので自明)からでしょ。
それがどう繋がるの?
>>667 メモリのサイズはLarrabeeも同じくらいなんだろが、自動でキャッシュされるのだとすると非常に楽だな。
しかしこういうGPUまがいの機構でメモリをランダムアクセスする事は少ないので
慣れればDMAで十分っちゃ十分。
>>669 ルータがでかい。
SMTじゃなくてFGMTだろ。インオーダなら。 LarrabeeのL1キャッシュはレイテンシめちゃ短いらしいしレジスタの少なさは欠点にならんだろう。
すまん。FGMTだな。 で、666からLarrabeeの知識を披露してくれたわけだがどう話を繋げるんだ。 Cellはまだ詰めが甘く糞だがLarrabeeは煩雑さやボトルネックが排除されて互換性もあって、速い、安い、旨いって事か?
コンパイラおまかせで、ある程度のスピードを生かせるなら そのほうが楽だもん。 論文書くわけでもないのに、しちめんどくさいことはしたくない。
larrabee登場のころのiccはマルチコア自動並列化が期待できるかもな。
1コアで4スレッド走らせると平均的に使えるL1が4分の1になる事を忘れてはいけない。 同じデータをよってたかって処理出来るならいいが、一番の使い道はストリームプロセッサとしての用途だからな。 同じデータを繰り返し使うよりもシーケンシャルなアクセスが多い。 更に各スレッドにブロックで分割したストリームを数KBずつ割り当てるようなプログラミングをしてしまうとデータのフェッチ速度も4分の1になる。 ここら辺をきちんと考えたら結局開発は面倒臭いんじゃなかろうか。
能書きはいいからさっさとなんか作れよw
>>661 >USBブート出来るんかい!
公式情報でもそのような記述があるね。
ttp://cell.fixstars.com/products/rt_ir01.html | *セットアップ作業も簡単
| セットアップマニュアルをみながらの作業で、迷うことなくシステム構築ができます。
| PS3とPCの接続はEtherケーブル(クロス)で繋ぐのみです。
| オーディオインタフェースを接続したPCにPCアプリケーションをインストールしてネットワーク設定を変更、あとはPS3用のブートUSBメモリをPS3に差して電源を入れればセットアップは完了です。
| ブートUSBメモリは、ダウンロードしたブートイメージをUSBメモリに書き込むことで簡単に作成できます。
| PCアプリケーションを立ち上げ、PS3の電源をONにしてしばらく待てば測定を開始することができます。
なんかムカツク。つかノウハウ公開きぼん。
678 :
デフォルトの名無しさん :2007/06/14(木) 21:26:52
2,2GHzと1.86GHzでx87の性能比較してりゃ世話ないわ。 SSEも使ってない糞プログラムなんて参考になるわけない
HDBENCHはx87でしょ。 このスレ的にはCell使ってるくらいなんだからスカラでぐだぐだ言ってないでSSEで勝負しろと。
681 :
デフォルトの名無しさん :2007/06/14(木) 21:30:23
682 :
デフォルトの名無しさん :2007/06/14(木) 21:33:42
結局は、Core2=整数演算のみが速い のだが、海外の捏造ベンチが強烈なイメージを残したので勘違いされているだけのこと。 最も重要な浮動小数点演算はAthlonの足元にも及ばない。
CellをPPEだけ動かすくらいヴァカだな
684 :
デフォルトの名無しさん :2007/06/14(木) 21:38:22
肝心のSSE使用+同クロックでCore2が大敗北したのを晒されるとこのとおりw
なんだE4300とX2 4000+のクロックが同じだと思ってるのか。 ゆとり世代だなぁ
淫厨煽りと糞団子いじりはヤメレ
2.1GHzと1.8GHzが同じに見えて エントリー向けのCPUが1項目だけでも負けたら大敗北なのか プレイステーションワールドの世界観すごいなwwww Wiiで遊ぼっとwww
688 :
デフォルトの名無しさん :2007/06/14(木) 22:05:42
セガ信者必死だなw
sageデフォの板で上げて書く奴は余所者だってすぐわかるよ
まあ、Q6600に備えてマシン新調したけど金余ったから PS3もう一台買ってやるよGKくん。 だから、もう帰って良いよ
図星www PS3買ったてのはフカシだろ?妊娠wwww ボクちゃんゲハに帰っていいよw
Cell=ソニー=叩いていい こういう短絡的なアホって本当にいるんだな。
142 :・∀・)っ-くコ:彡- :07/06/05 20:19 ID:??? 12.8Mって数字がいかに眉唾かっつーとね 408SBox+(6XOR+4XOR)*8 = 488 L/SはOddパイプ側だから旨く隠蔽して神スケジューリングで 全体のレイテンシを隠蔽できても1周500クロック程度は少なくともかかる ×16×25=200kクロック KS展開のなどの雑処理や判定入れたらどんなにシンプルにしても プラス1〜2万クロック程度はかかる PPE側で0.8M程度稼げても残りの12MTはSPE稼がなければならないから SPE1個あたり2MT 3192000000 * 128 / 2000000 = 204,200clk どんだけきついかは言うまでも無し。 まさかSPEが7個使えると思ってるわけでもないだろーに つーか、既にやってみたけどPPEのVMXと64bitALUを並列動作させても1Mも越えんかった
明かりつけようよ
団子が口だけなことを再認識
698 :
デフォルトの名無しさん :2007/06/14(木) 23:01:05
後から出たのに負けるCPUってのも珍しいw
このスレどこかに晒された?
現状そのワイドディスプレイ、PS3(Linux)専用。 しかもメインで使ってるノートからTelnetとSambaで入った方が使いやすいからほとんど 電源入れてない。 んで、PCが新たに1台くるから、ほとんどDVIポート占有させるわけにもいかんので、 PS3はテレビ台のWiiの隣に逝くことになるかな。むろんコンポジ接続。 せっかくテレビ周りがスッキリしてたのに、有線LAN接続するのも癪なんだがな。 ちなみにそのPS3はWLANなしね。
どうせLinuxから無線LANが使えないって落ち。
チャッピートリッパーてなネーミングセンスはどうかと。。
最新のアドオンでいけるよ。有線と排他だけど。
ネタを真に受(ry
今気づいた Whetstoneって・・・・Cellは散々じゃんwwww
2007-06-10 01:27:30 [---] Processor: 2 PS3PF Cell Broadband Engine 2007-06-10 01:27:30 [---] Processor features: altivec 2007-06-10 01:27:30 [---] Memory: 196.80 MB physical, 415.73 MB virtual 2007-06-10 01:27:30 [---] Disk: 9.19 GB total, 5.21 GB free 2007-06-10 01:27:30 [---] No general preferences found - using BOINC defaults 2007-06-10 01:27:30 [---] Preferences limit memory usage when active to 98.40MB 2007-06-10 01:27:30 [---] Preferences limit memory usage when idle to 177.12MB 2007-06-10 01:27:30 [---] Preferences limit disk usage to 4.60GB 2007-06-10 01:30:44 [---] Benchmark results: 2007-06-10 01:30:44 [---] Number of CPUs: 1 2007-06-10 01:30:44 [---] 379 floating point MIPS (Whetstone) per CPU 2007-06-10 01:30:44 [---] 1325 integer MIPS (Dhrystone) per CPU 2007-06-10 01:30:45 [---] Resuming computation
PS3ってアイドリング時に いろんな解析に使ってもらう為のマシンでしょ?
>379 floating point MIPS (Whetstone) per CPU FLOPSじゃなくてMIPSなのがアレだが 全部積和算だと仮定して8かけてもAthlon64やCore2の足下にもおよ(ry
>706 良く分からんがPS3 Linux上でWhetstoneを走らせた? とするとPPEオンリーでSPEは全く使われてないのでは? AltiVecは使用されてる?
SPE最適化されて無いんなら比べる意味ねぇ
さあ、タダ飯が食えることもHPCにおける性能として重要かと SPEは「最適化」じゃなくてCell用にコードを新たに書かないと動きすらしないだろ。
こんなん出ました。 2007/06/14 22:23:58||Processor: 2 GenuineIntel Intel(R) Core(TM)2 CPU 6320 @ 1.86GHz 2007/06/14 22:23:58||Memory: 1007.11 MB physical, 2.36 GB virtual 2007/06/14 22:23:58||Disk: 76.69 GB total, 47.26 GB free 2007/06/15 0:29:42||Suspending network activity - running CPU benchmarks 2007/06/15 0:29:44||Running CPU benchmarks 2007/06/15 0:30:43||Benchmark results: 2007/06/15 0:30:43|| Number of CPUs: 1 2007/06/15 0:30:43|| 1714 floating point MIPS (Whetstone) per CPU 2007/06/15 0:30:43|| 3556 integer MIPS (Dhrystone) per CPU 2007/06/15 0:30:43||Finished CPU benchmarks 2007/06/15 0:30:44||Resuming computation
>>714 > Core2で動かした時にアウトオブオーダで発行可能なんだろうか。
依存関係のチェインはOoOでは解決できないよ。
絶対レイテンシの削減のみが解決する。
FPadd/FPmulのスループットはともかくレイテンシはK8とPentium M・Core2で差がないから
単純にクロック数が高い方が有利になるわな。
なのに、1.8GHzと2.1GHzが同じクロック数だと思ってるヴァカがいて(ry
コードを読むと計算の順番を考えれば半分くらいはどうにかなるな。 完全なチェインではないからOoOも可能。 実際にコンパイルして確認してないから予想に過ぎないが gccが馬鹿でインオーダである事を考慮して順番を並べてないだけなんジャマイカ?
ちなみにSPEのFPは溢れた桁は切り捨てしかないから、 規格通りの動きにさせるとソフトでやるしかなくてめちゃくちゃ遅くなるぞ
Cell用に新たにコードを書き直す事を前提にしないなら、つまりフリーランチを食い続けたいなら Cellのような新しいアーキテクチャに興味を示す理由は始めからないだろ? SPE使わなければただの非常にシンブルなPowerPCコアなんだから遅いのは当たり前。 最近のアウトオブオーダー実効で命令レベル並列性を上げまくったCPUと比較するのがそもそも間違い。
別にタダ飯食いたいとは言ってない。より旨い飯を求める為なら多少の努力はするでしょう。 職業エンジニアならそれこそ予算の範囲内で。 Core 2やK8にも最適化には癖がある。 80-20ルールってあるじゃん。 つまるところ最適化の要所はほんの一部だってこと。 車のチューニングのために車輪まで新たに発明するのは馬鹿らしいっしょ。 いや、まあ、自分で金出して買っておいて何も生かさずに肥やしにするような真似は俺もしねーから。
WhetstoneはほとんどスカラだからSPE使っても速くならんよ。 使ったにしろ同期のオーバーヘッドで死ぬ。 Larrabeeの強みはx86のコード資産以上に、最適化屋の人的資産だ。 北森Pen4-HTではL1は1スレッド4KBしか使えなかったが、それでも実力あるソフト屋はうまく使ってた。 4分割なら1スレッド1GHzで動いてるのと同じことだからキャッシュ帯域はあんまり問題ないだろう。 1スレッド辺りのメモリが要るなら都度Nehalemと使い分ければいい。ISAゴンパチなんだから。 命令についてはそのものがコンパクトだしレイテンシはマルチスレッドが隠蔽してくれる。 しかも同じコードなら同一コアのスレッド間で共有できるからこれもCellより優位
HDDVDの再生すら不具合出す箱○のCPUより 1.5倍のビットレートを軽く出すPS3のCELLの方が圧倒的に性能上では?技術的にはBDレベルが2本同時再生も可能らしいし
そういう用途では高性能、ということでは。 全般にわたってそうかはわからん
HDソースのデコードならNECのチップのほうが圧倒的にワット当たりパフォーマンス上だな SONY自身に見捨てられてるCellカワイソスwwwww
>>723 倍精度浮動小数点演算が苦手なのがかなり影響しているだろうなw
>723 ウン? そのNECの石って汎用CPUなのか? それとも専用LSI? 専用LSIならローパワーでパフォーマンスが良いのは当たり前だし。 その次に効率が良いのはDSPかな?
先生!汎用CPUとしては標準的なベンチマークで落第点。 専用LSIにもなれず、DSPにしては電力馬鹿食いなプロセッサは 一体どういう位置づけでしょうか? 汎用CPUと専用回路を使い分ければいいだけだったりな。
>>726 汎用CPU+専用プロセッサ*7でしょうが。
PPEは汎用CPUの割には遅いし、SPEは専用プロセッサにしてはワット当たりパフォーマンス悪い。 まあ90nmの割には良くやってる方だと思うが(Intelの90nm製品の出来をみれば・・・)
>726 マルチメディア系家電に特化したセミ汎用CPUかな? 利点は専用LSI+汎用CPUより安く付く事。 (いろんな事をやらせればやらせるほど) 後、ネットワーク上で分散処理するプロセッサも狙ってるようだが こっちはまだ先が長そうだな。分散OSから開発しなきゃならんし。
>まあ90nmの割には良くやってる方だと思うが(Intelの90nm製品の出来をみれば・・・) 現行のままでもいいからシュリンクして欲しいぜ。
731 :
デフォルトの名無しさん :2007/06/16(土) 15:24:15
タダ飯食える時代はおわった と誰もが認識してるのにできないチョンがいるw
団子はCellに挫折したからといって喚き過ぎ。
低性能コア物量作戦で性能稼ぐアプローチって一過性のもんでしょ。 コア数増やしていっても、マルチスレッド化できない箇所ひとつだけでもあれば そこで頭打ちになる。そうなったときにリッチコアのほうが有利だし リッチコアでもマルチコア化は進んでいく。 NehalemとLarrabeeのコアサイズ比較しても4倍も差はない。 使い捨てアーキテクチャと見なした場合、Larrabee向けの最適化屋は 汎用IAプロセッサやらせてもそのまま使えるが スモールコア前提で命令セットの拡張性にも乏しいSPEのリッチ化は困難。 要するにつぶしが利かない。 少なくともLarrabeeが出てくる前にSPUのISAを十分広め、ソフト資産面での基盤を固めないと ゲームオーバーな希ガス。
俺は整数重視だからCore 2 Quadが3万で買える時点で既にどうでもいい存在です
>730 65nm版セルは確かもう量産開始されていると思うが。 PS3にも多分、今年中か来年の始めくらいには搭載されると思う。 ストリンガーCEOが今年中の値下げを示唆している。
738 :
デフォルトの名無しさん :2007/06/16(土) 15:57:32
IntelマンセーのクセにIntelが進んでる方向性を否定するチョンがいるなw
馬鹿だな。 LarrabeeはNehalemを否定してないだろ。 CSIリンクで混成すら可能だ。
うーん、PPEコアをもっとリッチにして整数演算性能と言うか シングルスレッド性能をもっと引き上げたバージョンのCellも欲しい気もするな。 SPEはシンプルに保ったまま数を増やす方向で。 要するに汎用CPUとして使ってもそこそこパワーが有って特殊な使い方もできる石。 ワークステーション向けCellとでも言うところか。 家電向けのローコスト版と二本立ては難しいかな?
むしろI/Oだな。HyperTransportのライセンスを買うとか。 メモリが業界の問題児RAMBUS依存の時点で(ry
個人的には、PPE*2+SPE*8くらいあると融通が利いていいと思うのだけど。 #PPEがSPEの面倒見ているとカーネルと取り合いになってどうもね。
>742 それはまあ、必然的な進化の方向だろうね。 現在でもPPEコアは2スレッド並列実行できるそうだし。 PPE×2+SPE×12くらい欲しいね。 ユーザー使用可能なコア数で。
>現在でもPPEコアは2スレッド並列実行できるそうだし。 gnome-system-monitor見ていると、足して100%以上動いてない希ガス。
PPEはね 整数ALUは1本だしAltiVecは半速なんでかなり頼りない。 キャッシュはラインサイズが128バイト(なにげにDMAのブロック単位と同じ)だからか やたら遅い印象。 で、ブロック暗号の攪拌処理でよく使うようなランダムルックアップとかやってみると、 まあレイテンシも大きいけど、それ以上にスループットが出ない。 同じラインに載っかってるデータを何度も利用するような感じのコードでないと まともに性能でない。 キャッシュラインサイズが大きいと不便だな。 まあSPEも褒められたもんじゃないけどな もっともIntelもNetBurstでは64Bラインだったし(それでレイテンシが大きかった) Gesher世代でもまた64Bなんだけど(ただしレイテンシ9)
そこまで分っててPPEで計測しちゃったりとかね。 何かにつけて知識を披露したいだけちゃうんかと。 Cellと糞ニー叩きたいだけちゃうんかと。
このスレの最初からずっと、誰も聞きたがらない文句を ダラダラ垂れ流している団子は精神病か何かか?
失礼な!只の人格障害だよ!! 団子に誤れ!!!
749 :
デフォルトの名無しさん :2007/06/17(日) 02:45:05
Intelの進む方向を否定したバカが言い訳に必死w
750 :
デフォルトの名無しさん :2007/06/17(日) 02:47:32
ていうか、CellにおけるSPEは SIMDユニットなのでPentiumやCoreにおけるSSEユニットと等価。 SPEを使うなということはCOREにSSE使うなといってるようなもの。 ついこの間までSSE使って測定しろとかダダこねしてたくせに Cellに限ってSIMD使うなとワガママ言い出すバカなんだよな。 んなことしてもCell >> Athlon >>>>>>>>>>> Coreなのは変わりないのにw
団子はプログラムさえできないド素人だから
ラララ矛盾君 ラララ矛盾君
SSEは1999初出の既に枯れた技術ですが? コンパイラオプションで【ソースの変更必要なしに】対応できる。 SCE謹製のGNU Toolchain使ってもSPEスレッドは勝手に作ってくれないね。 そこまで言うならSPE対応のWhetstone作ってみやがれ無能共www
言いたいことは
>>735 に集約されてるし
自社製家電にすら採用されないんじゃ将来無いだろ。
PS3にせよソフト売り上げは3ハード最下位だし。
っていうか、【倍精度】のスループットはPPE>SPEだろどう考えてもwwwwww いまSPEで動く(elfspe依存)Whetstone作ってるが 出来上がったらベンチ結果教えてあげるわwww
ちなみにそのままコンパイルすると一応ビルドはできるけどこんな感じ [dango@ps3 whet]$ ./whetdc -c 1000000 spe_run: Bad address
Whetstoneはベクトル化できないからね SIMD FPユニットが64bit幅でも128ビット幅でも全く関係が無い。 実際Yonah(64bit)→Merom(128bit)でも殆ど伸びてない。 したがって単純にスカラのレイテンシ依存。 同クロックだと理屈上こうだね K8≒Core 2>>>PPE>>>>>>>>>>>>>>SPE
>Calibrating delay loop... 158.72 BogoMIPS (lpj=317440) >※/proc/cpuinfoには無かったが,bogomipsは158.72となっている。 >2GHzのPowerPC G5のBogoMIPS値が1300程度であることを考えるとPPEの処理能力はかなり低く, >SPEを活用できないと高いパフォーマンスを得られないことが分かる。
>>750 アホ
PPEのSSE相当のものはAltiVecであってSPEは外部プロセッサだ
それとSPEの倍精度はPPEの数分の1程度でしかない
こういう構造のプログラムはマルチスレッド化自体が不可能。
>>753 から
>>757 まで一時間以上かけて必死にレスしててワロタ
人格障害じゃないとできない芸当だわ
タダ飯の時代は終わった →んなこといってるからタダ同然の飯を提供してるWiiに負けるんだろwww Intelは投機スレッディングによるシングルスレッド性能の引き上げとかハード面での サポートの研究もやってるし、ソフト部門に大量に人員を割いて、簡単に マルチスレッドアプリケーションを構築できるようなライブラリ作ってる。 タダでは食えないが安く飯を食わせる方法は提供するのはCPUメーカーの使命。 それをやらないといくら潜在性能が高くてもソフト開発の人件費が高くついて 結果駄目なんだよ。せめて標準コンパイラで出せる基本性能は高くしておくべき。 実際HPC市場でCellサーバの出荷は伸び悩んでるね。 倍精度駄目だし。
否定できるもんならWhetstone SPEで10,000MIPS出してみろよボケ
だからぁ、ここはおこちゃまの某を煽てて巧いこと情報を引き出すスレなんだってば。 尤も、下手に噛み付いてもちゃんと情報が出てくるところが某の凄いところだけれど。
765 :
デフォルトの名無しさん :2007/06/17(日) 09:43:25
Whetstone って、スカラ演算なんでしょ?コード書く必要性すらないように思えるが。 だいたい、SSEとは同じベクトル演算だがレジスタ数が違いすぎるから、 同じ命令の並列度の上げ具合やメモリへの書き出し数自体も全く違う。 コードの書き方変えないと、速くなるわけがない。
> Whetstone って、スカラ演算なんでしょ?コード書く必要性すらないように思えるが。 ハイこのとおり [dango@ps3 whet]$ spu-gcc whetstone.c -lm -Wall -o whetdc [dango@ps3 whet]$ ./whetdc -c 1000000 spe_run: Bad address コードそのまんまじゃ動きすらしませんwwww > レジスタ数が違いすぎるから え?レジスタ数が多いのは性能面ではプラスでしょ?wwwww そもそも高級言語レベルでレジスタの割り当てなんて意識する必要は無い。 速くならない理由に全くなってないぞwwww ヴァカ決定www 要するにお前が認識してない致命的な弱点があるんだよ。
767 :
デフォルトの名無しさん :2007/06/17(日) 11:05:12
>>766 必要以上にあおられてるが、書き込むこと自体久々なんだがな。
誰かと勘違いしてる?
そのまま動かないのは、コード自体に問題あるからじゃない?
おれにはそんなベンチマークコードを移植する必要性すら感じないわけで動作するにしろ速度にしろ関係ない。
だいたい、おれはx86系のSSEと単純比較する必要性すらないという意味で
いっただけで、どこにもcellをけなしてるわけでもない。
例えばIDCTを作る場合1列の演算自体でIA-32だと8個しかないから、ぎりぎりだし。
Cellなら1ブロック分をレジスタに置きながら計算できる分スケジューリングでかなり有利だと。
同じようにメモリに書き出しているコードを書いていたら意味がないでしょ?
C言語レベルでも組み込み命令でレジスタのメモリへの退避をなるべく減らすように組むのが基本では?
スケジューリングをコンパイラに任せられればいいのだが、いまいちcellのコンパイラはスケジューリングはうまいといえない。
出てきたアセンブラコードのレイテンシをチェックしながら書いているぞ。
あと、単純なスカラ演算コードもPPEでやるよりかはSPEで並列に動かしたほうが多少ましになる。
C2Qx2との比較で言えばそろそろCellの有利さも消えてきた感があるが、
マーキュリーのボードを利用して両方使うことも考えられるし、一概にどちらがいいとは言えない。
個人的にはPS3なんて、外部・内部インタフェースの拡張性のなさや、メモリの少なさから選択肢に入らない。
768 :
デフォルトの名無しさん :2007/06/17(日) 12:39:01
枯れたも何も、同じなんだからなあw 日本語も読めないのかあのチョンはw
769 :
デフォルトの名無しさん :2007/06/17(日) 12:41:39
770 :
デフォルトの名無しさん :2007/06/17(日) 12:44:25
タダ飯の時代は終了 だからIntelもそう言ってるんじゃんw またIntelの言うことを否定したよチョンがw Wiiの売り上げもどうだか GCのときはPS2とXBOXに勝ったとか散々言っておきながら、 結局は「たったの一台も売れてなかった」わけでw 本当にそれだけ売れてりゃ一瞬たりとも追いつかれたり抜かれたりしねえよ ってのに、本社は超大赤字。 何のことはない、電通と組んだ捏造だったわけでw
771 :
デフォルトの名無しさん :2007/06/17(日) 12:46:09
>>760 プログラムも書けないド素人だからなw
何もかも論破され、無知のド素人だということがバレて悔しいんだよw
>>764 おこちゃまのカキコを参考にしようとしてる時点で同じ穴の狢になるから気を付けて。
公表されている資料を除けば、出任せと勘違いしか残ってないよ。
煽ってるだけじゃつまらないので、一点だけ突っ込んどくよ。
PPUのVMXが半速? どんな計り方したのか知らないが
嘘を吹いて回るな。まずは CBE Handbook を印刷して擦り切れるまで読め。
それまでPPEのVMXについて触れるの禁止な?
Whetstoneみたいなスカラでなおかつ依存関係チェインの支配的なプログラムは レジスタがいくらあってもインタリーブしようがなければ性能伸びないよ。 SPEの命令レイテンシはCore 2のSSEのそれのほぼ倍。 倍精度に至ってはdual issue非対応の上、パイプラインがストールする。 SPEに移植するのは最適化じゃなくて劣化でしかない。 いずれにせよこういう伝統的なベンチは「弱点のなさ」を計るのにはちょうどいい罠。
そもそもCore2が全てにおいて速いとか捏造してた時点でド素人。 Core2マイクロアーキテクチャが速いのは整数演算だけで、 そのほかの性能はまったく及ばない。 浮動小数点演算はCellやAthlonの足元にも及ばない。 こんなにデキの悪いアーキテクチャはそうそうお目にかかれないぞ
>>772 URL出せアホ
俺はちゃんと実測してる。
776 :
デフォルトの名無しさん :2007/06/17(日) 12:54:03
また捏造だよw
プログラム書けも理解もできないのが実測とかいってもなあ・・・・・
妥協なんかGPUでもあるわけで。 これからはベクトルの時代だ、と思えば設計思想上から スカラが弱くなることは分かりきってる。 それを弱点としても、ベクトルを伸ばすことに意義があるわけだ そんなCPUにスカラがどうこうって まさに頭の弱い知恵遅れじゃん。
必死椙w
>>778 本分のゲーム機でシェア最下位、自社家電にすら採用してもらえないんじゃ
意義は全く無いと思うがな。
別にLarrabeまで否定してるんじゃないよ。伝統的な x86 ISAだ。
SPEもISAをPPC互換にしとけば移植性でそんなに問題なかったのにな。
782 :
デフォルトの名無しさん :2007/06/17(日) 13:03:49
スカラに拘らないといけないほど、Core2が弱いんだよw WiiのCPUに関しても無知丸出し。 あ れ だ っ て マ ル チ コ ア な の だ か ら 、 タ ダ 飯 は 食 え な い w タダ飯食えないXBOX360のPPC970と同じようなものなのだがw そんなこともわからんバカw 思い込みが激しいんだよな。Core2だから何もかも速い「はず」 Wiiだからタダ飯食える「はず」 無知のド素人w
783 :
デフォルトの名無しさん :2007/06/17(日) 13:04:30
>>779 以前に出された証拠すら読めないチョンですね。ただの妄想かw
そんなにCore2が出来損ないだと証明されたのが悔しかったのかw
そんなことしても遅い出来損ないは遅い出来損ないのままなんだよw
WiiのCPUがマルチコアってwwww やべぇ吹いたwwww
SPEって独立時の命令アーキテクチャはPPEと同じだからなあ・・・・ もともとPowerPC970で、それと随意動作するSIMDユニットなのだから命令セット変えられるわけがない。 独自命令はあってもね。 独立動作しないときは、単なるベクトルユニットだから命令セット云々関係ないし・・・・・ こりゃ本格的な無知だな。
2.1GHzと1.8GHzをWhetstoneスコアの比較ですか? Cellだと全く話にならないアレですか?
787 :
デフォルトの名無しさん :2007/06/17(日) 13:06:59
WiiのCPUがシングルスレッドってwwwww やべえ吹いたwwwww
788 :
デフォルトの名無しさん :2007/06/17(日) 13:08:47
2.1GHzと1.8GHzだとか言って逃げてたアレですか? 2.1GHz同士にしても敗北したアレですか? 2.1GHz同士にすれば勝てる!とかチョンが捏造したが証拠も出てないアレですか? Cellにすら負けたアレですね? やべぇ吹いたwwwwwwww
> SPEって独立時の命令アーキテクチャはPPEと同じだからなあ・・・・ > もともとPowerPC970で、それと随意動作するSIMDユニットなのだから命令セット変えられるわけがない。 > 独自命令はあってもね。 > 独立動作しないときは、単なるベクトルユニットだから命令セット云々関係ないし・・・・・ > > こりゃ本格的な無知だな。 命令フォーマットって知ってます? SPUのISAはとPower ISAとは全く互換性がありませんがwwww
具体性に欠ける戦いの会場はこちらですか?
791 :
デフォルトの名無しさん :2007/06/17(日) 13:12:59
そのK8>Coreだと思い込んでる根拠のWhetstoneが Cellでは全く話になってないのに 脳障害甚だしいな
やべぇwwww SPEとPPEが同じISAだと本気で思ってるらしいwwwwwwwww 同じならコンパイラ別々に用意する必要ないじゃんww 4バイト固定長でレジスタフィールドのサイズが違う時点で 互換性あるわけないだろ 命令フォーマット全く互換性がありません
なんか「SSEはx86 ISAじゃないからクソ」 みたいな論調になりつつあるなw 本来のx86とは毛色が違うSSE命令はよくて SPUはダメとかダブルスタンダードをカマしてくれるに違いない
SSEはx86 ISAですが?www
SPEとSSEの関係が同じなら Pentium IIIの時点でヘテロジニアスマルチコアってことになるな。 あれ?www
たしかに完全単体は無理だけど PS3 LinuxはSPEプログラムを単体テストするための環境があって、 elf形式のバイナリをシェルから直接実行できるようになる。 I/O等SPEでは無理な処理だけをPPEに投げてやることになる。 PPE側では単体SPEプログラムのヘルパースレッドが走ることになる。 SPEにプログラムロードしてキックし、終了するまでひたすら待機する。 いずれにしてもL/Sに収まらないほどのコードやデータが必要な場合は この仕組みすら使うことができない
800 :
デフォルトの名無しさん :2007/06/17(日) 14:01:52
やべぇwwwwwwww
PowerPCのISAが4バイト長受容できないと捏造してるつもりらしいwwwwwwwwwwwww
PowerRISCは固定長は固定長でも
「それしかないという固定長じゃない」ことも知らんらしいwwwwwwwww
さすがプログラムもできないチョンwwwwwwww
コンパイラ同じじゃんw
SPE専用のアセンブリ言語が追加され、そっちのほうが速いので別に用意しました
ってだけのもので
「少し前まで同じコンパイラでコンパイルしてた」わけなうえに、
「PPEはスケジューラ」なわけだがwwwwwwwwwwwwwwww
本気で無知だあのチョンwwwwwwww
http://pc.watch.impress.co.jp/docs/2005/0228/kaigai160.htm 違うなら「アロケート」なんぞできやしねえwwwwwwwwww
801 :
デフォルトの名無しさん :2007/06/17(日) 14:03:36
Cellって単にSIMDユニットが外に出てるだけじゃんなw PPEにSPEを内包してしまえばPentium3と同じ あれ?wwwwwwwww まさかこれをヘテロジニアスとかカタッてんじゃwwwwwwwwwww もともとx86にはSSEなんてものはなかった。 SSEが追加されたことでx86命令は拡張された。 PowerRISCにSPE命令が追加された。 SPE専用命令が追加されたことでPowerRISCは拡張された。 あれ?wwwwwwww 同じじゃんwwwwwwwwwwwwww
無知って無敵だな
803 :
デフォルトの名無しさん :2007/06/17(日) 14:05:26
> PowerRISC 住んでる次元が違うみたいですね。 こっちの世界にはそんなものはありません
さて・・・ Core 2 Duo E6600(2.4GHz) 7328 FPU / 10785 SSE2 Athlon64 4800+ AM2(2.4GHz) 7712 FPU / 9962 SSE2
コンテクストって概念を理解してから来ましょう
Power系統は4バイト長と8バイト長あるんでは。 全部が16ビット、ってわけじゃない
SPU ISAには4bit opcode+7bitレジスタフィールド×4なんてフォーマットまであるよ。 PPCを切り捨て新規に組まれたISAだからこそできる芸当だが SSEはx86フォーマットの2-3byte opcodeを使ってる。 異質なのは、もともとはコプロセッサだったx87。 SSEはユニファイドパイプラインの上に作られたもので、 別コアでもコプロでもなんでもない。 というか汎用ALUとSIMD ALUが同じ実行ポートだったりするし。
809 :
デフォルトの名無しさん :2007/06/17(日) 14:24:34
技術的に論破されて泣いたチョンの図wwwww もう何も言い返せずwwwwwwww RISCはPowerしかないと捏造した例w (RISC=PoewerだけならRISCだけでいい わざわざPowerRISCとした意味も理解できないとw) 804 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 14:06:05 > PowerRISC 住んでる
フォーマットがあるかどうかじゃなくて、 32ビットと64ビットを受け入れられるかどうかだろ。 レジスタは高級言語でやる限り意識しないでいいからね。
PowerPCって書こうとしたけど間違えたって言ったほうがまだ恥ずかしくなかったと思うがな POWERとかPowerPCとは書くがPowerって書いたらCPUアーキの固有名詞としてはまず通用しない
812 :
デフォルトの名無しさん :2007/06/17(日) 14:27:49
後から出てきて浮動小数点ユニットの強化、 プリフェッチング、opsまとめチート これだけやってもAthlonに勝てないCore2wwwwwwwww ホンマに浮動小数点演算がクソだな。 Pentium4のときと同じ。 AthlonXPに搭載されていないSSE2使わないと1/10の性能 まったく変わっていないwwwwwwwwww
813 :
デフォルトの名無しさん :2007/06/17(日) 14:29:10
ハァ????? 命令セット、ISAの話をしてるのに なぜPowerPCとかPowerとか 命令セット、ISAではないCPUの名称なんぞ出さねばならんのか バカだこのド素人w
あげて煽ってるヤツも、マジレスしてるとしたらヴァカだぞ。団子と同ステージ。
815 :
デフォルトの名無しさん :2007/06/17(日) 14:31:08
RISC=PowerならPowerだけでいい しかしそうではない って書いたその文さえ理解できないチョンw チョンいわく、RISCはPowerだけが採用してるらしいw
>>810 PS3 Linuxで動くアプリの大半は、ISAが均一でないがゆえにPPEだけしか使えてないのですが。
っていうよりSPEは動かし方が特殊すぎるからね。
あれはコアっていうよりは「オンダイの別コンピュータ」って表現が適当か。
DMAコントローラでメインメモリにアクセスできる以外は、基本はメッセージパッシング
でしか通信できない。
>>814 こいつの言ってることのDQNさ加減がわからないならお前もこいつと同レベル
別にISAの統一性の有無がPS3の生産性の低さを左右しているわけじゃないだろ。
団子はこの期に及んでも自らの無知っぷりに気付いてないようだな。 だからこそいけしゃあしゃあと知ったかぶり披露できるのか。
どっちかというと開発ツールだな。
現在ageとsageを繰り返してます
自説を否定する連中が同一人物に見えてくる病、発病中。
自説の馬鹿さ加減が解らない子の自演はよくわかる
平日に朝から晩まで2chやってる奴乙
結局団子はCellプログラミングできないんだな?
Cellプログラミングを理解してたらとてもCellマンセーなんてできないよ
結局、団子を煽っている香具師は後藤儲なのかただの馬鹿なのか、 CBEをまるで理解しないで書いているだけなんだよな。 なーんて書くと、団子の自演ってことにされちゃうんだろうかw
830 :
デフォルトの名無しさん :2007/06/17(日) 15:00:10
SSEが勝手に動作するものと思ってるド素人を晒し上げwww SSEって勝手に動作するものか? SSE命令を使って組まないとSSE使わないだろ。 SPEって勝手に動作するものか? SPEを動かせるように組まないとSPE使わないだろ。 あれ?wwwwwwwww 何の違いが????? あのド素人のチョン、「ユニファイドなのでSSEは勝手に動作するもの」と捏造始めたぞwwwwww CPUが勝手に判断して動作するなら「SSE駆動命令」なんぞ必要ねえじゃんwwwwwwwww SSE使用しているのは、その命令を使って組んだから こんなこともわからんあたり、まさにド素人w
ゲハでやれ
そーいやARMはISAの混合が可能だな (XScaleのWirelessMMXとかThumb命令なんかはこの機能で実現)
プログラムさえできないド素人の団子 まさにそのとおりだな なーんて書くと、自演ってことにされちゃうんだろうかw
うーむ、SSE命令を使ってくれるコンパイラとSPEを動かせないコンパイラで較べるのは無理があるような。 CELLマンセーの連中も、SPEを効率よく動かすためには手間が掛かるってことくらい理解してほしいぞ。
>>829 ソフト側からは全く意識しなくていいハードウェアスケジューラとソフト屋がわざわざ死ぬ思いで
書かなきゃいけないPPEでのリソース管理ルーチンが全く同じだもんなぁ
馬鹿で無知な子って表現力が多彩でうらやましいよ
そういう妄想はソフトIPのソース読んでからにしる。
旗色が悪くなると話を逸らす団子 団子も煽ラーもCBE理解については五十歩百歩だね ただ団子のほうがお勉強進んでるけどw
839 :
デフォルトの名無しさん :2007/06/17(日) 15:08:19
ド素人「SSEユニットはパイプライン上にあるのでコプロでもなんでもない」 SSEが勝手に動作してくれて、SIMD演算やってくれるCPUがあるんだってさwwwwwwwww コンパイラの問題を、CPUの問題に摩り替えようとする プログラムすらできないド素人のチョンw CellSDKコンパイラが自動でやってくれるようになったらどう言い訳するんだかw っていうか今でもやってるがw (Linux用のコンパイラはしていないというだけで)
PPEのVMXが等速って人は 単精度:PPE+7SPE=192GFLOPS(公称) をどう説明するんだろうなぁ。 PPEのVMXが半速でないと計算が合わないんだが。
841 :
デフォルトの名無しさん :2007/06/17(日) 15:11:22
それじゃここでお題を一つ。
例の本に載っていたサンプル同様にDMA転送するプログラムを組んでみたのだが、
転送サイズが128バイトでも16KiBでも転送時間が殆ど(つーか誤差範囲でしか)変わらないのだが
そんなもんなのだろうか。
>>840 大丈夫、煽るだけだから説明しない。
団子の無知さが浮き彫りになったな。 全部論破されてる
844 :
デフォルトの名無しさん :2007/06/17(日) 15:14:07
それにI/Oだろ SPEでは処理できないとか無知を自分で晒してるwwwwww PS3ではOSとI/O周りはSPEで処理してる。 だから7個あるSPEのうち、1個リザーブされて 使えるのは6個まで、なんだよなこれが。 無知にも程があるってのwwwwww
いずれにしても、自分で自分を擁護しなきゃならんとは惨めだなあ・・・・・・・ さるさん出ると擁護と本人が一斉に黙るのでわかりやすい
>>842 例の本って例のFedoraで解説してるのにYDLのDVD収録してそっちは全く解説なしの
あのトンデモ本のこと?
まだ個人ブログのほうがためになるよ。
SPUメールボックスからメール受け取るコードとか、かのブログのコード
そのままパクって使ってるからな俺
847 :
842 :2007/06/17(日) 15:32:26
libspe2はpdf見ながら書いているから例の本のサンプルはヒントとして使っているだけ。 例えばメール拾うのはlibspe2使っているけど、CUGのライブラリとやっていることは 似たようなもんだから取り敢えず気にしてない。 で、PowerPCスレまでここと同じ論理が展開している罠w
団子エラソーなこと言って全部間違いだらけかよwwwwww
PPEから全SPEに命令供給しているとすれば少なくとも16issueか。 すげー主張だな。
850 :
デフォルトの名無しさん :2007/06/17(日) 15:37:53
命令イシューと実演算の負荷が同等だと思ってるチョンがいるようでw
851 :
デフォルトの名無しさん :2007/06/17(日) 15:40:24
負荷なんて論じてないんだが。 PPEから命令供給ってEIB経由なのかな 毎クロック2命令で8バイトとすると・・・ 25.6GB/sじゃ帯域全然足りないねwwww
853 :
デフォルトの名無しさん :2007/06/17(日) 15:45:35
で、PPEから直接供給された命令は、リタイヤメントはどこのコアでやるの?www
IA-32ではSSEのXMMレジスタの最下位DWORD値をx86汎用レジスタに 転送するのにかかる時間はたかだか1〜2クロックですね。 さて、 某人曰く「SSEと等価」なSPEから、汎用コアのレジスタ上に 32ビットデータを転送するのに何百クロックかかるでしょうか?
リタイヤメント=省かれるもの だっておwwwww リタイヤメントって正しく実行された命令を パイプラインから破棄する処理のことなんだけどなwwww
857 :
デフォルトの名無しさん :2007/06/17(日) 16:01:04
お、またチョンの捏造はじまったw 対メインメモリ以外ではレイテンシなど1クロックで終わり。 Cellの弱点は対メインメモリだからなあwwwww で?そこまでクロックを食うとして Core2との性能差はどう説明するのだろうねえ あの無知のチョンはwwwww
858 :
デフォルトの名無しさん :2007/06/17(日) 16:02:05
リタイヤメントって正しく実行された命令を パイプラインから破棄する処理のことだっておwwwwwwww 省かれてんじゃんwwwwwwwwwwwww あの日本語も読めないド素人チョンはワケがわかんねえなwwwwww
ローカルストアですらレジスタへのRead/Writeに6クロックかかるのに SPE-PPE間でダイレクトにデータ交換できるのか どんな高速バスだろうなwwww
860 :
デフォルトの名無しさん :2007/06/17(日) 16:09:59
チョン、論破されて悔しがりワケのわからんことを口走りだすの図wwww
「リタイヤメントって正しく実行された命令をパイプラインから破棄する処理のこと」????
省 か れ て ん じ ゃ ん w
そもそも、こんなことがあるとしても
これ自体がパフォーマンスヒットの原因で「あってはならないこと」なのだが
無知にも程があるwwwww
IA-32のレジスタ間クロックレイテンシも捏造ww
http://pc.watch.impress.co.jp/docs/2006/0718/kaigai288.htm 856 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 15:59:19
リタイヤメント=省かれるもの
だっておwwwww
リタイヤメントって正しく実行された命令を
パイプラインから破棄する処理のことなんだけどなwwww
861 :
デフォルトの名無しさん :2007/06/17(日) 16:13:15
そんなことどこにも書いてないんだが 想像力たくましいなぁ
863 :
デフォルトの名無しさん :2007/06/17(日) 16:16:49
お、また論破されて「書いてない」とか捏造始めたw 無知にも程があるw
movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 こんな感じで繰り返せば一応往復のレイテンシは計測できるよね で、何クロックかかるのかな? 答えてね。俺より頭いい子ならすぐわかるはず。 もっとも俺は実測結果あるけど
865 :
デフォルトの名無しさん :2007/06/17(日) 16:24:21
ハァ???????? Cellは内部倍精度なのに????????
CellでSSEって
本当にプログラミングしているのか探り合うってどんな糞コミュニティだよwww
>>866 SPEはSSE同等っていう珍説唱える子がいるんでね。
869 :
デフォルトの名無しさん :2007/06/17(日) 16:28:22
根本的におかしいからなw 「xmm0」wwww Cellつっても、結局Power系統で 素人チョンはPower系統に不利な条件とか 実行できない条件持ち出してきて喜んでるちゅうことだわなw
突っ込みどころがおかしいなあ
871 :
デフォルトの名無しさん :2007/06/17(日) 16:30:08
どちらもSIMDユニットだから、ハードの役割としては同等 というのに、ISAが同じだと捏造していたとw バカだあのド素人w Cellも知らずプログラムもできないチョンw 保存しとこうやw 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 movd xmm0, eax
で、何クロックかかるの? 答えられるだろ? これが答えられないなら、CPUの速度を相対化できるわけがないよね
873 :
842 :2007/06/17(日) 16:34:20
相手するのが馬鹿馬鹿しくなってきた…… 団子、あんたえらいよw
俺もそろそろ飽きてきた このGKくんはSONYが叩かれてるのでゲハ板に帰ったほうがいいと思うんだが。
で、論点と結論をだれか一言づつでまとめてくれないだろうか? 出来れば当事者以外の誰かが。
まぁ、結局は鱈セレが最強なんだがなwww
なー WiiのCPU(Broadway)はゲームキューブ上位互換のシングルコアだよな なんかマルチコアだとか思い込んでる馬鹿がいるんだが
879 :
デフォルトの名無しさん :2007/06/17(日) 16:47:46
データシートじゃないのか・・・
つーか、「Cellで」なんて一言も言ってないんだがな x86アセンブリコード見てx86のことだと思わない奴のほうがおかしい
883 :
MACオタ :2007/06/17(日) 17:09:58
884 :
デフォルトの名無しさん :2007/06/17(日) 17:11:21
晒されて必死の言い訳wwwwww ゲハで負け 自作で恥を晒されwwwwww
885 :
デフォルトの名無しさん :2007/06/17(日) 17:12:21
887 :
デフォルトの名無しさん :2007/06/17(日) 17:14:11
チョン、また無知を自分で披露しておるwwwww
250 名前: MACオタ>248 さん [sage] 投稿日: 2007/06/17(日) 16:14:27 ID:Kp8SxLEQ
>>248 通常、命令実行の流れが変わることを新アーキテクチャと呼ぶす。
従って、
・(特にOoOEで)FPUやベクトル等の専用演算パイプラインの『増設』わ、新アーキテクチャと
言い難いことが多い
・デコード等、命令処理系の変更わ、新アーキテクチャ
・ISAの変更わ、当然新アーキテクチャ
・キャッシュの変更わ、スケジューリングに影響するので新アーキテクチャと呼んでも
良い場合も多い
・オンダイ・メモリコントローラわ単に周辺チップを内蔵するだけなので、新アーキテクチャとわ
言い難いことが多い。(稀に命令のスケジューリングに影響するほど密結合する場合もアリ)
888 :
デフォルトの名無しさん :2007/06/17(日) 17:14:55
750CLのほうが近いな。キャッシュ容量的にも。 FPUでの単精度×2演算ってサポートしてたっけ?
890 :
デフォルトの名無しさん :2007/06/17(日) 17:18:26
ハイおさらい。 だいたい、Cellでeaxとxmm0間のレイテンシって実測できるのかちゅう疑問はあるよな。 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 もっとも俺は実測結果あるけど だそうだがwwwwww
891 :
MACオタ>団子 さん :2007/06/17(日) 17:20:22
>>889 ----------------
FPUでの単精度×2演算ってサポートしてたっけ?
----------------
サポートしてるからGecko/Broadwayと書いたす。サポートしてなければ、普通のG3じゃないすか(笑)
「750」と「970」って同じ数字に見えるか?おまいら 1つ、2つ、いっぱいの世界の人なのかな?
893 :
デフォルトの名無しさん :2007/06/17(日) 17:21:07
750は生産しているのか? 970は1コア1スレッドなのか? チョンの名言wwwwww ・CellでSSE 「実測結果あるけど」 ・「WiiのCPUはシングルスレッド」
970系コアが90nmであんなダイサイズに収まるわけないべwwww
895 :
デフォルトの名無しさん :2007/06/17(日) 17:25:08
カスタムメイドも理解してないチョンかwwwwwwwww 970系のCell-PPEはあれで済んでることも理解できてないとwwwww チョンの名言 ・CellでSSE 「実測結果あるけど」 ・「WiiのCPUはシングルスレッド」 ・「970系コアが90nmであんなダイサイズに」
896 :
デフォルトの名無しさん :2007/06/17(日) 17:27:13
いやー、まとめようにも負け犬チョンの恥が凄まじく大量にあって短時間ではまとめきれないwwww マストウォッチはこれだがwwwwwwww だいたい、Cellでeaxとxmm0間のレイテンシって実測できるのかちゅう疑問はあるよな。 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 もっとも俺は実測結果あるけど だそうだがwwwwww
PPE=970=Broadwayだっておwww
898 :
デフォルトの名無しさん :2007/06/17(日) 17:37:16
775 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 12:52:38 俺はちゃんと実測してる。 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 もっとも俺は実測結果あるけど CellでSSEをか????wwwwwwwwwwww ウヒャヒャヒャヒャwwwwwwwwwww
899 :
デフォルトの名無しさん :2007/06/17(日) 17:39:27
負け犬チョンの名言はまだまだ続く ・SSEユニットはパイプライン上にあるから、命令を与えなくても勝手に動作する ・I/OはSPEでは処理できない メモリマップドを??? 処理できないとな???????? ウヒャヒャヒャヒャヒャwwwwwwwwwwww
>カスタムチップだからそりゃデータシートは一般向けに出てないだろ。 カスタムチップである事とデータシートがWEBで公開されてない事はあまり関係が無いがね。
750CLのドキュみたけどスペックはBroadwayと一致してるね。 ついでにデュアルコアでもなければSMTでもない。 なんだかんだで後追いで対応するのが任天堂。 地デジ終了の2011年頃にタイミングよくマルチコア搭載の後継機を出してくるに違いない。 PPCだとすればPWRficientのカスタムあたりか
>>901 任天堂はゲーム機本体を安くあげるためにもともと枯れた技術を使って作っていたよ。
64は変な方向に走ったけれど。
Cellプログラミングスレと Cellの将来に関して大議論するスレの2つに 分けたほうがいいんじゃねーの?
これ以上駄スレを増やすなよ。
糞団子はゲハに帰れ
糞コテ叩いている香具師に質問。 libspe2.aにある、ppeからspeのモジュールを呼ぶ関数であるspe_context_run()は なんだってあんなに時間が掛かるのか、ヒントだけでもいいから教えてくれ。 あんたが言うようにx86におけるSSEのように手軽にSPEを使えるというのなら、 もっと速くて然るべきだと思うんだ。
糞コテには聞かないのかよ。 loadの方じゃなくてrunがそんなに遅い? 測ってはいないけどそんな遅く無さそうだから気にせず呼んでる。 それよりもSPEで自立した方がいいよ。 SPEを1つのCPUと捉えれば、その中でスカラを使うのもSIMDを使うのもSSE並。
>>907 SPUFSを介したやりとりが全般的に遅いと思う。
とだけ、糞団子のことはどうでもよくマジレス。
すげーアホな煽り合いでスレが伸びててわらす
911 :
デフォルトの名無しさん :2007/06/17(日) 22:09:20
結局Cellって帯に短し襷に長しのンコCPUって事か ゲーム専用だけどゲームソフト屋にも嫌われてるみたいだし
煽るのやめ。 どこに対して結局なんだよ。
そういや1000万trip/sのCellトリッパはどうなった?>団子
914 :
デフォルトの名無しさん :2007/06/17(日) 23:43:26
朝から晩まで張り付く団子って・・・・
915 :
デフォルトの名無しさん :2007/06/17(日) 23:45:38
今日のビックリ大賞 団子はCellでSSE測定した!!!! xmm0レジスタと!!!! eaxレジスタでmovd繰り返したと!!!!!! 世界中のプログラマが驚く
916 :
デフォルトの名無しさん :2007/06/17(日) 23:46:22
だいたい、Cellでeaxとxmm0間のレイテンシって実測できるのかちゅう疑問はあるよな。 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 もっとも俺は実測結果あるけど だそうだがwwwwww
>>913 もう別の欲しいって人に途中までのコードあげちゃったよwww
いくらレジスタが馬鹿みたいに多くても演算ユニットがなければそこで頭打ち。
45nmのCore 2 Quadに対する優位性全く無し
同一コア数ならSIMD整数3Wayに勝ち目あるわけないべ?
むしろPS3 Linuxインスコできるなら自分で開発できると思うが
ちゃんとコア部分のソースは公開してるだろ大分前から
>>908 たぶん一回一回SPEコンテクスト起動と終了繰り返してるんじゃないの?
速いわけないべ。
SPEスレッド走らせっぱなしにしてメールボックスで通信しないと。
コードの入れ替えが必要な場合はオーバレイで。
920 :
デフォルトの名無しさん :2007/06/18(月) 03:08:09
ろくに知りもしないくせして知ったふうな口きく これぞダンゴ
Intelがアグレッシブなプロセッサを作ってもiccがあるからと言うなら 比較対象はIBMのコンパイラだと思うんだ。 さておき、whetstoneの最適化が面白そうだから挑戦してみようと思ったら 案外普通に動いてしまったのでちょっと興が削がれた。 以下全く手を加えていない状態で計測。 $ spu-gcc whetstone.c -lm -mstdmain -O9 -o whetdc $ ./whetdc 1000000 Loops: 1000000, Iterations: 1, Duration: 106 sec. C Converted Double Precision Whetstones: 943.4 MIPS コードに手を加えてfloat版も作ってみた: Loops: 1000000, Iterations: 1, Duration: 13 sec. C Converted Float Precision Whetstones: 7692.3 MIPS なんかループが消されてそうな雰囲気なので-O2で再計測。 float時(-O2): Loops: 1000000, Iterations: 1, Duration: 66 sec. C Converted Float Precision Whetstones: 1515.2 MIPS
float時のループが最適化で消される事が無いように -DPRINTOUT -O9で測ってみたら37sec, 2702 MIPSだった。 -DPRINTOUT -O2だと89 sec, 1123 MIPS ループが消されてるかはアセンブリみればいいんだけどね。 7692 MIPSが眉唾としても少なくとも2702 MIPSは出るっぽい。 (float時である事に注意)
んなことしなくてもループカウンタをvolatile変数にすればループ除去抑制できるじゃないか それと、ループのオーバーヘッドを正確に計測したいなら、 あと、分岐ヒント命令も吐かない様にしておかないと実際よりいい数字が出ることになる。 (ループの内側の命令が多いとレイテンシは隠蔽される) 重大なことだけど、Whetstoneは倍精度のベンチなので単精度でのスコアは無効。 どっちにしろ128bitベクタ浮動小数演算ユニット1基ずつで、スカラで性能が出にくいのは Core2も同じ。Cellが異常に割り食うのも当然の話。
> Intelがアグレッシブなプロセッサを作ってもiccがあるからと言うなら > 比較対象はIBMのコンパイラだと思うんだ。 突っ込むけど、Cell用のXL C/.C++は何時までα版でしょうか? 性能が出ないのと、ローカルストレージのサイズに合わせてコード組まないと 動きすらしないのとは根本的に違うっしょ。 LarrabeeははISAレベルではフルセットのIA-32。 仮にキャッシュミスしようが動くには動くでしょ。 1スレッドあたりのL1キャッシュサイズって点では条件はNorthwood HTよりいいし レイテンシも小さい。 IPC重視型のNehalemとCSIリンクできるし、x86互換だから極端な話、 NehalemとLarrabeeでコンテクストを入れ替えて実行することも理論上可能。 プロセスルールがリードしてるから、Cellの32SPE版が出る2010年頃には Intelは通常コア(Nehalemベース)で32コアを実現するらしいけどね。 その時期にSCE会社存続してるかな?って疑問も。
ああ、IBMのまだαだったんだ。 floatがdoubleとの比較にならないのは分ってる。 でもCellが有利になれそうなfloat同士(Cellは1bit足りないが)で比較してみるのもいいんじゃないかな。 Whetstoneに何を求めているのかにもよるけどレイテンシの隠蔽が駄目ならL1、L2、OoOも止めないと。 レイテンシを知りたいだけならマニュアルやらどっかのサイトやらに載ってるよね。
Larrabeeは詳細が未発表だから、どんなものか分からない。 フルセットIA32*32コアと言っても、一部実行ユニットは複数コアで共有かも知れない。 キャッシュスヌープだって、32個も有れば大変だし。 マルチコアだったら、どれも同じような問題を背負うはず。 Cellだって実物が出てくるまでは希望に満ち溢れていた。
927 :
デフォルトの名無しさん :2007/06/18(月) 12:44:23
Cellは内部倍精度だろ
SPE=SSEとか言う新説が上がってるスレはここでつか? Cellは趣味で遊ぶには楽しいけど金貰って開発したくは無いよね(´・ω・`)
糞団子に乗じて厨が大量に沸いてるのはいかがなものか。 もうこのスレじゃマジレスできないのか?
Cellって構成とか使い方を見ると(ちらっと見た程度だが) 普通の汎用(PC用)CPUよりむしろリアルタイム制御とかやるための 組み込みマイコンに近いような気がする。 ジョブスケージュリングに手を取るところとか、SPEはローカルメモリ上で コードが走るので実行に要するクロックが確実に見積もれるとことか。
931 :
デフォルトの名無しさん :2007/06/18(月) 19:40:39
帯(パソコン用途)に短し、たすき(組み込み用途)に長し 組み込みに使うならDSP使いますよ
>931 DSPって高いじゃん。
933 :
デフォルトの名無しさん :2007/06/18(月) 19:55:31
Cellもボードだと高いよ
>933 組み込み用途にボードで買うか? って言いたい事は分かるよ。 XDR-DRAMが高いと言うんだろ? きっともうすぐembedded DRAM版が出るよ。IBMのFab使ってかな?
935 :
デフォルトの名無しさん :2007/06/18(月) 20:53:51
IBMが別なので出してたと思うが、cellお値段そのままで、単精度で良いから三角関数√二乗あたりを ハード的に数クロックで計算できたら、ものすごいんだがなぁ
つ [XilinxのPPCコア内蔵Virtex FPGA]
937 :
デフォルトの名無しさん :2007/06/18(月) 21:29:24
だいたい、Cellでeaxとxmm0間のレイテンシって実測できるのかちゅう疑問はあるよな。 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 もっとも俺は実測結果あるけど だそうだがwwwwww
君も同じ事をしつこいよ。
x86のSSE(ただの命令セット拡張)とCellのSPE(PPCとは別物の新命令セットのコア)の関係が同じって珍説唱えたヴァカがまだ負け犬の遠吠えやってるの
940 :
デフォルトの名無しさん :2007/06/18(月) 22:25:22
どちらもSIMDユニットだから、ハードの役割としては同等 というのに、ISAが同じだと捏造していたとw バカだあのド素人w SIMDユニットも知らんのか 流石プログラムもできないチョンだw Cellも知らずプログラムもできないチョンw 保存しとこうやw 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 movd xmm0, eax
941 :
デフォルトの名無しさん :2007/06/18(月) 22:26:26
技術的に論破されて泣いたチョンの図wwwww もう何も言い返せずwwwwwwww RISCはPowerしかないと捏造した例w (RISC=PoewerだけならRISCだけでいい わざわざPowerRISCとした意味も理解できないとw) 804 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 14:06:05 > PowerRISC 住んでる
メール欄空の場合にあぼーんするように設定したらこのスレすっきり
943 :
デフォルトの名無しさん :2007/06/18(月) 22:50:02
いくら何でも惨めすぐる
みじめすぐる(笑)
945 :
デフォルトの名無しさん :2007/06/18(月) 22:59:23
うひゃひゃひゃひゃひゃwwwwwwwww Cellのレイテンシの話しておいて 882 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 17:02:20 つーか、「Cellで」なんて一言も言ってないんだがな すげえ言い訳wwwwwwwwwwwwwwww プログラムすら知らないチョンがバレてここまで見苦しい言い訳をwwwwwwwwwwww
気違いの相手するのは止めろよ。団子
あぼんしてないじゃんw
自分の言ったことさえ守れないんじゃなあ・・・・・・・・・
入れ食いと聞いて飛んできました。wwwwwwww
キチガイ団子の相手するなよ、糞キチガイ!!!
正規表現パターンマッチがおかしかったから書き直し中 む板もID表示希望
イミフメ
実はCellのハードウェア構成を見ていて地球シミュレータの
1CPUの構成と似てるなとも思ったんだよね。
http://www.jamstec.go.jp/es/jp/system/arithmetic.html スカラー演算ユニット1個にベクター演算ユニット8個で1CPUな
ところとか。もっとも地球シミュレータの場合は1ノード当たり
16GBもメモリーを持ってるし(8CPUで共有)、各ベクター演算
ユニットからも低レイテンシでドカドカアクセスできると思うが。
またスカラーユニットは4ウェイ・スーパースカラでかなり
リッチなコアのようだ。
ただ動作クロック自体はCellの方が速い(3.2Ghz v.s. 500Mhz)。
>む板もID表示希望 串差して必死な団子ワロス
Cellってつまるところ、何かの機能を付加するノウハウが無いので、 金かけて単純コプロいっぱい積んどきました。なんか欲しい機能が あったら自分で実装してね。 そいういう石だろ。
手段はあっても目的は持たない
>953 LSI(CellのSPU)の論理合成と配置配線を自動(コンピュータ任せ)で 行って結構効率良いものが出来たと言う話のようだね。 Cellそのものに関する話題と言うよりLSI設計技術の話だね。 CellSPUをターゲットにしてやったらわりとうまく行ったという例だ。
製品化されてないレベルの話をすれば、数年前から自動設計ツール導入してる Intelの65nm Pentium 4は4GHz以上でも動いてるんだが。。。 Intelは戦略上敢えて出さなかったけどね。
浮動小数点ベクター演算をコストの安いチップで素早く実行させたい という目的(目標)はあるように思う。
962 :
デフォルトの名無しさん :2007/06/19(火) 01:25:10
こんな恥晒すようでは、串刺してもすぐバレるだろw それとも自己擁護に徹するのかねえw どちらもSIMDユニットだから、ハードの役割としては同等 というのに、ISAが同じだと捏造していたとw バカだあのド素人w SIMDユニットも知らんのか 流石プログラムもできないチョンだw Cellも知らずプログラムもできないチョンw 保存しとこうやw 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 movd xmm0, eax
963 :
デフォルトの名無しさん :2007/06/19(火) 01:28:06
ちょっとちょっと一言いいですか 「 で き ま せ ん よ 」 wwwwwwwwwwwwwwww 864 名前: ・∀・)っ-○◎● [sage] 投稿日: 2007/06/17(日) 16:22:27 movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 movd xmm0, eax movd eax, xmm0 こんな感じで繰り返せば一応往復のレイテンシは計測できるよね
962 名前:あぼ〜ん[あぼ〜ん] 投稿日:あぼ〜ん 963 名前:あぼ〜ん[あぼ〜ん] 投稿日:あぼ〜ん
別にアナウンスしなくていいから。 そんなに気になるんか?
そう言うところは餓鬼なんだよな。
>>955 地球シミュレータのベクトル処理部はいわゆるスパコンのベクトル計算機の構成
だからCellとはちょっと違うけどね。
しかし板もスレもぐちゃぐちゃだな。
>>960 さすがにPentium4はフル合成じゃないだろ
Cellスレはどの板でもオール糞だから無問題。 できれば次スレは立てずにゲハに帰ってもらえるとありがたいのだが。
>>968 Willametteは結構モジュール化設計されてた。そのぶんダイも糞大きかったが。
Prescottあたりから自動最適化でぐちゃぐちゃになってった。
いやあ、性能的にクリティカルなところは泥臭くカスタム設計やってると思うよ
つかモジュール設計かどうかってこととフル合成かどうかってことは直交概念じゃね?
こういうとこで使われる「直交概念」とやらは「無関係」というのとどう違うんだ? デブかどうかってことと男かどうかってことは直交概念じゃね?>日本語OK?
ゲ ハ で 聞 け
うん、直行概念なんて言い方は寡聞にしてあまり聞いた事が無いな。 普通、「独立の(or した)条件」とか言うよね。 言ってしまえば「無関係」って事だw。
「従属的関係がない」=「無関係」だと思ってる香具師がいるとは… >972が適切な言い方をしてるかは全然判らんけどw
うはw日本語不自由でごめん
じゃあ言い直すよ つかモジュール設計かどうかってこととフル合成かどうかってことは無関係じゃね? これでいい?
>976 ふーん、それじゃ「従属した関係にない」=「独立した関係である」と 一般用語の「無関係」とはどこがどう違うのか分かりやすく説明してくれ。
広義の「無関係」は「排他的関係」をも含む事がある
じゃあ モジュール設計かどうかってこととフル合成かどうかってことは相関性が無いよね これならいい?
だから知らんがな(´・ω・`)
知らないのか
ユー!Cellプログラミングしちゃいなよの次スレたてちゃいなよ!
マジスレとクソスレに分けて立ててくれ
986 :
デフォルトの名無しさん :2007/06/21(木) 19:00:37
986ならSCE倒産
まあしかしここまで誰も何もしないとは思っても見なかったな梅
>984 立てない。 俺がCellのプログラミングを勉強して、もしも 面白そうなソフトを書けるようになったら立てる。
991 :
デフォルトの名無しさん :2007/06/22(金) 01:28:02
>>989 2ちゃんねるなんてそんなもんだろww
みんな口だけさ
>989 スレ立てくらいでそんなオーバーな。 あ、プログラミングのほうか? それならこのスレの上の方で書き込んでた人が立てたらしいプログがある。 「PS3とLinux」と言うタイトルのもの。 PEN4とCellの演算性能を比較している。
>>989 このスレを覗いている誰かが何かする度に
いちいち報告する義務があるとでも?
ここのスレの住民的に、PS3のDVDのアプコンはどう? なにやら評判は上々のようだけど。
梅
生め
CBE Programming TutorialとCBE アーキテクチャをようやくプリントアウトした。 分厚いw。 産め
うめ
楳
熟め
1001 :
1001 :
Over 1000 Thread このスレッドは1000を超えました。 もう書けないので、新しいスレッドを立ててくださいです。。。