CPUアーキテクチャについて語れ Part.12

このエントリーをはてなブックマークに追加
952,,・´∀`・,,)っ-○●◎:2008/10/05(日) 11:51:12 ID:PiRb9Agc
「ThreadではなくFiberを使えと言ってる」のフェンス君の迷言はどこから来たのかな?
953Socket774:2008/10/05(日) 12:58:04 ID:WHIgITGQ
32x4 HWスレッドのHPCプログラミングをC++でシコシコやるのか?
954Socket774:2008/10/05(日) 12:58:36 ID:ToBxbpc8
>>948
インテルのドキュメントに書いてあるが、静的にわかるレイテンシーの隠蔽にはfiberを、動的にしかわからないレイテンシーの隠蔽には(hw-)threadを使う

Fiberはソフトウェアスレッドなので、レジスタセットが複数個あるといったハード的な仕掛けは特にない

スレッドコンテキストとしてセーブすべきレジスタはコンパイル時にわかっているので、コンテキスト切り替えのオーバーヘッドは低い
データのやりとりをしないコルーチンみたいな感じ
スレッドの切り替え先もコンパイル時にわかっていれば展開されて、インターリーブされた一本のプログラムになるでしょう
955Socket774:2008/10/05(日) 13:00:54 ID:ToBxbpc8
補足
Fiberというのはあくまでソフトスレッドの単位で、複数のfiberが切り替わりながら、1つのhw-threadコンテクスト上で動く
956,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:07:24 ID:PiRb9Agc
で、それがどう難しいんだ?



どこぞの会社に買われて非公開になってしまったSoftWireは
HLSLをCPU側で実行する際、逐次評価ではなく動的生成したx86コードとして
実行する仕組みを実現する土台となるライブラリであった。

もっとも自己書き換えだとか動的生成だとかのトリックそのものは昔からあるがね。
Intelも自己書き換えの規則なんかのドキュメント出してるからもはや裏技でも何でもない。
957Socket774:2008/10/05(日) 13:13:37 ID:WHIgITGQ
上のLarrabeeの資料は、あくまでGPUの場合の話だな。
Larrabeeも他のGPU同様quad単位で処理するようで、
あるシェーダのコンテキストのquadを1xcoreに投入
→(最大)4xHW Thread→(最大)4xFiber→(最大)64xstrands
となるという説明とおれは理解した。

動作として団子の理解は間違っていないと思うが、だからといって
4xHW Thread = Fiber
という言葉の理解は奇妙に思える。
少なくともIntelのおっさんもそういう説明は一切してなかったぜ。
958Socket774:2008/10/05(日) 13:14:59 ID:ToBxbpc8
難しい?
そりゃインテルの資料のファイバー/スレッドの定義すら読めない団子には難しいだろうよwww
959Socket774:2008/10/05(日) 13:19:24 ID:ToBxbpc8
>>957
> →(最大)4xHW Thread→(最大)4xFiber→(最大)64xstrands

(最大)10xFiber、だよ
960,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:24:28 ID:PiRb9Agc
1:1対応してると解釈されたのなら食い違いが起きても仕方がない。説明がまずかったのだろうな。
16Strandを使うときは1スレッド、64 Strandを使うときは4スレッドを使う。これはガチ。

で、その1〜4スレッドを使って、1個から10個までのFiberをスケジューリングする。
JITでコードを生成する段階で、この命令はレイテンシが大きいからインターリーブするべきって
情報はわかるわけだからな。



フェンス君=ID:ToBxbpc8は主張が一貫してないから帰って良いよ。

> そもそもIntel自体がLarrabeeではL2をスクラッチパッド的に使え、スレッドではなく
> ファイバーを使えと言っているわけで、

これの弁解を聞きたいな
961MACオタ>959 さん:2008/10/05(日) 13:31:34 ID:IsV0akqP
>>959
  -----------------
  (最大)10xFiber、だよ
  -----------------
あなたわ"typically"を『最大』と訳すすか。。。
プレゼンでわ"up to"と"typically"が使い分けられていることに注意すべきかと思うす。

それにしても間違いに突っ込まれて引っ込みがつかなくなってしまった団子さんと、何故か
それを信じ込んでしまっている>>957さん。更にトンデモ翻訳の>>959さんが集まって中傷
し合ってるこのスレッドって(笑)
962,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:32:40 ID:PiRb9Agc
>>813 >>817 >>822も最初から全て把握した上で言ったこと。

これに噛みついてるってことは、構造がわかってないってことだよ。
963Socket774:2008/10/05(日) 13:37:03 ID:ToBxbpc8
>>961
> あなたわ"typically"を『最大』と訳すすか。。。

>>957にあわせただけだが、原文がtypicallyならtypicallyなんだろ
細かいところまで覚えちゃいないし、お前らと違うんで、いくらでも訂正するぜ
964,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:42:35 ID:PiRb9Agc
>細かいところまで覚えちゃいないし、お前らと違うんで、いくらでも訂正するぜ

平気で間違ったことを言ってテキトーに噛みつくだけの負け犬であることを認めたか
965Socket774:2008/10/05(日) 13:42:53 ID:ToBxbpc8
>>960
> 16Strandを使うときは1スレッド、64 Strandを使うときは4スレッドを使う。これはガチ。

ガチで違う

> で、その1〜4スレッドを使って、1個から10個までのFiberをスケジューリングする。

おい、いつの間に団子Fiberを引っ込めたんだ

> > そもそもIntel自体がLarrabeeではL2をスクラッチパッド的に使え、スレッドではなく
> これの弁解を聞きたいな

これはおれのセリフじゃない
インテルが公開資料で言ってるのかはともかく、間違っちゃないだろうけど
966MACオタ>963 さん:2008/10/05(日) 13:45:00 ID:IsV0akqP
>>963
>>954-955で正しいことを書いているのに、ファイバーに対して『(最大)』とか書いてしまうこと
が理解できないすけど?ネットで検索した知識だけでわ、何の役にも立たないという例なんすかね。。。
967,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:45:29 ID:PiRb9Agc
>>965
は?最初から一貫してるよ。

お前だろ?Strandが何の単位かもわからずに独り相撲してたのはwww
968,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:46:46 ID:PiRb9Agc
フェンスに強制終了させられた人が一貫した意見を言ったことは一度もない。
間違いを平気で言って、指摘されればなかったことにするからだ。
969Socket774:2008/10/05(日) 13:47:11 ID:ToBxbpc8
>>964
なんかの仕様でもあるまいに、こんな間違いに噛み付いても仕方ないと思うんだが、まあ他に噛み付けるところなんてないもんな

で、お前もやっているわけだが
>>960
> で、その1〜4スレッドを使って、1個から10個までのFiberをスケジューリングする。

2個から10個だろ
970,,・´∀`・,,)っ-○●◎:2008/10/05(日) 13:52:35 ID:PiRb9Agc
> among 2-10 fibers in order to cover long latencies (e.g. texture filtering)

逆に言うとレイテンシの短い命令を使うシーケンスであれば1 Fiberでも十分なんだがな
まあJITレイヤーのやることだからいいとしよう。


MACヲタの引用してきたWin32のFiberは全くの別物だよ。
基本的にJITで動的コード生成なんてごく一部でしかやらないし。
971Socket774:2008/10/05(日) 13:53:33 ID:ToBxbpc8
>>966
お前もしばらく大人しくしてたと思ったら、こんなところにしか突っ込みようがないのかよ

Intel> - Thread: a HW-managed context that switches among 2-10 fibers in order to cover long latencies (e.g. texture filtering)

おれの見てた資料はこう、up toともtypicallyとも書いてないわけ
わかった?

>>957
> →(最大)4xHW Thread→(最大)4xFiber→(最大)64xstrands

んで、これに合せて(最大)とつけただけだ


まあ、原義にこだわるだけ団子よりマシか、MACオタが自身つっこまれるとはぐらかすだけだがな
972MACオタ:2008/10/05(日) 13:58:01 ID:IsV0akqP
ところでLarrabeeのタスク管理の話わ、つい一ヶ月前にこのスレッドで議論された筈なんすけど
健忘症のヒトが多すぎるす。
落ち着いて>>132, >>153-159あたりを読み直してから、議論を続けると不必要な恥を晒すことも
なくなるかと思うす。

とりあえず団子さんも>>863-864わ、当分コピペネタになることわ覚悟したほうが良いかと。
973MACオタ>971 さん:2008/10/05(日) 14:01:51 ID:IsV0akqP
>>971
  ------------------
  おれの見てた資料はこう
  ------------------
その資料の13ページ以降をどうぞ。それとも実わ、資料なんか見てないのがバレたすか?
  ------------------
  これに合せて(最大)とつけただけだ
  ------------------
それが内容を理解していない証拠なんすけど。。。
974,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:04:25 ID:PiRb9Agc
>>972
どうぞ?
勘違いをしてるのはどっちなのかは冷静に考えればわかること
975Socket774:2008/10/05(日) 14:04:42 ID:AU8yjwvo
確かにハードウェアスレッドは4本みたいだわ。調べておくべきだった。
頻繁にFiberが切り替わることが前提だと考えると、
一般的な実装のようにレジスタのメモリへの復帰と退避ではなく、
ループアンローリング的にビルドタイムにレジスタを割り当てて処理されるものと勘ぐってしまったんだけどどうなんでしょ?
そもそも1つHWスレッドに対してベクトルレジスタが16本かどうか探しきれなかったんだけど
GPUでちょっと長めのシェーダー使うとだいたい10〜16位レジスタを使うことを考えると
ベクトルレジスタに余裕がない。
マスクレジスタでレジスタを節約しながら使うのかもしれないけどマスクするって事は滅茶苦茶ALUが無駄なような。
976MACオタ>975 さん:2008/10/05(日) 14:09:20 ID:IsV0akqP
>>975
  ------------------
  一般的な実装のようにレジスタのメモリへの復帰と退避で
  ------------------
その一般的な実装す。>>153-159をどうぞ。
原文わ、>>113のリンク先のp.25す。
977,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:11:35 ID:PiRb9Agc
>>972
もう一度言おうか?

> この中に出てくるLarrabeeにおけるコンテキストの最小単位"Fiber"って、リソースがダブらないよう
> に複数の処理をするコードを自前で書けという意味にも取れるす。

これ「ソフトパイプライニング」と何が違うのかしら?AppleのAltiVec最適化マニュアルにも載ってるアレ。
でもLarrabeeのソフトGPUではJITで動的にx86コードを生成する際にインターリーブしてくれるから
十分に並列度の高いコードを書いていれば意識する必要はない。


WindowsにおけるFiberはあくまでソフトGPUでの処理単位で
SIMDユニットのベクトル長・レジスタセット・HWスレッドを隠蔽し
抽象化された単位。


ちなみにVC++には2008においてもスレッド数以上のコンテクストをサポートする機能なんてないぞ
.NET?しらね
978,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:12:34 ID:PiRb9Agc
>>975
だから>>941あたりからそういってるのにこの人たち聞かないんだから
979MACオタ>団子 さん:2008/10/05(日) 14:15:28 ID:IsV0akqP
>>977
それ間違いで、正しくわ>>153す。
レジスタが少ないのでリソースわダブるし、スタックへの退避も発生するす。

一ヶ月以上前の話を未だに誤解しているのもちょっと。。。
とにかく冷静になって過去ログを読み直して欲しいす。
980Socket774:2008/10/05(日) 14:15:57 ID:AU8yjwvo
>>976
申し訳ない。
カキコしてから気づきました。
今読んでます。
これってテクスチャフェッチなんかの長いレイテンシを隠すためにFiber使って、
データストール回避にHWスレッド使うって事になるのか。
混乱してきた。
981Socket774:2008/10/05(日) 14:17:39 ID:AU8yjwvo
>>980
×データストール
○データハザード
982,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:18:12 ID:PiRb9Agc
>>975
4スレッド全部使えばVPU1器に対して64本のSIMDレジスタがあることになるけどこれじゃ少ない?
そうは思わんがねぇ
レジスタ足りなきゃ別にL1に待避してもいいんでない?
メモリアドレッシングモードでロード・積和算を1命令で行えるわけだから。
983MACオタ>980 さん:2008/10/05(日) 14:18:54 ID:IsV0akqP
>>980
  ------------------
  これってテクスチャフェッチなんかの長いレイテンシを隠すためにFiber使って、
  データストール回避にHWスレッド使うって事になるのか。
  ------------------
逆す。ソースわ>>850
984,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:21:00 ID:PiRb9Agc
Win32 FiberとLarrabeeのFiberの実装は全くの別物です。


これ読んでもわからんか?MACヲタは
http://d.hatena.ne.jp/NyaRuRu/20070529/p1
985MACオタ@補足:2008/10/05(日) 14:25:13 ID:IsV0akqP
昨日からの団子さんの書き込みわ、恥ずかしい間違いをごまかすためにトンデモ論になっているので
マトモに受け取らないことをお勧めするす。

普段わ、これほど酷くも無いので、見捨てないであげて欲しいす。

>>984 団子 さん
SiggraphのLarrabee講演わ『ゲームプログラマ向け』す。
986,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:28:38 ID:PiRb9Agc
Win32 Fiberは端的に言えばRubyのThreadの実装と同じだよ。
べつに命令レベルでインターリーブするわけではない。
要するに古いゲームとか、組み込みとかで使われてる昔ながらのタスクシステムだよ。
987Socket774:2008/10/05(日) 14:29:56 ID:ToBxbpc8
>>973
> それが内容を理解していない証拠なんすけど。。。

はいはい
厳密なのはけっこうだが、ROBがx86用語である証拠は見つかったかい?

>>977
> これ「ソフトパイプライニング」と何が違うのかしら?AppleのAltiVec最適化マニュアルにも載ってるアレ。

っぽいけどちょっと違うな
パイプライン化するのが他イテレーションではなくて、他のファイバーになる
988MACオタ>団子 さん:2008/10/05(日) 14:33:36 ID:IsV0akqP
>>986
  --------------------
  命令レベルでインターリーブする
  --------------------
そちらわLarrabee用語でも『スレッド』。ファイバーわ、あなたが書いている通りの『協調型マルチタスク』す。
  --------------------
  要するに古いゲームとか、組み込みとかで使われてる昔ながらのタスクシステムだよ。
  --------------------
989,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:34:54 ID:PiRb9Agc
>>985
どこまでも恥ずかしいやつだな。

Win32のFiberがやってるのはあくまでこれだよ。
http://f3.aaa.livedoor.jp/~gsyoku/index.php?%5B%5BFiber%5D%5D


IntelがLarrabeeのFiberの実装は、JITコンパイラによって動的生成するx86命令をインターリーブすることで
レイテンシ隠蔽をするもの。1スレッドを更に分割するわけではない。4スレッドを1単位として更に時分割することができる。

だからまったくの別物なんだよ。

990Socket774:2008/10/05(日) 14:35:39 ID:hpAFqnz6
>>986
Rubyって表現はまずいよ。YARVはネイティブスレッドだ。
公式のインタプリタって言っておかないと。
991,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:35:48 ID:PiRb9Agc
>>988
は?RubyのThreadがハードウェアスレッドにもソフトウェアスレッドにも依存せずにやってることすら知らないのか?
992,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:37:01 ID:PiRb9Agc
>>990
まあそうだな。
ちなみにYARVは俺も開発にかかわってる某ライブラリによってネイティブコードを生成する
ように動いてるんだが。
993MACオタ>団子 さん:2008/10/05(日) 14:37:13 ID:IsV0akqP
>>989
  --------------------
  LarrabeeのFiberの実装
  --------------------
>>153に書いた通りすけど。。。 原文わ、>>113のリンク先のp.25す。
994Socket774:2008/10/05(日) 14:38:34 ID:KNap0rF0
>1ファイバーはハードウェア的には4スレッドなわけだよ
団子の謝罪マダー??
人に氏ねとかいえるくらい自信あったんだからな。
もちろんこのスレから引退覚悟ですよね。
995,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:39:26 ID:PiRb9Agc
>>993
関数レベルのインターリーブと命令レベルのインターリーブの違い。

だから別物って言ったの。

JITだから為しえる業。わかる?
996,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:40:43 ID:PiRb9Agc
>>994
別に。何も違いはしない。
複数ファイバーが同じコアで動く1〜4スレッドに割り振られることもある。
997Socket774:2008/10/05(日) 14:43:01 ID:KNap0rF0
最大64のファイバーのうち最大4つが1コアに割り当てられるだろ?
>1ファイバーはハードウェア的には4スレッドなわけだよ
ハードウエア的にはの意味は? なんで1ファイバーが4スレッドって書き方になるの?
素直に間違ったと認めろよ。
998Socket774:2008/10/05(日) 14:43:07 ID:ToBxbpc8
>>996
また団子ファイバーの定義が変わってる。。。

笹田さんもいい迷惑だな
999,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:43:56 ID:PiRb9Agc
JITに依存した技術を、ネイティブC/C++を使うプログラマがどうやって使うって言うの?
SIMDを直接叩くからNativeなんだが。
1000,,・´∀`・,,)っ-○●◎:2008/10/05(日) 14:44:21 ID:PiRb9Agc
フェンス君は氏ね
10011001
1台のマシンが組み上がりました。。。
新しい筐体を用意してくださいです。。。。

         自作PC板@2ch http://pc11.2ch.net/jisaku/