1 :
Socket774 :
2012/12/15(土) 00:11:08.30 ID:khu6oI0N
2 :
Socket774 :2012/12/15(土) 00:26:08.52 ID:MrF8rTKv
3 :
Socket774 :2012/12/15(土) 12:13:16.40 ID:GlMd4jtQ
さて前スレの最後でSIMMとかDIMMとかRIMMとか全く聞かなくなった用語が出てきたが。 DDR4とGDDR6は実現可能だけど、次どうするの?DIMMはこれ以上進化させるのは不可能だし。 TSVが実現したとしてもメインメモリーもビデオメモリーも不要になるわけじゃないし。 DRAMに代わるようなメモリーも開発されているけど今のところ実用段階に無いし。 どうするんだろ? ラムバスに頭下げる?
4 :
Socket774 :2012/12/15(土) 12:19:34.24 ID:CjLNJKxZ
(保持・読取・接続)方法をにゴッチャにしてラムバスがどうとか 頭悪すぎ
5 :
Socket774 :2012/12/15(土) 12:58:50.93 ID:II3nTnxb
メインメモリはTSVによる広帯域接続になりCPUと同パッケージになるでしょうな。 メモリを増やしたいときはインターコネクト経由でCPUを増やす、もしくはCPUのないメモリコントローラ+メモリだけのチップを繋ぐ。
6 :
Socket774 :2012/12/15(土) 13:05:48.56 ID:LQBrR4mw
7 :
Socket774 :2012/12/15(土) 13:08:11.81 ID:II3nTnxb
TSVによるメモリ統合はハイエンドGPUから始まると思うよ。数が少なくて高価格なので実験場になりやすい。
8 :
Socket774 :2012/12/15(土) 13:19:01.80 ID:MrF8rTKv
9 :
Socket774 :2012/12/15(土) 14:36:22.75 ID:GlMd4jtQ
>>6 早く実現して欲しいな、DRAMだけ進化から取り残されつつあるし
いっそのことDRAMから離れてみたらいい
DRAMのlatencyを今の1000分の1にまで短縮できると劇的に進化しそうなんだが。
そうだな 問題はメモリが劇的に進化しないとlatencyを1/1000に短縮できないってことだな
さてDDR5とGDDR7は実現不可能だし。どうしたものか。ラムバスが無理なら。 何か別の方法を考えねばな。
メモリの進歩を勝手に不可能にしないように。 DDR5はDIMMではなくなるかもしれないがね。
>>13 だからDIMMのままなら不可能って話ですよ
DIMMを止めるなら可能
cpuもメモリもマザーに直付けの方がレイテンシ減らせるんだろうな
メモリとかしょっちゅう変えないし、もう直付けで高速になるほうがうれしいよ。
L2キャッシュは512KBまで順調に性能が伸びた印象だけと その後1MBやらL3キャッシュやらは熱密度の緩和だけで性能に対するインパクトがない・・・というかレイテンシが悪化する一方 メインメモリもDDR2、DDR3とレイテンシ減らないし eDRAMもメインメモリが不要になる訳でもなく中途半端なんだよな
TSVがCPUに搭載されてもメインメモリーが不要になることは無いだろう。 前ほどには重視する必要が無くとも。 TSVで搭載できる量にはダイサイズから言って限りがあるし。大容量L5キャッシュ的な使い方に なるでしょう。L4キャッシュはそのままSRAMと言うことでね(eDRAMはダメみたいなんで)
プログラマが明示的に使えるようにするのでは?
帯に短く襷に長いL4がいらない
メインメモリをTSVで繋ぐことになるかと。少なくとも携帯機はそうなる。 そしたらPCやサーバもそれに追随しないわけにはいかない。テクノロジドライバが移ってるということだね。
>>20 それでもインテルが将来搭載すると言う噂がある
勝手にSRAMっていうなよ。
>>24 だってeDRAMは絶対にありえないんだろ?TSVはそもそも間に合わないし。
じゃあSRAMしかないだろ。東芝が先日発表したSRAMはいつになるか皆目見当付かないし。
メモリを同一パッケージに含めてそこそこ広帯域で接続するのは TSVなしでも出来る。巨大なSRAMをオンダイするよりは安いかもしれない。
>>25 東芝が先日発表したSRAM(誤)
↓
東芝が先日発表したSRAMの後継(正)
そもそもインテルはeDRAMの技術を持ってない
LGA廃止どころか、ファミカセ版再びかw
PenProの影の薄さに泣いた
LGA廃止でスロット化はありうるなw
またスロットか
32nm 22nm 16nm 11nm 8nm 微細化の限界が見えてきてるのかな?
37 :
Socket774 :2012/12/20(木) 20:11:59.54 ID:ZgXQbRM9
前スレの>927です。
>928,金田研にお邪魔した時はメインメモリはDRAMだとおっしゃっていたのでS820だと思う VPPもDRAMです
>932 ベクトルスパコンの主記憶はバンクインターリーブしているので 少々遅いDRAMでもかまわないのです
うそつき。
IPS コンピュータ博物館
【富士通】 FACOM VP-100シリーズ
(4)世界に先駆けてスタティックRAM(アクセス時間55nsの64キロビットSRAM)を主記憶装置に採用し高いデータ転送能力を実現
ttp://museum.ipsj.or.jp/computer/super/0005.html FUJITSU VP2000シリーズ諸元
主記憶 メモリ素子 1Mbit スタティックRAM, アクセスタイム35ns
ttp://museum.ipsj.or.jp/computer/super/0010.html このころのスーパコンピュータのメインメモリはSRAMで拡張記憶がDRAMのはず。
(メインフレームのメインメモリはDRAMなので、VPやS820などのスカラ演算もメインフレームより高速になる。)
アクセス速度の記憶は間違っていたが、やっぱり昔のスーパコンピュータのメインメモリはSRAMだよ。
Bitなんかでニュース記事読んでた記憶があるからたぶん間違いない.
38 :
Socket774 :2012/12/20(木) 20:16:09.79 ID:JIdceHk+
デスクトップPC・サーバPC L3やらL4が高帯域接続のオンパッケージDRAMになる スマホ メインメモリが高帯域接続のオンパッケージDRAMになる
S820は20nsの1MbのBiCMOSのメモリだねえ あとVPじゃなくてVPPだから
VPPはCPUがCMOS化した後期の機種でCPUサイクルが遅くなってる(SX-4なんかもそうだと思う)。 S820やVPのころはCPUはバイポーラを使っていて、メモリはSRAM。
>42 そう。 前スレ>927で 1990年代の昔話と宣言してるのに。
VPは80年代のスパコンじゃない あんた一体何が言いたいの?
>44 確かに、1990年代× 1990年ごろのスーパーコンピュータ、VP,SX−3についてが正しい。 1991年ごろまではVPもSX−3もメインメモリはSRAMだったはず。 (20年前、1991年ごろ大学や工場見学で見たので間違いないと思う) 要は、>の39の M-1800みたいに、メインメモリを前機種のDRAMからSRAMに変更した例もあるし、メインメモリSRAM化もありかな。
DRAMにもキャッシュメモリを搭載しよう
かつてその発想でレジスタ載せたメモリをNECが作っていてだな。 SRAM載せたのもあったような。
L1キャッシュ(STT-MRAM)=128KB L2キャッシュ(STT-MRAM)=512KB L3キャッシュ(STT-MRAM)=64MB L4キャッシュ(STT-MRAM)=128MB L5キャッシュ(TSV3D・HBM)=8GB メインメモリー(XDR3-DRAM)=512GB ビデオメモリー(XDR3-DRAM)=128GB メモリー関係はこれが理想
ここは加齢臭プンプンだな
>>48 妄想にマジレスしても仕方ないが、
・L1大きすぎ
・L2とL3差ありすぎ
・L3とL4差なさすぎ
・L5意味なさすぎ
・階層深すぎ
・ビデオメモリ大きすぎ
・XDRに夢見すぎ
じゃね
MRAMはCPUクロックの半速以下でもいいL3とかにはいいかもしれないけど L1に使うようなものじゃないな
10ns程度で書き込めて大容量化出来て寿命もないってんだから STT-MRAMはメインメモリを置き換えられそうだな あとはReRAMのストレージが早く実用化して欲しいわ 書き換え回数と速度がNANDよりも一桁以上向上するってな 大容量化しやすくて32Gbit品の試作まで出来たとか
53 :
Socket774 :2012/12/23(日) 21:56:10.04 ID:82LbALq9
L1L2はSRAMなのは当分変わらないだろ
L1とL2は現状変更しようがなさそう。変えるとすればL3で、階層の追加も内臓グラフィック用のメモリだな
キャッシュじゃなくてメインメモリとアドレス共有で特定のアドレス範囲だけ高速になるスクラッチパッドメモリとかならどうか
現代のOSとアプリケーションの延長ではなかなか有効な活用が難しいですな。
そもそも、CPUと同じダイにのるキャッシュメモリはSRAMなんじゃね? SRAM以外のキャッシュメモリを載せようとすると製造プロセスの変更が必要になるし CPUと同じパッケージに封入される別ダイのL4キャッシュとかを、そういった新方式RAMで
昔の二階建てメモリ思い出した。
>>48 メモリー(改定)
L1キャッシュ(SRAM)=128KB
L2キャッシュ(SRAM)=512KB
L3キャッシュ(STT-MRAM)=64MB
L4キャッシュ(STT-MRAM)=128MB(CPUと内蔵GPUの橋渡し)
TSV(TSV3D・HBM)=8GB
メインメモリー(XDR3-DRAM)=512GB
ビデオメモリー(XDR3-DRAM)=128GB
SSD(ReRAM)=10TB(3.5インチ)
知恵遅れ丸出し乙
なぜそんなスペックになったのか説明が必要だなw
ぼくのかんがえたさいきょうのきゃっしゅだからな これは誰も異論を唱えられない
>>65 でも一応STT-MRAMはSRAMの後継みたいだけどな。L1とL2は永久にSRAMのままだと思うけど
L3程度ならSRAMよりSTTRAMの方が消費電力・面積・発熱でメリットがあるんじゃね いまやダイの半分近くがL3だしここを縮小するなり面積同じでもっと詰め込むなりしてもかなり消費電力低減が狙える
L1〜L3までが既存のCPUの為のキャッシュメモリーで従来と用途が変わらず L4がGPGPUによる内蔵GPU限定のキャッシュメモリーと言うわけか
暗にIntelのFabでしか作れないと言ってるね。 Intelが組み込み事業どの程度まで関わるのか現時点でよく見えてきてないので こういう技術が使えるかどうかってよくわかんないよね。 まあ別に売り込み先があるならいいけど・・・ Slot1までの頃ってL2キャッシュに東芝性SRAM使ってた時期もあったんだっけ。
>>69 STT-MRAMはまずはDRAM代替を狙ってるはず
既存のロジック用プロセスとの親和性がどれくらいか知らないけど
簡単にはSoCなんかには組み込めない気がする
大容量SRAMを欲してる層もまだ多くないしね
>>69 東芝はFlashではプロセス進めてるし、やろうとおもえばロジックの先端プロセスもできるはず
ロジックをやらないのはあくまで経営判断ってとこで
ただし、28nmがここまで供給不足でTSMCがこれだけ成功するとわかってたら、
ロジック辞めた選択は間違いと思ってるんじゃね?
もともと28nmが供給不足なのは、日本勢が40nmで投資辞めてその先に進まなかったのが最大の原因だな
日本では過去にも。横並びで投資して供給過剰→横並びで投資やめて供給不足 →供給不足を突いて韓国勢が一気にシェアを持っていく みたいなことやってたし、これが韓国からTSMCに変わっただけな気がするな どこか1社くらい40nmから先に進んでたら、そこは今頃ウハウハだったかもしれん
パナは32nmまでやってるはず
>>69 ファウンダリに特許ってか技術ライセンスするんでしょ。
作りたければ技術買ってねって奴さ。
SPARC自前でやってる不治痛さん忘れるな
製造はTSMC
>>69 インテルが欲しがってそうな気がするな
>>72 超円高で国内生産だと採算あわなかったからね。
ファウンドリ事業をやってた日本企業をあげよ
富士通はやってたよ
沖電気なんかも一時期は結構頑張っていた
円高だけじゃなく、実行法人税率が高いのも悪い 日本は半導体や液晶パネル製造向けに税金の優遇措置を行って実行法人税率を台湾並みに下げるべき
法人税率が高くても、設備投資は減価償却費として費用化され、利益から差し引 かれるので、減税と同じだよ。 会社の一番怖いのは設備投資して稼働率が上がらないと、すぐに減損会計を行っ て大幅な損失を計上しないといけないところかな。公認会計士協会の問題だな。 シャープがいい例で、堺工場を新設したら急に売れなくなって、減価償却費など かわいいくらいの一時償却にせまられて、台湾企業に身売りとあいなった。 減損会計をやめて減価償却費だけで済めばあそこまで酷いことにはならないよ。
大きな賭けに出て、裏目に出て失敗し、倒れる。 実にわかりやすいじゃないか。 次はもっとうまくやろう。
IFRSとか時価会計が世の流れだ しかたなし
時価会計はEU諸国の公認会計士協会に引張られてIFRSになったが、 そのEU諸国がこの大不況でまたいろいろ変更をかけてくる気もする。 日本は一度決めると変えたがらないが、外人は情勢がかわるとコロコロ変える。 米国の銀行規制が良い例。日本でやっとフィナンシャルグループが完成した と思ったら、米国は逆のほうに向いいたり。
ウィンタースポーツとか水泳とかモータースポーツとか、あっちの都合に合わせてころころルール変えてくるしね 競争のルールもそう
円安で1ドル100円ぐらいになるべきだ
日経新聞では1ドル100円は経済が混乱するから無理みたいな事を書いていた。 要するに、日本円で原油価格が同じレベルにならないと回りまわって全産業に 不具合がでるみたい。原油価格は世界レベルのインフレ・デフレで調整される から、世界レベルのインフレを考慮すると1ドル90円ぐらいでないと、大幅な 貿易赤字が発生してかえって国内が不景気になるとか。
そこで原発再稼働すれば問題なし
原発に問題がなければ、ね
92 :
Socket774 :2012/12/29(土) 09:35:07.88 ID:6W/st5wc
再稼働するよ
そもそも洪水で全電源喪失が問題となったのに、土掘り返して地質学の検証を している所が良く分からん。洪水の全電源喪失などささいな問題で、今の技術 なら全然問題にもならない位に安全化できる自信があるのかな。
日本勢全部最新ロジックプロセスから脱落したな むしろ日本勢が最新プロセスに投資しなくなったので、 最新プロセスは供給不足需要過多でTSMCが大儲けしてる
96 :
レトリック君 :2012/12/30(日) 01:40:37.07 ID:Dr8ADjx1
日本の電気メーカーの負けか…
需要過多でもUMCとかGFとかは大儲けしてませんけどね
キャッシュに関してはL0命令キャッシュ容量を増やす位しか無くて、後はMCMでGPU用のキャッシュを置いてこれがCPUからみるとL4に見える位かな。DRAMでI/FはGDDRベースで低電圧高クロック化したものでいい。容量は256MB位か。 これに伴いシステムエージェントはGPUとCPUの間に移動することになる。 GPUローカルメモリだとプログラミングが大変だし、メインメモリ上に大量のテクスチャーを展開しても実際のGPUのメモリアクセスはほぼキャッシュ内で収まるから、メインメモリ容量が無駄になるがキャッシュ扱いの方が良いだろう。 モバイル用として使うときはGPUローカルメモリ扱いもできるようにしとけばなお良い。
スレタイ読もうぜ
>>98 インテルはL4キャッシュを将来搭載するといわれているよね
GPGPUの時代だし近い内に対応する気がするな
>>100 4K2Kでダブルバッファなだけでフレームバッファに64MB必要なんだがテクスチャーキャッシュを含めて128MBをオンダイは14nm世代でも無料。
ハイパースレッディングについておききしたいのですが、 クアッドコアの場合、ハイパースレッディングが有効に なってるとCPU0〜CPU7までスレッドができるわけですが、 実コアとの対応はどうなっているんでしょうか? 実CPU0→HT CPU0,1 なのか、 実CPU0→HT CPU0,4 なのか、はたまた別の組み合わせなのか。
L4キャッシュ/GPUのレンダリング用の兼用の高帯域メモリをCPUのパッケージ内に内蔵でいいよ とりあえず128Mくらいでいいから GPU使わない時は、BIOS設定でメモリを全部L4に回せるとかね
>>102 0と1が同じコア内のスレッドであってると思うよ
Win7+Core i7 860で調べてみたけど
Prime95を0で実行しつつ、SuperPiを1で実行した場合18秒
SuperPiを2-7で実行した場合は全て12秒で終了した
Windowsの場合は、HT+マルチコアの場合、 [0 1] [2 3] [4 5] [6 7] みたいなCPU番号になる Windows以外のOSは知らね
>>104 ,105
情報サンクスです。
Windowsの場合でしたのでその組み合わせだと思います。
今朝の日経新聞:官・民(リース会社)で工場・設備買取り、リース化。 リースだから、リース期間満了までの賃貸料は払わないといけないから、 自社保有の設備にして減価償却するのと合計費用は変わらないが、 減損会計による巨額の一時償却は免れるから、強力なIFRS対策になる。 自民党のGJだわ。
インテルがNvdiaを買収するという噂もあるけど、仮に買収して内蔵GPUがNvdia製に なったとして内蔵GPUと外付けのGPUがデュアルコアとかになって内蔵と外付けのGPUの 性能が合計されるとか不可能なのだろうか? アーキテクチャーも全く同じにしてもヤッパリ無理? 完全に独立して外付けGPUが動いている時は内臓GPUは眠ったままと言うこれまでどおりなのだろうか
>>109 是非ともインテルとNvdiaにはがんばってもらいたい所です。
内蔵GPUと外付けGPUの性能を合計できれば、外付けGPUを取り付けても内臓GPUが
無駄にならないわけですからね。
>>110 独禁法あるのにそもそも合併なんか不可能
fabを使いたいジェンソンが書かせた飛ばし記事だし
しかもちゃっかり自分が会長に収まるとかw
AMDとATIのケースもあったから可能性はゼロでは無いかと
規模が違うからなー
IntelがGPUを外部から手に入れるとしてもNvidia丸ごとは要らないだろう。 ジェンスンなんて要らない部分の筆頭なんじゃないか
INTELさんに関してはこのままチンタラしててもそのうち 苦しくなったAMDからGPUのIPを買う機会が訪れると思うよ
>>109 Hybrid CrossFireとかHybrid SLIは中途半端な物だったからな。
遅い方の内蔵GPUの速度を外付けGPUの力で上げるだけだったし。それでも外付けGPU単体が
高性能だとあまり意味がなかった。いかに内蔵GPUを外付けGPUで性能を上げても外付けGPUに勝るわけではなく
省電力を重視した技術に過ぎない。
でもこれなら外付けGPUのパワーに内蔵GPUのパワーが追加されるわけか。
AMDが先にやりそうな技術だな。
Hybrid CrossFire、Hybrid SLIこれらは低速な内蔵GPUを高速な外付けGPUの力を借りて
1.5倍程度高速にする技術。しかし、外付けGPUが内蔵GPUよりも2倍とか高速だと1.5倍程度の
速度アップでは太刀打ちできず外付けGPUをそのまま使えばいいという技術になってしまう。
遅い方のGPUに引っ張られるからハイエンドユーザーにとっては意味が無い。
だが
>>109 なら逆に早い方の外付けGPUを遅い方の内蔵GPUの力で高速化できるわけですね。
1.5倍とは言わずとも1.2倍程度でも十分でしょう。内蔵GPUは無駄にならないどころか
外付けGPUをパワーアップさせてくれるのだから大した物だ。
Macなんかでは、通常の作業はCPU内蔵GPUで、3Dゲーム等では外付けGPUって切り替えて 使たりしてるな Windowsも標準でそれができるようにすればいいのに
>>119 Enduroがそれ
標準ではないんだけどなあ
ARMもそれに近いことやろうとしてるけど intelのCPUは既にアイドルでの消費電力は相当下がってるし GPUも次期Radeonは相当アイドル下げるなんて話が出てるから 制御技術の向上で素直に性能低いほうの電源切っちゃうほうが良くなりそう
>>120 インテルのせいじゃなくてマイクロソフトらのせいだけど
内蔵GPUと外付けGPUの切り替えは低負荷と高負荷で随時自動的に出切る様にして欲しいね。
省電力にも繋がるし。
一番いいのは
>>109 の技術も取り入れて
低負荷の時は内蔵GPUが動作するが外付けGPUの力よって高速化してもらい、高負荷の時は
外付けGPUが動作して内蔵GPUの力によって更に高速化してもらうというのがベスト。
インテルがNvidiaと経営統合したらアーキテクチャーを同じに出来るので可能だと思うんだけどな。
インテルはさっさとNVIDIAと合併ないしは資本提携を結んでGPUを使わせてもらえばいい NVIDIAはインテルのファブを利用して自社ブランドで製品を出せばいい
125 :
Socket774 :2013/01/09(水) 22:02:28.79 ID:OVJhM205
インテルみたいな大メーカーだと、ファウンダリビジネスやるにも、 特定の会社の受託生産だけしてその他はしないみたいな恣意的な運用をすると、 独占禁止法等で突っ込まれる可能性がある だから、一定の基準を決めてそれを満たせば受託みたいなことやらないと たぶん、いまは汎用の安価なチップの生産に向かないような価格体系で受託してるから 高価なチップしか作ってないんだと思う
ってか、インテルはそれこそチップ単体が数万で売れるから、あのファブを維持出来てる訳で そうじゃ無けりゃあのファブで作れないだろ…
あ
129 :
Socket774 :2013/01/15(火) 13:08:06.35 ID:wUhenpwx
スマホ利用者の6割が「バッテリーに不満」、そのうちの約7割が携帯充電器を持ち歩く やっぱりARMは道を誤った そのツケは利用者が払うことに
mediatek,デュアルコア品が使われている中華スマホとか売られているけど 結構ヨサゲだぬ
>>131 何時もおもうんだけどIP屋であるARMなのに、異なるプロセスで比べてどうするんだろ
28nm同士で比べたらA8が電力面でも性能面でも上回りそうだぬ
比較にDhrystone使ってるからL1が効きすぎてメモリアクセスで差がつかず、 40nm→28nmへのプロセスシュリンクの分で 性能向上しましたというだけな気がする
同一プロセスならコアサイズも性能も消費電力もA8>A7。
ルネサス官民共同支援の舞台裏と行方 革新機構とトヨタの思惑、LSI事業分離
http://zasshi.news.yahoo.co.jp/article?a=20130115-00000303-bjournal-bus_all 赤字の元凶であるシステムLSI事業は本体から切り離す。
システムLSI事業の受け皿として考えられているのがルネサス、
富士通、パナソニックのシステムLSI事業の統合だ。
3社の統合交渉は12年2月に表面化した。
しかし、ルネサスの経営不振が深刻になり、交渉は中断した。
今回、ルネサスへの出資がまとまったことで今年度末
(13年3月末)までに合意を目指している。
3社のシステムLSI事業の年間売上高は合計で7000億円で
世界有数の規模だ。ルネサスの出資母体企業は日立製作所、
三菱電機、NECだから、この経営統合が実現すれば、
日立、三菱電機、NEC+富士通、パナソニックとなる。
エレクトロニクス大手5社のLSI事業が一つに括られるということだ。
計画では設計開発部門と生産部門を分離し、それぞれ統合する方式をとる。
これなら技術力と価格交渉力の向上を同時に図れる。
半導体の受託製造大手、米グローバルファウンドリーズと革新機構
が共同で設立する新会社にルネサスや富士通の工場を移管する。
141 :
竹島は日本領土 :2013/01/27(日) 21:37:55.47 ID:WAiP7lPo
突っ込む気も失せた
なんだ、意味もわからず貼り付けてるだけか。
これだけ追い詰められてもまだ合併する気無いのか 呆れた
>>147 1+1+1が1になってるルネサスを見ても
まだ合併による規模の経済が救済になると信じている方が哀れですよ。
ルネサスもJDもエルピーダになりつつあるよな。
>>148 いっぺんに3潰すより、1にしてから潰したほうが
社会に与える影響が少ないという話なのでは
まぁ潰れたいなら勝手にすればいい
後藤スレと勘違いして書き込んでしまいましたわスマソ
>>152 >最大の理由は、光源の出力が上がらないことだ。
>開発レベルでは出力125W、量産レベルでは出力250Wが必要とされているのに対し、
>EUV光源の出力はわずか30Wにとどまっている。
90年代にEUVが叫ばれはじめた時は、100nmから導入予定で光源の出力は数W程度でok
みたいな話だったのにw 今や1000Wという数字まで出てくる始末ww どーすんねん
http://eetimes.jp/ee/spv/1210/10/news051.html >IMECの研究グループはさらに、2016年までに500〜1000Wの光源を開発するよう、呼び掛けているという。
いつまでも実用化できないとそのうちASMLの資金尽きないか?
従来型が延命する度に次世代への要求も上がってくからな
微細化してもトランジスタ単価の下がらない世界へようこそ ダイサイズそのままなら価格二倍です
ニコンやキヤノンがASMLに勝つる可能性がプランクレベルで存在する・・・?
なんか泥沼化してんな
光源はニコンやキャノンの得意分野じゃないわさ
Intelは14nmの次もArFで行くつもりのようだし ASMLに資金を投下して研究が加速しても EUV実用化は当分先だと思ってるのは間違いない
EUVが結局モノにならなければ ASMLの有利は消えますね
量子かバイオか いっそ神(異星人)にすがり付くか
量子、量子言ってるやつは武豊の馬券でも買っとけ
EUVなんて有機ELやTSVと一緒
有機ELならよいのだが SEDだったら……
当分ダブルパターニングで行く事になりそうだけど、EUVは実現が更に先なんで ストップギャップの為にトリプルパターニングを採用したらいいよ。 繋ぎ技術としてはトリプルパターニングは最適。 確か日本企業がトリプルパターニングで強かったはずだから、ニコンとかが 有利かもね
EUVはあと10年位ムリポ
EUVのスループット(の低さ)に トリプルパターニングが追い付いたときに実用化されるかもしれん。
インテルは最初、ダブルパターニング→EUV と考えていてトリプルパターニングはスキップする予定だったんだけどそうも 言ってられなくなったな
困るのは数を出さなきゃいけないARM陣営だけじゃね?
原子スケールトランジスタが出てきたらDRAM捨ててSRAMでいいんじゃね?ってなりそう
176 :
Socket774 :2013/02/18(月) 06:31:07.10 ID:QAoRsbjZ
実用出力のある量産型の高出力EUV光源は、ASML傘下企業のみが開発してASML独占になるのか、 それとも、どこにでも供給するウシオ電機みたいな企業が開発してどこのメーカーにも供給するのかによって、 業界の勢力図がかわってくるな ASML独占みたいなことになったら、液浸の時以上にASML圧勝になるはず
メインメモリのエスラム化はまだか
>>177 DRAMのクロックがCPUのクロックに同期していて遅延もほとんどない
状態だったのが、CPUのクロックが上がって遅延が避けられなくなった頃、
俺も、集積度の上昇によってメインメモリがSRAM化されたチップの
登場を待ち侘びる日々を始めた。
だがキャッシュが使われるようになってしまい、アドレス空間に対して
フラットな遅延期待値を実現するメインメモリSRAM化は幻となった
>>179 2番目の記事、本当にあってる?
Office 2013は2台までインスコ可能ってパッケージに書いてなかったか?
すまん、179は誤爆
>>180 マジっすか⁈
今は知らんが、昔のofficeは同一人物が デスクトップとノート持ってる場合を想定して 2台まで可だった記憶がある。
2chは独自研究を発表する場です
186 :
Socket774 :2013/02/19(火) 18:23:55.55 ID:3ADckwOx
SPARCって富士通1社がんばってる印象
持続可能なビジネスを確立しました
PS4のメモリはGDDR5の8GBだってさ
大杉ワロタw
少なすぎだろ 2016年あたりでスマホに抜かれるぞ ソニーの旗艦機を例に、RAM容量の推移 2010年4月 384MB Xperia 2011年3月 512MB Xperia arc 2012年3月 1GB Xperia acro HD 2013年2月 2GB Xperia Z
さすがにネタだよな
PS4はGDDR5 スマホはLP-DDR2(今後LP-DDR3になる) 物もコストも違うし、容量の差は縮まりやすいんじゃない?
GってついてるからVRAMだろ
正確にはVRAMとメインメモリ共有のGDDR5 8GB そこはやっぱりAPUなんだねって感じ まあ、ゲーム機にしてはメモリは多い方なんじゃなかろうか PS3のメモリは256MB RAMと256MB VRAMだったんだし
メモリーチップ本当に32枚もつんでるのか
GDDR5って32bitか16bit接続じゃなかったっけ?
Cortex-A9 R4って素のA9から25%ぐらいIPC改善してるようなんだが 何をやったんだろう
クロック向上分が含まれてそう
いや、クロック上昇抜きで25%程度上がってる SPECintの比較で
上昇率がハンパないな・・・ パイプライン本数増やしたとしか・・・
A9はスーパースカラがほとんど効いてないから改善できる余地は大きい。
>>202 スコアボードが、かなり単純なんじゃないかという噂は聞くけど
そういうこと?
>>203 具体的なことは分からないけどざっくり言えばARMが想定した命令出現パターンと実際のAndroidの命令出現パターンが大きく乖離していて投機実行が意味をなしていないんだと思う。
いやいやw ROBが足りないとか RSが浅すぎとか PRFが少なすぎとか OoOEするのに必要なリソースが不十分という話でしょ 命令出現パターンが乖離なんていう言い訳はAMDでもしないだろw
>>205 x86みたいに重装備が許されるわけじゃないから命令のパターンを想定してパイプラインの機能を制限したりバッファを少なくして回路規模を小さくしてるんだよ。そこで想定外の事態に遭遇したらどうなるかってこと。
>>205 x86みたいに重装備が許されるわけじゃないから命令のパターンを想定してパイプラインの機能を制限したりバッファを少なくして回路規模を小さくしてるんだよ。そこで想定外の事態に遭遇したらどうなるかってこと。
何その妄想アーキテクチャ
CentaurのC6思い出した俺。
団子が言うには、Cortex-A9のOoOはROBがないらしい ARMもCortex-A15をFully Out-of-Orderと言っているので、A9はマッピングテーブル方式だろう しかもFPUパイプは投機実行できない(これはScorpionだけかも)
お客様のなかにCortex-A9のライセンスをお持ちの方はいらっしゃいませんか!?
GDDR5ってのは普通のパソコンのメモリには使えないの?
今のパソコン用CPUはGDDR用のメモリコントローラを積んでないのよ。
GDDRは基盤直付けが前提=M/Bの価格高騰&メモリ増設が不可能→商品寿命が致命的に短くなる可能性 だから、普及してない
誰の責任で配線距離保障すんの?ってのもあるしねえ
そこでこの等配線長でなくてもメモリコントローラが伝達時間差を考慮して信号をずらして出すXDR2をですね
逆に言って、メモリコントローラーさえあれば使えるって話でもある ま、使ってメリットのある用途は限られてる、たとえばゲーム機みたいに メインメモリとグラフィックメモリ兼用だけど速度がほしいような場合。 その昔sgiが出してたワークステーションなんかも、パソコン用のメモリじゃなく 当時としてはかなり速い(その分高い)メモリ使ってたりして、内蔵GPUなのに へたな外付けGPUでは勝負にならないくらい速かった
GDDRはRambusが特許を持っているし、消費電力が高くて廃熱コストがかかるし、レイテンシーも増える
PS4の中身はどんな姿になるんだろうか?w
ウェディングピーチ二期目とは宗篤
数的な大勢は自作MBのような使い方はしていないわけで、 製品寿命よりも、一つの設計で製品バリエーションを確保する事の方が メモリのモジュール化の動機としては強いんじゃないだろうか
224 :
Socket774 :2013/02/23(土) 21:16:01.23 ID:YTYuWC2k
>213 6wか・・・ a15はやっぱ電力食うね
>>196 仕様は変更の可能性があるって言ってるから減る可能性もある
あとsamsungは4Gbのチップがあるみたいだから、それ使えば16枚で済む
それでもコンシューマーとしては多いが。
エルピーダも大容量チップをダイスタックでサンプル出荷してなかったっけ?
その会社もうないんや
228 :
,,・´∀`・,,)っ-○○○ :2013/02/24(日) 12:01:32.81 ID:0cI3voET
>>210 ソースは後藤記事だ
中の人がROBは電力を食うから持たないようにしたといってるらしいが
2IPC程度ならROBってなくてもどうにかなるんじゃないの?
A15はどういう方式だったか忘れたけど、たしかAMD K7の元アーキテクトが作ったらしく
割と豪華な作りにはなってると思う
件のスライドはtraditionalなROBを持ってないと書いてあるだけで ROBは持っているけれどtraditionalな実装ではないという解釈もできる RWT掲示板では単なるデータレスのROBの事を言ってるんじゃね、という指摘も
preciseな例外を実装するためにはなんらかの機構が必要 ROBがないとしても同等品は必ずある
231 :
,,・´∀`・,,)っ-○○○ :2013/02/24(日) 16:37:50.88 ID:0cI3voET
ARM公式のスライドでは「OoO Writeback Stage」みたいな名前になってたと思う WB自体はOoO以前の古典的なRISCにも存在するステージだが
要はin-flightな実行結果をROBに置くか、future fileに置くか、unifiedなRFに置くかはともかくとして in-flightな命令の状態を管理する機構は名前は何であれ存在するってことでしょ それをA9ではOoO Writeback stageと呼んでいる、と
CPUも、高シングルスレッド性能のビッグコアと、高ワットパフォーマンスのスモールコアを 組み合わせたヘテロ構成にするべきじゃね? ただし、別アーキテクチャ・命令セットに互換性なしのコアを積む完全ヘテロじゃなく、 あくまで命令セット自体は同一のヘテロコアで
intel 「そんな事するならビッグコアを限りなく低電圧、低クロックで動く様にしてやるわ」
近しきい電圧技術の誕生である。
ちょっと感動したw
>>234 別にコアで別けなくても
パイプラインを非対称にするとか、
OoOのパイプライン数を動作状態によって増減させるとかの方法は駄目?
>>238 そんなことするよりコアを分けたほうが効率的
Altera、Intelのトライゲート技術を用いた14nmプロセスを次世代FPGAに採用
ttp://news.mynavi.jp/news/2013/02/26/217/index.html ついにアルテラはファブをintelに切り替えたみたい。
対抗上Xilinxもintelにしないと客が不安がるだろう。
他社も続いてintelに乗り換えたいんじゃないかな。
SRAMに近いFPGAはプロセスの初期生産に向いているらしいから他のファブにとっては痛い。
CPUのハードIPコアはARMになるのかAtom系になるか。
>>240 SRAMに近い構造ってのもあるけど、高集積のFPGAはちょっと高価でも構わないってのが良い所だからな…
ALTERAのArriaV GXのなんざ、1個で普通に20万とかだから…
1個100万超えのFPGAもあるよな
ただFPGAってふつうダイサイズでかいから歩留まり良くないといけないよね
atomとの統合SoC出すんじゃない
次のphiがペン1コアからatomコアになるから、モバイル用除く全てのインテルCPUにphi を内蔵して欲しい。低負荷の時はphiがatomとして動作すると。
>>243 冗長な構造なのである程度までの欠陥は許容できる
phiコアの一つをスモールコアとして使おう
しょぼいし、x86互換度が低い。512bitだけがとりえ。
キャッシュの効果がほとんどなく、演算速度がほぼメインメモリ帯域に比例するようなアプリでは、 演算用のコアの性能なんて、メモリ帯域を満たすだけあればいいけどな
512bitSIMDだけは正直欲しい。
んなパラレル化データ持ってうおさおしてたら 帯域とかページングで虚弱メモリが死亡するわ
なぁに、今やオンチップで8MBもメモリがあるんだ。 ちょっとやそっとじゃミスヒットしやせんよ。
キャッシュがミスヒット前提ならALUが1個でもオーバースペックでパイプライン段数も4段以下で余裕だな。 SDRAMはキャッシュが無いと無意味だから頑張って40nS(25MHz相当)位の非同期DRAM高速を使うとして、CPUのクロックは50MHz以上上げても無駄か。
揮発とか物理アドレスとか朽ちた看板は残っているけれど DRAMなんて本質は既に遠いストレージ
物理的には数cmの距離なのに、 遥かに遠く時間のかかるところにいる。 僕とあの子のようだ・・・。
ストール中は別のスレッドを動かせばいいのさ
つ[Niagara]
命令ウィンドウをアホみたいに大きくしとけば1スレッドでも...
あ
a
なんのために
来年は6GB、再来年は8GBですか・・・・ もう小型のPCだね 冗談で言われていた5型以下のスマホが4kの解像度・3Dゲーム・動画撮影・動画エンコード・デコードに 普通に対応しそうな勢いだ。フルHDも早くも時代遅れと言うことになるんだろうな LPDDR4が搭載される頃には間違いなくそうなっているだろう
今に始まった事じゃないが、もはや電話じゃねぇな。
Android OSが数百MB占有するので、2GBにするのはわかる。 4GBは何に使うのかわからん。
ロジックもメモリも全然「スマート」じゃないな。 スマフォのハード 全然スマートじゃない スマフォのソフト 全然スマートじゃない スマフォ依存のライフスタイル 全然スマートじゃない スマフォ業界で一儲け スマートかも
VRAM 100M OS基本部分 100M OS上位部分 100M 裏で動いてるプリインストールアプリやら自分でインストしたアプリ等 100M これでメモリ400Mくらいは食う だからメモリ2Gくらいはほしい
残りの1.6GはRAMディスクですね
ついにPhotshopがスマホに進出か
ゆとり化した人たちがターゲットって話じゃないの
でもゲームってめんどくささ(とそれによる達成感)を楽しむためのものだよね
まとめ: 俺の脳みそがスマホ脳になって、思考力が落ちて、ドラクエの文法が全部すげー面倒くさい! 本体込で2万円出したゲームも、スマホゲームも楽しさが値段で比例するわけでもない。 それでも、ドラクエぶっつづけで遊んでる俺ガイル。
トイレ行くのもめんどくさくなってペットボトルで用を足す人間の思考をみてるようだ
レバー回すだけ、3つのボタン押すだけのパチンコ・パチスロのほうが ゲームより市場規模が大きい モバゲーやグリーは、ゲームの世界に、パチンコやパチスロみたいな 猿でもできるような操作を持ち込んだ
導入部から実際のゲームスタートまで延々長い演出とかはうんざりする
そーいやPS版のDQ7は最初のスライム戦までがやたら長かったな あれのせいで3DS版はやる気がしないんだが
ドラクエ全盛時ですらめんどくさいといって投げちゃった奴もいた そういうのを救う意味で、簡単ゲームもありだと思う 自分でやりたいとはそれほど思わないけど
ゲームは内容如何以前に課金の在り方が胡散臭くなってきたので心が離れたな…
金額ベースはマイナスでも ByteやFLOPSベースならプラスなんだろうな
安価なGPUに置き換わっていくからな
GPUはオプションとして付加。 GPUのメモリがメインメモリの役割を果たしていないから、 置き換わりって表現は違和感あるわ。 PS4式のAPUで作ったスパコンなら違和感ないかな
コードチューンが適切で演算装置になに持ってこようが簡単に乗り換えられるからダメなもんが棄てられ忘れ去られるの早いよ。 手段と目的をまぜこぜにする馬鹿がプロジェクトに混じり込んでなければね
ナンセンス
逆だろ考え方が。それが有効な場合につける、有効じゃないなら別の策
個人の妄想をこのスレに持ち込むな しかもFusionでSSE命令をGPUに発行する並みの酷い妄想だそれは
いやそれ以下か、300MHzで512bit FMAとか9.6GFLOPSしかない Jaguar 1.6GHzの1コア分にも満たないw
DRAMのレイテンシは伸びる一方だ
実時間ベースでは変わってないけどな。
クロックだけ見て勘違いするアホが多い
プロセッサのクロックが低いからレイテンシは相対的に下がってる。
ageia physx 58gflops
Prescottの30段パイプラインはフイタw
P3の頃はFSBの10倍以上とか当たり前に在ったな。 今は倍率下がったもののコア数増えたからどっこいか。
PC-98の時代はメモリアクセスノーウェイトとかだったな 486の頃からノーウェイトじゃなくなってきた感じ
286のころ、エプソンが10MHzノーウェイトと宣伝を打っていた 裏返せばそのころウェイトが入るのが多かったということだと思う
ノーウエートつってもメモリアクセスに最低2クロック掛かるんだけどね。
まああの頃2次キャッシュもソケットとか専用バスに刺す方式だったし…
当時はコードの自己書き換えとか当たり前だったな 486のときに、先読みの中に入ってる部分を自己書き換えして 正常に動かないとかそんなトラブルが出てくるようになった Pentium以降は、そもそも自己書き換えは行わないとか、 仮におこなう時は、自己書き換えをサポートする専用の命令を使うなり、 よほど注意して設計しないといけなくなった
Winになってから変化するウイルスの話を聞かなくなったが、それか。 考えてみりゃ当然の話だわ。
プログラム書き換えながら実行とかマジキチwww
素人の質問だけど、自己書き換えの最中にエラー等があった場合 本来のコードというか、以前の自身をきちんと担保してるのかい、そういうのって 最適化というよりは肥大化という感じで、何かあったら最初に戻れるますよ?、的な対策とでもいうか 作法としては随分乱暴なんだね
メモリ空間上でプログラム同士が相手を探査、爆撃して 動作不能に追い込んだ方が勝ちという競技があったが あれいつまでやってたのかな
OS部分を爆撃せんのかそれ。
>コードの自己書き換え これ何かメリットあるの?
>>309 高速化、省メモリのために良く使われていたがな。
>>309 動作しながらアップグレード可能とか。
ウィルスとかバックドアを仕込むのに便利じゃね?
動作中のプロセスのどこかに自分のコピーを埋め込むとか。
>>308 仮想マシン上でやってもいいし、実ハードでやるにしても
特権モードとかうまく使えば何とかなるんじゃないかな。
試合場、場外の扱いなどもルールで定められていた。
具体的なルール詳細は憶えていないが。
フラットメモリモデルでプリエンティブマルチタスクで爆撃ゲー遊びに使える環境・・・・ 何があるんだろ OS-9 くらい?
まあ最近のOSは基本的にtext sectionが書き換え不可だからな 自己書き換えしたけりゃコードをdata sectionに置くしかない 逆アセンブリ避けなんかには使えるよ>自己書き換え
スタック書き換えてとば゛ば動くだろ
WindowsはDEP有効だと問答無用で無理なのかな? LinuxやOSXだと実行不可属性を付けないで使えば実行可能
ウィルス作りが捗るな
自己書き換え禁止って、計算可能性に変化はないのかな。 単に近道が塞がれるだけなのか、それとも どう頑張ってもできないことが発生してしまうのか、どちらなんだろう
窓でも設定しないとシステム関係以外DEP無効だが
>>321 チューリングマシンでも書き換えるのはテープ部分だけで
プログラムに相当する状態部分は固定だから問題なさそう
自己書き換え懐かしい。 よくやられてたのは、 特定のイミディエート値を書き換えるとか、 inc を dec に変えるとか、 その程度の書き換え。 計算可能性には何の影響もない。 インタープリターのようなコードが書けるから、 データ部分の書き換えとコード部分の書き換えに差は出ない。
飛び先の変更とか 実行禁止ビット立ってる場合のトランポリンの実装はどうなったんだっけ
なんか__enable_execute_stackとか呼んでるね、gccだと
セカンドキャッシュ外付けでも性能が上がったように見えたのはベンチマークに騙されていただけだったんだと 初代セレは教えてくれた。
一応突っ込むと初代セレはL2無ぇぞ。 「外付けL2意味無ぇ」という意味だったらすまぬ。
いまでも特権モードで動くデバイスドライバは、ロードするたびにOS自体を自己書き換えしてるようなものだな
自己書き換えとかラベルが低い。昔は命令列の途中に飛び込むとひとつのコードが二つの用途に使えるという物もあった。 オペランドとオペコードが逆転して動くという。
>>329 2次キャッシュオンダイの河童は256bitクロック等速で半速64bitx2のKatmaiとはダンチすぎて
128KBの河童セレでも早かったぬ…遅い外付け2次キャッシュに意味はなかった…
ルネサスのスマホチップはモデムもついてるの? モデムがついてるなら、どこか買ってくれる会社はあるだろ
>>336 GJ!!
うぉい!!
メモリ空間統合されてるじゃねぇか!!
ガンガンHSAだわ。
ディスパッチャ分離とかどうでもえぇw
>>338 うわぁ・・・ボロクソに書かれてるなw
NEC社員はプライドが高いのか。
なんかいっしょに仕事したくないなぁ・・・。
正直NECって日立や三菱と比べると格が落ちる気がするけど 変なプライド持ってるんだな
そういや、玉川にあるNECのビルに行ったことがあるけど、 あんなキレイな建物で仕事してたらエリート気分になりそうにオモタw
元国営じゃなかったっけ?
>>340 どこも大きな会社だからどの分野に詳しいかによって印象は変わるだろう。
それぞれ住友日産三菱だから
製造業は、管理部門が権力を持ちすぎて、官僚的な管理部門が全部取り仕切ると おかしくなってくる
要するに製造部門が弱体化したのがそもそもの原因ということ
国営というか電電御三家の一角要するに天下り官僚の巣窟 ゴミを養う事を優先して金を生み出す事業を軽視し続けた馬鹿者共
盛者必衰か。
養ってもらってよかったな
設備投資資金が無いからプロセスレースを降りたのに 降りた後に国費で支援とかチグハグすぎだな
外資KKRサイドの記事に釣らんな
最新のデジタルガジェットに関しては日本メーカーを誇れなくなっちゃったなぁ・・・ みーんな海外だ。
先端プロセスに果敢に投資して大成功したTSMCみたいな例もあるし、 リスクを避けたらより大きなリスクがやってくるとかよくあること 本業が重電とかの会社は、半導体でリスクを避けても本業回帰とかでなんとかなっても、 半導体が本業の会社がリスク避けて脱落したら会社倒産規模のリスクがやってきたって感じ
ルネサスの鶴岡工場ってTSMCに買収拒否られてたんだな ワロタ
>5120D, 3120A, 3120P, 7120P, 7120X Xeon Phi 5種類も売るんか
>>341 新幹線の品川-新横浜間通過時にみえるように作った建物だねあれは
岐阜にある三洋(現Panasonic)のソーラーアークしかり。
昔詰めてたときに仕事終わりに駅の近くの中華料理屋でよく飯くってたけど
358 :
341 :2013/03/22(金) 20:23:46.85 ID:Tp3O89NP
>>357 え!?
団子さん、あそこで仕事してたことあるの!?
うわぁ〜、団子さんがいたところに行ったなんて、何かうれしいなぁ〜w
あそこの建物今ルネサスの「本店」でもあるのか・・・ NEC関連企業が雑居してるビルだよね 食堂はあんまり美味しくなかった覚えがある あとエレベータの移動が面倒
穴のあいてるビルだっけ 売ったとかいう話を聞いたような記憶があるんだが
穴の開いてるビルは新橋のあたりの本社ビルで、いま話題位になってるのは武蔵小杉(向河原)あたりにあるビルでしょ? 本社ビルは不動産屋に売って賃貸で借りてるんだっけ?
>>362 何かよーわからんがスゲーw
東芝、OS作るのかw
組み込み用OSは規模も大きくなく各社持っている
そうなのか!
SandyBridge-EのCPUって64bit整数の33bit以上のシフトって何サイクルかかる? 32bitのバレルシフタだったら2サイクルかな?
3万サイクル
シフト量問わずレイテンシは1サイクルだが
そうなんか。さすがIntelのCPUはすごいな
IntelさんはNo.1や。
そもそもシフト量関係なく1クロックでシフトできる演算ユニットをバレルシフタというんじゃないのか。 昔のCPUはシフトするビット数に応じてクロック数を要したぞ。
>>371 > 昔のCPUはシフトするビット数に応じてクロック数を要したぞ。
歳がバレルシフタ
だからハードウェアリソースの制限(バレルシフタは結構なリソースを要する)で 語長より小サイズのシフタしか実装できなかったりすると1クロックじゃ処理 できないけど、実際のところどうなのよ? って話だろ
x86-64の実装で64bitのシフトが32bitに比べて遅いのはPrescottぐらいじゃね Atomですら1クロックでこなす
>>375 を見るとCPUにも変態仕様をしこんで、封印していても不思議ではないか…
>>287 のVector co-processorがサウス相当のセカンダリープロセッサについて
いそうな感じですね。コア速度がGPUとは異なるので別物みたいだし。
省電力&発熱させないチップなので、低速コアの数値計算器となるのかな。
>>378 何を言ってるのかよくわからないが、PS4についてはそんなものは無い
>>375 Cell もローカルメモリじゃなくて、キャッシュに明示的な
制御を加えてローカルメモリ的にも使える二刀流で
データパスの自由度もあったら
あれほど嫌われなかったのに、もったいなかったな。
それはもうCell じゃない?
>>380 ローカルストアでなければ速くコンパクトにはならない。つまり、そんなものは作れない。
キャッシュシステムって単なるSRAMよりもずいぶん大きいの?
全く同じ技術で作ったとして、キャッシュとメインメモリが矛盾しないようにするための仕掛けがキャッシュには余計に要るだろ 逆に言えばローカルメモリだと、それだけコンパクト、あるいは大容量にする余地があるともいえる
CELLのSPEがあの小さなコアであそこまで高速だったのは、LSだったからだろ メインメモリ共用なら、高速化するために複雑なキャッシュ機構が必要で、ダイが肥大化してた そこまで肥大化するなら、PPE積んどけばいいじゃんみたいな話になるとおもう
差があることくらいわかる。尋ねたのは差の程度
全9コアでコヒーレンシ持ったキャッシュ機構だと速度がL2相当、 つまりLSは6サイクルだっけ?あれが20〜30サイクルに またフルプログラミングDMAからハードウェアの自動フェッチだと メモリ帯域の浪費も大きくなる って辺りもあるんじゃないけ?
もしCellが作られたのが20nmプロセスとかなら、 各コアに1MBとかのLSのせてもっと使いやすくなってた気がする
K7/K8/K10のROBって同時にデコードされた命令グループ単位での管理?
>>371 SHL AX,3 って出来る(1以外を指定できる)のがそうだと思ってた
CLレジスタの内容に応じて複数bitのシフトを行う命令は8086時代から実装 されてたが、当時の集積度ではバレルシフタなんて搭載不能だったんで マイクロコードで1bitシフトをループさせてただけ
ふと疑問に思ったんだけども、もし仮にNetBurstアーキを今の技術 (32〜22nmプロセス、12MB、もしくはそれ以上の大容量キャッシュetc) で作った場合でも、性能は振るわないものになってしまうのかな?
ま、Coreシリーズより性能が上になるようならそっちを作ってるはずだから 少なくとも現行CPU以下なのは確実だよな
古く少ないトランジスタのアーキテクチャを使って最新サイズのトランジスタを 疎に並べたら、冷却OCのような高クロックで動かせるんじゃないかと 前から思ってるが、最新ロジックを密に並べて熱密度でクロック上限が 決まるものに勝てないんだろうな
Phiみたいに魔改造して数で勝負とか
旧いアーキテクチャはパイプライン段数が極めて少ないからそもそもクロックも伸びない
じゃあパイプラインを30段くらいに分割すれば 20GHzくらいまでいけんじゃね?
インテル版64ヴィットx86がどんなものだったか気になるな
Prescottのハイパーパイプラインは32段だったんだぜ。
ヴィット
>>397 あまり詳しくはないんだが、
複雑さが似通っているなら、パイプラインが深い方がクロックをあげられるが
そもそも単純ならクロックをあげるために深くする必要性は乏しい
という理解は間違ってるのかな
当たり前だが同じ機能を実装するにしても 実装が単純(つまりトランジスタ数が少ない)であればあるほど 入力から出力までのゲートの段数は多くなるわけで 動作周波数を決めるFF間での遅延が長くなり不利 同じ段数のパイプラインで加算器を実装するとして 単純なリプルキャリで実装するのと、複雑なキャリールックアヘッドで実装するのと どちらが周波数が上がるか考えてみな
NetBurstって当時のintelの予定だと最終10GHz以上で動作させる予定だったんだぜ
そのころには、CPUの排熱を利用したグリルとかオーブンとか炊飯器とかが作られるな
スクランブルエッグならやってたが
>>404 20Gじゃなかったっけか。
>>406 その昔ASCIIだったかが486でうずらの卵焼いてた記憶。
たしかPentiumのころじゃなかったかPowerPC601と仲良く目玉焼き作ってた記憶がある 486のころのはあったかもしれないけど俺の記憶にはないw
姉妹誌のDOSV ISSUEはP2-266を400MHzまでOCしたり熱さに定評のあるK6Vで焼いたり熱いと評判のCPUではひと通りやってたな 雷鳥だか馬では卵より先にCPUが焼けてた
>>391 あの倍速ALUって奴がまっさきに動かなくなるから
倍速動作止めて再設計しないとキツイんじゃないか?
ドミノ回路とかすげぇよなw
倍速ALUは一代限りだが
Prescottで0.5サイクルごとに結果を入力側にフォワーディングするのをやめちゃったからね 依存関係のない命令は0.5サイクルごとに突っ込めるから、スループットは変わってないけど。
「メモリの壁」を破る次世代DRAM規格 HMC (ハイブリッドメモリキューブ)、1.0仕様公開
次世代DRAM技術 Hybrid Memory Cube (HMC) の製品化を目指すHMCコンソーシアムが、最初の仕様書 HMC Specification v1.0 を公開しました。
HMCはメモリチップの三次元積層とシリコン貫通電極 (TSV, Through-Sillicon Via)、メモリコントローラの統合など
新技術・新アーキテクチャを採用することで、現行のDDR3と比較して大幅な高速化と低消費電力、
実装面積の削減を可能にする新しいDRAM規格の名称。
HMCは Micron やサムスンが中心となって提唱した規格で、コンソーシアムには Developer Members として上記2社のほか
SK hynix や ARM、HP、Alteraなど9社が、Adopter Member と合わせて100以上の企業や研究機関が名を連ねています。
HMCは次世代を名乗るだけあって物理層も論理層も新しく、現行の DDR3 DRAMなどとは互換性がありません。
物理的には、メモリコントローラと外部のCPUやGPUとのシリアル通信インターフェースを兼ねるロジック層の上に、
TSVで貫通接続されたメモリチップを積層した構造。
TSV構造で広帯域と低消費電力を実現し、またメモリモジュール側にコントローラを内蔵してマルチレーンの
シリアル通信をすることで、マルチコアプロセッサやGPUが要求する並列アクセスに応えるとされています。
具体的な数字は、インターフェース速度はDDR3比で15倍以上、消費電力70%減、実装面積はRDIMM比で90%近く削減など。
複数レーンをまとめたモジュールとしての最大通信速度は160GB/秒、二倍束ねれば320GB/秒。
DDR4が現行の規格と互換性を保ったまま漸進的な高速化を図るのに対して、HMCはアーキテクチャから変革することで、
プロセッサの高速化に追いつけない「メモリの壁」を破る革新的規格という位置づけです。
今回正式仕様として承認された 1.0 spec は、プロセッサとの距離 8 - 10インチ(一般的なPCマザーボード程度)に対応する
SR (Short Reach)と、よりプロセッサに近い距離で実装する用途向けの USR (Ultra Short Reach)を定めています。
HMC コンソーシアムによると、SR規格のハイブリッドメモリーキューブは今年後半、USR規格のHMCは来年にも登場する予定。
http://japanese.engadget.com/2013/04/03/dram-hmc-1-0/
メインメモリが1byte/FLOPS程度になる予定と言ってた NEC次世代SXとかどうするんだろう・・・
メモリチップそのものは、今まで大して速くなってないんじゃなかったか('A`) 何か画期的な進歩があったとも聞かないし、またつなぎ方かわるだけなのかな('A`)
http://pc.watch.impress.co.jp/docs/2003/0227/kaigai01.htm >IDFでは、IntelのJustin Rattner氏(Intel Senior Fellow and Director, Microprocessor Research Labs)が、
>2010年には15〜20GHzになると言う予測を示した。Nehalemが65nmで10数GHzなら、この数字も達成できる。
>というのは45nmプロセスで15GHz以上を達成できる計算になるからだ。
>次の30nmプロセスになったら、軽く20GHzを超える計算となる。
ラトナーたん、何適当なこと言ってんのwww
nVIDIAもこの手の事言ってたし まあハッタリ企業が勝つというのもある意味パターンなのかもしれんが
2010年に20GHzになるとはいった、いったが 時と場所までは指定していない その気になれば10年後、20年後ということも可能……!
>>420 いわゆる伝統的CMOSスケーリングを
仮定した上での見積もりだったんでしょ
そうそう、AMDも似たような発表やってたよ、確か プロセスルールで先行してたintelが先に躓いただけで リークという現象はどこにも平等だった
>>422 2010年って年数指定してんのに「10年後、20年後」って何だよ。w
インテル歴とかじゃねの
日本なんかもうずいぶん前から二千何百年だからな忘れたけどw
神武天皇即位紀元(じんむてんのうそくいきげん)は、 初代天皇である神武天皇が即位したとされる年を元年 (紀元)とする、日本の紀年法である。 略称は皇紀(こうき)という。外にも、皇暦(こうれき)、 神武暦(じんむれき)、神武紀元(じんむきげん)、 日紀(にっき)などともいう。 年数の英字表記では、「Koki」や「Jimmu Era」などといい、 皇紀2660年を「Koki 2660」「Jimmu Era 2660」などと表記する。 紀元節(現在の建国記念の日)廃止までは、 単に「紀元」と言った場合には、神武天皇即位紀元(皇紀)を指していた。 西暦2013年は、神武天皇即位紀元皇紀2673年である。
なるほど、日本人って未来に生きてるのはそのせいかw
関ヶ原や大航海時代以前に20GHzのプロセッサが作られていただと……!!!!w
Sandy BridgeでPRFからオペランドを読むのってスケジューラの前?後?
後じゃね 一元化したPRF使ってるのにわざわざ前に読む実装って知る限りでは初代SPARC64ぐらいしか無いような
>>432 わざわざ前に読むのは読み出しポート数をデコード幅で押さえるのが理由だろうが、
リザベーションステーションにデータを保持するということは即ちコピーが増えるということで、
低電力を目的に単一のレジスタファイルにしたSBとは相容れないように思える
なるほど。Haswellの整数PRFはリードポートが結構凄いことになりそうだね。 Port4だけ1ポート、後は2ポート必要で8ポートあるから、計15ポート?
早くHaswellいじりてぇ〜!!
add reg, [reg+reg]みたいな3ソースオペランドのfused uopが4つ並ぶことを想定すると フロントエンドで読んでもリードポートは減らんような。
そういった新仕様を最大限に生かすには、アセンブラorインラインアセンブラで開発するしかないんだけど、 おまえらインラインアセンブラとか使うの?
どうしてもパフォーマンスが欲しかったらやるしかないわけで
たいへんだしイヤだなぁ〜、とか言いながら内心、メラメラと燃え上がるぜ・・・!!
HaswellはFMA3まで対応で、その次はFMA4に対応するわけだな
>>440 何かめっちゃかっこいいなw
変身をあと2回残している、みたいなw
要るの?
Intelはもともと4オペランドのFMAを予定していたが move命令のの削除機能があるので3オペランドになった AMDはSSE5で3オペランドのFMAを予定していたが、SSEベースの FMAはキャンセルされAVXのものが実装された SSEではMOVE命令の削除が有効だが、AVXでは無効なので FMAは4オペランドになった
Ivyのmov除去はリネーマーを通過する4uopのうち一つに対してしか適用されないようだから Haswellでそのあたりがどうなっているかは気になる。
Power Struggles: Revisiting the RISC vs. CISC Debate on Contemporary ARM and x86 Architecturs green-rabbit.sakura.ne.jp/note/2013/04/07/337/ タイトルだけは勇ましい論文
シェアさえあればISAなんて関係ないよね! x86がAtomより下に行けないのは確定しているが あとはARMがCortex-A15より上に行けるかだな。
PPC G4やG5をもってしてもx86エミュの実効性能は実機を超えられなかったけど ARMなら可能なのか?
>>448 何言ってる…超えられる訳ないだろw
実行性能で超えられるかどうかはともかく、実使用時で問題が無いかどうかは別問題だが。
むかしの16bitDOSアプリならARMでエミュしてもちゃんと動くんじゃね?
そこで引き合いに出すならクロックでx86に大差をつけていた頃のalpha
alphaはチョンで作ったりしたのがまずかったな。
当時はCISCよりRISCが有利だったからな ところが、IntelがCISCにもキャッシュを増やしてスーパースケーラを実装して どんどん高速化していって、結局CISCでもRISC並みの速度が出せるようになって Alphaチップが消えた
Intelすげぇなw
IntelはPentiumでCISCでの高速化を断念して以後はPentium4まではRISCへのコードトランスレータを組み合わせる実装、PentiumM以降はVLIWへのコードトランスレータを組み合わせる実装だからな。 CoreのuOPSはRISCではないがCISCというよりも固定長の1命令で複数の演算ユニットに命令を発行できるVLIW(にしてはしょぼいが一応)と捉えるべき実装になっている。 内部VLIWのx86に単なるRISCが勝てるはずがない。
ま、ぶっちゃけIntelのプロセスが使えたならAlphaだって…となるけれど 売れる->金ががっぽがっぽ->新プロセス投資->つおいCPU、ってループだからな とにかく売れなきゃ徹底的に負けてゆく、それが商売…
AlphaはドナドナされてAthlonになった
x86を内部VLIWと捉えるのは一般的ではないと思うが。
K7はEV6のバスとおいしい機能だけつまみ食いだろ
460 :
Socket774 :2013/04/12(金) 09:26:09.15 ID:A7JXLZ+q
ユニットが高機能化しただけで、1uopが複数のユニットにディスパッチされる訳ではない
>>458 正確には分類不能。
ただ固定長命令だからCISCではない、ロードストアと演算を1命令でやるからRISCではない、OoOスケジューラがあるからVLIWではないと見ていった時、
OoOは命令フォーマットと関係ないマイクロアーキテクチャーの問題だから命令フォーマットとしてはVLIWだよなという感想。
>>460 1uOPSがロードとストアオプション付き演算の2ユニットに行くんだよ。でないとロードが終わるまで演算ユニットがブロックされてOoOできないから。
462 :
Socket774 :2013/04/12(金) 10:36:15.81 ID:A7JXLZ+q
add reg,memなんかのことを言ってるのか? atom以外はまさにその理由で2uopsになると思うが
464 :
Socket774 :2013/04/12(金) 11:33:44.08 ID:A7JXLZ+q
何を言ってるんだ アドレス計算のデータが揃った時点でVLIW的にALUにまで発行していたら それこそデータのロード待ちが無駄じゃないか
466 :
Socket774 :2013/04/12(金) 11:41:18.06 ID:A7JXLZ+q
図ではバラバラにissueしているのだが
そもそもVLIWは依存関係のない、同時にissue可能な命令群をpackするものだが x86のload-op命令はバリバリに依存関係があるのだから別物だ。 uops fusionは単に1 x86命令を1 uopとしてデコードして issueまでは分解しないからOoOリソースの節約になる、という話 分解しないで同時にissueしたら464の言うように実行ユニットの無駄遣いで本末転倒
1つ質問があるのだけどもいいかな? (PCゲームにおいて)よくGPUの性能を引き出すにはCPUの性能も必要 (特にCPUの浮動小数点演算能力が大事)、等の話が出てくるけれども、 (ベンチマークサイトでもこの旨を示すようなことが書れているけれども) これってどういう原理・仕組みでそうなるのかな? 浮動小数点演算ってGPUの得意分野だからこれはGPUにやらせて、 CPUは別の演算・処理をすればいいと思うんだけど、どういう事なの?
GPUの計算資源をCPUの肩代わりとして使うには それ用のAPIが必要なんです GPU直叩きしたら互換性維持できないし
有名タイトルのプログラマはCPU、GPUのバランスの取れたPCで ハードに遊んでいる部分がないように活かそうとする。そうしないと、 他のゲームタイトルに比べてすごいと言わせることができない。 CPU、GPUどちらかに偏った自作PCを作ったら弱い方が足を引っ張る。
GFだけの問題じゃないだろ 32nmのAMDチップより、おなじ32nmのSandy Bridgeのほうが好まれてる状況だから、 プロセス以外にも差がある シングルスレッド性能軽視が市場に受け入れられなかったんだろ
シングルスレッド性能の恩恵が何にもまして重要であるような そんな使い方をしているユーザーの方が少ないと思うけどな。 でも一般人の選択も販売員の選択もイメージで決まる
シングルスレッドパフォーマンス、トータルパフォーマンス、コストパフォーマンスともに全部Intelを上回る CPUをAMDが作れば売れるんじゃね?
あ
今はコア性能上げるよりワッパと低発熱でx86が相手ではなくARMが相手 だしな、結局、スマホやらタブレットにはARMがいいのか、x86がいいのか…。
絶対x86のがイイ。 Intelにまかせておけば安心さ。 AMDもGPGPUでがんばってくれるし。 ARMは気に入らん。
一般的に炭鉱労働者は最も過酷な労働条件の故に、底辺労働者として扱われます。地域にもよりますが、 被差別部落出身者や在日の方も少なくありませんでした。 ちなみに麻生副総理の家系である麻生財閥が経営していた麻生炭鉱は、そうした被差別者を多く 含む労働者に極めて過酷な労働を強いたことで知られています。 本社会では、職業差別の背景として部落差別と民族差別が指摘されるケースが多いです 貧しい母子家庭で、子どもを育て、生きていくためには、日雇い労働をせざるを得ない現実があります。 日雇い労働者の子どもは「汚い」と言っていじめられています。論理的根拠もなく、特定の職業が「汚れ」と 結びつけられています。 麻生は労資一体による「君国奉公」を説いて労働者を働かせた。一九四一年には商号を麻生商店から麻生鉱業に改称した。 一九四二年からは海軍省の委託を受け、南ボルネオのロアクール炭鉱・ブラオ炭鉱の開発をおこなった。一九四三年には 新飯塚運送を新飯塚商事とし、産業セメント鉄道の鉄道部門を国鉄が吸収した。戦時のセメント需要のなかで日鉄・末松商店と 船尾鉱業を設立したが、この船尾鉱業はのち麻生に継承された。一九四四年にはセレベスのマカッサル事業所を設置した。 この年、麻生鉱業は軍需会社に指定され、採炭現場で「神風生産特攻隊」を組織した。 吉隈炭鉱へは一九四五年に連合軍俘虜三〇〇人が連行された。 麻生系炭鉱は労働者を酷使するなかで、戦時下に年一〇〇万トンを超える石炭を生産していった。
あ
:::::::: ┌─────────────── ┐ :::::::: | FinFETが採用されたようだな │ ::::: ┌───└───────────v───┬┘ ::::: | フフフ…奴は微細化技術の中でも最弱 … | ┌──└────────v──┬───────┘ | ARM如きに採用されるとは. | | 低電圧技術の面汚しよwww.│ └────v─────────┘ |ミ, / `ヽ /! ,.──、 |彡/二Oニニ|ノ /三三三!, |! `,' \、、_,|/-ャ ト `=j r=レ /ミ !彡 ● T 爪| / / ̄|/´__,ャ |`三三‐/ |`=、|,='| _(_ /人 ヽ ミ='/|`:::::::/イ__ ト`ー く__,-, 、 _!_ / ( ゚ω゚ ) / `ー─'" |_,.イ、 | |/、 Y /| | | j / ミ`┴'彡\ ' ` オンチップVR ニアしきい値電圧技術 RFモジュール パワーアンプ
484 :
Socket774 :2013/04/30(火) 15:58:47.93 ID:JEogUtqz
ある意味元鞘やん
動かすだけならなんとかなるが、現実的なコードでまともな性能のものを実装するのは大変
ノード単体の演算なら、PC用CPU・GPGPUのほうがスパコンよりいい スパコンの強みは、ノード間通信(帯域・遅延)くらいしか無くなった 逆に言えば、PCクラスタ・GPUクラスタが、スパコン並みのノード間通信を手に入れると その時点でスパコンの存在意義がなくなる
具体的には、どうやって手に入れるの?
低遅延の100GbEが安く買えるようになるとかかな。
まあこの先5年はないね。 構成要素の一つである演算チップが共通なだけで、インターコネクトやら耐障害性やら、システムとしてはまるで別物だと思うよ。
端末はもう高性能有線よりも無線だし 市場がサーバーやネットの一部だけだと 高性能有線が安くなるのには時間がかかるんだろうな
そんな中途半端なプロプライエタリソリューションじゃなくて100GbEだよ、100 Gigabit Ethernet。 アジアで大量生産して安く届けて欲しい。
まず標準的なPCに乗るのは10GbEからでしょうね、次に100GbEに移行するでしょう。 10年以内に100GbEは来ると思う。8k以上の映像を扱う時代になると1TbEとか10TbEも 業務用では実現してそうだが
ホニャララGbEが安く手に入るようになるころには HPC向けはそのホニャララGbEの1桁〜2桁上のクラスが常用されとるわ
10GbEですらNICやスイッチが普及価格帯に落ちるような気配はないしなあ コンシューマ向けだとGbEで不足する用途がほとんど無さそうだから PCで標準搭載になるかすら怪しい GbEは規格制定から3年ぐらいで1万円以下の価格帯になってたとおもう
GbEのNICが1000円で買えるようになってからもうじき10年
例のフリーランチが終わっちゃったので 10GbEはなかなか消費電力が下がらなくて安くできんのですわ。 需要もGbEより圧倒的に弱いし。
つーかHPCにGbEに使うのなんてローコストにしたい時だけだろ QDRやODRのInfinibandでもおっつかねえっつうに
10GBase-Tは遅延が大きいのでスパコン並みのノード間通信という意味で全く使いものにならない。 copper wiringといっても既存のCategory 5eが流用できず結局引き直しになる。銅線をさっさとあきらめて光にするべきタイミングだった 次は同じ間違いを繰り返さず光に移行して欲しいと願っている
>>503 光は結局、ファイバー曲げるのに注意必要だから構内回線としても敬遠されがちだからな〜
一度、折れるまで曲げる実験というのをしてみたんだけど、結局折れなかった。 U字状に曲げてペンチで挟んだら折れるかもしれないね そんなに心配しなくてもいいのでは。
構内回線で光を大量に使用してるけど、 ラック内配線だと保護材がほとんどない細い光ケーブルだけど、 構内配線だと保護材が多い太い光ケーブルなので、普通に使ってる限り大丈夫だよ あと、マルチモードファイバの場合、プラスチックファイバを使えば大丈夫だし
507 :
Socket774 :2013/05/05(日) 05:31:07.60 ID:SZ6O9jf1
>>505 >>506 それで済めば良いけど
現実的には配線時、光ファイバー敷設場所の確認作業工程は必須だからな
銅線嫌なら無理に10GBASE-T使わんでも、光ファイバの10GBASE-SRとかあるんだから好きに使え
銅線を敷設するときは確認作業工程を省けるの?それはそれで怖い気が。
そもそもEthernetのレイテンシってメタルか光ファイバかは関係ないような。
LINPACKで1位取るにはGPGPUだのPhiだのアクセラレータ型の構成と勝負しなきゃならんのだが 既存技術の延長で行くつもりなのかね
日本のスパコン予算の場合、プロジェクト全体予算で計上してる 1000億っていっても、スパコンのハード代・開発費より、土地代・建物代やらのほうが上 アメリカのスパコン予算の場合、基本ハード(及び基本ソフト?)代しか計上されてなく、 パッと見ると日本が割高に見えるが実際はそうではない
土地代が高いなら 北海道に作ればいいじゃない
いまは、 マスコミ→Linpackだけを話題 マスコミ以外のスパコン関係者→HPC Challenge Benchmarkを見る って感じで、マスコミとマスコミ報道しか知らない一般人はともかく、 HPC Challenge Benchmarkのほうが重視されてるよ
まあ、Linpacクソとその信者は早く死んでほしいわな。
でも、 1000億の予算で全国の10拠点に100億のスパコン10台を購入することの効果と、 100億の予算で毎年1台のスパコンを購入することの効果と、 1000億円の予算で世界最速級のスパコンを1台購入することの効果は、 事前検討してほしいな。
PCだって5年前のハイエンド(QX9770)は現在のバリュー〜ミドルクラス (i3上位〜i5下位)あたり相当の性能になるが
>>12 アラスカの一般家庭に送って暖房機にしようぜ
Roadrunnerの電気代は年間$1.2 millionだったそうです。意外と安いですね。 今Roadrunnerと同じ性能のスパコンは$6 millionで作成でき、電気代は年間$150,000で済むそうです
>>522 $6 million =6億円(\100/$) 1Petaで、やっすー
ミチバシリってCell/B.E.アーキテクチャの開発コストはゼロ換算? ソニーを財布代わりに使うような芸当はもうできないと思うけど
10GBASE-T固有のエラー訂正がガンなのか 電力的にもレイテンシ的にも
>>512 5年くらいしか持たないんじゃなくて、
5年くらいで入れ替えるのがいちばん低コストなんだよ
ムーアの法則やらプロセスルールの進化の速度が鈍化してきたり、
新技術が開発されると、この期間はある程度長くなったり短くなったりする
>>512 そりゃ、ハードウェアなんて5年もたてば(ry
5年前のGPUやCPUなんて、所詮は型落ちだ!!!(暴論
俺らは人類の型落ち
Green 500でトップを取ったマシンの電力効率が5年で1/8になるものか、 と思っていろいろ調べたら現行機Green 500トップだと1/5位になってるのな。 Roadrunnerの後釜に電力1/8の$6 million機を入れる気はなくて、 $50-100 million機を入れる予定みたいで、電力効率も現行機(GPGPU)よりもっと 良くならないとだめみたいなことを言っているから、後釜は100ペタ級みたい。
TOP500/Green500は、Linpackベンチでしか性能を計測しないので、 GPGPUクラスタにすればGreen500的な性能は良くなる ところが世の中には単純にGPGPUクラスタではパフォーマンスが全然でない計算もある
10GBASE-Tに標準で対応するのは5年後ぐらいだろう。銅線で対応できる最後の世代でもある。
記者が的はずしてるからコメントする側もいろんな方向向いちゃってる
いずれにせよ箱物感覚でポンとデカい予算をつけるのはよろしくない 開発目標を課して複数の組織にコンペさせるとこから始めんと
京は成功でしょ?成功者を罰するのはやめましょうや。
技術的な目処がついてないものをどうコンペにするのか
金のかけようは問題ある気がする。 運転・冷却に発電所一箇所分ぐらいの電気喰うから気候が寒く、土地の安い網走 ぐらいに作って、スパコン操作は遠隔管理で東京とか大阪とかで管理と使用 をすればよい。本体に金をかけるのは、2位じゃだめなら、しかたない。 電気の送電ロスを考えれば、北海道の発電所の傍でも良いが…
あれだけ予算を投じても、メーカーは赤字だから国プロは不思議だよね。社会貢献と宣伝費に使ったと思わなければ、やってられない。
おまいらに支持されるより スパコンのすの字も知らない一般人煽ったほうが儲かるから
中国のXeon Phi使ったやつは、Linpack番長なのか、HPCCでも存在感あるのかどうなるんだろ? いままでのパターンだとLinpack番長だよな?
linpackの結果で売ってきたのならそういう事だろう 他にも目を見張るものがあるのならぜ確実にアナウンスするだろうし
Xeon Phiのprogramming guideを斜め読みしたがコアがx86であるためTeslaよりは少しだけ作りやすそうだが, ローカルメモリが少ないのでプログラミングにコツが要りそう。
そもそもXeon phiは今後も開発を継続するプロダクトになれたのかね Larrabeeと違って製品化には漕ぎ着けたが 次のSilvermont版がいつ頃になるとか発表はあったの?
例の国際技術ジャーナリスト・アナリストさんが みっともない言い訳コラムを書いてるww
アメリカは、DoD・NNASA・
アメリカは、国防省・エネルギー省・全米科学財団をはじめいろんなルートで 大〜中規模のスパコン開発をやってるから、日本みたいに一つに掛けるみたいなことをやってないんだよな
TSUBAME<えっ
とりあえずお国のプロジェクトみたいなものは批判しとけばバカが感銘してくれるからな
>>545 Xeon phiはPenTコアだからな・・・・
次のSilvermont版の発表はまだ無い。これがいつかCPUに内蔵される事を願う。
確実に10nm世代より先の話だけど
Knights Landing/Knights Hillというコードネームはもう出てるから 何かやってるのは確からしい
Intelのコードネームカッコヨス
ブ、ブルドーザァーー スチームロゥラァァァlーーー
まんぐりがえしにはワロタ
556 :
Socket774 :2013/05/14(火) 06:47:00.13 ID:i/e12km9
あれはやっぱGoogle翻訳にあれを執拗に入力し続けた奴または集団がいるのかね。
557 :
Socket774 :2013/05/14(火) 12:11:28.23 ID:tl4z/BRO
>>550 国が事業を自分でやるとうまくいかないという経験則があるから
叩く人が多いんだよ
富士通、名古屋大学情報基盤センターの新スパコンを受注
http://www.itmedia.co.jp/enterprise/spv/1305/15/news127.html 「FUJITSU Supercomputer PRIMEHPC FX10」384ノード、
「FUJITSU Server PRIMERGY CX400」552ノードのハイブリッドで構成され、
総理論演算性能は561.4テラフロップスを実現する。将来的には、
3662.5テラフロップスまで拡張し、東海地区では最大のシステムとなる予定だ。
PRIMEHPC FX10は、スーパーコンピュータ「京」に適用した富士通のスパコン技術を
さらに向上させ、拡張性、信頼性、省電力性に優れた高性能スーパーコンピュータ。
CX400の552ノードのうち、184ノードはインテル Xeon Phi コプロセッサを搭載
ずいぶん変則的な構成に見えるが……?
>>560 Sparc部分はただのおまけだな。
実態はintel機。
「京」関連のパーツを混ぜないと予算出さないよ、と文科省の役人に脅されたのかね。
561TFLOPSのうちコプロセッサのXeon Phi 184台が368TFLOPSを出し、 残りの193TFLOPSを936ノードのSparcが出すんですね。
書きやすいのはXeon PhiよりSPARC FXかなと。
大規模SMPじゃないとはかどらない研究もあるのでね
>>562 Xeon phiの構成はだいたいどこも一般的なCPU+Xeon phiだろう。
SPARCはおまけじゃないが、SPARCである必要は全くない、どころか不自然。
いろいろ混ぜたところで性能をたたき出す研究とかじゃねえのん?
>名大 FX10はそのまま京で走るソースを準備するための演習場だろう。
>>566 本質は豆腐インタコネクタによる密な結合だろ
SPARCなのはそれ使ったスパコンがそれしかなかったからで
>>562 全然そんなことは無いよ
Intel部分はまさにベンチ番長、ノード間通信がしょぼくてもパフォーマンスが出るアプリ向け
SPARC部分は、高いノード間通信が必要な計算でも速い
そもそも、HPC分野でhardware transactional memoryでパフォーマンスアップする用途って何があるんだ? RDBやらJava VMみたいなのをHPCで使うわけじゃないし
>>573 >572はIBMの最新スパコンBlueGene/Qの記事なのだが、読めば分かるよ。
>>572 PS4にそんなものはない。
スレッド数が16とか32超えるような世界でないと意味もない。
HPCはちょっと違う。
CellのSPEは、コアごとに独立したローカルメモリっていう構造なおかげで、 小さいコアなのに結構性能があった とくにローカルメモリで完結する演算に関しては爆速だったからな
>>577 なんというデタラメ
TMは投機的なメモリへの書き込みをロールバックする仕組みだよ
TMは、すごく使いにくそうなテクノロジだね。 よくよく考えて作らないと、発生頻度が低いが重大なデータ壊れが発生するバグが出そうで怖い。
BGのTMでは同一のメモリアドレスを複数のキャッシュラインに割り当ててバージョニングする あるバージョンが捨てられる際には持ち主のスレッドには通知がいくようになっている
トランザクションなのでデータ破壊は起きないが TMの実装等によっては任意回のロールバックがありえるので 適切にバックパスを設計しておかないと 一定回数HTMで投機実行してみて、うまくいかない場合は ロックに切り替えるようなアルゴリズムがいる
HPC分野でトランザクションメモリをHWサポートしたからといって それによって性能は伸びるとは思えないけどね
プログラミングの煩雑さが緩和されるなら意義があるんだけど、どうなんだろう?
>>588 HPC分野では最大限のスループットを得るためにアルゴリズムによってデータ競合そのものを避けるから。
>>589 Haswellでの実装は、さらなる煩雑さと引き換えに多スレッド(8コア以上)環境でのスケーラビリティを得るもので、
今のコードが簡易になったりする効果はないかと。
確かにプログラミングモデル的にはロックよりトランザクションのほうが優れているが 実際の所HTMはハードウェア的な制限があったり、 競合が激しい場合はロックベースのアルゴリズムのほうがスループットが良かったりと 問題点もあるから、切り札はちょっと言い過ぎな感じも無くはない トランザクショナルメモリがあればみんな幸せっていう単純な話にはならないだろう もちろん無いよりあったほうがいいけど
IBMは、ハードウェアトランザクションメモリの効用を、JVMのパフォーマンスアップっていってたな サーバサイドJavaを高速に動かすのに役に立つって感じ
トランザクションメモリが威力を発揮するケースはこんな感じか? ・並列化の可否を左右する依存データについて、受け渡しのタイミングを 完全に掌握していなくても並列処理のソースを書くことができる。 ・タイミングが動的に変化するプログラムの場合、手書きだと 最悪ケースを基準にしなければならないが ハードウェアトランザクションメモリがあれば、 実動作時に最悪よりもましな動作になるようなソースを書くことができる。
HTMが導入されても計算機の動作を把握しないで並列プログラムを書くのは依然として不可能。
英語とか全然読めん。 英語スラスラ読める人、尊敬する。
安藤先生の記事は他と一線を画すな。
他と違って某有名なプロセッサ設計を実際にやってた人だからね
Haswell-xがサポートする「干渉」の範囲って、広くてもQPIでつながってる プロセッサまで、狭かったらプロセッサ内コアまでだよね。 大規模なHPCはほとんどE5 DP の多ノードだが どれだけ影響あるのかな
NUMAlink のSGIなら256ソケット(現行UV2000)以上を 干渉範囲にできるのだろうか
10進浮動小数点演算のハードウェアサポートは、そのうちIntelもXeonプロセッサとかでやるんじゃないかな?
L2でかくね?
キャッシュのトポロジーが違うと考えればいいんじゃないか。 XeonはL3が20MBだし。
10進浮動小数点演算なんて何に使うんだよ。
そりゃ十進演算だろ
新しめの言語やCOBOLに10進数型FPが存在したり端数の丸め指定入ってるのは無いと困るからだ
小数が入ってくると二進数と十進数では誤差が出てくるからな もちろん無限桁使えれば数学上等しいようにはできるんだけど(1=0.99999……みたいに) 実際には有限桁でやらなきゃいけないので誤差が出る、と。
2進数では0.1を正確に表現することができないから一切の計算誤差が許されない金勘定に2進数の浮動小数点実数は使えない。 昔のPCソフトでは1万倍した整数の形でdoubleの箱に保持する一種の固定小数点型とかもやっていたが、乗除算で誤差が出ないようにするのが面倒くさいので今は10進実数の通貨型がサポートされる処理系を使ってライブラリに丸投げする。 ただ計算が遅いからハードウェアサポートが欲しいという要求がでる。計算過程で随時指定の桁数で丸め処理が必要だったりするので単純な計算でも案外演算量は多かったりする。
613 :
Socket774 :2013/06/01(土) 12:03:56.77 ID:s+FU9WyX
doubleじゃねえだろ
doubleだろ。 単精度で4桁を小数点以下に割り当てたら 3桁しか残らないぞ。
浮動少数点で格納したら意味ないじゃん 普通は4バイトとか8バイトの整数型に入れる
>>615 お前の月給じゃないんだから10000倍して4バイトに収まる訳がなかろうに。
ちなみに64bit整数は昔の処理系では使えない。
10000倍じゃないけど、100倍して4バイト整数という処理系はある というつもりで書いた
ごめん、1万倍した64bit integerだった。
それならば納得です。
.NETにも独自のDecimal(128ビット10進浮動小数点型)がある
Jaguarのバックエンド、単精度乗算のレイテンシが2サイクル(加算が3なのに)だったり 水平加減算のスループットのペナルティが無かったり 2パイプしかないのにシャッフルユニットが2つだったり 無駄に力が入ってるな キャッシュ含めてメモリシステム周りが貧弱なので相殺されそうだが
お金の計算は計算方法が異なると困るから、規格ができたら右にならえでは。 「IEEE754-2008規格では10進の浮動小数点形式が規定」
>>622 統一規格でも現在の運用に合わないものは使えないし、合っていれば規格が違っても相互運用できる。
SilvermontがFPをそこまで重視していないのとは対照的だが……
目指す所が違うから名
>>625 そのへんの割り切りはIntelは得意だよね
デコーダーもComplex 1基とSImple複数って構成だし
LoadとかStoreも非対称(過去形?)だったりするし
正直モバイルでFPは用途が ?
>>622 そもそもIEEE754-2008でやっと2進数FPの厳密な丸めかたが決められたけど
10進FPは一緒に規定されるまえに主要言語は軒並みDecimal型として実装してたよ
>>627 非対称なデコーダはAMDもBulldozerで採用した
むしろプロセスで劣る(つまり素子数や熱の制限がきつい)AMDのほうが「割り切り」って面では強いられてると思うんだよなあ
>>612 もうちょっと詳しく説明お願い!
一切の計算誤差が許されないのなら固定長浮動小数点演算なんか使えないと思うのだが。
加減乗除だけでも多倍長の有理数表現が必要なはず。
10進浮動小数だから誤差が無くて、2進数浮動小数だから誤差があるって処理って、
ごくわずかしか思い浮かばないんだけど、それってハードで実装しなくてはならないほど頻繁に必要なの?
金融独自で、さらに金融の中でもいろいろな丸め方が存在する演算は、
ハードなんかで実装しない方が良いと思うんだけど。
>>631 たぶん開発リソースが少ない分、リスクの小さい(ウィークポイントの少ない)実装にするのだと思う
Intelはそういう部分の見切りが上手いというか、上手くサボるんだよねえ
たぶんそういう差の積み重ねがワットパフォーマンスの差になっているのだと思うけど
10進で計算が前提になってるんだよ金勘定は だから10進だと「定義どおりなので」誤差はない 2進だと誤差が出る どの桁でどうやって丸めるとかはまた別の話 CPUの面積が余り気味で、多コアにしたりGPU乗せたりとかしてる一環で クソ重い10進演算を補助する回路をつけようって話なんじゃないの 「実装しなきゃいけない」というより「実装したらもっと魅力的な商品になる」と。
>>634 10進浮動小数点演算もサイズや実装によって誤差は異なるけど。
>>634 ほんの少しのハードの追加ならそんな非常に特殊な用途用の命令が存在しても良いとは思うけど、
10進浮動小数のハードは2進演算ハードと同レベルの非常に巨大な回路が必要だぞ。
そんなニッチな命令よりは128bit浮動小数点演算の方が先だな。
>>635 よくわからないんだが、10進演算での誤差って何?
「10進演算が前提で、それに基いてどういう計算するか決まってる」んで
何桁まで計算してあとは切捨てとか切り上げ、四捨五入とかいう話はあっても
誤差はないと思うんだが?
処理系によって異なるパターンの内部演算に分解されちゃうようなザル仕様だと 丸め誤差がでちゃう可能性はあるが、処理系による実装差が出ないように個々の 演算をきっちり仕様化してあれば一意な結果が出る
>>632 丸めの方法も含めて規定されている計算方法で得られる結果に対して一切の誤差は許されないということに何か疑問でも?
処理系の仕様で勝手に丸め処理されては困るので普通は丸め処理は明示的に行うのでデータフォーマットとしては無理に統一しなくても必要な範囲と精度が実現できるものであれば何でも良いということなんだが。
>>537 商業丸めとか数学丸めとか丸め方にも指定があるがそれらも規格化されるまでは実装がバラバラだったんだ
>>638 その「仕様」がいろいろ存在するけど、それらすべてにハードで対応するの?
ハードに仕様を合わせるの?
>>639 明示的にしか丸めないなら、四則演算だけでも多倍長有理数演算が必要になるけど。
金融は加減乗算しか使わないの?
世の中には有効桁数というものがあってだな
>>642 四則演算と指定桁での丸めだけ使って累乗計算なんかは自前でやる。計算途中の一時データに統一性の無い丸め処理を施す場合があるから、お手軽な組込関数は大体使えない。
多倍長計算はいらないが計算途中で10進で小数点の上25桁、下15桁位は表現できると何に考えずに計算式通りに定数を処理できるので嬉しい。
>>642 IEEE754-2008準拠って名乗るなら演算器もコンパイラも仕様に沿った動作するように実装されなきゃならん
多倍長みたいにハードウェアが対応してなくてもソフトウェア側で処理するのもあり
>>644 10進40桁って128bitでも足りないじゃん。
そんなのがハードで実装されるわけが無いと思う。
あと、除算は何進数だろうが浮動小数点演算であれば丸めが発生する。
2進数とか10進数とか関係なく。
>>645 それは10進数じゃなくて2進数も同じ。
10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか?
>>646 > 10進40桁って128bitでも足りないじゃん。
レンジと有効桁数の区別がつかないのか
だからさ、除算のときを含めた「誤差」をどう処理するかの定義が10進でされてるんだよ コンピュータ使ってない時代もあるんだ、そういう時代に手やソロバンや手回し計算機とかで 計算するために、きっちりどうやるか決めてある。ここはわかるな? 簡単に言うと 数学的な絶対正しい解 と、10進で計算する金勘定的に正しい解は別物 必要とされているのは、数学的に正しい解じゃなく、金勘定的に正しい解 だから10進で計算すれば誤差はない、2進だと誤差が出る
>>648 > それは10進数じゃなくて2進数も同じ。
> 10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか?
>>649 > > 10進数だとすべての金融ソフトの丸め処理と一致するとでも言うのか?
まさにその通り
なぜならそう実装するから
そもそも個人のパソコンで行うような金融の計算が、
ソフトウェア演算ライブラリじゃ問題ある程重いか?
日本人全員のローンの利息計算だって普通のPCで一瞬でできるレベルな気がするが。
金融計算より重い処理なんて山ほどあるよ。
>>650 すべての金融ソフトの丸め処理を把握してると?
>>650 誰かが仕様を決めた以上、そいつが把握している
>>651 少なくともメーカーは市場調査くらいやってるだろうから、お前よりは必要性わかってるだろ
>>652 世の中にある多くの金融システムの仕様を同じ人が決めたと?
>>653 必要性が薄いから今現在実装されていない。
>>654 で、そろそろ10進積もうかって話になってるから、ここで話題に上ったんだよな('A`)
10進ALUって、IBMのPOWERプロセッサ (PowerPCではない)に載ってるよね。
>>655 ん?
話がかみ合ってない。
> まさにその通り
> なぜならそう実装するから
現状のシステムがすべてIEEE754-2008準拠なわけでは当然無い。
それらのシステムすべてが、わざわざ動作仕様を変えてまでハードを使うことを望んでいるのか?
それをなぜあなたが知ってるのか?
>>656 intelからそういう発表はないけど、そういう話になってるの?ソースは?
>>658 今使っている(ソフトで実装されている)10進浮動小数点ライブラリをIEEE準拠のハードウェアを使うように書き換えるだけだよ
インターフェースはそのままで
>>658 富士通がSPARCに積むってのがこのスレで話題に上ったきっかけだろ。ソースも
>>603 で挙げられてる
POWERの例もついさっき出たしな('A`)
>>659 すべての金融システムがコストをかけてIEEEに準拠するよう動作仕様を変えるって?
まったく話にならん。
>>660 intelやARMが積まないうちは、個人レベルだと需要は少ないってことだよな。
金融計算でCPUパワーが足りないなんて人はほんの一握り。
映像系音声系の処理の方がはるかに需要は多い。
まあ、要らないって人が要らないって主張してもしょうがないからこの辺で消える。
>>661 仕様は変えずに実装だけ変えるんだよ
あとライブラリは普通はベンダーが供給する
>>662 みんながSPARCの話をしてたのに、お前だけインテルの話してたんだな('A`)
だいたい、10進計算は大型汎用機で普通に実装されてたんだよ。 別に新しいものでも何でもない。 COBOLなんて使ったこと無いだろうから、知らんのだろうが、普通に10進計算が実装されてんだよ。 つか、これがないと金融系のソフト開発やってらんねーんだわ。 オープン系が汎用機の領域にきてて、機能拡張に使えるシリコンに 余裕が出てきてるから、実装するんだよ。 今までライブラリでソフト実装してたもんを、ハードにするだけだ。
金融だとコンパックの電卓が業界標準なんだっけか。
多倍長が必要になるほど儲かってみたい
ヒューレットパッカードの電卓かっこいいよな、使ったことないけど
>>665 去年NECが復活させたメインフレームのプロセッサNOAH-6も
10進ハードウェアは積んでるんだろうな。
Itanium路線でやってた時はライブラリで処理してたのかな
そもそも今までソフト実装だったのをハード実装にしたらJavaで10倍、C#で5倍ぐらい性能伸びたから10進数FP対応くるね って話だったのにハードウェア対応とソフト実装、IEEE754-2008とそれ以外の仕様 ついでに数学丸めと商業丸めと演算上のビット精度誤差までごちゃごちゃにしてる残念な子が一人で暴れてんなあって感じが…
MSX BASICの実数もBCD
FP1100だって
インデックスの計算か これでx86はまた一つ劣勢に立たされる とかいう
677 :
Socket774 :2013/06/18(火) 17:23:31.47 ID:McFoqs6d
うほ〜!! 14nmマンセー!! Intelのプロセス技術は史上最強なりぃ!!
Core i7 4770Kは、Haswellの目玉機能のTransactional Synchronization拡張命令(TSX)が付いてないんだね 4770Kはフラッグシップモデルだから付いているのかと思ってた。specificationsの表をよ〜く見て買わないといけないね
mjd!
マーケティング関連でわざと制限をかけてるだけなのか、それともそのへんがクロック的にやばいのか
XeonのHTT有無とかi7のVT-dの有無とか 実機チェック必須で表記を鵜呑みにできない件が続くなぁ
4770K TSX無 VT-d無 HD4600 84W 4core 3.5GHz 8MB cache 4770 TSX有 VT-d有 HD4600 84W 4core 3.4GHz 8MB cache 4770R TSX無 VT-d有 Iris5200 65W 4core 3.2GHz 6MB cache 4770S TSX有 VT-d有 HD4600 65W 4core 3.1GHz 8MB cache 4770T TSX有 VT-d有 HD4600 45W 4core 2.5GHz 8MB cache 4770TE TSX有 VT-d有 HD4600 45W 4core 2.3GHz 8MB cache 4765T TSX有 VT-d有 HD4600 35W 4core 2.0GHz 8MB cache こうして見ると、4700 desktopシリーズの中では4770Kと4770Rが特色があるね グラフィックスは4770RだけがHD4600 GPUの2倍速いIris5200 GPUを積んでいるが、 4770RだけCPUのラストレベルキャッシュのサイズが他の4分の3になっている
ivyも制限無かったっけ?<Kシリーズ
マーケティング上の理由じゃないの? KなんてOCして遊ぶ用で、ベンダーが業務用に採用することないし。
mobile soc向けかねPC,HPCなら単体ですでにあるし
AMDはモバイル用GPU作ってたけどQualcommに売ってしまったんだよなぁ 売らずに取っておけば今頃はPowerVRやmaliのようにそれなりの地位を築けたと思うんだけど
intelが使ったら面白うございますな eDRAMつきで
>>686 もうちょっと早くやってれば、家庭用ゲーム機がnvidiaのGPU積んでたかもしれないのにね
power系とkeplerのSoCですか
>>683 4770RはL4キャッシュがついてるだろう。L3 6MB L4 64MBだ。
GUIアプリじゃまったく無意味だが、使いようによってはかなり強力。
4770RはTSXなしという時点でI'll passだな
694 :
Socket774 :2013/06/19(水) 21:54:21.49 ID:52+bh1t0
現時点では一般的なクライアントPC用途じゃ、VT-dもTSXも不要だけどな そもそもTSXは対応ソフトが無いし
KにGT3載った全部入りでない時点で
696 :
Socket774 :2013/06/20(木) 11:02:50.47 ID:oZGinq0x
GT3は乗らなくていいから、eDRAMによる巨大L4のせた ハイパフォーマンスデスクトップCPUは欲しい
しばらくすればASUSあたりがマザー+cpuのセットで4770Rを 売り出すんじゃないかな。 出れば、走らすコードの種類によっちゃ圧倒的な速度が出る。 なんせ、64MBにおさまるプログラムはメモリにアクセスにいかずに、 cpu上で全部かたがつくんだから。
TSXは、ある程度ライブラリで対応する事もできそうだね 既存の並列プログラムをコンパイル・リンクし直せばTSX対応 みたいな。 JavaとかC#だとVMの中にTSX対応を入れて、バイトコードを作りなおさなくても高速化とか、できるんじゃないかなぁ
700 :
Socket774 :2013/06/21(金) 03:19:08.26 ID:PZNvZOqr
TSXで早くなるのは、JVMみたいないまどきのバイトコード系言語だろうな
TSXはなにからなにまでやると遅くなるからコードの中で使うとこを明示的に書けみたいなこといってなかった?
TSXをなんだと思ってるんだ
そのうちTSX無しがCeleronブランドになるのかなw
? セレロン系はavxも無効になってるけど?
AVX無効だしIntelSecureKey(物理乱数)無効だしPCIeがGen2だし 後ろ2つはi3もだけど
706 :
Socket774 :2013/06/23(日) 23:46:24.41 ID:TVT7d07l
特定のCPUでしか有効になってない機能って、なかなか普及しないんだよな 差別化しようと機能に差をつける→その機能に対応してるソフトがごく一部のまま→その機能が差別化にならない っていうパターンで
MSが必須にした仮想化支援だけ嫌々enableにされたが ああいうのは例外だな
しばらくは何の役にも立たないよねえ。 8コアHaswell-Eを買うときは気にするかな。
量産技術にしないといけないから、 この技術が採用されるとしても、いつ頃なんだろうな
711 :
Socket774 :2013/06/26(水) 15:20:40.29 ID:/CQ/+ZFu
EUV露光を常識的な価格・スループットでできるようになれば、 ムーアの法則はもうすこし延命できそうだね いまの量産不可な試験製造レベルの奴と違って ASMLがEUV独占して1社勝ちになるのか、 それとも複数社ともにEUV対応するのかどっちになるかはまだわからん ASMLがEUV独占になれば、ニコンのステッパ事業は実質的に終焉になりそう
ウシオ電機ーはやくきてくれー!
ウシオは光源撤退してなかったっけ?
>>711 逆にEUVがこのままモノにならなければASMLの一人負けで、それをASMLやIntelは恐れている。
実際のところ、光源の実用化までに残る道のりの長さは
核融合炉を想起させるレベル。
>>709 が文字通りなら今ごろ研究者はとっくにオランダに拉致されているのではないか。
二回露光するとなると重ね合わせの精度が問題になりそうだな 今も二重露光やってるけど微細化するほど精度が求められるしなあ
そういや電子ビームはどうなった。
トリプルパターニング→クワッドパターニングで当分はしのげそう
720 :
Socket774 :2013/06/27(木) 13:31:08.07 ID:ih1tOq40
あとウェハーの45センチ化もあるな
まあ、TSMCはダブルパターニングすら20nmで初導入なわけだが
マスク屋が廃業に追い込まれるから誰も光路設計しないだけで実はDLPで楽々多段露光出来ちゃったりして
もしそうなら隣国がどっかから技術者引き抜いてやりそうなもんでは。
724 :
Socket774 :2013/06/27(木) 22:13:32.10 ID:JBPnzeV/
半導体製造ってすげぇな・・・ 人類の英知の極みだな。
細かい話だがステッパと呼ばれるのはとっくに旧世代品で、現世代品はスキャナ。 区別がつかないなら露光機と言っておけばいい。
石油掘るお仕事ならいいが
>>729 分散コンピューティングの実験環境であって、スパコンでは無いよな
元記事見てないけどベーオウルフ・クラスターなら、仕組み上は一応スパコンと言えなくもないと思う
理論が大事って事じゃないの?
卓上スパコンSX-8iって個人じゃ金積んでも中古入手不可能?
リース業者に聞いてみたら?
個人で入手できるx86(PC)とARM(携帯スマホ)以外のアーキって ゲーム機(XBOX360 PS3 Wii)と中古UNIX(ヤフオクで出てる古いSparcWSや Power搭載WS)に旧パワーマック(PowerPC)に68系CPU搭載した80-90年代のamigaやx68 みたいなハードだけか、
金積めばたいていの物は買えるでしょ犯罪とかに関わるものでもないし 輸出しようとかだと国によっては制限あるかもしれんけど、国内で使う分には問題ないと思うがな
中華タブやネットブックはmipsのもあるし、Z80ポケコンもある
>>736 スパコン関係は犯罪というよりかは、安全保障上の問題であれこれ
入手に規制がある。
(兵器開発や軍事シミュ(ゲームじゃなく実際に軍隊が使用してるやつ)
にスパコン使われてる。)
と言っても、米の仮想的であるロシアとか中国もスパコン使ったり
ずっと前から核ミサイル持ってたりするしで、、なんかあまり
意味のない規制だと思う。
(俺的にはアメが民主主義アメリカを引き立て役に泳がせてるだけだと
思う、それに一応仮想敵国がいれば軍事産業も儲かるしで)
つまり、世界の覇権国超大国アメリカの引き立て役と軍事産業のため
に中国。ロシア。イスラム世界には悪役になってもらいます。ってこと
なんだと思う。
8iだか6iだかは忘れたが昔UNIX板に中古買った人がいた記憶
主敵はイランとか北朝鮮で、開発のハードルを気安く下げんなってことだろ
その昔、PowerMacG4がスーパーコンピュータの輸出規制にかかるって話はあったけど 日本人が普通に買うのに何らかの規制があったって話は聞かないぞw 今でも、GPUの計算能力を考えればゲーム用に強力なGPUを複数積んだPCは スーパーコンピュータの規制に引っかかるって話だし、購入に関しての 法的規制はないと思うよ……パソコン程度で引っかかる規制が適切かどうかは置いといて
>>741 そりゃ、既に国内で売っているものは輸入業者が手続き済みだからなwww
Digikeyとかで部品とか買えばわかるよ
暗号処理入ってる様なICとかは買おうとすると引っかかったりする
#日本からの購入不可品とか普通にある
>>742 すまん、何言ってるのかよくわからないんだが
今話題になってるのは、輸入物の暗号処理チップじゃなくて
国産の小型スーパーコンピュータなんだ
今は亡きココム規制とか知らない子?
輸入するより日本から輸出する方が大変だぞ。あと演算能力より暗号技術のほうが厄介。 最終仕向け先が証明できないとアメリカから輸出してもらえないとかはある。
輸出入したい人はともかく、普通に日本で買って日本で使う話じゃねえの?
それを証明しろって話だろ お前が買ったスパコンを部屋に置くか北朝鮮に送るかわからない
そういう手続きは必要なんかね? スーパーコンピュータ扱いなパソコン買った話とかあるけど そういう手続きしたって話は俺は聞いたことがないんだが
海外に送るなら外為法が適用されるはずだから、国内から動かさないなら証明も何も無く使えるんじゃね。
不遇なりAlphaAXP。 VT-Alphaとかあったのに。
21264のWSが二台、物置に眠っているが…
foldingみたいな分散コンピューティングで過去のmipsやalphaの アーキ使えるようにしてくれれば古いWSも役に立つのに、
古参は新しい廉価にも及ばないから 無料入手と時価で比較してもランニングコストで逆転する。 高負荷用途の実用性はないだろう。やるとしたら満足感のため。
暖房の役には立つ('A`) ……と思ってG3MacでBOINC動かしてたけど熱は出さないわ計算結果もなかなか出ないわで あっさり引っ込めたおととし(?)の冬
でも、」分散コンピューティングって眠ってるコンピューターを活用 するという一面もあるから家や倉庫で埃かぶってる古いアーキでも動く ようにする価値があると思うけど。 速度じゃ現行モデルに勝てなくても参加して処理演算することに意義が あると思う。
仕事回してやる手間より上がってくる仕事の方が少ない下請けまたいなのはいらない。
FoldingじゃなくてSetiだけど、古いコンピュータで参加する人がたくさんいて、エネルギー消費効率効率(FLOPS/Watt)が著しく悪いために 電気を無駄に食っているために、1日あたり何十トンもの石油が発電所で無駄に燃やされる非効率なことになっているという記事があったよ。 Foldingで24時間稼働させるなら最新型のCPU。古いコンピューターは、通電しない方がいい。
雑魚は何人集まっても所詮雑魚…ってコト何ですかーーー!!
G3出始めたころに3DCG始めてさ、当然今よりクソ遅いから何台もつなげて計算させてみたりしたわけよ 当時ほぼ最新鋭なG3@400(PowerMacG3)とCerelon366@450をつないだときは、もう即効で速くなった さらにG3@400(PowerMac8100改……元はPPC601@80、Pentium@80とか相当)追加したときは、思ったほど伸びなかったけど速くはなった そこにG3@233(PowerMac6100改……元はPPC601@60、このへん旧式だからメモリもLANも遅い)を追加したら、なんと遅くなったというか足引っ張られすぎ 調子に乗って5x86@100なPC9801とか、さらにPPC601@66なQuadra650とか、つなげればつなげるほど、もうどんどん遅くなる一方でwwwwww もちろんソフトや、計算の種類にもよるわけだけど、あんまり遅いのは意味ねえなと思い知ったよあの時w
そういや、分散コンピューティングってどれもx86対応ばかりで Sparcやmips対応してるのって、setiぐらいなもんか。 後、PS3のCELL使ったFoldingはソニーが続けてくれたらよかったのに。
763 :
Socket774 :2013/07/14(日) 12:47:47.31 ID:DAGOcxbU
はじめて読む486が廃刊か・・・学生さん読まないのかなぁ。 あとUNIXプログラミング環境も、良いyacc入門書だったのに。
今は「はじめて読むARM」を書いたほうが儲かりそう
昔はデータシートとかユーザーズマニュアルが入手しにくかったけど 今はpdfなりなんなりで只で配られている時代になったからな 開発環境はKEILとかIARの有償開発環境は専門のトレーニングコースあるし もっとも、GNUのアセンブラ、gas(AT&T構文)に関してはまだ少ないかな? x86ならともかく、arm向けは少ないね
得票数1に泣いた。
良くも悪くも高速な386扱いだったな…
386は、メモリの先頭(0MB)から16MBの物理アドレスまでしかDMAが届かなくて、486はその制限がないんだっけか。 もう忘れちゃったな。
高級言語ばっか使ってたから低レベルなプログラミングの知識なんて必要なかった。
ハードウェアの動作を知っていれば高級言語で書いていても効率のよいコードが書けるよ。 逆に言えば、ハードウェアの動作を知っていないと高級言語で書いていてもゴミ屑みたいなコードしか書けない。
張り切ってアセンブラ覚えて書いてみたらコンパイラがキチガイ過ぎて到底敵わなかったでござる。 プリフェッチ命令も、Core2から入ったハードウェアプリフェッチが優秀なのか、逆に遅くなりやがったw 意味あるのはSIMDだけ。
>>771 まっホリデープログラマーだからな。そんな高度なコードは不要だった。
>>772 その気持はわかる。SSE2のmovdqaを使ってmemcpy()よりも効率のよいメモリコピーを作ろうとしたが、
第1世代Core i以降ではmemcpy()よりも速いがCore2 Duoではかえって遅いものができた。
あと、SSE命令で4つ同時にfloatを処理するが、計算途中でSSEにはないpowfp x87 FPU命令を使用するコードを書いたら
4命令同時実行による高速化がキャンセルされるほどSSEとFPUの切り替えが遅かった、
で、普通にCで書いたら、CのpowはSSE命令で書かれてて負けたと思った。
なぜ本職のライブラリ開発者に勝てると思ったし
memcpyはアラインされてないメモリを任意のバイト数コピーする汎用関数だが 俺のメモリコピー関数は16バイトアラインされたメモリを16の倍数のバイト数コピーするという制限付きで高速化できると思ったのだが 浅はかだった。Core2では50%くらい遅いがcore iでは数%速いので、用途を絞れば全く使えないわけではないし、 このメモリコピーに関しては俺の中では勝ったと思っているw
昔は間口が狭かったから深く学べたけど、 最近は間口が広いから初心者にはイロイロ苦しいだろうな。
公開されてない仕様が裏に山ほど隠れてるから名
車輪の再発名は学校だけにしとけよ。 仕事は効率第一だ。
ドラえもんは安心して未来に帰っていきました
つーか、今movdqaでxmm0〜xmm7までオフセットアドレッシングでロードしてからストアしてecxを128足すっていうループを作ったら memcpyよりも5割も早くなったw 128の倍数バイトコピーされちゃうけどね。x64でxmm0〜xmm15まで使用する256バイト単位コピーバージョンと x64 AVXでymm0〜ymm15まで使用して512バイト単位でコピーするバージョンも作って試すよ。みんなありがとう。
スタックポインタおすすめ
>>781 お〜、楽しそうだなぁw
まだまだ研究のし甲斐があるね。
x64版のmemcpyはクッソ最適化されてた、世界の壁は厚いぜ
転送するサイズによって最適な実装は全然違うからねえ サイズによっては下手にxmm/ymm使うよりもrep movs*の方が速かったりするし
深いなぁ〜w
1日調べてわかったことは ネットに落ちてるoptimizing_assembly.pdfの156ページに書いてあることは概ね正しい。 プロセッサの世代によって得意なインストラクションと不得意なインストラクションがあって、 ターゲットプロセッサを絞って最適化しないと意味ないね。でもそうすると特定のプロセッサだけで高速なピーキーな物ができあがる
ARM とかゲーム機なんかでは結構効くから自前で書いてたな。
Visual Studio 2013 のmemcpy だと、 rep movs byte ptr [rdi], byte ptr [rsi] になる。 avx命令を使った場合の約半分のスピード。
512B〜1GiBのコピー (16GiB分) の時間 (単位 1/3320309秒) AVX memcpy 778018 1842259 623337 1095869 537922 773940 497246 614983 478013 538713 482839 579044 518222 1812241 700060 1803635 704694 1802710 791721 2015852 1163794 2410639 1162204 2413186 1164114 2411954 1166540 2683226 1603407 4184647 2879677 5860681 3109902 6053181 3137875 6016988 3126355 5965345 3137372 6057901 3191940 6267933 3303287 6610783
半分出るというのに驚いた
AVXだとL1領域では1クロックで32バイト転送する。 1クロックで16個のmovs命令を行うなんて普通は無理。 なにか特殊な最適化がされてる。 (movsを何リピート分かまとめてやってるとか)
REP MOVSはマイクロコードで実装されていて、最初にコピーサイズを見て適するコピーアルゴリズムを決めるセットアップ処理を行なってから 実際のコピー処理を始めるようになっている。そのため小さいサイズのコピーではセットアップ時間のオーバーヘッドが無視できないが コピーサイズ(適度に大きいサイズ)とアラインメントの要件とプロセッサの世代の条件を満たすとそこそこの性能が出る。 プロセッサの世代によって展開されるマイクロプログラムが変わり最適化の度合いも変わってくると。 第1世代Core i以降のプロセッサのREP MOVSのマイクロコードは比較的速い。
確かに86は内部で最適化できるよな。 特にcore iはハードワイヤーで86命令を一回分解してから別のCISC命令に再構成するという高度な変換やってる訳だからマイクロコードでそれくらいは楽勝だろう。
>>793 movsはマイクロコードでxmm/ymmレジスタを使う命令群に展開される
CPUさんは色々がんばってるんだなぁ・・・シミジミ
>>796 そうなんだ〜
でも中途半端だよな。
ガチでAVXで組んだ時の半分しか出ないし。
コンパイラが吐くもんだから、
この先ずっとmovs命令の面倒を見ていかなきゃならない。
AMD殺しだったりするのかな?
optimization-manualによると、 IvyBridgeからMOVSB/STOSBのパフォーマンスが上がったみたい。 IvyBridgeはAVXが使えるんだから、 これと同等のパフォーマンスが出てほしかった。 まあプログラマ的には楽だよな。 アラインメントとか気にしなくていいんで。
ぶっちゃけmovsででかい転送するやついないしな
たくさんいるよ。 memcpyがそうなってんだから。
だから何百MBも転送するのにmemcpy使うやつがいるわけ?
普通にいるだろ。
ブロック転送が遅くて困るんならAVX使うのが普通じゃないの?
まあブロック転送が遅くて困るときは 転送しなくて済むように書くわな……
確かに明示的に大量のブロック転送が発生するのはプログラムがダメなだけだな。データの管理ができてない証拠だ。
>>808 そうだよ。世間一般では無駄な処理を入れて遅いプログラムしか書けないのはスキルが低いと認識されている。
今や演算よりもデータ転送が問題になる時代だからな。 GPUは特にそう。
ソフト開発したことがない奴の書き込みが多いな。
世の中を知らない脳内お花畑ばっかり。
似た内容の一行レスなんだから、一回にまとめたほうがいいよ IDが出るのを知らないで自演したとかでもないだろ
プログラムの書き方でレスポンスが変わるのは当たり前だが、それ以前に設計が糞な時点でどうにもならない
速いだけみたいな一点豪華なプログラムなら書けるやつは多いだろう。 安直に書いたらトレードオフになる複数の要素を 何とかするのが難しいのであって
movsではなくAVXを使えば解決するものを設計から変えるというのが普通というのはやはり信じがたいね
AVXを使わずに、だ
普通、今作っているプログラムは将来のCPUで動作する。 rep movsは全く別のマイクロコードに置き換わり、そのCPUで効率のよいコピーアルゴリズムが選択されると期待できる。 今のCPU世代のrep movsが駄目でもrep movsは将来AVXを追い抜くかもしれない。AVXよりも速いBVXやCVXが出てきて、それを使用したほうが速くなるコピーサイズが存在する時 そのコピーサイズのコピーがBVXやCVXに置き換わることが期待できる。future proofというわけだ。だからmemcpyはrep movsを採用しているのだろう
単にレガシーだからだろ AVXは動かないCPUがまだまだ多いからな
ところで、memcpyがrep movsになるのって、何のC標準ライブラリの実装なの?
>>820 Celeronが最新のものでもAVX使えないから
AVXを使えないPCはかなりの割合になるだろうな
AVXを使えば早くなるのに←コーダの発想 フツーはブロック転送が必要無いアルゴリズムを使うよな←プログラマの発想 遅くたって使えれば問題ない←SEの発想
アマチュアプログラマの発想だな
ID:wvrgJ4rAは具体的にどんなケースを想定しているのかな?
>>810 で貼った例についてはどう思う?
挿入ソートとか
パフォーマンスが問題になるときにO(n^2)な挿入ソートを使うのはやめましょう。 あと、実体が大きいときはポインタをソートして下さい。 他には?
パフォーマンスが問題になるから挿入ソートなわけですが、もしかしてわかってない子?
うん、わかってないね。 通常、挿入ソートはランタイムのパフォーマンスよりもコードやデータ構造の単純さを優先したいときに使用する。 パフォーマンス上の理由で挿入ソートを選択するなら何らかの特殊な前提条件が付帯しているはず。 そこを明らかにせずにただ挿入ソートと言われても、わからない。
画像処理とかならメモリコピーは多用するんじゃない? コピーコンストラクタが遅い原因ってコピーそのものよりもメモリ確保のための システムコールだと思ってる。
>>819 >よりも速いBVXやCVXが出てきて
そのネーミングセンスは吹いたわ
MMX(64bit)→SSE(64/128bit)→AVX(128〜1024bit)
K1OMのベクトル拡張もAVX3(512bit?)に発展的統合されるようだし
>>822 > Celeronが最新のものでもAVX使えないから
どのみちIvy Bridgeは下り16B/clkだから256ビットLoad/Store使っても意味茄子
つーわけでSSE4までで十分だよね
むしろprefetchntaを効果的に使うことのほうが重要だったり。
挿入ソート(笑)って素人プログラマにとりあえずデータの並べ替え処理書かせるとそうなるよな
挿入ソートの使いどころなんてどんな本にも書いているはずだが… 団子が知らないのはさもありなんだが
ほぼソート済みのデータでなおかつリンケージリスト構造ならアリだろうな。 つか、普通はわざわざ自前で実装するより標準のsortライブラリ使うよな。 いわゆるvectorやdequeみたいな一次元の構造ならバブルソートのほうが筋がいい。
qsortじゃ嫌なケースとかあるやん バブルソートはキャッシュに入るような小さなデータならいいけど
俺も20年位前DOSベースで8MB/10万行のログファイルを解析するツールで使うために自前のソートプログラム組んだことあるけど、そこで挿入ソートを使ったよ。サイズが小さい時は挿入ソートは遅くないし安定してる必要があったからね。 まあ一回のソートサイズが32KBでポインタをソートするからブロック転送はせいぜい1KBくらい、486のキャッシュにヒットするから速かったよ。 32KBはnearポインタを使うため、そして次の段階でソート済みブロックをEMSに放り込んでマージソートを掛ける上でも具合が良かった。 プログラムを作る為にはある程度CPUアーキテクチャを意識しないといけないのは事実。でもブロック転送は可能な限り避ける。当たり前だよね。 今ならDBMS使うから自前のソートなんか使わないけど。
Cのqsortのインターフェイスは嫌いだな。 C++ならファンクタ書くの面倒だけど新しい処理系ならラムダ式使えるし 自分でソート書く要素は微塵もないな。 とりあえず迷ったらstd::stable_sortで。 出し入れが多いデータ自前で扱うならデータサイズも最大要素数も2のべき乗にした dequeue構造にするわ。 オフセット加算してビットマスクとるだけでアドレス算出できるから。
アプリ屋は自前じゃ書かないのが当然だけど ライブラリ屋とかドライバ屋がどうやるかって話には興味あるね
まあこういう話は前提が違うからな あんま意味ないんだな
0x5FE6EB50C7B537AAL
たとえば画像処理でラスタ画像を上下反転したい時はmemcpyするしかないわな。
AVX2を使った巨大モノクロビットマップ画像の90度回転とか考えてみて (新聞とか雑誌なんかで白黒TIFF+LZW形式の原稿は割とよく使うみたい) やっぱりvpshufb + vpmovmskbの連発になるかな
90度回転したままの画像をテクスチャメモリにロードしてからポリゴンのUV座標を90度回転したものをレンダーテクスチャにレンダリングして、 テクスチャ画像をメインメモリに戻すのが一番速そうw
白黒2値TIFFは、CCITT FAX形式のファクシミリで使われている圧縮がかかっていたな まず展開処理に非常に時間がかかる。90度回転よりもここが律速になるんじゃないか。 この展開処理を動画アクセラレーションみたいな要領でハードウェアでアシストしてほしいくらいだ
縦横8ピクセル*32bitのタイルで持てば AVXレジスタに収まるから 回転や反転は速いと思う。
どうせタッチパネルでグリグリだろうから GPUに円投げしちゃったほうが楽そうw
そだねw 今はいかにGPUをうまく使ってやるか。 大きなデータほど電力効率的にも割に合うしね。
実際にやろうとすると縦横テクセル数最大4096x4096の制限があって本当に巨大な画像は分割しなくてはならず面倒だったりしそうだ
dx11なら16384*16384までいける
へぇ〜。16384x16384x8bpp(グレースケールのグラデ画像)とすると256MB、 解像度は十分、メモリ使用量も問題なさそうだしDX11を使えば新聞の90度回転は特に支障なく作れそうだね コンピューターの進化のおかげでプログラムがどんどんシンプルに作れるようになるなぁ。
ありがたや・・・。
新聞は二値じゃないのか。
新聞は紙質悪いしせいぜい 1200dpi くらだから 縦 55cm / 2.54 * 1,200 = 26,000ドット 横 40cm / 2.54 * 1,200 = 18,900ドット あれば白黒データに出来るな
どぱーっとウンチ
1200は、めちゃくちゃ高画質だぞ
300dpiで十分でしょう
二値の1200dpi ってそんなに綺麗か?グレースケールなら綺麗だが
新聞の画像自体が精々100〜200Lpiの網点(200〜400dpi相当)だし
「64bit級」 みたいなもんだろw
メガドライブがやたらCPU載ってた記憶がある。
何ビット級なんだそれ
ゴミが積まれとるw
Super32Xってメガドラの延命機器のくせに サターンと同じでSH2が二個乗ってるんだよな
そして一方のCPUが動くとメモリバスがロックされてもう一方のCPUが止まる訳か。
なんちゅう設計やw
そこまでひどくはなかったと思う。どちらのCPUからも読み書きできる共有メモリがあって、 待ち合わせをちゃんと組まないと書き込み途中のデータをもう1個のCPUが読んじゃって壊れたデータが出てくる とかそんな感じだったはず。
872 :
Socket774 :2013/07/27(土) 19:34:28.38 ID:wrFfb+HZ
団子「鶴岡は日本のシリコンバレー」
6月...
よく見たら既出だった
>>870 2つのCPUのバスがバススイッチもアービタも介さず生で
つながっているんだから十分酷い設計だよ
回路図ならそこらに転がっているから見てみると良い
当時の回路集積度で2プロセッサなら下手にアービタ設けるよりはセマフォで 済ませた方が良かったろ
論理的にはセマフォでよくても 物理的(電気的)に生バスがぶつかってるのは論外だよ
そこはmaster/slaveで作ってるから問題ないよ。 ただ一方がバスを使うともう一方がバスを使えなくなるだけで。
カタログスペックのために後付した二個目のSH2
Intel Developer ZoneのSoftware Tuning, Performance Optimization & Platform Monitoring 板はマニアックな話題で盛り上がってるね。 そしてIntel Performance Counter Monitorという強力なチューニングツールがあるのを今日知りました。 プロセッサコアごとに、クロックサイクルあたりインストラクション発行数、L1/L2/L3のヒットとミス、メモリレイテンシによって失われたCPUサイクル QPIチャンネルごとのトラフィックのバイト数を知ることができる
Intel 2.2nmの・・・という話はいつだ
あ
もう何年もクロック横ばいだし
日本が負けるときの定番パターン。勝つと研究開発費を減らす。他国の開発進捗状況は調べない。いつの間にか他国が力をつけて追いつかれる。負けた〜と絶望して全面撤退ww
欧州や米国が負けるときは違うパターンなのかい
開発だけして商品化しないだけだろ。
やっぱこの辺だよなぁ ------------------- 東工大のグループは、このように多くの実アプリケーションを見てきた経験から、 やはり、最後はメモリアクセスが実効性能を決めると言う。 CPU/GPU内部の演算はそれほどエネルギーは消費しないが、 チップ外のメモリをアクセスするには大きなエネルギーを必要とするし、 他のGPUに接続されているメモリにアクセスするにはさらに大きなエネルギーを必要とする。 また、アクセスするメモリが遠くなるに従って、一般的にはメモリバンド幅が小さくなり、性能が制約される。
そしてプロセッサはベクトルに
任天堂の取れる選択肢は… 1.eDRAMをSRAMに置き換える。コストは大幅に増える。 2.鶴岡工場が稼動している間にGPUを大量生産し次世代機までしのぐ。需要を間違えると在庫の山か売る物がなくなる。 3.eDRAMを使用しないGPUを新たに設計する。wiiuとの互換性が無くなるかも知れない。 4.IBMかTSMCのeDRAMを使用する。再設計のコストはかかるが特にデメリットはない?
キャッシュを持たずTSV接続メモリに直結したマイクロコアを多数並列 データが格納されたメモリによって演算を担当するコアが選ばれる 命令デコードユニットは共有……そんな妄想
SIMD…
TSMCってeDRAM手がけてたっけ?
GFが・・・
1T-SRAMを売り込んでた気がする。eDRAMより良さそうなのに話を聞かないが・・・
メインメモリのエスラム化はまだかね?
>>894 XboxOneが同じく32MBのSRAM混載と言われている。
でもどうせ2年後まで稼働しているので2で、それで足りなくなれば1だろうな。
そもそもwiiUがたいして売れてないので、新世代機を作るに一票 というか、あれwiiとは別のゲーム機だったんだね。てっきり周辺機器か何かだと思ってた
この際だから、ルネサスの工場閉鎖に伴って任天堂は据え置きゲーム機撤退すればいいんじゃね」?
3DSに注力したほうがいいね
Jaguarは関係なくね?
hUMA対応とは何なのか? ハードがユニファイドメモリを持っているならhUMA対応といえるのか? 良く判らん
統合メモリのUMAにヘテロジニアスコンピューティングのhってのが付くなら 特に重要な事は異種コアが共通メモリアドレスをマッピング出来る事と それぞれの異種コア間でコヒーレンシを保ったデータアクセスが出来る事 って感じになるんじゃね?
一方IntelはソケットにPhiを挿した、みたいな感じか
アメリカとしては、安全保障上重要なチップの製造のために、 かならず先端プロセスのファブは米国内に持っておきたいはず 仮にアメリカでIntel以外全部脱落すれば、 アメリカ政府の意向で、防衛産業向けにIntelがファブ事業はじめたりするのかな?
アメリカの防衛産業は中国に大きく依存して内科医?
>>912 Intelはファウンドリやってるだろう。客はほとんどいないが。
2020年の次世代スパコン向けにファブが足りないとかで
国費投入して富士通あたりが先端工場作るような気がするな。
914 :
913 :2013/08/24(土) 21:43:04.82 ID:F2FBbIc7
レス番間違えてるな。911だ
先端ファブへの再参入はない。勝ち目がないところに人も金も集まらない。 あるとすればゲームチェンジのタイミングだ。露光や大規模クリーンルームによらない半導体製造技術の発明とか。
この分野の性能改善のペースに日本は全くついていけなくなってるね
ウエハー最大手 信越化学工業をバカにするな!!
個々の部品や装置などの技術は幾つかあるけど、それらをまとめた最先端の工場は日本は作れていない。 80年代にはあったんだけどね。産業のコメとか言われて……そのコメが作れてないわけだ。残念なことです
919 :
913 :2013/08/25(日) 07:05:04.10 ID:RuL1mLTD
>>915 ミニマルファブがゲームチェンジだと思うが、アレ先端半導体は作れないだろう。
結局、大規模とは言わないまでも、在来型の投資が必要になると思う。当面は。
まあIntel以外の全世界がTSMCに依存するようになるのかね。
920 :
Socket774 :2013/08/25(日) 07:42:04.90 ID:eLxqatuZ
日本勢は45nm/40nmまで進んだが、32/28nm以降の投資はしてない 先端プロセスは、それを研究開発する人が途切れると、すぐに再開できるような単純なものじゃない
>>920 パナは32nmまで製造してなかったか?
>>922 パナの32nmはgate-firstだったらしいね。IBM連合がgate-last移行に技術的
困難をかかえている状況では、単独での20nm gate-last開発は無理だろうね。
東芝のNAND型フラッシュメモリのように、微細化するだけなら18nm位までの
機器は揃っているのだろうが、ロジックはリーク電流防止のためにHKMGが
必須の微細化レベルになっているため脱落者が多数出ることになったのかな。
フラッシュメモリのように世界規模で売れたらいいけど パナ(に限らず自社)専用LSIだと割に合わないぐらい投資規模が膨らんだんだろうね
925 :
Socket774 :2013/08/25(日) 12:08:28.32 ID:eLxqatuZ
東芝もFlashの3D化についてはサムスンに送れてるし、Flashも外国勢に対抗できなくなって 撤退する可能性はあるね
>>922 試験的な投入のされ方してその後続かなかったんだよね、なんでだろう?インテルについで32nm・金属ゲートの量産にこぎ着けたのにね
その後ユニフィエのキーマンが三洋部門に異動して、28nm以降コストメリットがないって発言してるけど
928 :
Socket774 :2013/08/25(日) 20:28:41.28 ID:YjEMFze2
TSMCは28nmHKMG量産に成功して莫大な利益を上げたのにね TSMCがここまで成功したのは、日本勢が32/28nmから投資・製造を辞めたのと、 GF・サムスンが安定量産に遅れたので、1社で28nm需要をぜんぶ持って行ったのが大きな要因だろうね
929 :
Socket774 :2013/08/25(日) 20:35:22.55 ID:YjEMFze2
>>926 サムスンが3Dフラッシュ量産で、メモリのビット当たり製造コストを落としてくるだろうから、
いまみたいにフラッシュ自体の需給バランスがひっ迫してるときはいいが、
供給過多になったらサムスンとのコスト競争に勝てなくなる可能性があるよ
たとえば、
書き込み回数1000回クラスのビット単価(一般のUSBメモリやSDカード、下位モデルSSD)
書き込み回数10000回クラスのビット単価(ハイグレードのSDカードやSSD)
書き込み回数100000回クラスのビット単価(エンタープライズ用途)
これらすべてでビット当たりの製造原価を常にサムスンより低い状態に続けない限り、
将来供給過多になった時点で値下げ攻勢でやられて脱落する可能性があるよ
>>929 汎用製品は多くの場合で、3社まで減れば市場は安定するよ。
NAND型フラッシュメモリもサムスンだけの2社だともう脱落はしないけど、
その他DRAM勢が生産調整で進出してくるのが問題だね。マイクロンに差を
つけれたら、まあ安泰かな(他もあって結構競争激しいが)。
931 :
Socket774 :2013/08/25(日) 22:21:10.85 ID:YjEMFze2
Flash参入せずDRAM専業でDRAM市況悪化で倒産したエルピーダは、 新経営陣の下でFlash参入して、DRAM/Flash二足の草鞋になるかもしれないよ 逆に東芝は将来のFlash市況悪化に備えて、DRAM参入準備が必要なんじゃね? あと、MRAM/FeRAM系が将来Flashを食うようになる可能性もあるので、 もしそちらが主役になりそうならたとえ後発でも参入しないとダメだね
932 :
Socket774 :2013/08/25(日) 22:23:08.81 ID:YjEMFze2
サムスンはたとえ後発だろうが市場が大きくなりそうなら参入してきたからこそ、 あそこまで大きくなったんだよな 日本メーカーは、かつてアメリカメーカーの後発で参入してたのに、 いまは後発ならたとえ市場が大きくなりそうでも参入せず会社ごとやばくなるのが多い気がするね
NANDは3Dまで特化進んでるのに今からDRAMメーカーが参入出来るわけなかろう。
あ
3D-NANDの特殊性を抜きにしてもFlashとDRAMのプロセスは別物だしなあ DRAMプロセスはロースピード、低リークに特化しすぎで特殊すぎる
そんなこといっても、現実に同一メーカーがDRAM・Flash両方作って、 それぞれの需給状況を見てラインをFlashにしたりDRAMにしたりしてきた 歴史があるけどね それができないDRAM専業企業が、DRAM相場の下落で苦しんだ
>>927 パナソニックは130nm(当時は三菱)以来単独ではなく
ルネサス(元三菱、日立、NEC)と共同開発だな。パナだけではなく
ルネサスにも32nmよりも先に対して興味がなければ開発できないだろう
富士通の半導体事業もパナソニックに統合
合流していないのは東芝くらいか
>>927 たぶんIntelとパナソニックではASPが大きく違うんだろう。
TSMCみたいにスマートフォンの主役を作ってギリギリ、
家電内蔵プロセッサではメリットが生み出せないということではないかな
なんか微細化技術で競うなんて昭和の時代の話のような気がするが? スキャナーはASMLが一人勝ちして日本のキヤノンやニコンもずっと遅れてしまってるから 世界のどの企業でも技術を手に入れられる 今はどうやって作るかじゃなくそれで何をつくるかが重要だろ?
>>940 基礎だけで良いわけじゃないけど基礎も重要だ。
基礎・基盤を他人に丸投げの方が短期的にカッコイイ結果を出しやすいけど
長い目で見たらたいしたことない
あ
45nm世代、汎用SOIプロセスなら、まさに機械導入すれば作れる状態だけど、 28nmHKMGやら22nmFinFETを作れる会社がほとんど無いことを考えると、 このへんは単に機械導入すれば作れるレベルまでは行ってないんだろうな
>>946 power8キター!!
SMT8とか650mm2とかすげぇなw
まて。どこに22nm SOIを製造できるファブがあるんだ。
>>946 > The PS4's world-famous Vector co-processor
これはどういう趣旨のネタ?
半年以上前のネタを懐かしむ趣旨です
>>948 ヨークタウ ンハイツが7nm以下の世代、アルバニーが14n mと10nmの世代、イーストフィッシュキルが2 2nmと20nmの世代
45nmから先はIBMにCell生産の需要がなくなり実地テストの機会がなくなってcommon platformが弱体化したなんて話もあるが IBMは22nm生産ラインの投資を、それもGFすら撤退したSOIを続けられてるのかね。
さすがにIBMもHKMGとかに移行するんじゃね? もしくは半導体製造から撤退するか
IBMもHKMGにはとっくの昔に移行しているのだが、性能の出せないgate-first方式で、 インテル&TSMCの性能の良いgate-last方式に未だ移行できてないのだよね。
POWER8 650mm2 32ch 230GB/s ワロタ
22nm SOI eDRAM 650平方mm バンバンで満貫 いくらになるんだこれ そもそも22nmライン作ったとして、もうゲーム機もAMDもSOIじゃないのに POWER8の他になに作るんだろう?
メインフレームのプロセッサとかBG/Q後継のプロセッサとか どちらも生産数は少なそうだが
IBMの技術者プロフィールに22nm版Cellの職歴がのってるからCellは作るんでしょ。
普通に考えれば、Cellの開発はソニーでも東芝でもIBMでも終了してると思うが、22nm版に関わってる人間がいると? どういうこと?
PS4はPS3のソフトは動かないが、サーバでPS3のソフトを動かして映像をPS4に送る方式で PS3のソフトをプレイできるようにするシステムを作ろうとしている このサーバに載せるのが22nmのCELLなのかもしれない
つまり、ソニーのCellは終了していないと。 シュリンクしても用途がクラウドゲーミングサーバだけでは妥当なコストに収まる気はしないが、 Cell搭載のPS3互換機能付きPS4+でも後から出すのだろうか。
12年以上出荷したPS2と同じくらい長くPS3を廃盤にしないとしたら 2018年か19年まで出荷することになるわけで、 22nm Cell を作った方がトータルコストが下がるのかもしれない
22nmプロセスの開発に使った試験チップがcellだったんじゃね?
cell自体、もともとゲーム以外でも使う予定だったからな。なんか使い道があるのかも というか、あの方向性ってそもそもゲーム以外のほうが向いてるような気もするしな
>>962 ネットの職歴サイトでIBMで働いてた人の履歴に22nm Cellが書かれてたらしい
>>967 PPEx1+SPEx7という単調で膨大なSIMD演算をひたすら繰り返すような作りだしな
むしろあれをなぜゲームに使おうと思ったのかが謎だ
多種多様な処理を1/30, 1/60secという短い時間で
完結させなきゃいけないゲームには明らかに不向きだった
>>969 in orderにしたとは言え、PowerPCの実力を高く見ていたのだよ。
IBMがあきれる程PPEが低性能だったけどw
PowerPCは発熱部分が性能をだしていたのかも、Out of orderとか分岐予測とか。
もともとはSPEをGPUに使う計画だったとあれほど
そもそもCellのPPE+SPEはEEのMIPS+VUとほぼ同じコンセプトだし 別に謎でも何でもない 汎用MIPSコアx1+SIMD専用コアx2という構成をPPCベースで作り変えただけ まあT&LもシェーダもあるGPUとの組み合わせはアンバランスだから PS2のようにジオメトリをCell側でやるのを想定してたんだろうね
最初はCell*2で行く予定だったが性能が足りないのでCell+RSXにしたというのが定説
ハイパフォーマンスチップ POWER8 650mm2 32ch 230GB/s ってどれ位の消費電力なんだろ?
POWER7 45nm 567mm2 4GHz DRAM100GB/s IO20GB/s CPUのみで200W(システム例456W) POWER8も4GHz で動かしたらかなりいくだろうな
POWER6あたりから水冷前提で作ってるからね
MACオタどこ逝った?
Rockは死産だったが SPARC64Xは250Wでも世に出せたのか。 POWER8は350Wぐらいは行くのでは。 22nmの巨大チップを近日中に作れるとは全く思えないが。
Rockと違って面白味がない
量産はともかく試作ラインで歩留まり超低くてもいいなら作れるかもね
そりゃPOWERは作れば需要あるだろうが、PowerPCがボリュームのあるゲーム業界を失って、ラインが埋まるあてもないのにSOIに資本投下できるのかな。 あとはネットワーク機器か。
サーバーも省電力化がトレンドだしな。
>PowerPCがボリュームのあるゲーム業界を失って Intel, nVidia, IBMと貧乏臭い業界から手を引いた所のがむしろ業績好調という 次世代ゲーム機はますますジリ貧に陥ってARMになりそうな気がする
半分に割って、6コア300平方ミリ150Wなら ずっと現実的な数字に聞こえるが、凡庸だろうか。 メモリ32chだけは異形だ。1TBのビッグデータをやりたい需要が明確にあったんだろうか。
7の8コアから8で12コアだけど、ベクタ実行ユニット倍になってるから FLOPS で2.5倍かもしれない。演算器だけ増やしてもだめだから バンド幅2.3倍ってことで辻褄が合う。 7同様に8もスパコンが主要ターゲットなのでは
2.5違う、3倍だ。間違えた
それだけ超高級ないろいろてんこ盛りな超巨大CPUなんだし 超高級なシステムでないと採用できないだろ メインフレームとか、スーパーコンピュータとか…… あと、ゲーム業界といえば、たしかまだWiiUはPowerPC系だろ話題になってないけど
後藤ちゃんも久々に「モンスター」表現ができて嬉しそうだなw ARMみたいなしょぼコアつないで極限まで電力効率を高めるのとは 真逆のアプローチを取ったってことは一応勝算、用途の目処はあるんかね
22nm SOIをPOWER以外の何に使うつもりなの?って話ね。サーバ需要だけで微細化投資まかなえるなら富士通も降りてない。
単純にIBMは規模で富士通の遥か上だし、 何よりTSMCやらGFやらの共同開発の親玉でもある。
Xbox 360のXCGPUを32nmにシュリンクしてeDRAMも統合する計画はどうなったんだろうね?
>>990 TSMCはCommon Platformの一員ではない。GFは一員だがSOIから降りてしまった。
>>992 あれ、TSMCに関しては何と勘違いしたのか完全にそう思い込んでいた。
GFがSOIやろうがやるまいが親玉IBMが主体だろ。
>>993 SOI需要がIBM一社それもPOWERだけでは銭の問題が
>>994 SPARCに比べりゃ何十倍も売れるから心配すんな。
……まあ22nm化するなら毒を喰らえば皿までなんだろうか。SOI.
IBM自体のプロセス開発は順調ではないの? 22nmということはFD-SOIなのかな
今現在の組み込み、サーバー、HPC等でのPowerのシェアってどのくらいあるのだろう そういうの分かる資料とか無いかな?
PowerPCがルータに使われてるって話を聞いた
千
1001 :
1001 :
Over 1000 Thread