【AMD】Opteron x52/x54の一部に不具合 交換します

このエントリーをはてなブックマークに追加
1インコのP太郎φ ★
日本AMD株式会社は、Opteron x52/x54のうち、
全世界で3,000個ほどの個体に不具合を発見し、交換を行なうと発表した。

 不具合の内容は、CPUおよび周囲が高温の状態で浮動小数点演算を集中的に行なった場合に、
きわめてまれに正しくない計算結果を示す場合があるというもの。

 該当するCPUはシングルコアOpteronの152、252、852(動作周波数2.6GHz)および、
154、254、854(同2.8GHz)の一部ロットで、全世界で3,000個ほど。
これ以外のOpteronを含む他のCPUでは問題は発生していない。

 AMDでは、熱性能問題に直面した顧客のシステム評価の際にこの問題を発見したとしている。
具体的には、2006年初期に製造された特定のOpteronに、
クロック周波数マージンに関する製造後選別テストにおける出荷検査漏れが含まれていたことを確認したという。

 OEMベンダーに対しては、該当するOpteronを識別するためのソフトウェア検証ツールが提供され、
交換用のCPUが供給される。バルクなどの状態で購入した個人ユーザーについては、
下記の窓口にて問い合わせを受け付け、交換を行なうとしている。

連絡先:
・AMD Opteronホットライン
Tel.03-5468-7404
(4月29日〜5月7日、9時30分〜18時30分、土日祝日も受付)

・AMDコールセンター
Tel.0120-263-669
(5月8日以降、9時30分〜18時30分、土日祝日/年末年始を除く)

http://pc.watch.impress.co.jp/docs/2006/0428/amd.htm
2名刺は切らしておりまして:2006/04/29(土) 15:27:19 ID:OTBRJQB0
2ゲットします
3名刺は切らしておりまして:2006/04/29(土) 15:31:18 ID:+spoTyVM
1000
4名刺は切らしておりまして:2006/04/29(土) 15:32:25 ID:zs0GUmyq
演算ミスは致命的だなw
しかもサーバー向けオプテロンでやらかすなんてwww
5名刺は切らしておりまして:2006/04/29(土) 15:32:54 ID:5PWtlzmi
>>1
プロセッサが誤動作起こしたらどうなるんだろう?
暴走するのかな?
6名刺は切らしておりまして:2006/04/29(土) 15:52:32 ID:pc0WXlBn
>>1
浮動小数点演算だから結構ばれなかったり、、、、
あるいは、どこかのプログラマがデバックで死ぬ思いをしてたり、、、、
7名刺は切らしておりまして:2006/04/29(土) 15:56:05 ID:FZhCXiv0
検査漏れとはお粗末な・・・。
製造が追いついてないとかでグダグダなのかな、AMDの内部って。
8名刺は切らしておりまして:2006/04/29(土) 16:21:55 ID:yjGEahXq
これの不具合ってどうやってみつけたんだろう
こんなシビアな条件、そうそう揃うようなものじゃない気がするけど
9名刺は切らしておりまして:2006/04/29(土) 16:28:26 ID:pc0WXlBn
>>8
クロック周波数マージンに関する製造後選別テストにおける出荷検査漏れが含まれていたことを確認したという。

ってことで、「選別テストにおける出荷検査」をちゃんとやったら見つかったんじゃないのか。
漏らした検査担当の責任。
10名刺は切らしておりまして:2006/04/29(土) 16:32:39 ID:CttmX/Nm
製造システムや設計ミスの不具合を、検査漏れのせいにすることはよくある事
検査漏れのせいにしておけば回収するのは不具合のあるロットだけに絞れるからな
11名刺は切らしておりまして:2006/04/29(土) 16:35:15 ID:Xdd9UkRZ
>>10
そんな怖いことできると思うか?
一部だけでしたといって後から見つかるほうがやばいじゃん。
12名刺は切らしておりまして:2006/04/29(土) 16:38:14 ID:pc0WXlBn
>>10

Thank you. 勉強になった。
ところであんた半導体メーカの人?
13名刺は切らしておりまして:2006/04/29(土) 17:02:37 ID:pN7k7oDP
暑いとミスするなんて
なんて可愛いCPUなんだろう
14名刺は切らしておりまして:2006/04/29(土) 17:03:08 ID:CttmX/Nm
>>12
半導体を使う人のほう、あんまりつつくとこっちも完成した商品回収しないといけなくなるから
「あははー、じゃあほかのロットは大丈夫ですねw今度から気をつけて検査してくださいよwwwwwwwwwwww」
ってごまかす。でもIC剥くと明らかに次のロットから回路が変わってたりする
15名刺は切らしておりまして:2006/04/29(土) 17:03:16 ID:t7x4xsKv
90nmの出始めってことかな
FX57はどうなんだ?
中身は同じだったよな
16名刺は切らしておりまして:2006/04/29(土) 17:08:12 ID:pc0WXlBn
>>14
Thank you very much.
ところで半導体メーカはどこ?あんたんところの製品買わない。
17名刺は切らしておりまして:2006/04/29(土) 17:18:26 ID:wNzbhIht
仕様ですと言い張らないだけしっかりしてるな。あとバルクまでサポートするって面倒見いいね。
18名刺は切らしておりまして:2006/04/29(土) 17:19:54 ID:uFP7VN8R
黙っておいて修理やクレームだけで回収していく場合もあるからな。
19名刺は切らしておりまして:2006/04/29(土) 17:25:52 ID:tL7oZ2zc
3000個だけ、っていうのは信じられないな。
選別テストは皆同じものを使うのが普通だから
他のロットも検査漏れがあるはず。
たまたまこのロットだけ出来が悪くて
スピードマージンが小さいため露見したのではないか。

それともこの3000個だけ特別なリビジョンで
パタン漏れがあったのか?
20名刺は切らしておりまして:2006/04/29(土) 17:29:48 ID:oLgKUlq0
一応低発熱がウリなんでしょこのプロセッサ。
ちょっと熱くて計算間違いじゃ本末転倒。
21名刺は切らしておりまして:2006/04/29(土) 17:34:09 ID:uFP7VN8R
製品全部がまずいならともかくこの場合にそういう文句言っても。
22名刺は切らしておりまして:2006/04/29(土) 17:35:13 ID:8P0zuYoa
>>17
初代Pentiumは(ry
23名刺は切らしておりまして:2006/04/29(土) 17:37:03 ID:+spoTyVM
>>21「きわめてまれに」
この確率の大雑把な数字すら出せていない時点で全てに起こり得るのでしょう
24名刺は切らしておりまして:2006/04/29(土) 17:44:59 ID:uFP7VN8R
>>23
その固体ごとに確率違ったら出しようがないような。

てかいまいちその理屈がわからん。
25名刺は切らしておりまして:2006/04/29(土) 17:46:36 ID:8uH5rBy4
まあ、絶対に演算ミスしない計算機などありえないんだが
26名刺は切らしておりまして:2006/04/29(土) 17:48:32 ID:xiuW4vL4
なんかコンピューターが演算ミスするってのがいまいち理解できないんだよね。
27名刺は切らしておりまして:2006/04/29(土) 17:55:57 ID:t7x4xsKv
AMDのチップセットの時はOCできなかったから分からなかった
nVIDIAのチップセットが出てOCしまくる奴がいて分かったんじゃない?
28名刺は切らしておりまして:2006/04/29(土) 17:57:32 ID:zpqbgEnF
>>27
だとしたら激しくワロス
29名刺は切らしておりまして:2006/04/29(土) 18:05:52 ID:JsdVMgAh
うちの職場のこれかも。しかも3DCGレンダリング用で浮動小数点演算しまくりんぐwwwwww
30名刺は切らしておりまして:2006/04/29(土) 18:08:40 ID:NrkI+FnG
>>27
顧客システムでOCする訳ないだろ。
31名刺は切らしておりまして:2006/04/29(土) 19:39:24 ID:TqzQ6bEA
これと似た感じの問題なのかな?

米インテル、Pentium III-1.13GHzをリコール――再出荷には数ヵ月かかる見込み [ascii24.com]
http://ascii24.com/news/i/tech/article/2000/08/29/617646-000.html

> この不具合は動作電圧や動作温度についてのマージン(動作上の余裕)が少なく、
> コンパイルやベンチマークなどでプロセッサーに負荷がかかった際に、プログラムが
> 異常終了したりハングアップするといった問題が発生するもの。
32名刺は切らしておりまして:2006/04/30(日) 02:25:17 ID:NKP/yUvi
半導体は温度が上がったり、電圧が下がるとスピードが遅くなります。
製造時の条件でもスピードの早いロットと遅いロットが存在します。

このため工場からでてきた製品は出荷前にスピードテストをして目的のスピードに達しなかったら
ゴミにするか、遅い製品として安く売ります。

ここでいうスピードテストっていうのはCPUの中のいろんな回路(足し算とか掛け算とか浮動小数点演算回路
とか)を動作させてクロックスピードを変化させて結果が正しいかどうかを確認します。
たとえば足し算でも1+1の計算より65535+65535の方が時間がかかるので、なるべく時間の
かかる場合を考えてテストの中身を作成します。

今回の問題は浮動小数点演算のある特定の時間のかかる場合がスピードテストに含まれていなかったのでしょう。
そのため遅いロットで電圧が下がり、温度が上がった時におかしな動きをするのではないかと思います。


……小学生向けの説明を考えてみたけど簡単に説明するのって難しいな。
 「選別テストにおけるIEEE754クリティカルパスパタン抜けの件」じゃワケワカランだろうし。

33名刺は切らしておりまして:2006/04/30(日) 02:34:15 ID:JoS9Cttc
Vthが不安定なのか マージンが無いのか
34名刺は切らしておりまして:2006/04/30(日) 05:23:15 ID:X6al0Ggs
やっぱアーエムデーだよな
35名刺は切らしておりまして:2006/04/30(日) 05:48:27 ID:Ywcwposh
やっぱガス冷でパイ焼きした時じゃないか
36名刺は切らしておりまして:2006/04/30(日) 07:56:51 ID:R+i+vUaC
CPU本体じゃなくて、nVidiaのGPUと組み合わせた時の発熱量を読み違えたんじゃねーの?
つまりサーバじゃなくてWSで問題になると。
37名刺は切らしておりまして:2006/04/30(日) 07:58:36 ID:4YeZvdPe
>  AMDでは、熱性能問題に直面した顧客のシステム評価の際にこの問題を発見した

この特定の顧客が見つけた不良Opteronと同じロットのもの3,000個をリコールしただけ、なのか?
もしそうならば、今回のリコール対象外のものでも、不良を抱えたものが出まわっていることになるぞ。
38名刺は切らしておりまして:2006/04/30(日) 09:02:15 ID:Jfp6nxI1
>>32

分かりやすい説明アリガトウ。
イメージできました^^
39名刺は切らしておりまして:2006/04/30(日) 09:54:30 ID:ndZ2Qxjt
>>37
半導体は選別で動作クロックをわけるから、このケースでは不良というより選別ミスだな。
検査記録は残っているから検査漏れした3000個をピックアップしただけ。

回路に不具合があった場合は↓のように全面的に出荷停止になり、
不具合が修正されるまでかなりの時間がかかるだろう。
http://ascii24.com/news/i/tech/article/2000/08/29/617646-000.html
40名刺は切らしておりまして:2006/04/30(日) 15:10:52 ID:wW0V9Mds
検査漏れって、なさけねー話だな。
41名刺は切らしておりまして:2006/04/30(日) 15:25:04 ID:vQNCd+WN
nVidiaがnVidiaがと現実が見えない信者がうるさいな。
それならインテル用nforceなどでこういった問題が生じたか?
42名刺は切らしておりまして:2006/05/01(月) 12:20:48 ID:udfqPgQR
>>32

>たとえば足し算でも1+1の計算より65535+65535の方が時間がかかるので、

今時なぜに16bit?Opteronは64bit/32bitだよ?
32bitとか64bitのCPUならこれはあり得ない。というか、本当に時間が変わったらコンパイラがクソ過ぎ。
32bitCPUで計算時間が変わるのは
・1+1
・4294967295+4294967295
43名刺は切らしておりまして:2006/05/01(月) 13:54:47 ID:GE31GXdL
ttp://mypage.odn.ne.jp/www/k/8/k8_hammer_trans/files/Hammer-Info.html#20060404215631
ここに不具合が発生する条件が書いてあるが、通常のプログラムではまずありえないという感じですね。
44名刺は切らしておりまして:2006/05/02(火) 00:29:09 ID:4He0pfrr
>>32
ド素人が。CPUの命令セット表にアドレッシングモードと命令別に
消費クロック数が書いてあるから勉強してこい。
キャリーがつくかつかないかで足し算のクロックが変わるわけが
ない。まったく話にならん。
45名刺は切らしておりまして:2006/05/02(火) 03:00:16 ID:Gr3vdYfQ
>>42,44
あのね。 小学生むけに簡単にしているのがわからないかな?
そもそも、キャリーがあるかないかでクロック数が変わるわけないから、そんな話をしているのではないですよ。

アダ-でキャリーが走る場合がクロック一周期の中でタイミング的にクリティカルであるということは
理解できるかな? そして、そういうクリティカルパスが生起している選別ベクタが
 スピード選別テストの場合に必要である、ということを言っているのですよ。
(「時間がかかる」といっているのは、
 1+1の計算は100psで計算結果が確定するけど、
 全ビットキャリーが走る場合は499ps待たないと結果が確定しません、とかいう意味です。
(数値は適当ですよ)そして、例えば2GHzのCPUならクロック一周期は500psなので、
この計算結果が501psかかってしまうと誤動作です。

まあ、もうちょっと現実的な話をすると、DFT(Design for TEST)技術の進歩で
こういったスピード選別用ベクタもかなり自動で生成できるようになってきています。
(フルスキャンとかパーシャルスキャンとかね)→この辺は半導体技術者向きなので省略。
ただし現在でも完璧な自動パタン作成は難しいので手設計のパタンと併用するのが主流だと思いますよ。





46名刺は切らしておりまして:2006/05/02(火) 04:00:26 ID:Gr3vdYfQ
>43のリンク先を読むと単純なパタン漏れでは無い様ですね。
FPUで演算結果を参照せずに何時間もループさせると
発熱で温度上昇が発生し、結果を間違えると。
こういう局所的な温度上昇を事前にシミュレーション等で予測することはとても難しい
と思います。結局、AMDは温度マージンをケチりすぎたため
出来の悪いロットで問題が出てしまったのでしょうね。
47名刺は切らしておりまして:2006/05/02(火) 08:18:57 ID:yYQa4wVq
CPUの不具合ってそれなりにあるんだな。
http://f35.aaa.livedoor.jp/~luins/iroiro/Intel_AMD_bug_etc.htm
48名刺は切らしておりまして
工業品なんだから生産段階で無いわけ無いよな
動かないものははじけるだろうけど。

その後仕分け法の問題と 人的ミスと。
今回は後者かな