【Project peko】2ch特化型サーバ・ロケーション構築作戦 Part15

このエントリーをはてなブックマークに追加
245root▲ ★
oyster902、また落ちているすね。うーん。
246root▲ ★:04/10/19 17:02:41 ID:???
何が起きているのか。症状はこの間と同じ。

・pingには答える
・httpdは応答しない(connection refused)
・sshはつながる、しかしログインできない

ちゃんとコンソールから調べてもらった方がよさそうなので、
今日はリブート要請をせず(コンソールのメッセージがわからなくなる)、
今夜にでも現地の中の人と別途調整することにします。

# 902はSumaの制御でシリアルポートを使っているので、リモートコンソールではないのです。

なお、Sumaストレージにはリモートログインできて、異常なく動いていることは確認しました。
いまのところ 902 側のハードウェア不良の可能性が大きいか。
247root▲ ★:04/10/19 17:04:54 ID:???
> ・httpdは応答しない(connection refused)

今はConnection timed outします。ううむ。
248root▲ ★:04/10/19 17:06:48 ID:???
サービスがいないポート(10)はちゃんとrefused
サービスがいるポート(80)は固まる

%telnet oyster902.peko.2ch.net 10
Trying 206.223.151.230...
telnet: connect to address 206.223.151.230: Connection refused
telnet: Unable to connect to remote host
%telnet oyster902.peko.2ch.net 80
Trying 206.223.151.230...
^C

で、>>244 のシステムエラー、そしてSuma側には異常がないことからすると、
システムディスクがつながっている、AdaptecのRAIDコントローラがいまいちな予感。
249root▲ ★:04/10/19 17:13:47 ID:???
さて、これで連日、3回目のダウンなので、何らかの問題が生じたことは明らかかと。

・今日の深夜に現地の中の人と連絡をとり、状況を伝える
・システムコンソールのメッセージを見てもらう
・場合によっては入院・加療か

ちなみに902のRAIDコントローラは、Adaptec 2120Sです。
OSはFreeBSD 5.2.1/amd64。

>>244 のエラーも含め、何か情報があればここに書いていただけると。
250動け動けウゴウゴ2ちゃんねる:04/10/19 18:09:05 ID:Zbx0wOVo
ちょっと覗かせて頂いたものです。関係あるかは分かりませんがAdaptec 2120Sといえば・・・
http://ask.adaptec.co.jp/cgi-bin/adaptec_japan.cfg/php/enduser/std_adp.php?p_sid=RumNikoh&p_lva=&p_faqid=1215&p_created=1064535857
&p_sp=cF9zcmNoPTEmcF9ncmlkc29ydD0mcF9yb3dfY250PTEmcF9zZWFyY2hfdGV4dD0xMjE1JnBfc2VhcmNoX3R5cGU9MjpmYXFzLmZhcV
9pZCZwX3Byb2RfbHZsMT02NSZwX3Byb2RfbHZsMj1_YW55fiZwX2NhdF9sdmwxPX5hbnl_JnBfc29ydF9ieT1mYXFzLmZhcV9pZDpEJnBfcGFnZT0x&p_li=
251root▲ ★:04/10/19 18:16:38 ID:???
>>250
どうもです。

シーゲートファーム問題すか。
いちおう、2台のディスク(RAID 1で運用)が最新ファーム(6)なことは前に確認しているです。
252root▲ ★:04/10/19 18:19:37 ID:???
>>251 補足
渡された当日の古い dmesg。

http://mumumu.mu/oyster902/dmesg-freebsd52-i386.txt
253root▲ ★:04/10/19 23:45:48 ID:???
というわけで、今日あたり対応を。

今のところはたぶん、2120Sコントローラがいまいちになったものというのがわたしの推測。
Jimさんに連絡とって、作業のスケジューリングをぼちぼちと。
254root▲ ★:04/10/20 01:26:26 ID:???
Dear Mumumu,

I will take this machine to Polywell this morning if it is ok to take it offline.

Your friend,

Jim
255root▲ ★:04/10/20 01:26:47 ID:???
私の返事:

Ok, please do it.

I think Suma is completely no problem, so you can bring only 902 itself to
Polywell.

-- Mumumu
256root▲ ★:04/10/20 01:29:04 ID:???
というわけで、902はPolywellに入院の方向で。
こんなメール出してあるので、その筋での調査&検査入院かと。

Jim-san,

In the several days, oyster902 is encountered suddenly system downs.
And today, 902 has been down since today's evening in Japan.

We dare to suspend rebooting 902 for checking system console message.
So, if you can, please go to PIE and check system console message of
902.

I checked the details of Suma storage the day before yesterday, and
they works fine and I cannot detect any errors. So, there are no
problem on Suma.

And yesterday, I detected strange system message as seen below:

Oct 18 02:48:08 <0.2> oyster902 kernel: aac0: **Monitor** NMI ISR: NMI_MEMORY_CONTROLLER_ERROR

This means Adaptec RAID 1 controller (aac0) on board memory is wrong,
so fixing the card is needed, I think.

Anyway, please check current system console message of 902.

Yoroshiku-Onegai shimasu.
257動け動けウゴウゴ2ちゃんねる:04/10/20 01:45:42 ID:nEnaij2K
過去ログはしばらくお預けということだろうか。
258動け動けウゴウゴ2ちゃんねる:04/10/20 01:48:05 ID:QvHYrvoY
>>256
英語がスラスラ書ける人ってのはカッコよく見えるんだよなァ。
rootさんかっこえぇ
259root▲ ★:04/10/20 02:00:59 ID:???
>>257
ですね、、、。

過去ログが入っている外付けディスクそのものは正常なので、
本体が直れば復活かと。

>>258
痛い目になんどもなんどもあって少しずつおぼえたです。
100%現場のみ。
260動け動けウゴウゴ2ちゃんねる:04/10/20 02:21:15 ID:QdovSaAU
最期がローマ字なのは何か意味があるのだろうか・・・
261root▲ ★:04/10/20 02:27:16 ID:???
Jim (02:18 AM) :
this is error right now
aac0: Command 0xfffffff8ed5990 timeout after 3184 seconds
Me (02:19 AM) :
Oh, I think my guess is correct. aac0 is Adaptec 2120S RAID controller driver name of FreeBSD.
Me (02:20 AM) :
So, I think we need to fix the wrong card.
Jim (02:21 AM) :
this just happened? how can the card become wrong after it was right for many months?
Jim (02:22 AM) :
I am going to turn oyster902 off now
Me (02:23 AM) :
Hmm... Surely, this card is correct during about 8 months.
Me (02:23 AM) :
Ok, please do it.
262root▲ ★:04/10/20 02:29:08 ID:???
やはりシステムディスクを接続しているSCSIカードに問題が出た模様。
ということで 902 は入院となりました。

>>260
あいてがJimさんだから、そのへんは呼吸で。
263root▲ ★:04/10/20 02:37:17 ID:???
Jim (02:34 AM) :
ok, I will go to polywell now. I will leave oyster902 there for the whole day.
Me (02:35 AM) :
Thank you for your work. Otsu-desu.
264root▲ ★:04/10/20 02:39:31 ID:???
Jim (02:36 AM) :
dai jobu mata atode friend
Me (02:36 AM) :
Ok, mata atode.

ということでJimさんは902を持ってPolywellに向かいました。

これからFreeBSD 5.3R-RC1化したlive8のセットアップの続きを少しやって、ねるとするか。
265動け動けウゴウゴ2ちゃんねる:04/10/20 02:42:45 ID:mfekLegA
障害が、はっきりして良かったですね・・・
266root▲ ★:04/10/20 02:44:46 ID:???
>>265
そうすね。

しかし、ディスクはRAID 1にしてあったのに、RAIDカードに問題が出るとはなぁ。
まぁ、そういうこともあるか。
267▲:/usr/local/bin/ch2 -o i686 ◆P8fXJj6wwo :04/10/20 08:41:36 ID:uGS8Y1A+
>>266
ディスクコントローラがいかれるのはディスク不良が発生する確率より
若干低いとはいえ、ありえなくはないです。
ディスクコントローラに限らずチップ内の劣化断線なんてよくある話ですから

エンタープライズ級の使われ方をしてる2chの鯖なら
どこかしら不具合を起こすのも日常茶飯事かと。