急いで書いたので長くなってしまった。
これを送信済み。
---
ご担当様:
お世話になっております。
先日よりサービスに障害が発生しておりますbanana3232ですが、
プライベート側NICのハードウェアトラブルである可能性が
濃厚なようです。
現在、該当サーバのプライベート側 I/F は、ifconfig コマンドでは
UP しているように見えますが、ping による開通確認が失敗する状況
となっております。例えば banana3203.maido3.com から 192.168.0.195 への
ping が通りません。
状況を以下のスレッドに書かせていただきました。
【より敏感に】 リブート要請 Ver2.0 Part2
http://qb5.2ch.net/test/read.cgi/operate/1254387228/90-93 スレッドにも書きましたように、該当サーバにて netstat コマンドで
チェックを行ったところ、増設されている NIC の I/F 情報の Ierrs について、
下記の通り非常に多くのエラーが上がっており、また時刻を追って増えて
いっていることから、増設されている NIC にハードウェア障害が発生している
可能性が濃厚なようです。
netstat -i -I em1
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
em1 1500 <Link#2> 00:1b:21:0d:03:0b 6687595 630348 8709479 2 0
em1 1500 192.168.0 bg23.2ch.net 6686760 - 8709516 - -
dmesg コマンドにおける該当サーバのシステムメッセージにも、
em1: watchdog timeout -- resetting
em1: link state changed to DOWN
em1: link state changed to UP
em1: watchdog timeout -- resetting
em1: link state changed to DOWN
em1: link state changed to UP
という、ハードウェア障害の際に発生する watchlog timer の timeout エラー
が発生しており、ハードウェア障害である可能性が高いと考えられます。
ということでお手数をおかけいたしますが、
1) 該当サーバ banana3232.maido3.com の増設側 NIC のトラブルの解消
(等価なものに交換するのがよいのではないかと考えられますが、
増設側NICのネットワークケーブルやスイッチの設定も、
念のためご確認いただけますと助かります)
2) 同一セグメントの別サーバ、banana3203.maido3.com から
banana3232 のプライベート側IPアドレス、192.168.0.195 への
ping コマンドでの開通の確認
を、よろしくお願いいただけますでしょうか。
なお、既にサービスダウンの状態となっておりますので、
該当作業は当方への確認なく行っていただいてかまいません。
以上、よろしくお願いいたします。