【Project peko】2ch特化型サーバ・ロケーション構築作戦 Part18

このエントリーをはてなブックマークに追加
66root▲ ★
◎5月3日〜4日のサーバ障害の件について(これまで得ている情報のまとめ)

日本時間5月3日10:00前に、PIEの主にtigerサーバが接続しているスイッチが
物理的に壊れました(最初の障害発生)。
そのため、そのスイッチに接続しているサーバへの接続が一斉に不可能になりました。

それを検知した、JimさんをはじめPIEの中の人たちはPIEにかけつけ、
対応をはじめました。

通常であれば壊れたスイッチをスペアのものに変更して
VLAN(どのポートをどのネットワークに所属させるかの設定、各スイッチにどのサーバを
接続するかによって異なる)を設定しなおし、復旧を図るのですが、
Jimさんはその場で、ちょっと別のことを考えました。
67root▲ ★:2005/05/05(木) 13:23:04 ID:???0 BE:2280555-##
「こいつらはBlackGoat Project
(例の携帯&公開datサーバ構築、PIE内ではこう呼ばれています)のサーバじゃないか。
どうせ今スイッチが壊れてこいつらは落ちてるんだし、
今他のサーバも含めて、移動対象のサーバを全部
新しい場所に移動して動かしてしまえば、一石二鳥。
俺って頭いい。今飛行機の中にいるrootも喜ぶだろう。」(一部台詞は若干脚色あり)

そう判断したJimさんは部下に指示し、サーバの移動をはじめました。

しかしrootは、どのサーバを移動するのかの正確な指示はもちろん、
移動に伴いIPアドレスをどうするか(maido3.comの中の人も私も、
移動でIPアドレスは変わると思っていた)、DNSサーバの設定変更の手順や
サーバのシャットダウン・リブートのタイミング・スケジュール等については、
現地ではまだ何もJimさんに話してはいませんでした。

もちろん、プロジェクトの内容は話し合っていました。そして、
「これは重要なプロジェクトで、かつお互いのコーディネーションが必要な作業だから、
私が帰国したら関係者で連絡をとりあってすすめていこう。」
というのが、現地でのとりきめでした。
68root▲ ★:2005/05/05(木) 13:31:07 ID:???0 BE:912252-##
tiger503 504 509 510 511 512 が、その壊れたスイッチに接続されていました。

tiger503 (= live20) 504 (= game10) 509 (= news19) 510 (= hobby7) については、
今回のBlackGoat Projectとは関係ありません。

しかし、スイッチが壊れてしまったため、Jimさんはそれらのサーバも
新ロケーション(XO)に移動することにしました。

しかし、XOロケーションに設置したそのスイッチには、
サブネット番号(206.223.144.250の144の部分)が、150と151の分しか設定していませんでした。
tiger503 504 はたまたまそのサブネット番号だったため、IPアドレスの変更は必要ありませんでしたが、
tiger509 510 511 512 は、番号が違っていました。
つまり従来のIPアドレスでは場所を移動することができないわけです。

そのためJimさんは、それら4台のサーバのIPアドレスを急遽変更することにしました。
69root▲ ★:2005/05/05(木) 13:38:42 ID:???0 BE:5107878-##
Jimさんは、tiger/cobraサーバのroot passwordを知っています。
しかしそれは、緊急時や障害対応時にのみ使用することになっており、
顧客にroot権限ありで貸しているサーバには、通常貸主のプロバイダは
顧客に何の通知もなくログインすることはありえません。

しかしJimさんは、私に連絡がとれない状態であったこと(機内なので)、
またこれは緊急事態であると判断して、Jimさんの判断で対象サーバにログインし、
サーバのIPアドレスを変え始めました。

IPアドレスの変更が終わると、
そして、該当するIPアドレスを持っている 2ch.net のDNSサーバの設定を、
つじつまが合うように変更しました。

しかし、maido3.com のDNSサーバの設定は、変更していませんでした。
また、Z社の中の人にも、そのことは伝えていませんでした。

(搭乗時間につき、続きはあとで)
70root▲ ★:2005/05/05(木) 13:39:44 ID:???0 BE:3284249-##
>>69
ちと修正

IPアドレスの変更が終わると、
そして、該当するIPアドレスを持っている 2ch.net のDNSサーバの設定を、
つじつまが合うように変更しました。

IPアドレスの変更が終わると、 次にJimさんは、
該当するIPアドレスを持っている 2ch.net のDNSサーバの設定を、
つじつまが合うように変更しました。
71root▲ ★:2005/05/05(木) 17:08:20 ID:???0 BE:912252-##
続き

それからJimさんたちは、携帯用のサーバ(携帯ネットワーク用スイッチに接続されているサーバ)を
順に移動していきました。

banana402 403 404 405 406、cobra2244 2245 2246の8台のサーバを
Jimさんたちは移動しました。たまたまこれらのサーバはすべて150と151の
サブネット番号を持っていたため、IPアドレスを変更する必要がありませんでした。

移動が終わるとJimさんは、携帯ネットワーク用スイッチをとりはずしました。
このスイッチは旧型のもので既に廃止予定のものでした。
昨年(2004年)PIEのスイッチが壊れることが何度かあったと思いますが、
それはこれと同型のスイッチで、PIEではこの信頼性が低いスイッチを全廃することにし、
このスイッチが生き残っていた最後の一つだったそうです。

こうしてJimさんたちは、その日の作業を終えました。
72root▲ ★:2005/05/05(木) 17:10:17 ID:???0 BE:4104195-##
しかし、本来cobra2245 (= bbq)は、携帯とは関係ありませんでした。
でもJimさんたちは、XOロケーションに移動してしまいました。

また、cobra2247 (= c-docomo/c-docomo2、DoCoMo用入り口)は
もちろん携帯用サーバですが、
Jimさんたちの移動リストから漏れてしまっており、移動されませんでした。

この結果 cobra2247 は、携帯ネットワーク用スイッチからとりはずされた状態に
なりました。
73root▲ ★:2005/05/05(木) 17:17:21 ID:???0 BE:3830876-##
一方、サンフランシスコの空港までJimさんに送ってもらったroot一行は、
そんなことは露知らずに、修行の旅を楽しんでいました。

スターアライアンスゴールド会員の特権を利用し、窓口で長蛇の列に並ぶこともなく、
前方通路側・隣席空きの席を出してもらったうえで、
預ける荷物には「すぐ出てくるおまじない」の優先タグをつけてもらいます。

出国後に免税店を冷やかしたあとは、豪華なエアラインラウンジで
タダ飯やケーキに舌鼓を打っていました。
もちろん、無線LANも電源も使い放題です。

で、30分前にゆっくりと搭乗窓口に行きます。
金色会員は飛行機に一番先に入れてくれるので、あせって登場口に行く必要がないのです。
74root▲ ★:2005/05/05(木) 17:24:45 ID:???0 BE:5107878-##
登場 → 搭乗 >>73 最終行

今回root一行は、太平洋便にシンガポール航空(SQ)に乗っていました。

SQは「品質のエアライン」なので、
エコノミーのくせに食後にハーゲンダッツのアイスクリームが出たり、
AVがVODで何百曲も選べたり、シートもゆったりしていてとても過ごしやすいので、
rootのお気に入りの一つなのです。

今回rootに同行していたぴちぴちくん(仮名)は、
サロン・ケバヤに身を包んだSQのCAのウエストの細さにとりつかれてしまったようで、
なんだかうれしそうです。

そうこうしているうちに飛行機は順調に太平洋を横断して、
ほとんど時間通りに、目的地のインチョン空港に到着しました。
75root▲ ★:2005/05/05(木) 17:31:45 ID:???0 BE:7387799-##
入国審査をスムーズにクリアし、すぐに出てきた荷物を持って、
リムジンバスでソウル市内のホテルに向かいます。

道路はちょっと渋滞していましたが、バスから地下鉄を乗り継いで、
予定通りホテルに到着しました。

事前に「ネットワーク利用可能」を確認しているので、
「さて、運用情報の質雑スレにフシアナしてから、うまい焼肉でも食いにいくかぁ」
などと考えながらPCを開いてネットワークに繋いで、いつものように運用情報を開きました。
76動け動けウゴウゴ2ちゃんねる:2005/05/05(木) 17:32:48 ID:TqshmCib0
  ☆ チン

        ☆ チン  〃  ∧_∧   / ̄ ̄ ̄ ̄ ̄ ̄ ̄
          ヽ ___\(\・∀・)<  root▲ ★氏、続きまだー?
             \_/⊂ ⊂_)_ \_______
           / ̄ ̄ ̄ ̄ ̄ ̄ ̄/|
        |  ̄  ̄ ̄ ̄ ̄ ̄ ̄:| :|
        |           .|/
77root▲ ★:2005/05/05(木) 17:49:29 ID:???0 BE:6566898-##
開いたときに「質問・雑談スレ」が一番上にあると、「あぁいつもの運用情報だなぁ」と
なんだか安心します。

しかしその時目に映ったのは「サーバダウン」の6文字でした。
しかも新スレに移行していて、数百以上もレスがついています。
「こりゃ、何かあったな」と、2ちゃんねる サーバ負荷監視所 http://ch2.ath.cx/load/
チェックしました。

するとどうも、news19 と hobby7 、それから携帯用サーバの様子がおかしいらしいと
いうことに気がつきました。

「あーあ、こりゃ観光はなしかもなぁ」
そんな予感が走りました。
78root▲ ★:2005/05/05(木) 17:58:52 ID:???0 BE:5107878-##
とりあえず、サーバダウンスレを読んでみることにしました。
みんな、かなり騒いでいます。

少しスレの上の方を読んでみると、
・とりあえずnews19とhobby7にアクセスできないこと、
・携帯系サーバがひどいことになっているらしいこと、
・一部サーバのIPアドレスが変わったらしいこと

がわかりました。

この時点で「問題は簡単ではなさそうなので、対応にはしばらく時間がかかるだろうし、
状況把握できるまで不用意に動くとかえって危なそうだ」と判断しました。

437 :220.117.237.222@root▲ ★ :2005/05/03(火) 21:46:31 ID:???0 ?###
ふむ。つまり、

・IPアドレスが変わったらしい
・落ちているマシンがあるらしい

の、2つね。
きちんと状況把握するまで何かするのは、まずそうだ。

PIE方面からメール入っているかもしれないので、
まずはそっちを見てみます。
79root▲ ★:2005/05/05(木) 18:08:04 ID:???0 BE:1915373-##
この後すぐに資材二課の中のおじさんと連絡がとれ、

・maido3.comの中の人の全員召集をかけたこと
・PIEに緊急連絡を入れ、現地には既に人が向かったこと

を、伝えられました。

また、こちらでもサーバの様子をチェックし、その時点で
大きく分けて5つの障害が発生していることが判明しました。

985 :root▲ ★ [sage] :2005/05/03(火) 23:49:30 ID:???0 ?###
で、現在の障害状況

1)banana402のプライベート側ネットワークが落ちている。
no carrierなので、ケーブルが繋がっていないと思われる。

2)banana403に入れない。
pingもかからない状態。

3)tiger510 = hobby7 に入れない。
pingもかからない状態。

4)tiger512 = blackgoat4 に入れない。
pingはかかるが、sshで入れない。
また、プライベート側は ping もかからない。

5)cobra2247のプライベート側ネットワークが落ちている。
no carrierなので、ケーブルが繋がっていないと思われる。
また、外側の接続速度がまだ100Mbpsのままである。
80 ◆Reffi/bQ.c :2005/05/05(木) 18:18:07 ID:u2ljphUm0
5.4RC-4でSCHED_ULE実装されたみたいです。

ttp://www.freebsd.org/releases/5.4R/todo.html
81root▲ ★:2005/05/05(木) 18:19:23 ID:???0 BE:4377986-##
それから、
更新されていなかった maido3.com のDNS情報の更新をお願いしました。

983 :root▲ ★ [sage] :2005/05/03(火) 23:43:39 ID:???0 ?###
2ch.net のDNSは、既に変わっているようです。
ns1.maido3.com ns2.maido3.com で確認しました。

つまり、2ch.net のDNS更新は、既に行われていると思います。

2ch.net のほうの設定が正しいとすると、新アドレスはこうなります。
ただし、tiger510とtiger512は、ログインできていないので、
ほんとうに下記で正しいのかはわかりませんが。

問題なければ、maido3.com のほうの変更をお願いします。

+tiger509.maido3.com:206.223.151.67
+tiger510.maido3.com:206.223.151.62
+tiger511.maido3.com:206.223.151.55
+tiger512.maido3.com:206.223.151.57

993 :資材二課 ★ [sage] :2005/05/04(水) 00:15:17 ID:???0
>>983
done

これにより、maido3.com のDNSサーバが更新され、一つ問題が解決しました。
82root▲ ★:2005/05/05(木) 18:20:04 ID:???0 BE:2280555-##
>>80
おっ。
さっそくex10とlive20に(りゃ。
83root▲ ★:2005/05/05(木) 18:29:08 ID:???0 BE:1094843-##
現地に人(Sean君)が到着し、tiger510 (= hobby7)がリブートされました。
これにより、3) が部分的に解決しました。

次に tiger512 (= blackgoat4)がリブートされました。
これにより 4) が部分的に解決しました。

この時点までに、PIEの中の人が(断りなく)IPアドレスを変更した
tiger509 〜 tiger512 の中身の様子をチェックしました。

その結果、一部ファイルの設定に不備(設定忘れ)が見つかりました。
これは、私がすべて修正しました。

なお、現在もまだ tiger510 (=hobby7) の設定に1箇所軽微な問題
(I/Fを間違って設定している)がありますが、これは運用上はとりあえず
影響がないため、今の時点ではこのまま動作させることにしました。

ここまでで、問題 3) 4) が解決しました。

ただし、IPアドレスの変更によりDNSの設定が変わった場合、
一部プロバイダではDNSの変更の伝達が遅れてしまうため、
約1日程度、一部プロバイダから news19 と hobby7 にアクセスしにくい状態が
発生しました。
84root▲ ★:2005/05/05(木) 18:40:32 ID:???0 BE:2918584-##
IPアドレスが変わったので、このアドレスを各種システムに登録する必要がある
ことを指摘され、その作業を実施しました。

22 :動け動けウゴウゴ2ちゃんねる [sage] :2005/05/04(水) 00:47:51 ID:dvnwhtE80
bbr bby bbs bbxの登録

31 :root▲ ★ [sage] :2005/05/04(水) 01:00:27 ID:???0 ?###
BBS/BBX/BBY/BBR/BBMへの登録完了。
(BBQ/BBEは登録不要)

これ以外に、F22への登録も必要になります。
これは次の日に、ホテルのロビーのホットスポットから作業しました。

また、hobby7の各板の復帰、blackgoat4への携帯振り分けの復活は、
できる方々にそれぞれやっていただけました。
85root▲ ★:2005/05/05(木) 18:45:30 ID:???0 BE:4925096-##
この後、PIEにいるSeanさんと連絡がとれました。

いろいろ話しているうちに、cobra2247が今回の移動作業から漏れていて、
まだ旧ロケーションにあることが判明しました。

そこで私がリモートからシャットダウン・電源OFFを行い、
Seanさんに至急移動するように頼みました。

ここまでサーバを移動してしまったら、最後まで作業して完了まで持っていくほうが、
また戻す作業をするより、壊れたり不具合が発生したりするリスクは少なくなると
判断し、その分の残作業を完遂させることにしました。
で、その旨をSeanさんに伝えました。
86root▲ ★:2005/05/05(木) 18:50:57 ID:???0 BE:3283294-##
次に 1) の問題をSeanさんにチェックしてもらいました。
banana402 はプライベート側のケーブルを「繋ぎ忘れていた」ことが判明し、
ケーブルを繋いでもらいました。

これにより、問題 1) が解決しました。

次にSeanさんがcobra2247を新ロケーションに運んで、
マシンを立ち上げてくれました。

チェックしてみると、プライベート側のネットワークから
他のマシンにpingがとおりません。
キャリア(物理的にスイッチにささっていることを示す)は来ていたので、
ケーブルがいまいちか、あるいは差すポートを間違っているかどちらかじゃないかと
Seanさんに伝えて、チェックしてもらいました。

その結果、Seanさんが刺すポートを間違っていたことに気づき、
正しいポートに差し替えた結果、cobra2247のプライベート側ネットワークは、
正常に接続できるようになりました。

これにより、問題 5) が解決しました。
87root▲ ★:2005/05/05(木) 19:03:17 ID:???0 BE:2736656-##
2) の問題は、ややこしそうでした。

Seanさんからの情報によると「入っていたネットワークカードが正しく動作しなかったので、
内蔵していたネットワークカードで仮立ち上げした」と言っています。

こちらから banana403 にログインしてチェックしてみると、
fxp (そのカード)そのものを認識していません。

「ちゃんと、拡張スロットにカード入ってる?」と、Seanさんに確認しました。
その結果「スイッチのポートを間違えていて、うまくネットワークが接続できなかったので、
Seanさんの知らないところでいったんfxpのカードを物理的に外して、
ラックの外に仮置きしてある状態だった」ということが判明しました。

で、Seanさんが外されていたfxpのカードを見つけ出して再度 banana403 に入れ込み、
IPアドレスを正しく設定して、正しくラックマウントしてくれました。

これにより、最後まで残っていた 2) の問題が解決しました。

それから最後に、Seanさんと二人で各サーバの様子を(Seanさんは外からLEDの様子等をチェック、
私がサーバの中をチェック)チェックし、問題がないことを確認しました。

すべての作業が終わってSeanさんとのICQを切った時には、既に朝の4時を回っていました。

(もうひとつあります)
88動け動けウゴウゴ2ちゃんねる:2005/05/05(木) 19:11:47 ID:2MqrY0JA0
Jimさんに 
      二つ▲
89root▲ ★:2005/05/05(木) 19:14:24 ID:???0 BE:2280555-##
私の作業の途中から、Jimさんがオンラインになりました(現地早朝あたり)。

Jimさんには、以下のことをかなりきつくICQで伝えました。

あなたは2つの大きな間違いをした。

ひとつは、2つの関係ない作業を同時にやろうとしたことだ。
ひとつは壊れたスイッチの修復作業で、もう一つは携帯系サーバの移動作業だ。
これらは本来全く関係がない。関係のないことを同時に進めようとするのは、
問題を複雑化させるだけだ。今後は絶対にしないように。

もう一つは、顧客のサーバに断りなくログインしたこと、そして顧客のサーバや
DNSの設定を勝手に変更したことだ。root権限も含めて顧客にサーバを
レンタルしている場合、顧客に断りなくサーバにログインして、
しかも勝手に設定を変更するというのは、あってはならないことだ。
そういうことをすると、レンタルサーバの業者として全く信用できなくなる。
これはあなたと2ちゃんねるの間の信用の問題であり、絶対にしてはいけない。

Jimさんは平謝りでした。
そして、今後こういうことは二度としないと約束しました。
90動け動けウゴウゴ2ちゃんねる:2005/05/05(木) 19:17:56 ID:Lczv/BRu0
>88
いや、今回はSean君だ
91root▲ ★:2005/05/05(木) 19:20:49 ID:???0 BE:1276872-##
ということで、すべての問題が解決して、
各スレをざっとチェックし終わった時には、既に朝の5:45でした。
急いでシャワーを浴びて着替えて、ホテルをチェックアウトしました。

結果として、

・携帯系サーバはすべて新ロケーション(XO)への移設が完了した
・cobraサーバ、tigerサーバは1Gbps、bananaサーバは100Mbpsで接続された
・いくつかの携帯とは関係のないサーバもXOロケーションに移設されたが、運用上の影響はない

という状態になりました。
ということで、Love Affair作戦をすすめる準備は、結果的にすべて整いました。

ホテルを出たあとは来た経路を逆にたどってインチョンの空港に向かい、
アシアナ航空(OZ)のラウンジで朝飯(タダ)を済ませたあと、
関空に向かって飛び立ちました。

そのあとのことは、また何かの機会にでも。

とりあえず、完。