【Project peko】2ch特化型サーバ・ロケーション構築作戦 Part18

このエントリーをはてなブックマークに追加
469root▲ ★
○ 5月20日24:00前に発生した、XOロケーションにおける電源トラブルについて

Jimさんからの報告によると今回のトラブルの原因は、tigers、tiny tigersと
高性能スイッチに電源を供給している電源系統のオーバーロード
(使用許可容量超過)による、安全ブレーカーの断であった、とのことでした。

PIEに限らず一般的にデータセンターでは、通常このようなことが起こらないように、
各サーバやスイッチの消費電力を計算したうえで、1つの電源系統から
過剰に電源をとらないように、電源の配置をあらかじめ考慮しておくわけですが、
今回、「後付」でCPUを追加したため、1台あたりの消費電力が
当初の想定よりも大きくなり、それが6台分積み重なったことで、
電源のオーバーロードが起こってしまったわけです。

ではなぜtiny tigerをつないで動かし始めた時点でオーバーロードが発覚しなかったのか、
という点についてですが、これはあくまで私の推測ですが、たぶん該当の電源系統は
CPUを増設した時点ではたまたま「オーバーロードになるぎりぎり一歩手前の状態」
になっていたのでしょう。

で、その状態で日本が23:00を迎え、いつものようにlive20やnews19やgame10や
hobby7へのアクセスや書き込みがピークを迎え、携帯サーバやBlackGoatへの
アクセスがピークを迎えることで各サーバの消費電力が増し、
24:00のMAX値のところで「バチン」と、安全ブレーカーが働いたのだと、推測されます。

で、Jimさんたちは改めて現在の消費電力を見積もりなおし、各サーバ・スイッチの電源を
再配置することで、問題を解決したようです。

以上、原因を隠しておく方が信頼度が下がると判断し、
私の判断で状況を正直ベースで書くことにしました。
470root▲ ★:2005/05/21(土) 03:39:59 ID:???0 BE:1642829-##
つまりまとめると、

1) 今回のトラブルの原因は、ヒューマンエラーであった
2) Jimさんたちは、今回の件により、ひとつ経験を積んだ
3) 運良く、ハードウェアや掲示板のデータそのものには、障害は発生しなかった
おまけ) ex10やetc4やqb5は、たまたま場所・電源ともに別系統だった

ということになります。

私は、今回の件については、きちんと「原因」を報告してくれたことと、
上記の「3)」と「おまけ」の部分にめんじて、今回限りという条件つきで、
許すことにしました。

ということで、game10 / hobby7 / news19 / live20 のユーザの方々、
また携帯系サーバのユーザの方々には、たいへんご迷惑をおかけいたしました。

以上です。