|
サーバの温度異常トラブル |
| <−戻る |
|
システム管理を長年やっていると,いろいろなトラブルに遭遇します. 2002年の年末頃に起こった出来事に,NTサーバでの,温度異常のトラブルがありました.サーバは立ちあがることは立ちあがるのですが,最終的には1時間間隔ぐらいでクールダウンのためにリブートが発生してしまい,そのまま使いつづけるのは困難な状態になってしまいました.このサーバはNTで,約5年前のモデルですが,さすがにサーバマシンはCPUの温度が異常になっても暴走するようなことはなく,自らが温度を計測して,規定値を超えた場合には,自らが自動的にシステムを停止してクールダウンを行います.約5分ほどクールダウンして温度が下がったのを見計らって,自動的に再起動がかかります.このインターロックが働いているために,最悪の事態だけは免れてはいました.しかし,1時間に5分の停止では,ユーザが安心して使っていられない状態です. このトラブルには前兆がなかったわけではないのです.約1年ほど前に,同じサーバでは温度異常のリブートが発生していました.しかし,その時は,サーバの設置してある場所のコンピュータ室の温度上昇のトラブルが発生していて,その時に起きたので本体そのものの異常とは認識されませんでした.また,1ヶ月ほど前にも温度異常が2度ほど連続して発生していました.その時は,コンピュータ室の温度は問題なかったので,サーバの内部の埃が問題だろうと考え,サーバの内部の掃除を行いました.この時は,電源ファン周りやCPUファン周り,など埃がたまりやすいところはすべてエアスプレーできれいに掃除しました.そして,その後は約1ヶ月間,問題なく稼動していました.そしてまた温度異常が発生しました. 最初は2日連続してそれぞれ1日に1回づつリブートが起きました.週の初めのころであったのですが,この程度の停止はユーザの許容範囲内だったので,私は週末にサーバを予備機に入れ換えようと考えました.そして,今回は,サーバ内部で掃除するところもないので,サーバの蓋をあけて室内の冷機が直接内部にあたるように,緊急にファンを取り付けて対応することにしました.私は,これはサーバの温度センサーの異常でマザーボードの交換しかないとだろうと考え,予備のサーバへのデータ載せ換えの方法を検討していました. しかし,2−3日するとリブートの時間間隔がどんどん短くなり,1時間間隔になってしまっていました.仕方なく,緊急メンテナンスの時間を取り,サーバの入れ替えを実行することにしました. このサーバは,大容量のディスクアレイを搭載していたため,サーバの入れ換え方法は,予備のサーバに,今稼動しているサーバにPCIで接続されているアレイコントローラを差し替えて,ディスクアレイはそのまま利用するようにしました.実際に移行作業を開始して,3枚のアレイコントローラも1枚づつ丁寧に取り外し,エアーできれいに吹いて取り付けていきました. ところが,このとき,このアレイコントローラから予想外の埃が飛び出してきました. 実はこのアレイコントローラは,基盤が2枚重ね出構成されていて,その間に埃がたまりやすいような構成になっていたようです.これまで,CPUやファンの周りの埃に注意が行ってしまっていたが,こんなところにも埃がたまる場所があったのでした.実際にはPCIの基盤を取り出してみないと掃除はできないような構成ではあったのですが. 一応それでも,サーバは予備機の方で稼動させるようにしてユーザリリースをしましたが,案の定その後は,サーバの温度異常は発生しませんでした.また,これまで温度異常を出していたサーバも,立ち上げた状態でテストをしていますが,温度異常は発生していません.やはりアレイコントローラの基盤のすきまの埃が原因であったと思われます. 今回のトラブルは一応解決はしましたが,サーバの埃対策の重要性が改めて感じられたトラブルでありました.そして,これからは,年末一斉のサーバのメンテナンスの時には,サーバ内部の清掃という項目が追加されることになりました. |
|
Last Update:03/04/24 , Wasabi |