|
システム状態の監視 |
| <−戻る |
|
システムの稼働率を上げるためには,システムの稼動状況を監視することも大切です.システムのちょっとした異常にも早めに気づくことによって,対応が早まり,大きなトラブルを事前に食い止めることもできるからです.ここでは,私が考える共通のサーバの監視の項目を紹介しようと思います. 1. PINGによる,サーバの生存確認 もっとも,簡単な監視の方法はPINGを使う方法です.他のマシンから監視対象のマシンにPINGを打って,通信可能かどうか確認します.このPINGによる生存確認を5分から10分間隔で行うように,プログラムを組み,常時稼動させます.PINGによるエラーが出たときには,アラームがなるような仕組みを作っておくと,ユーザに指摘される前にサーバのダウンを発見できるようになります.ただし,アプリケーションのみの異常の時には,うまく検知できないし,ネットワークのダウン時やPING元サーバのダウン時には,正しい結果が出ないなどの問題点もあります.監視対象のマシンが多い場合や,他のサイトのサーバへの通信確認も同時に行いたいときには効果があります. 2. CPUの負荷 CPUが常に100%に近い状態で動作しているようでは,正常な動作とは考えられません.CPUの負荷の状態も監視したいところです.リモートでは,簡単には無理かもしれませんが,WindowsサーバでもUNIXサーバでも,パフォーマンスを監視するツールが標準ソフトとして付いてきます.これらは,画面にグラフで表示する場合と現在の値をリアルタイムで表示するものとがあります.どちらでも良いので,画面に表示させておくと,CPUの負荷状態が分かります. 3. メモリの使用状況 メモリの使用状況も,CPUと同様に,たいてい標準で付いてくるソフトで対応することができます.監視したい値は,物理メモリの使用量,空き容量,仮想メモリの使用量,空き容量,ページングの頻度などです.物理メモリの使用量は,パフォーマンスに直接影響が出てきますし,常に使用量が多く,アプリケーションも正常ならば,今後のメモリの増設も考えなければいけないでしょう.日がたつにつれて徐々にメモリが減っていく場合には,アプリケーションのメモリーリークも考えられます. 4. HDの使用状況 HDの残り容量も重要です.サーバなどは,ログがたまってしまい,気が付いたらHDの残り容量が無くなっていたなんてこともありえると思います.ログの自動的な削除も大切ですが,HDの残り容量の監視も必要です.特にユーザ領域は,日ごろから監視しておかないと,HDの残り容量不足で,業務に影響を与えてしまうことも考えられます.ユーザに急にデータを消してもらうのも難しいでしょうし,急に増設することも難しいでしょう.日ごろから監視して,中長期的にプランを考えておいたほうが良いと思います. 5.ネットワークの負荷(IN/OUTバイト数) ネットワークの負荷を見るために,サーバから出入りするデータ量を計測します.バイト数の変わりに,IN/OUTパケット数でも構わないと思います.通常サーバやネットワーク機器では,SNMPのエージェントが簡単に動作可能です.このネットワークデータは,たいていSNMPエージェントが動作していれば,データの収集が可能になります.ただし,SNMPのデータを収集するためのSNMPマネージャと呼ばれるソフトウェアが必要になります.SNMPマネージャは,市販品でも,フリーでもあります.市販品の代表的なものにはHP Openview,フリーでの代表的なものにはMRTGがあります.市販品の方が設定がしやすかったリ,機能が豊富だったりしますが,必要な基本動作はMRTGでも十分だと思います.また,ネットワークの負荷だけなら,OS付属のSMNPエージェントからデータが収集できますが,メーカー依存のSNMPを使うことで,(拡張されたMIBが使えるようになり)上で述べたCPUの負荷,メモリの状況,HDの使用率のデータも収集が可能な場合もあります. この5つが,私の考える基本的な部分の監視項目です.日ごろからこれらの正常な値を把握しおくことで,異常な値となったときには,トラブルの原因の早期発見の良い判断材料にもなると思います. もちろん,サーバによっては,さらにアプリケーションに依存する部分の監視が必要なこともあります.データベースのトランザクションの状況や,Webのアクセス状況などです.その場合でも,この基本的な監視データと組み合わせて,監視を行えば良いと思います.
|
| <−戻る |
|
Last Update:03/04/24 , Wasabi |