不完全なものを組み合わせて完全なものを作り出す
機械は故障しますし、人はミスをするものです。どのようなシステムであっても、この機械と人との不完全なものの組み合わせでできていますので、完全ではありません。
システムを冗長化したり、二重化したりと、対策はいろいろありますが、もちろんそれでも完全ではありません。システムの停止や動作不良は、おきて当たり前と考えてくれればよいのですが、そうも行きません。
ほとんどの長期の時間帯は、システムは正常に動いていますので、ユーザにとっては、動いていることが当たり前になってしまうのでしょう。
このような、不完全なものを組み合わせて、どこまで完全にするか
が、システム管理者(構築者)の腕の見せ所ではないでしょうか。
どこがどのように故障するかを見極めて、自動で切り替える部分を決める。予備はどれくらい持つべきか決めておく。こういったことが基本になるでしょう。
稼働開始したシステムであれば、変更が難しいのでの自由度は限られると思いますので、シングルポイント部分をチェックして予備機を購入しておく、と言ったことも必要になります。
さらに、システムが故障した後のことをイメージできればなおよいと思います。
システムが二重化されていれば安心と思われがちですが、一系統が故障すると、残りの一系統で運用しなければならなくなってしまいます。故障した一系統の修理時間がきわめて短く、その場でできればよいのですが、
残り一系統になった場合には、運用する側は結構不安です。
できれば、一系統が故障しても、大丈夫なように、予備機器を確保しておくのが良いと思います。24時間運用には、現用機とすぐ切り替え可のホットスタンバイ予備機、さらに、1台故障時の入れ替えのためのコールドスタンバイの予備機、と同一機器は3台あるのが理想的です。
Since Feb. 19th, 2003