LANで起きた2重化の問題

 
<−戻る

 

 私は,金銭や安全に直接関わるような非常に重要なシステムの経験はないのですが,業務上24時間停止することができないシステムを経験してきました.そうではなくても,重要なデータや通信経路を取り扱うときには,単一のシステムではなくシステムを2重化してその信頼性を高める方法がいろいろと考えられると思います.その場合,単にシステムを2重化すれば信頼性が高まるのではなくて,2重化することによりシステムが複雑化し,その複雑化によっては逆にシステムの信頼性が低くなってしまうことがあることも考慮しなければなりません.また,複雑化ばかりではなく,信頼性の低い技術を使った2重化もシステム全体の信頼性を落としてしまいます.また,そうしたシステムは,さらには障害からの復旧にも時間がかかります.


LANの構成で経験した2重化での問題

 私の知っている社内LANの担当者は,社内LANがそれまでのイエローケーブルでのバス形式のLANから,スイッチングハブを使ったスター形式のLANへの転換を機にLANを2重化して信頼性を高めようと,同じスイッチを2台使っての2重化を行いました.単に2重化しただけでは,ルーティングのループが発生してしまいますので,第2層レベルでのループ防止方法である,スパニングツリーを導入して順調に稼動させました.

 そこまでは良かったのです.あるとき,全社的な停電があるということで,LANの機器も停電前に停止させ,停電後に起動させました.しかし,起動後にLANの中で予想外の膨大なトラフックが発生してしまい,LANが停止の状態になってしまいました.担当者は,慌てて調査を開始しましたが,なにが起きているのか判別できずに時間が過ぎ,結局,スイッチを導入したベンダーを呼んで対応してもらうことにしました.しかし,そのトラブルが発生した時期が年末であったため,ベンダーも対応が遅れ,停電直後にLANを利用しようとしていた多くの社員には業務の遅れが出てしまいました.

 結局問題は,ある古いブリッジが故障したことでした.スパニングツリーで利用していたルートブリッジと呼ばれる,基点となるべきブリッジが,停電後の起動時に故障してしまい,スパニングツリーを使っていたそれ以外のブリッジやスイッチが,基点のブリッジを探し出そうとしていたかなにかで,LANのなかでパケットのループが起きていたのが原因でした.実はこのときたまたま私は別のシステムの担当でその場に居合わせたので,スニファーを使って,LAN担当者とベンダーと供に一緒に問題を探し,そのルートブリッジの電源を切ることで,解決させることができたのでした.

 これは,たまたまその時はルートブリッジの故障の仕方が変だったから,このような問題が起きたとも言えるかもしれませんが,私は,2重化によって信頼性が低くなったひとつの結果だと考えました.というのも.

  1. もし2重化していなかったら,”ブリッジの1台が故障して,それに接続されている末端の端末が通信できない”,という問題が分かりやすく,全社的な問題にはなっていなかったと思います.

  2. 2重化していたとしても,設計上,弱い部分があるかもしれないので,その部分は何かを理解して,あらかじめ対応をしておくことで障害は短時間で復旧できたと思います.この場合は,LAN担当者がスパニングツリーに関する知識が乏しかったために,ベンダーを呼ばなければ対応できな状態になってしまいました.また,なぜルートブリッジが障害が起きそうな古いブリッジになっていたのか,設計上の問題もありそうでした.

  3. もし,2重化していない状態で,別の部分のトラブルだったらどうだったでしょうか.2重化しているスイッチの故障に関しては,同じコストをかけていた場合,同じスイッチが2台あるはずなので,別の1台を切り離した状態で同じ設定でスタンバイさせておけば,短時間に回復できたでしょう.そうでなくても,ベンダーを呼ぶのであれば,2重化しなくても,調査時間が短くてすむ分,今回の問題よりも修理時間は短かったかもしれません.

  4. この構成の2重化の利点は,2重化しているスイッチの片側の障害に対して自動で他方が通信経路を補うため,停止時間なしで運用できる点です.この要求のレベルがどうであるかによって,この方法を選ぶべきだったと思います.

 私は,この社内LANの稼働率の要求レベルとLAN担当者の技術レベルから考えると,

2重化をするよりは,単純なスター型のLANを作り,2台あるスイッチの1台は切り離した状態でスタンバイさせ,障害時には,スタンバイした予備機を利用する.

といった,分かりやすい方法が良いと考えました.実際には,その後,私の提案通りにLANの構成は変更され,大きな問題もなく,高い稼働率で運用が行われています.


以上が,LANで起きた2重化の問題でした.中途半端な知識や設計で2重化を稼動させるよりは,単純な方法で2重化なしで稼動させていた方が,良い場合もあります.

 

<−戻る

Last Update:03/04/24 , Wasabi