ITpro – 三つの障害が連続発生、気象データ配信システムのダウンの経緯が判明
この障害に巻き込まれてたのでメモ。
ふんだりけったりですね。
システムの冗長化は色々考えるべき点が多いので難しいんだけど、ポイントとしてはサーバ、ネットワーク、ディスクの冗長化なのかな。
関わっているシステムでも気象データ配信システムと同じような構成を取っているものがあるんだけど、RAID搭載とはいえ共用ディスクが1台な事とか、ネットワークが冗長化されていないなどSPOFが結構ある気がする。
NICのbondingで運用系、待機系サーバそれぞれから共用サーバに2本ずつ接続し、1本がコケてももう1本で稼動するようにして、なるべく待機系に切り替えさせないといった、解決方法はありそう。







