Double-Takeサーバを再起動

Double-Takeが稼働しているファイルサーバから「Kernel memory was exhausted.」とアラートが発報されていたので再起動した。

こういうHAとかレプリケーションとかクラスタリングのサーバを再起動するときは手順に気を使う。

順番としてはフェイルオーバーを解除して、LAN接続を切って、レプリケーションを解除して、予備系サーバ、主系サーバの順で再起動して、逆手順で接続していく。

これ、マニュアル化されてたとしてもその意味理解できてないと手順間違えたときにデータが簡単に壊れる。

  1. フェイルオーバ切るのは作業中にフェイルオーバしないように。よって、2でLAN接続が切れた時点でフェイルオーバさせないために前にやる。
  2. LAN接続を切るのは作業中の予備系、主系の差分を少なくするために。よって、3でレプリケーション解除する前にやる。
  3. レプリケーションを解除するのはいきなり予備系を再起動すると予備系に書き込まれるデータが損失する可能性があるため、といってもおそらく上手くやってくれるが念のため。よって、4の予備系再起動の前にやる。
  4. 予備系、主系の順で再起動。主系再起動した時点でレプリケーションが始まるから3やった意味がなくなるのでこの順。

というわけでこの順になる。

Double-Takeに限らず、仮想化でもストレージでも「HAだから落ちないよ!」なんてのはマーケティング上の話であって、少なくともそれを技術者が過信しちゃダメ。

最終更新時刻: 2011年09月13日

ここのtDiaryを3.1にアップデートした

ここのtDiaryを3.0から3.1にバージョンアップした。

今のところ不具合無し。

最終更新時刻: 2011年09月13日