商用システム作業におけるリスク管理



先週から約一週間に及んだ、プロジェクトの商用システムリリース作業が、残作業も含めて、昨日やっと全て終了した。
小さい問題は発生したけど、予定通りに終了できたという事で、概ね成功と言って良いと思う。
リリース作業を担当したみなさん、本当のご苦労様でした!


僕自身もサービス停止を伴う深夜作業の現場に2度も立ち会ったため、しばらく時差ボケのような状態が続いて、正直きつかった。


さて、うちのチームでは以前からやっていることだけど、顧客商用システムの作業において、作業リスクの一覧を対応策まで含めて可能な限り挙げて、作業手順書に記載しておくとよい。
作業リスクとしてあげる内容は、商用システム作業中に発生しそうな事故やミスなど、"本番の作業中にこんなことが起きたら嫌だなぁ"。と、思うことを手順書レビューの場などでみんなで、想像力を働かせてその対策も含めて洗い出しておく。
例えば、「データ移行作業中に(偶然にも)ディスク障害が発生した場合の対応策」など。


問題は事前に予測できていれば、仮に発生しても慌てずに済む。
リカバリプランAを発動!」のような冷静な対応ができる。
また、問題を事前に全員で話し合うことで、予防措置を講ずることができる点も大きい。


緊迫する商用作業などでは特に、リスク管理はその効果を発揮する。