システムの導入作業と反省会



10/29から10/30にかけて、遂行中のプロジェクトの導入作業が客先のデータセンターで実施された。
ユーザサービスに影響のない導入作業を10/29の日中に実施し、ユーザサービスの停止を伴う導入作業を10/29深夜から朝にかけて実施する24時間に及ぶ、久々の大型導入作業となった。


今回は深夜の導入作業に立ち会い、切戻し(問題が発生しシステムを導入前の状態に戻すこと)もなく、なんとか無事予定していた導入作業をやり遂げた。


…が、細かい問題がいくつか発生した。


このため、10/31にプロジェクトの導入作業関係者を全員集めミスの原因究明と対策を検討するための反省会を行った。
その中で判明した問題点は以下の通り。

  • 手順書のケアレスミス
  • 環境(ラボ環境、商用環境)の相違による手順のミス
  • キッティングミス(誤ったキットを導入した)



手順書のケアレスミスについては、今回2回も導入リハーサルを実施しているにも関わらず発生していた。
手順書レビューのやり方、リハーサルの実施の仕方を見直す必要があると感じた。


環境の相違によるミスについては、インフラチーム中心に環境毎の相違点を整理してもらい、今後導入手順のチェック項目とすることとした。


今回、最も重大だった問題はキッティングミスである。
キッティングについては、キット作成時のダブルチェックと、導入作業中のチェックサムによるチェックと2重のチェックを行っている。それにも関わらず今回はそれをすり抜け、誤ったキットを導入してしまった。


一歩間違えば、大惨事につながりかねないミスである。


最近、ある品質問題が発生し、プロジェクトメンバー全員で改めて品質強化策を確認した矢先だったこともあり、根本原因(ヒューマンエラー)を聞いて、正直言うとその場で怒鳴り散らしたくなる感情に襲われた。


だけど、冷静に考えると、今回導入体制が弱かった感が否めない。
今回のような大型導入作業にも関わらずそれを、現場で取りまとめて導入作業仕切っていた担当者は一人だった。
担当者は導入手順書のとりまとめ、リハーサルの仕切り、顧客との調整を懸命にこなしていた。
そう考えると、今回の問題の根本原因は、プロジェクト体制の問題だったと言えるし、その全責任はプロマネの私にある。


開発チームやテストチームが最高に仕事をして、どんなに最高品質のシステムを構築しても、最後の導入作業で失敗すれば、そのシステムの品質は最低評価となってしまう。そういう意味で、最後の導入作業は本当に重要な作業である。


今後は体制面も含め、その作業内容について再点検しようと思う。