Sky株式会社には、社内で利用する基幹システムの構築・管理・運用を通じて、業務効率の向上や情報の安全性を確保する部署「Skyスタイル部」があります。今回は私たちが行ったインシデント管理、ポストモーテムの取り組みについてご紹介します。
取り組みの背景
Skyスタイル部には複数のチームがあり、それぞれが多くのシステムの構築・運用を行っています。
これまで、システムでインシデントが発生した際には、各チームが個別に対応して完了していました。そのため、部署全体としてのインシデント管理が十分に行われておらず、どれぐらいインシデントが発生しているのかもわからない状態でした。
目的
IT統制と社内システム管理の観点から、インシデントをしっかりと管理・把握し、部署全体の現状把握と改善を行うことを目的として取り組みを開始しました。
以前のインシデント対応のフロー
以前はインシデントが発生した際、開発チーム内で対応し完了していました。

改善後のインシデント対応のフロー
フローの見直しを行い、以下のように改善を図りました。

①「障害検知」「ユーザー報告」「開発者発見」のいずれかでインシデントの発生を開発者が認知
-
エラーログを検知して障害を検知。社内コミュニケーションツール「SKYWIZ」で通知を送り、開発者がインシデントの発生を認知する仕組みを構築
-
障害通知によるインシデントの検知を行い、ユーザー報告からではなく事前に対策が打てるよう改善
②ユーザーへ障害報告
③調査・対応を行い、ユーザーへインシデント解消の報告
④インシデント報告を作成
- インシデント報告を管理し、件数や影響度の把握。その後改善に活用
ユーザーへの影響度が低いインシデントの場合 → QAチームでインシデント内容を確認し完了
ユーザーへの影響度が高いインシデントの場合 → ⑤⑥を対応
⑤インシデント事後レビューを作成し、開発、SRE、QAメンバー合同でポストモーテムを実施
- 開発、SRE、QAメンバー合同で振り返りを行い、第三者視点やインフラ、品質面の観点も取り入れながら、質の高い振り返りを実施
⑥部内へ展開
- 同じような問題が発生しないよう部内へ横展開
まとめ
少しずつではありますが、障害検知の仕組みによって事前に対策を進めたり、部署全体で品質意識を高めています。
インシデント管理とポストモーテムの取り組みを通じて、システムの安定性と信頼性を向上させ、インシデントの内容を分析しながらさらなる改善を行っていきます。

