Sky Style Blog(スカイ スタイル ブログ)

記事検索

検索ワードを入力してください。

【IT統括本部​ Skyスタイル部​】インシデント管理と​ポストモーテムの​取り組み

【IT統括本部 Skyスタイル部】インシデント管理とポストモーテムの取り組み

Sky株式会社には、社内で利用する基幹システムの構築・管理・運用を通じて、業務効率の向上や情報の安全性を確保する部署「Skyスタイル部」があります。今回は私たちが行ったインシデント管理、ポストモーテムの取り組みについてご紹介します。


取り組みの​背景

Skyスタイル部には複数のチームがあり、それぞれが多くのシステムの構築・運用を行っています。
これまで、システムでインシデントが発生した際には、各チームが個別に対応して完了していました。そのため、部署全体としてのインシデント管理が十分に行われておらず、どれぐらいインシデントが発生しているのかもわからない状態でした。

目的

IT統制と社内システム管理の観点から、インシデントをしっかりと管理・把握し、部署全体の現状把握と改善を行うことを目的として取り組みを開始しました。


以前の​インシデント対応の​フロー

以前はインシデントが発生した際、開発チーム内で対応し完了していました。


改善後の​インシデント対応の​フロー

フローの見直しを行い、以下のように改善を図りました。

①​「障害検知」​「ユーザー報告」​「開発者発見」の​いずれかで​インシデントの​発生を​開発者が​認知

  • エラーログを検知して障害を検知。社内コミュニケーションツール「SKYWIZ」で通知を送り、開発者がインシデントの発生を認知する仕組みを構築

  • 障害通知によるインシデントの検知を行い、ユーザー報告からではなく事前に対策が打てるよう改善

②ユーザーへ​障害報告

③調査・対応を​行い、​ユーザーへ​インシデント解消の​報告

④インシデント報告を​作成

  • インシデント報告を管理し、件数や影響度の把握。その後改善に活用

ユーザーへの影響度が低いインシデントの場合 → QAチームでインシデント内容を確認し完了

ユーザーへの影響度が高いインシデントの場合 → ⑤⑥を対応

⑤インシデント事後レビューを​作成し、​開発、​SRE、​QAメンバー合同で​ポストモーテムを​実施

  • 開発、SRE、QAメンバー合同で振り返りを行い、第三者視点やインフラ、品質面の観点も取り入れながら、質の高い振り返りを実施

⑥部​内へ​展開

  • 同じような問題が発生しないよう部内へ横展開

まとめ

少しずつではありますが、障害検知の仕組みによって事前に対策を進めたり、部署全体で品質意識を高めています。
インシデント管理とポストモーテムの取り組みを通じて、システムの安定性と信頼性を向上させ、インシデントの内容を分析しながらさらなる改善を行っていきます。


キャリア採用 社内SE部​門 積極採用中
ホームに戻る
Categoryカテゴリー
ページのトップへ