はじめに
パブリッククラウドの利用が一般的になり、導入障壁も下がっている昨今ですが、特定の外部サービスに依存することで、業務が止まる事態が発生するとなるとその現実は無視できません。
実際にクラウドサービスの障害によって、多くの企業に影響が出るニュースを目にする機会も増えています。
対処できる障害かどうかは別問題として、クラウドとオンプレミスでの単一障害点のリスクについて考えてみたいと思います。
単一障害点(SPOF: Single Point of Failure)とは?
システムやネットワークにおいて、一か所が故障するだけで全体の機能が停止してしまうような脆弱な箇所を指します。例えば、システム内で唯一のルーターやサーバーが故障すると、システム全体が停止してしまう場合が、これに該当します。
システムを検討する際の考え方の違い
パブリッククラウド
クラウドプロバイダーが提供する冗長化機能や分散配置のオプションを活用することで、単一障害点のリスクを軽減します。スケーラビリティや柔軟性が高く、迅速にリソースを追加・削減できるため、コスト効率も良いです。
オンプレミスシステム
自社で物理的な冗長化や分散配置を行う必要があり、高い初期投資と運用コストが伴います。カスタマイズの自由度が高い反面、管理の複雑さが増します。
パブリッククラウドにおける単一障害点の例
- アベイラビリティゾーンの障害
- クラウドサービスの依存 ★今回の障害はこちらのリスク。
オンプレミスシステムにおける単一障害点の例
- データセンターの障害
- ネットワーク機器の障害
各クラウドベンダーが推奨する考え方・ベストプラクティスを適用していたとしても、パブリッククラウドのサービス提供自体に問題が発生すると、影響は避けられません。
※オンプレミスでの冗長化による予備系を用意するのとは、考え方が異なる。
最悪ケースで、業務が止まるリスクがあることが分かっている場合、次の策が考えられます。
- そのリスクの発生が可能な限り低減する手法・設計を検討する。(リスク回避)
- もしくは、発生頻度・影響から判断してリスクを受け入れる。(リスク受容)
ただ、パブリッククラウドのSLA:月間稼働率99.99%とした場合、システム停止する時間は約4.32分/月(年間52分)です。
この「4分半/月」にどれだけのコストを掛けるかは、システムの重要性に大いに依存します。
今回のような大規模障害の発生リスクを、SLAと同列で考えること自体が無意味ですが、どういったリスクにどこまで対処するのか、を考えるのは、非常に重要な観点と思います。
一般的な対策案としても、
- 冗長化
- マルチAZ(アベイラビリティゾーン)構成
- マルチDNSプロバイダーの利用
- マルチクラウドまたはハイブリッドクラウド戦略
など、我々が提案できる案としてもいくつかあると思います。
ただ、我々としては、お客様が事業判断として決断できる内容で提案できることが最も重要と考えています。
※SLA:月間稼働率99.99%の場合、残り0.01%の年間52分にどれだけコストを掛けるかの判断。
最後に
パブリッククラウドをビジネス利用する際、単一障害点の発生を防ぐことは非常に重要です。
Sky株式会社は、様々な手法を駆使してお客様のシステムを最適化し、ビジネスの継続性を確保するためのサポートを提供しています。
クラウド環境の導入や運用に関するご相談がございましたら、ぜひお気軽にお問い合わせください。

