
カオスエンジニアリングツールで知られる信頼性テストのスタートアップ企業Gremlinは本日、「Detected Risks(検出されたリスク)」機能のリリースを発表しました。この機能により、GremlinはKubernetesベースのサービスにおける設定ミスや不適切なデフォルト値といった優先度の高い信頼性の問題を自動的に特定し、それらがもたらすリスクの重大度に応じて分類できるようになりました。また、潜在的な修正方法も提案します。
「信頼性の重要性はますます高まっています」と、グレムリンのCTO兼創設者であるコルトン・アンドラス氏は述べています。「デジタルインフラは物理インフラと同様に重要です。政府、医療、交通、通信、金融など、あらゆる分野がこのデジタル基盤に依存しており、そこにはリスクが伴います。幸いなことに、これらのリスクの多くは、もしリスクが分かっていれば、簡単に軽減できます。だからこそ、私たちは新たに「検出されたリスク」を発表できることを大変嬉しく思っています。私たちは、お客様のシステムにおける深刻な問題を迅速に特定し、お客様がこれらのリスクを軽減することで、システムの質的な向上を実現できるよう尽力してきました。」

Gremlinのカオスエンジニアリングツールは、企業のインフラを限界まで押し上げる可能性のある異常な状況を探知しますが、Detected Risksは事前に設定された一連のテストを使用します。今年後半にはさらに20種類のテストが追加される予定です。これらのテストは、企業のインフラの信頼性と回復力に影響を与える可能性のある一般的な問題をチェックします。Detected Risksは、カオスエンジニアリング実験や信頼性テストを実行することなく動作します。
これらのテストは概ね非常に単純で、冗長性を確保するためにデプロイメントが複数のアベイラビリティゾーンで実行されるように構成されていることを確認するといったベストプラクティスを網羅しています。これは常識のように思えるかもしれませんが、Gremlinは顧客が運用する数千のデプロイメントを調査した結果、26%のデプロイメントに冗長性がまったくなく、80%のデプロイメントに2つの冗長性がないことが判明しました。同社によると、このシステムは、例えば自動スケーリングに影響を与える可能性のあるKubernetesの一般的な構成ミスも検出します。
「私たちの業界には、これらの問題に個別に対応するために懸命に取り組んでいる優秀なSREが数多くいますが、そのアプローチはスケールしません」とAndrus氏は述べています。「私たちは、何千もの実世界のアプリケーション全体にわたって貴重な洞察を提供する、使いやすいツールを構築することで、この問題を解決しています。エンジニアリングリーダーに既存のリスクの可視性を提供することで、彼らはこの重要な作業を優先順位付けして達成することができ、顧客体験を守りながら高品質なソフトウェアを構築し続けることができるようになります。」
トピック
フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。
バイオを見る