「おい、そこは入ってはいけないぞ」といった警備業務は、建物やカメラがいくつか設置されると、たちまち複雑化し、不可能に近い仕事へと変貌します。一体誰があらゆる場所を一度に監視し、問題発生時に適切なタイミングで人を送り込んで対応できるでしょうか?Ambient.aiはAIがそれを可能にすると主張した最初の企業ではありませんが、実際に大規模に実現したのはおそらく同社が初めてでしょう。そして、成長を続けるために5200万ドルを調達しました。
今日のセキュリティプロセスの問題点は、誰もが指摘できるものです。数十台、数百台のカメラが設置された現代の企業や学校のキャンパスでは、膨大な映像とデータが生成され、専任のセキュリティチームでさえ対応に追われることになります。その結果、重要な出来事を見逃してしまう可能性が高いだけでなく、誤報やノイズに悩まされることになります。
「被害者は常にカメラを見て、誰かが助けに来てくれることを期待しています…しかし、実際にはそうはなりません」と、Ambient.aiのCEO兼共同創業者であるシカール・シュレスタ氏はTechCrunchに語った。「最良の方法は、事件が起こるまで待って、ビデオを撮影し、そこから対応することです。私たちにはカメラ、センサー、そして警官がいます。欠けているのは、その中間にある頭脳なのです。」
シュレスタ氏の会社が目指しているのは、明らかに「脳」の提供だ。ライブセキュリティ映像用の中央視覚処理装置で、何か異常が発生した際にそれを察知し、適切な担当者に即座に知らせることができる。しかし、こうした取り組みを脅かす偏見や顔認識機能は備えていない。
これまでにもこのアイデアに着手した企業はあったものの、本格的な採用には至っていません。シュレスタ氏によると、第一世代の自動画像認識は単純な動き検出で、画面上のピクセルが動いているかどうかをチェックする程度で、それが木なのか侵入者なのかといった情報は一切ありませんでした。次に登場したのは、ディープラーニングを用いた物体認識で、手に持った銃や割れた窓ガラスの識別が可能になりました。これは有用ではありましたが、機能には限界があり、メンテナンスもやや手間がかかり、シーンや物体に特化した大量のトレーニングが必要でした。
「人間が映像を理解するために行っていることを見ると、他にも多くの情報を取り入れているということに気づきました。例えば、人物は座っているのか立っているのか?ドアを開けているのか、歩いているのか走っているのか?屋内なのか屋外なのか、昼なのか夜なのか?これらすべてを統合して、シーンの包括的な理解を構築します」とシュレスタ氏は説明した。「コンピュータービジョンインテリジェンスを用いて、映像から様々なイベントを抽出します。あらゆるタスクを分解し、インタラクションやオブジェクトなどのプリミティブと呼び、それらの構成要素を組み合わせて『シグネチャー』を作成します。」

特徴とは、「夜間に長時間車内に座っている人」や「セキュリティチェックポイントで誰とも接触せずに立っている人」など、実に様々なものを指す。中にはチームによって調整・追加されたものもあれば、モデルが独自に導き出したものもあり、シュレスタ氏はこれを「一種の管理された半教師ありアプローチ」と表現した。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
AIを使って一度に100本のビデオストリームを監視することのメリットは、たとえAIが人間の80%程度の異常検知能力しか持たないとしても明らかです。注意散漫や疲労、あるいは目が2つしかないといった欠点がなく、AIは時間やフィード数に制限なく、そのレベルの精度で監視を実行できます。つまり、監視成功率は実際にはかなり高いのです。
しかし、数年前の銃器だけを探すプロトタイプAIシステムでも同じことが言えたかもしれません。Ambient.aiが目指しているのは、より包括的なシステムです。
「私たちは、プライバシー・バイ・デザインという理念に基づいてプラットフォームを構築しました」とシュレスタ氏は述べた。「AIを活用したセキュリティといえば、顔認識が当然のように機能の一部だと思い込んでいますが、私たちのアプローチでは、膨大な数のシグネチャイベントを活用できるため、顔認識をすることなくリスク指標を得ることができます。何が起こっているかを示す画像とモデルが1つだけというのではなく、システム内でより詳細な情報を提供できる様々なブロックが用意されています。」
本質的には、これは認識される個々の行動をバイアスフリーに保つことによって実現されます。例えば、誰かが座っているか立っているか、あるいはドアの外でどれくらい待っているかなど、これらの行動のそれぞれを監査し、人口統計やグループを超えて検出できるとすれば、それらの推論の総和も同様にバイアスフリーであるはずです。このようにして、システムは構造的にバイアスを低減します。
しかしながら、バイアスは陰険で複雑であり、それを認識して軽減する能力は最先端の技術に追いついていないことは言わざるを得ません。それでも、シュレスタ氏が述べたように、「バイアスの可能性のあるものに対する推論カテゴリーがなければ、バイアスがそのような形で現れることはない」というのは直感的に正しいように思えます。そうであることを祈りましょう!

これまで、この分野でスタートアップがいくつか誕生しては消えていくのを見てきました。だからこそ、これらのアイデアを公に示すことが重要なのです。Ambient.aiは、自社について比較的沈黙を守っているにもかかわらず、多くのアクティブな顧客を抱えており、製品仮説の実証に貢献してきました。もちろん、ここ数年は例年通りのビジネス展開とは言えませんでしたが…もしAmbient.aiがうまくいかなかったら、「時価総額上位5社の米国テック企業」が顧客になるとは想像しがたいでしょう(実際、彼らは顧客です)。
ある「フォーチュン500テクノロジー企業」で行われたあるテストは、「テールゲーティング」を減らすためのものでした。テールゲーティングとは、許可された人のすぐ後ろからセキュリティエリアに入る行為です。誰もそんなことはしないと思っているかもしれませんが、最初の週に2000件ものインシデントを特定しました。しかし、インシデントのGIF画像をほぼリアルタイムで警備員に送信することで(おそらく警備員は違反者に指を振り、注意したのでしょう)、その数は週200件にまで減りました。今では週10件ですが、おそらく私のような人間が起こしたのでしょう。

Ambient.aiが記録した別のテストケースでは、学校の防犯カメラが営業時間外に誰かがフェンスをよじ登る様子を捉えていました。警備責任者はすぐに映像を受け取り、警察に通報しました。その男には前科があったことが判明しました。ここで私が言いたいのは、学校の敷地内を封鎖する必要があるということではなく、このシステムはそれを実現するのに役立つということです。しかし、この資料には別の点も記載されていました。つまり、システムは「誰かがフェンスをよじ登っている」という情報と、「8時45分より少し前によく起きる」といった他の情報を組み合わせることで、近道をする子供たちが警察に通報されるのを防ぐことができるということです。また、AIはフェンスをよじ登ること、転落すること、徘徊することの3つの行動を区別することもできます。これらの行動は状況によって重要になる場合とそうでない場合があり、状況によっては重要になるかもしれません。
Ambient.aiは、システムの柔軟性の一因として、こうした「プリミティブ」を現場のニーズに合わせて簡単に再配置できることを挙げている。例えば、誰かがフェンスを登っても、落ちない限りは気にしない、といった具合だ。また、「ああ、誰かがフェンスを切っている時はこんな感じか」といった新しい状況を学習できる点もシステムの柔軟性に寄与している。チームは現在、約100件の疑わしい行動の「シグネチャー」を保有しており、今後1年間でその数を倍増させたいと考えている。
既存の警備員が携帯電話や無線機を爆破する対象をより細かく制御できるようにすることで、彼らの効率性を高めることができます。これにより、時間の節約と成果の向上が期待できます(Ambient.aiによると、一般的な警報音の発生件数を85~90%削減できるとのことです)。また、AIを活用した映像の分類は、記録やアーカイブの作成にも役立ちます。「夜間にフェンスをよじ登る人の映像をすべてダウンロードする」という指示を出す方が、5,000時間分の映像を手作業で精査するよりもはるかに簡単です。
5,200万ドルの資金調達ラウンドはa16zが主導したが、個人投資家にも名だたる面々が名を連ねている。ロン・コンウェイ氏、Yコンビネーターのアリ・ロウガニ氏、Oktaの共同設立者フレデリック・ケレスト氏、CrowdStrikeのCEOジョージ・カーツ氏、マイクロソフトのCVPチャールズ・ディートリッヒ氏、その他何に投資しているかを知っている人物が数人いる。
「今は特別な時代です。セキュリティ担当者には、これまで以上に多くのことが求められています。すべてのフィードを誰かが監視する必要がないという基本的な提案は、普遍的なものです」とシュレスタ氏は述べた。「私たちはセキュリティに1200億ドルという巨額の資金を費やしています。しかし、成果が出ていないのはおかしなことです。インシデントを防げていないのです。すべての道が収束に向かっているように感じます。私たちは、組織が導入し、将来を見据えたセキュリティを実現できるプラットフォームになりたいのです。」