Patronus AIは規制産業向けのLLM評価ツールを生み出します

Patronus AIは規制産業向けのLLM評価ツールを生み出します

かつてMetaで責任あるAIの研究に携わっていた二人のAI専門家を合わせると、魔法のようなことが起こります。Patronus AIの創設者たちは、エラーがほとんど許容されない規制産業を念頭に、大規模言語モデルを評価・テストするためのソリューションを構築するために、昨年3月に集結しました。

同社のCTOであるレベッカ・チアン氏は、Meta AIで責任あるNLP研究を主導し、共同創業者のCEOであるアナンド・カンナパン氏は、Meta Reality Labsで説明可能な機械学習フレームワークの開発に携わってきました。本日、彼らのスタートアップは大きな節目を迎えました。ステルス状態からスタートし、製品の一般公開と300万ドルのシードラウンドの調達を発表しました。

同社は適切な時期に適切な場所にいて、大規模な言語モデルをテストするためのマネージド サービスの形でセキュリティと分析のフレームワークを構築し、問題が発生する可能性のある領域 (特に、正しく回答するためのデータが不足しているためにモデルが回答をでっち上げる幻覚の可能性) を特定しています。

「私たちの製品では、プロセスとモデル評価全体を自動化し、拡張して、問題が特定されたときにユーザーに警告することを目指しています」と銭氏はTechCrunchに語った。

彼女によると、これには3つのステップがある。「まずはスコアリングです。ここでは、金融などの現実世界のシナリオで、幻覚などの重要な基準を用いてユーザーが実際にモデルをスコアリングできるよう支援します」と彼女は述べた。次に、この製品はテストケースを構築します。つまり、敵対的テストスイートを自動的に生成し、これらのテストに対してモデルのストレステストを実施します。最後に、要件に応じて様々な基準を用いてモデルのベンチマークを行い、特定のジョブに最適なモデルを見つけます。「様々なモデルを比較することで、ユーザーが特定のユースケースに最適なモデルを特定できるように支援します。例えば、あるモデルは、別のベースモデルと比較して、故障率や幻覚の発生率が高い場合があります」と彼女は述べた。

テストされたモデルの安全性と熟練度を評価する 1 から 10 までのスコアが表示された Patronus AI テスト出力画面。
画像クレジット: Patronus AI

同社は、誤った回答が大きな影響をもたらす可能性のある、規制の厳しい業界に注力しています。「当社は、企業が使用している大規模言語モデルの安全性を確保できるよう支援しています。モデルがビジネス上機密性の高い情報や不適切な出力を生成する事例を検出します」とカンナパン氏は説明しました。

スタートアップの目標は、モデルの評価において信頼できる第三者になることだと彼は言います。「自分のLLMが最高だと言うのは簡単ですが、公平で独立した視点が必要です。そこで私たちの出番です。Patronusは信頼性のチェックマークなのです」と彼は言いました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

現在、フルタイム従業員は6名ですが、スペースの急速な成長を踏まえ、今後数ヶ月でさらに人員を増やす予定とのことです。具体的な人数は明言していませんが。銭氏は、多様性は当社の重要な柱だと語ります。「私たちは多様性を非常に重視しています。そして、それはパトロナスのリーダーシップレベルから始まります。事業の成長に伴い、インクルーシブな職場環境を創造し、維持するためのプログラムや取り組みを継続的に実施していくつもりです」と彼女は述べました。

本日の 300 万ドルのシードラウンドは、Lightspeed Venture Partners が主導し、Factorial Capital やその他の業界エンジェル投資家が参加しました。

ロン・ミラーは、TechCrunch の企業記者でした。

以前はEContent Magazineの寄稿編集者として長年活躍していました。CITEworld、DaniWeb、TechTarget、Internet Evolution、FierceContentManagementなどで定期的に記事を執筆していました。

開示事項:

ロンは以前、Intronisの企業ブロガーとしてIT関連の記事を毎週1回執筆していました。Ness、Novell、IBM Mid-market Blogger Programなど、様々な企業ブログに寄稿しています。

バイオを見る