Giskardは、大規模言語モデル向けのオープンソーステストフレームワークを開発しているフランスのスタートアップ企業です。このフレームワークは、バイアス、セキュリティホール、そしてモデルが有害または有害なコンテンツを生成する可能性といったリスクを開発者に警告することができます。
AIモデルは大きな注目を集めていますが、EUのAI法をはじめとする各国で規制が施行されようとしているため、機械学習(ML)テストシステムも急速に注目を集めるでしょう。AIモデルを開発する企業は、高額な罰金を科せられないよう、一連の規則を遵守し、リスクを軽減していることを証明する必要があります。
Giskard は規制を取り入れた AI スタートアップ企業であり、より効率的な方法でのテストに特に重点を置いた開発者ツールの最初の例の 1 つです。
「以前、Dataikuで、特にNLPモデルの統合に携わっていました。テストを担当していた頃、実際のケースに適用しようとするとうまく機能しない点があり、サプライヤー間のパフォーマンス比較が非常に難しいことに気づきました」と、Giskardの共同創業者兼CEOであるアレックス・コンベシー氏は語った。
Giskardのテストフレームワークは3つのコンポーネントで構成されています。まず、同社はLLMプロジェクト、特に検索拡張生成(RAG)プロジェクトに統合できるオープンソースのPythonライブラリをリリースしました。これはGitHubで既に非常に人気があり、Hugging Face、MLFlow、Weights & Biases、PyTorch、TensorFlow、LangChainといったMLエコシステム内の他のツールと互換性があります。
初期設定後、Giskard はモデルで定期的に使用するテストスイートの生成を支援します。これらのテストは、パフォーマンス、幻覚、誤情報、事実に基づかない出力、バイアス、データ漏洩、有害コンテンツの生成、プロンプトインジェクションなど、幅広い問題をカバーします。
「そして、そこにはいくつかの側面があります。データサイエンティストがまず最初に考えるのはパフォーマンス面です。しかし、ブランドイメージの観点だけでなく、規制の観点からも、倫理的な側面がますます重要になってきています」とコンベッシー氏は述べた。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
開発者は、これらのテストを継続的インテグレーションおよび継続的デリバリー(CI/CD)パイプラインに統合することで、コードベースに新しいイテレーションが追加されるたびにテストを実行できます。問題が発生した場合、開発者はGitHubリポジトリなどでスキャンレポートを受け取ります。
テストは、モデルのエンドユースケースに基づいてカスタマイズされます。RAGに取り組んでいる企業は、Giskardにベクターデータベースと知識リポジトリへのアクセスを提供することで、テストスイートの関連性を最大限に高めることができます。例えば、IPCCの最新の報告書に基づき、OpenAIのLLMを使用して気候変動に関する情報を提供するチャットボットを構築する場合、Giskardのテストでは、モデルが気候変動に関する誤情報を生成したり、矛盾が生じたりしないかなどをチェックします。

Giskardの2つ目の製品は、大規模な言語モデルのデバッグと他のモデルとの比較を支援するAI品質ハブです。この品質ハブは、Giskardのプレミアムサービスの一部です。将来的には、モデルが規制に準拠していることを証明するドキュメントを生成できるようになることを期待しています。
「フランス銀行やロレアルといった企業にAIクオリティハブの販売を開始しています。デバッグやエラーの原因究明を支援します。将来的には、ここにあらゆる規制関連機能を搭載していく予定です」とコンベッシー氏は述べた。
同社の3つ目の製品はLLMonです。これは、LLMの回答をユーザーに返す前に、最も一般的な問題(毒性、幻覚、事実確認など)について評価できるリアルタイムモニタリングツールです。
同社は現在、OpenAI の API と LLM を基礎モデルとして使用している企業と連携していますが、Hugging Face、Anthropic などとの統合にも取り組んでいます。
ユースケースの規制
AIモデルを規制する方法はいくつかあります。AIエコシステム関係者との会話に基づくと、AI法がOpenAI、Anthropic、Mistralなどの基礎モデルに適用されるのか、それとも応用的なユースケースにのみ適用されるのかは依然として不明です。
後者の場合、Giskard は、外部データで強化された LLM (または AI 研究者が言うように、検索拡張生成 (RAG)) の潜在的な誤用について開発者に警告するのに特に適した立場にあるようです。
現在、Giskardには20名の従業員がいます。「LLMのお客様との市場適合性は非常に明確です。そのため、市場で最高のLLMアンチウイルスを提供するために、チーム規模を約2倍に拡大する予定です」とCombessie氏は述べています。
ロマン・ディレットは2025年4月までTechCrunchのシニアレポーターを務めていました。テクノロジーとテクノロジー系スタートアップに関する3,500本以上の記事を執筆し、ヨーロッパのテクノロジーシーンで影響力のある人物としての地位を確立しています。スタートアップ、AI、フィンテック、プライバシー、セキュリティ、ブロックチェーン、モバイル、ソーシャルメディア、メディアにおいて深い知識を持っています。TechCrunchで13年の経験を持つ彼は、シリコンバレーとテクノロジー業界を熱心に取材する同誌のお馴染みの顔です。彼のキャリアは21歳のときからTechCrunchでスタートしています。パリを拠点とする彼は、テクノロジー業界の多くの人々から、街で最も知識豊富なテクノロジージャーナリストとみなされています。ロマンは、誰よりも早く重要なスタートアップを見つけるのを好みます。Revolut、Alan、N26を取材した最初の人物でもあります。Apple、Microsoft、Snapによる大型買収に関するスクープ記事も執筆しています。執筆活動をしていない時は、開発者としても活動しており、テクノロジーの背後にある仕組みを理解しています。彼は過去50年間のコンピュータ業界に関する深い歴史的知識も有しています。イノベーションと社会構造への影響を結びつける方法を熟知しています。ロマンは、起業家精神を専門とするフランスの名門ビジネススクール、エムリヨン・ビジネススクールを卒業しています。テクノロジー分野で女性の教育とエンパワーメントを推進するStartHerや、テクノロジーで難民のエンパワーメントを支援するTechfugeesなど、複数の非営利団体を支援してきました。
バイオを見る