土曜日、トリプルガンガーズのCEO、オレクサンドル・トムチュク氏は、自社のEコマースサイトがダウンしたという警告を受けた。これは、何らかの分散型サービス拒否攻撃によるものと思われる。
彼はすぐに、犯人は OpenAI のボットであり、彼の巨大なサイト全体を執拗にスクレイピングしようとしていることを発見しました。
「6万5000点以上の商品を扱っており、それぞれの商品にページがあります」とトムチャック氏はTechCrunchに語った。「各ページには少なくとも3枚の写真があります。」
OpenAIは、数十万枚の写真とその詳細な説明をすべてダウンロードしようと、「数万」のサーバーリクエストを送信していた。
「OpenAIはデータ収集に600のIPアドレスを使用したが、先週のログはまだ分析中なので、おそらくもっと多いだろう」と、同氏はボットが同氏のサイトにアクセスしようとする際に使用したIPアドレスについて語った。
「彼らのクローラーが私たちのサイトを圧倒していました」と彼は言った。「基本的にはDDoS攻撃でした。」
トリプルガンガーズのビジネスはウェブサイトだ。7人の従業員を抱える同社は、10年以上かけてウェブ上最大規模の「人間デジタルダブル」データベースを構築してきた。これは、実際の人間モデルからスキャンした3D画像ファイルのことだ。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
同社は、3D アーティスト、ビデオ ゲーム制作者、本物の人間の特徴をデジタルで再現する必要があるすべての人に、3D オブジェクト ファイルと写真 (手、髪、皮膚、全身など) を販売しています。
ウクライナに拠点を置きながら、米国フロリダ州タンパでもライセンスを取得しているトムチャック氏のチームは、ウェブサイトに利用規約を掲載し、ボットによる画像無断使用を禁じている。しかし、それだけでは効果がない。ウェブサイトは、OpenAIのボット「GPTBot」にサイトへのアクセスを禁止するタグを付与した、適切に構成されたrobot.txtファイルを使用しなければならない。(OpenAIのクローラー情報ページによると、OpenAIにはChatGPT-UserとOAI-SearchBotという、独自のタグを持つボットもいくつかある。)
Robot.txt(別名Robots Exclusion Protocol)は、検索エンジンサイトに対し、ウェブをインデックスする際にクロールしない対象を指示するために作成されました。OpenAIは情報ページで、独自のクロール禁止タグが設定されている場合は、こうしたファイルも尊重するとしていますが、更新されたrobot.txtファイルをボットが認識するまでに最大24時間かかる場合があると警告しています。
トムチャック氏が経験したように、サイトがrobot.txtを適切に使用していない場合、OpenAIなどの企業はそれを好きなだけスクレイピングできると解釈します。これはオプトインシステムではありません。
さらに悪いことに、トリプルガンガーズは米国の営業時間中に OpenAI のボットによってオフラインにさせられただけでなく、ボットによる CPU とダウンロード活動のせいで AWS の請求額が急増するとトムチャック氏は予想している。
Robot.txtも万能ではありません。AI企業は自主的にこれに準拠しています。別のAIスタートアップ企業であるPerplexityは、昨年夏、Wiredの調査で、PerplexityがRobot.txtに準拠していないことを示す証拠がいくつかあったとして、かなり有名に非難されました。

何が盗まれたのかは確実には分からない
OpenAIのボットが数日後に復旧した水曜日までに、Triplegangersは適切に設定されたrobot.txtファイルを設置し、Cloudflareアカウントを設定して、OpenAIのGPTBotに加え、Barkrowler(SEOクローラー)やBytespider(TokTokのクローラー)など、彼が発見した他のボットをブロックしました。Tomchuk氏は、他のAIモデル企業のクローラーもブロックできたと期待しています。木曜日の朝、サイトはクラッシュしなかったと彼は述べています。
しかし、トムチャック氏は依然として、OpenAIが実際に何を取得したのか、あるいはその素材を削除させるのに適切な手段を講じていない。OpenAIに連絡して問い合わせる方法も見つかっていない。OpenAIはTechCrunchのコメント要請に応じなかった。また、TechCrunchが最近報じたように、OpenAIは長らく約束してきたオプトアウトツールを今のところ提供できていない。
これはトリプルガンガーにとって特に厄介な問題だ。「私たちの業界では、実際の人間をスキャンするため、権利の問題がかなり深刻です」と彼は言う。欧州のGDPRのような法律では、「ウェブ上で誰かの写真を撮って、それを使うことはできません」
Triplegangersのウェブサイトは、AIクローラーにとって特に魅力的な発見でした。Scale AIのような数十億ドル規模のスタートアップ企業は、人間が丹念に画像にタグを付けてAIを学習させています。Triplegangersのサイトには、人種、年齢、タトゥーの有無、あらゆる体型など、詳細なタグが付けられた写真が掲載されています。
皮肉なことに、OpenAIのボットの貪欲さこそが、トリプルガンガーズにその危険性を気づかせたのだ。もしもっと優しく削っていれば、トムチャック氏は決して気づかなかっただろう、とトムチャック氏は語った。
「これらの企業は、『robot.txt を当社のタグで更新すればオプトアウトできます』と言って、データをクロールするために抜け穴を利用しているようです。恐ろしいことです」とトムチャック氏は言うが、それをブロックする方法を理解する責任は事業主に課せられる。

この問題は2024年に規模を拡大しました。デジタル広告会社DoubleVerifyの新しい調査によると、AIクローラーとスクレーパーによって、2024年には「一般的な無効トラフィック」(つまり、実際のユーザーからではないトラフィック)が86%増加しました。
それでも、「ほとんどのサイトは、これらのボットによってスクレイピングされていることに気づいていません」とトムチャック氏は警告する。「今後は、これらのボットを見つけるために、ログ活動を毎日監視する必要があります。」
考えてみると、このモデル全体はマフィアの恐喝のように機能します。つまり、保護されていない限り、AI ボットは欲しいものを奪います。
「ただデータを取得するのではなく、許可を求めるべきだ」とトムチャック氏は言う。
TechCrunchではAIに特化したニュースレターを配信しています!毎週水曜日に受信ボックスに配信されますので、こちらからご登録ください。