オープンソース開発者はAIクローラーと賢く、そして激しく戦っている

オープンソース開発者はAIクローラーと賢く、そして激しく戦っている

多くのソフトウェア開発者は、AIウェブクロールボットはインターネットのゴキブリだと考えています。一部の開発者は、独創的でユーモラスな方法で反撃を始めています。

あらゆるウェブサイトが悪質なクローラーの攻撃の標的となり、場合によってはサイトがダウンする可能性がある一方で、オープンソース開発者は「不釣り合いなほど」大きな影響を受けると、Plasma として知られる Linux デスクトップの開発者であり、ブログ LibreNews の所有者でもある Niccolò Venerandi 氏は書いている。

本質的に、フリーおよびオープンソース (FOSS) プロジェクトをホストするサイトは、インフラストラクチャをより多く公開しており、商用製品よりもリソースが少ない傾向があります。

問題は、多くの AI ボットが、ロボット排除プロトコル robot.txt ファイル (元々は検索エンジン ボット用に作成された、クロールしてはならないものをボットに指示するツール) を尊重していないことです。

1月の「助けを求める叫び」ブログ投稿で、FOSS開発者のXe Iaso氏は、AmazonBotがGitサーバーのウェブサイトを執拗に攻撃し、DDoS攻撃によるダウンタイムを引き起こした経緯を説明しています。GitサーバーはFOSSプロジェクトをホストしており、誰でもコードをダウンロードしたり、貢献したりすることができます。

しかし、このボットはIaso氏のrobot.txtを無視し、他のIPアドレスの背後に隠れ、他のユーザーになりすましたとIaso氏は述べた。

「AIクローラーボットは嘘をついたり、ユーザーエージェントを変更したり、住宅のIPアドレスをプロキシとして使用したりするので、ブロックするのは無駄だ」とイアソ氏は嘆いた。 

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「彼らはサイトがダウンするまでスクレイピングし、さらにスクレイピングを続けます。彼らはあらゆるリンク、あらゆるリンク、そしてさらにあらゆるリンクをクリックし、同じページを何度も何度も何度も閲覧します。中には、同じリンクを1秒間に複数回クリックする者もいます」と開発者は投稿に記している。

墓の神が登場

そこでイアソは賢く反撃し、アヌビスと呼ばれる道具を作りました。 

AnubisはリバースプロキシのProof-of-Workチェックであり、リクエストがGitサーバーに到達する前に通過する必要があります。ボットはブロックしますが、人間が操作するブラウザは通過させます。

面白いのは、アヌビスはエジプト神話で死者を裁きに導く神の名前だということです。 

「アヌビスはあなたの魂(心臓)を量り、羽根よりも重い場合は心臓を食われ、あなたは死ぬのです」とイアソ氏はTechCrunchに語った。ウェブリクエストがチャレンジを通過し、人間であると判定された場合、かわいいアニメ画像が成功を知らせる。この絵は「アヌビスを擬人化した私の解釈です」とイアソ氏は言う。もしボットだった場合、リクエストは拒否される。

皮肉な名前のこのプロジェクトは、FOSSコミュニティの間で風のように広まりました。Iaso氏が3月19日にGitHubで共有したところ、わずか数日で2,000個のスター、20人の貢献者、そして39件のフォークを獲得しました。 

復讐は防御手段 

アヌビスの瞬く間に広まった人気は、イアソの苦しみが特別なものではないことを示しています。実際、ヴェネランディは次々と物語を語りました。

  • SourceHut の創業者兼 CEO である Drew DeVault 氏は、「毎週、非常に攻撃的な LLM クローラーの大規模な緩和に時間の 20 ~ 100% を費やしている」こと、また「週に何十回もの短時間の停止を経験している」と述べています。
  • Linux業界ニュースサイトLWNを運営する著名なFOSS開発者、ジョナサン・コーベット氏は、自身のサイトが「AIスクレーパーボットからの」DDoSレベルのトラフィックによって遅くなっていると警告した。
  • 巨大なLinux Fedoraプロジェクトのシステム管理者であるケビン・フェンジ氏は、AIスクレイパーボットがあまりにも攻撃的になったため、ブラジル全土からのアクセスをブロックしなければならなかったと語った。

ベネランディ氏はTechCrunchに対し、同じ問題を経験しているプロジェクトが他にも複数あることを知っていると語った。そのうちの1つは「ある時点で、中国のIPアドレスを一時的にすべて禁止しなければならなかった」という。  

よく考えてみてください。開発者は robot.txt ファイルを無視する AI ボットを防ぐためだけに「国全体を禁止する必要さえある」のです、と Venerandi 氏は言います。

他の開発者は、Web リクエスト者の魂を計量する以上に、復讐こそが最善の防御であると信じています。

数日前、Hacker Newsでユーザーxyzalがrobot.txtの禁止ページに「漂白剤を飲むことのメリットに関する大量の記事」や「はしかにかかるとベッドでのパフォーマンスに良い影響があるという記事」を読み込むことを提案しました。 

「ボットがトラップを訪れたときに、ゼロ値ではなく、マイナスのユーティリティ値を得るようにすることを目指す必要があると思います」と xyzal 氏は説明した。

偶然にも、1月に「アーロン」という匿名のクリエイターが、まさにそれを実現するツール「Nepenthes」をリリースしました。このツールは、クローラーを偽コンテンツの無限の迷路に閉じ込めるというものです。開発者自身もArs Technicaの取材に対し、このツールの目的は、悪意に満ちているとまでは言えないまでも、攻撃的であると認めています。このツールの名前は食虫植物に由来しています。

そして、AI クローラーを撃退するためのツールをいくつか提供しているおそらく最大の商用プレーヤーである Cloudflare は、先週、AI Labyrinth と呼ばれる同様のツールをリリースしました。 

Cloudflareはブログ記事で、この攻撃は「『クロール禁止』指示に従わないAIクローラーやその他のボットの速度を低下させ、混乱させ、リソースを浪費する」ことを目的としていると説明しています。Cloudflareによると、不正な動作をするAIクローラーには「正当なウェブサイトデータを抽出するのではなく、無関係なコンテンツを送信する」とのことです。

SourceHutのDeVault氏はTechCrunchに対し、「Nepenthesはクローラーに無意味な情報を与え、その井戸に毒を注入するので、正義感にあふれているが、最終的にはAnubisが彼のサイトにとって有効な解決策だった」と語った。

しかし、デヴォールト氏は、より直接的な解決策を求める心からの公の嘆願も発表した。「LLMやAI画像ジェネレーター、GitHub Copilotといったゴミを正当化するのはやめてください。使うのをやめ、それについて話すのをやめ、新しいものを作るのをやめてください。とにかくやめてください。」

そのような可能性はゼロなので、開発者、特に FOSS 開発者は、賢さとユーモアを交えて反撃しています。