報道機関は、Perplexity を盗作と非倫理的なウェブスクレイピングで非難している。

Cemubo vgnpne 0

Watch

生成型 AI の時代では、チャットボットがインターネットから取得したコンテンツに基づいて質問に詳細な回答を提供できるため、公正使用と盗作、日常的な Web スクレイピングと非倫理的な要約の境界線は非常に曖昧です。

Perplexity AIは、検索エンジンと大規模な言語モデルを組み合わせ、単なるリンクではなく詳細な回答を生成するスタートアップ企業です。OpenAIのChatGPTやAnthropicのClaudeとは異なり、Perplexityは独自の基礎AIモデルを学習するのではなく、インターネットから収集した情報を分析して回答に変換するために、オープンモデルまたは市販のモデルを使用しています。

しかし、6月に起きた一連の告発は、このスタートアップのアプローチが非倫理的に近いことを示唆している。フォーブスは、Perplexityがベータ版のPerplexity Pages機能で自社のニュース記事の一つを盗用したと非難した。また、Wiredは、Perplexityが自社のウェブサイトを含む他のウェブサイトを不正にスクレイピングしたと非難した。

ウェブコンテンツを密かにスクレイピングする

Wiredの6月19日の記事によると、PerplexityはRobots Exclusion Protocolを無視し、パブリッシャーがボットのアクセスを望まないウェブサイトの領域を密かにスクレイピングしているという。Wiredは、Perplexityと連携したマシンが、自社のニュースサイトだけでなく、親会社であるCondé Nast傘下の他の出版物でも同様の行為を行っているのを確認したと報じている。

報告書では、開発者のロブ・ナイト氏が同様の実験を行い、同じ結論に達したと指摘されている。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

Wiredの記者とナイトは、Perplexityに一連のURLを要約するよう指示し、Perplexityに関連付けられたIPアドレスがそれらのサイトにアクセスする様子をサーバー側で観察することで、疑惑を検証した。すると、PerplexityはそれらのURLのテキストを「要約」した。ただし、Wiredがこの目的で作成した、コンテンツが限定されたダミーウェブサイトの1つでは、ページ内のテキストをそのまま返した。

ここで、ロボット排除プロトコルのニュアンスが重要になります。

ウェブスクレイピングとは、技術的には、クローラーと呼ばれる自動化されたソフトウェアがウェブ上をくまなく巡回し、ウェブサイトから情報をインデックス化して収集することです。Googleなどの検索エンジンは、ウェブページを検索結果に表示するためにこれを行います。他の企業や研究者は、市場分析、学術研究、そしてご存知の通り、機械学習モデルのトレーニングのためにインターネットからデータを収集するためにクローラーを使用しています。

このプロトコルに準拠するウェブスクレイパーは、まずサイトのソースコード内の「robots.txt」ファイルを探し、何が許可され、何が許可されないかを確認します。現在、許可されていないのは、通常、パブリッシャーのサイトをスクレイピングしてAI用の大規模なトレーニングデータセットを構築することです。検索エンジンやPerplexityを含むAI企業は、このプロトコルに準拠していると述べていますが、法的義務はありません。

Perplexityの事業責任者であるドミトリー・シェベレンコ氏は、TechCrunchに対し、URLを要約することとクロールは異なるものだと語った。「クロールとは、情報を吸い上げてインデックスに追加するだけのことです」とシェベレンコ氏は述べた。シェベレンコ氏によると、PerplexityのIPアドレスが「robots.txtでブロックされている」ウェブサイトへの訪問者として表示されるのは、ユーザーがクエリにURLを入力した場合のみであり、これは「クロールの定義を満たさない」とのことだ。

「我々は、そのURLにアクセスしてほしいというユーザーからの直接的かつ具体的なリクエストに応えているだけだ」とシェベレンコ氏は語った。

言い換えれば、ユーザーが AI に URL を手動で提供する場合、Perplexity の AI は Web クローラーとして機能するのではなく、ユーザーが要求した情報を取得して処理するのを支援するツールとして機能する、と Perplexity は述べています。

しかし、Wired や他の多くの出版社にとって、それは違いのない区別です。URL にアクセスし、そこから情報を引き出してテキストを要約する作業は、1 日に何千回も行われると、スクレイピングとまったく同じに見えるからです。

（Wiredはまた、Perplexityのクラウドサービスプロバイダーの1つであるAmazon Web Servicesが、ユーザーがプロンプトで引用したウェブページをスクレイピングするためにrobots.txtプロトコルを無視したとして、このスタートアップを調査していると報じた。AWSはTechCrunchに対し、Wiredの報道は不正確であり、サービスの不正使用を主張する他の報道と同様にメディアからの問い合わせを処理していると伝えたと語った。）

盗作か公正使用か？

Perplexity Pagesのスクリーンショット — フォーブスは、元Google CEOのエリック・シュミット氏がAI搭載の戦闘ドローンを開発しているというスクープ記事を、パープレクシティが盗作したとして非難した。**画像クレジット：**パープレクシティ / スクリーンショット

Wired誌とForbes誌もPerplexityを盗作で非難している。皮肉なことに、Wired誌は、Perplexityが同社のウェブコンテンツを密かにスクレイピングしたと非難した記事そのものを盗作したと述べている。

Wiredの記者によると、Perplexityチャットボットは「記事の結論と、そこに至る根拠を綿密に要約した、6段落287語の文章を生成した」という。Wiredは、ある文が元の記事の文と全く同じであることを剽窃とみなしている。ポインター研究所のガイドラインでは、著者（またはAI）が元の記事から7語連続して使用した場合、剽窃となる可能性があるとされている。

フォーブス誌は、パープレキシティを盗作だと非難した。同ニュースサイトは6月初旬、Google CEOのエリック・シュミット氏の新会社が大規模な採用活動と軍事用途のAI搭載ドローンの試験運用を行っているという調査記事を掲載した。翌日、フォーブス誌の編集長ジョン・パツコウスキー氏はXサイトに投稿し、パープレキシティがベータ版機能「パープレキシティ・ページズ」の一環としてこのスクープを再掲載したと報じた。

Perplexity Pagesは、現在Perplexityの一部会員のみが利用できる新しいツールで、Perplexityによると、ユーザーがリサーチ結果を「視覚的に美しく、包括的なコンテンツ」に変換できるよう支援するとのこと。サイト上のコンテンツの例としては、同社の従業員が作成した「ドラム初心者ガイド」や「スティーブ・ジョブズ：先見の明のあるCEO」といった記事が挙げられます。

「私たちの報道のほとんどを盗用している」とパツコウスキー氏は書いている。「私たちと、私たちの記事をリブログした数人を、情報源として引用しているが、これは最も無視しやすいやり方だ」

フォーブス誌は、パープレキシティ・チームがキュレーションした記事の多くが「フォーブス、CNBC、ブルームバーグを含む複数のメディアのオリジナル記事と驚くほど類似している」と報じました。フォーブス誌によると、これらの記事は数万回閲覧され、記事本文にはどのメディアの名前も記載されていませんでした。パープレキシティの記事には、「小さくて見逃しやすいロゴからリンクが貼られている」という形で、記事の出典が明示されていました。

さらにフォーブスは、シュミット氏に関する記事にはフォーブスのスクープと「ほぼ同一の文言」が含まれていると述べた。また、この情報にはフォーブスのデザインチームが作成した画像も含まれていたが、パープレキシティによって若干修正されたようだ。

PerplexityのCEO、アラヴィンド・スリニヴァス氏は当時、Forbesの取材に対し、今後は出典をより明確に引用すると述べた。しかし、引用自体に技術的な問題があるため、この解決策は万能ではない。ChatGPTなどのモデルはリンクを幻覚的に表現するが、PerplexityはOpenAIのモデルを使用しているため、こうした幻覚の影響を受けやすい可能性がある。実際、WiredはPerplexityが記事全体を幻覚的に表現するのを観察したと報じている。

パープレキシティの「粗い部分」を指摘する以外に、スリニヴァス氏と同社は、パープレキシティがそのようなコンテンツを要約に使用する権利を大いに主張している。

ここでフェアユースのニュアンスが重要になります。盗作は好ましくないものの、厳密には違法ではありません。

「事実を独占できる者はいない」とシェベレンコ氏は述べた。「事実が公表されれば、誰もがそれを利用できるのだ。」

シェベレンコ氏は、パープレキシティの要約を、ジャーナリストが自身の報道を強化するために他のニュースソースの情報を利用することに例えた。しかし、AI企業の不当な優位性は、ジャーナリストが数時間かけて作成する内容を数秒でまとめられることだ。

UCLAテクノロジー・法律・政策研究所の法学教授、マーク・マッケナ氏はTechCrunchに対し、この状況を解明するのは容易ではないと語った。フェアユースの訴訟では、裁判所は要約が元の記事の表現を多く利用しているかどうか、それともアイデアだけを利用しているかどうかを検討するだろう。また、要約を読むことが記事を読むことの代替となるかどうかも検討する可能性がある。

出版社にとって残念なことに、Perplexity が完全な表現を使用していない限り (そして、どうやら、場合によってはそうしているようですが)、その要約はフェアユースの違反とはみなされない可能性があります。

パープレキシティが自らを守る方法

OpenAIのようなAI企業は、様々なニュース出版社とメディア契約を結び、アルゴリズムの学習に用いる最新およびアーカイブコンテンツへのアクセスを提供しています。その見返りとして、OpenAIはChatGPTでのユーザークエリに応じて、これらの出版社のニュース記事を表示することを約束しています。（しかし、ニーマン・ラボが先週報じたように、これにも解決すべき問題点がいくつか残っています。）

パープレキシティは、自社に対する非難が収まるのを待っているのか、自社のメディア契約の発表を控えてきた。しかし、同社はパブリッシャーとの一連の広告収入分配契約を「全速力で進めている」。

Perplexityはクエリへの回答に広告を掲載し始め、回答にコンテンツが引用されているパブリッシャーは、対応する広告収入の一部を受け取るという構想です。シェベレンコ氏によると、Perplexityはパブリッシャーが自社の技術にアクセスできるようにすることで、Q&Aエクスペリエンスを構築し、関連する質問などを自社のサイトや製品にネイティブに組み込めるようにする取り組みも進めています。

しかし、これは組織的な知的財産窃盗の単なる隠れ蓑なのでしょうか？コンテンツを完全に要約しすぎて、読者が元のソースコンテンツをクリックする必要性を感じなくなるようなチャットボットは、Perplexityだけではありません。

このようなAIスクレイパーがパブリッシャーのコンテンツを盗み、自社のビジネスに転用し続けると、パブリッシャーは広告収入を得るのが難しくなります。つまり、最終的にはスクレイピングできるコンテンツが減るということです。スクレイピングできるコンテンツがなくなると、生成AIシステムは合成データを使った学習に移行し、偏りや不正確なコンテンツを生み出すという悪循環に陥る可能性があります。

Posted by Cemubo