AIが書いたテキストをキャッチできると主張するほとんどのサイトは見事に失敗している

AIが書いたテキストをキャッチできると主張するほとんどのサイトは見事に失敗している

生成AIへの熱狂が高まるにつれ、批評家たちはこの技術の開発者に対し、その潜在的な有害影響を軽減するための措置を講じるよう求めています。特に、テキスト生成AIは大きな注目を集めており、それには十分な理由があります。学生が盗作に利用したり、コンテンツファームがスパムに利用したり、悪意のある人物が誤情報を拡散したりする可能性があります。

OpenAIは数週間前に圧力に屈し、人間が書いたテキストと合成テキストを区別しようとする分類ツールをリリースしました。しかし、このツールはそれほど正確ではありません。OpenAIは、AI生成テキストの74%を見逃していると推定しています。

AIが生成したテキストを確実に見分ける方法が存在しないため、検出サービスが小規模ながら誕生している。プリンストン大学の学生が開発したChatZeroは、「困惑度」などの基準を用いて、テキストがAIによって作成されたかどうかを判断できると主張している。盗作検出ツールのTurnitinは、独自のAIテキスト検出ツールを開発している。これら以外にも、Google検索を行えば、人間が生成した良質なテキストとAIが生成した無質なテキストを区別できると謳うアプリが少なくとも6つは見つかる。これは、この比喩を歪曲するものだ。

しかし、これらのツールは本当に正確なのでしょうか? リスクは大きいです。学術的な場では、検出漏れが合格と不合格を分けるシナリオが考えられます。ある調査によると、学生のほぼ半数が自宅テストや小テストにChatGPTを使用したと回答し、半数以上がエッセイ作成に使用したことを認めています。

今日のAIテキスト検出ツールが十分に機能しているかどうかを調べるため、AIスタートアップ企業Anthropicが開発したChatGPTに似たシステム「Claude」を利用し、様々なスタイルの文章サンプルを8つ作成しました。具体的には、Claudeに以下の文章を生成させました。

  • メソアメリカに関する百科事典の項目
  • 靴磨きのマーケティングメール
  • ローマ帝国の崩壊に関する大学のエッセイ
  • 2020年米国大統領選挙に関するニュース記事
  • パラリーガル職のカバーレター
  • ソフトウェアエンジニアの履歴書
  • 銃規制のメリットに関するエッセイのアウトライン

確かに最も徹底的なアプローチではありませんが、シンプルさを重視しました。目標は、単一のAIシステム(Claude)から生成されたテキストに対するAIテキスト検出器の性能を評価することでした。OpenAI独自の分類器、AI Writing Check、GPTZero、Copyleaks、GPT Radar、CatchGPT、Originality.aiなど、現在よく使われている検出器をいくつかテストしました。

百科事典のエントリ

クロードの百科事典の記述は、まるでブリタニカ百科事典から飛び出してきたかのようで、古代中米文明の興隆、衰退、そしてその永続的な影響について豊富な詳細が詰まっています。段落から段落へとアイデアがスムーズに展開されていますが、時折、支離滅裂な箇所が1つか2つ散見されます。文体は学術出版物に期待されるものと一致しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

メソアメリカは、メキシコ南部と中央アメリカを含む地域です。コロンブス以前の時代から、共通の文化的特徴を持つ社会が存在していました。メソアメリカにおける最も初期の複雑な社会は約3000年前に形成されました。

メソアメリカ文化圏は、トウモロコシ栽培と複雑な文明の興隆によって支配されていました。メソアメリカ文明は、象徴的な階段状のピラミッド型神殿やその他の記念碑的な建築物を建設しました。これらの文明の多くは、豊かな神話と宗教の伝統に加え、複雑な暦体系と数学を有していました。

メソアメリカの主要な文明には、オルメカ文明、テオティワカン文明、マヤ文明、サポテク文明、ミシュテカ文明、ワステカ文明、タラスカン王国、そして16世紀初頭にスペインの征服者エルナン・コルテスが遭遇したアステカ文明が含まれます。これらの先コロンブス文明は、建築技術の偉業に加え、数学、天文学、暦法の進歩で知られています。また、太平洋岸と大西洋岸を結ぶ複雑な市場交換ネットワークと交易路の発達でも知られています。

アステカ帝国を征服したスペイン人は、アステカの首都テノチティトランの遺跡の上にメキシコシティを建設しました。アステカの言語であるナワトル語は、今日でもメキシコで最も広く話されている先住民の言語です。トウモロコシ栽培、階段状のピラミッドを持つ建造物、巨大な彫刻といったメソアメリカ文化の特徴は、征服後も受け継がれ、現代のメキシコ文化にも息づいています。

これらの理由から、このテキストは検出器にとって少々厄介な問題になると予想しました。そして実際、その通りになりました。テストしたシステムのうち、GPTZeroとOriginality.aiの2つだけが、このテキストをAI生成であると正しく分類しました。他のシステムは、その問題に対処できませんでした。OpenAIの分類器は当初、十分な確信を持てず、答えにたどり着くことができませんでした。一方、Originality.aiは、このテキストがAIによって作成された可能性をわずか4%と判定しました。あまり良い結果とは言えません。

AIテキスト分類器
CatchGPTはAI生成テキストに騙された。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 正しく分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 誤って分類されました
  • Originality.ai: 誤った分類

マーケティングメール

クロードのソーシャルメディアのコピーは、現実と突飛なディテールがユーモラスに融合しているが、AI生成だと分かるような明確なヒントはない。価格や行動喚起まで含まれていて、実に巧妙だ!広告コピーライターの皆さん、お気をつけください。

テーマ:輝きを長持ちさせる

靴がくすんで見えたり、すり減ったりしていませんか?スーパーシャイン靴磨きを使えば、靴を新品同様の輝きを取り戻し、ダメージや摩耗から守ることができます。

スーパーシャインは最高品質のワックスと染料を配合し、あらゆる靴の種類や革にマッチするニュートラルカラーから光沢のあるカラーまで、幅広いカラーバリエーションをご用意しています。当社のポリッシュは、一度の塗布で靴を洗浄、磨き、保護する独自の配合です。コンディショニングオイルが革に浸透し、内側から栄養を与え、顔料が擦り傷や引っかき傷をカバーし、保護ワックスが輝きを閉じ込めて水やその他の要素をはじきます。

完璧な輝きは、湿らせた布で汚れを拭き取り、柔らかいブラシでスーパーシャインを塗布し、磨くだけで輝きが増します。当社のポリッシュは乾燥すると硬くなるので、手や服に跡が残りません。少量で十分な効果が得られるため、1缶で最大100足の靴を磨くことができます。

もう、つやのない靴で妥協する必要はありません。誰もが認める輝きを求めるなら、スーパーシャインをお選びください。お近くの小売店で9.99ドルでご購入いただけます。

テキスト生成分類器
Originality.aiの残念な結果画像クレジット: TechCrunch画像クレジット: TechCrunch

このスニペットは、信じられないことに全ての検出器を困惑させました。しかし、公平を期すために言うと、百科事典のエントリよりも短いものでした。検出器は、パターンがより明白な長いテキストサンプルの方が、より良いパフォーマンスを発揮する傾向があります。

  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 誤って分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 誤って分類されました
  • Originality.ai: 誤った分類

大学のエッセイ

クロードは技術的な制約のため、長々とした大学エッセイを書くことはできませんでしたが、それを補うかのように、AIは短い段落の中に可能な限り多くの詳細を詰め込みました。サンプルには、主題、結論(特にパンチの効いたものではありませんが)、そして歴史的出来事への言及など、典型的な授業で書くエッセイの要素が確かに含まれています。

強大なローマ帝国:その滅亡の原因は何か?

ローマ帝国は歴史上、最も偉大かつ最も長く続いた帝国の一つでした。しかし、西暦5世紀までにローマ帝国は衰退期に入りました。ローマ帝国の衰退には、政情不安と腐敗、蛮族の侵略、経済衰退、そして奴隷と戦利品への過度の依存といった、いくつかの主要な原因がありました。

政治的に見ると、ローマ帝国後期は内戦、クーデター、そして帝位継承権をめぐる争いが絶えませんでした。こうした絶え間ない権力闘争は帝国の資源を枯渇させ、他の脅威への対処を困難にしました。皇帝は親衛隊を用いて権力を掌握しましたが、彼らは暗殺され、新たな皇帝が台頭するという悪循環が続きました。

帝国が弱体化するにつれ、侵略してきた蛮族たちは好機と捉えました。西暦410年、西ゴート族はローマを略奪し、帝国の威信に甚大な打撃を与えました。その後、他の部族が侵略し、帝国内で領土を獲得しました。時には、ローマ軍に兵士を提供することと引き換えに土地を与えられることもありました。これらの部族は帝国を弱体化させましたが、同時に新たな習慣や文化をもたらしました。

ローマの経済システムは、生産ではなく征服と戦利品を基盤としていました。広大な帝国、大軍団、そして壮大な催し物や娯楽を維持するには、莫大な費用がかかりました。拡大が鈍化し、新たな征服によってもたらされる富が減少すると、持続不可能な経済システムは崩壊しました。同時に、奴隷が労働の多くを担っていたため、農業技術や商習慣を改善しようという動機はほとんどありませんでした。

結論として、ローマ帝国は政治的不安定、蛮族の侵略、経済衰退、奴隷制への過度の依存など、多くの理由により滅亡しました。最終的に、ローマ帝国はこれらの甚大な内外からの圧力の複合的な影響に耐えることができませんでした。ローマ帝国は最終的に滅亡しましたが、その遺産は私たちの法律、文化、言語などに生き続け、その揺るぎない偉大さを永遠に語り継いでいます。

テキストの自然さは、マーケティングコピーほどではないにせよ、今回もほとんどの分類器を破るのに十分でした。これは、これらのツールに頼ろうとする教育者にとって悪い兆候です。盗作の検出とは異なり、AI生成テキストの見分け方ははるかに微妙な作業です。

テキスト生成分類器
CatchGPTの勝利。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 正しく分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 正しく分類されました
  • Originality.ai: 誤った分類

エッセイのアウトライン

ほとんどの小学生はエッセイのアウトラインを書ける。AIだってできる。クロードは、銃規制の是非を問う賛否両論エッセイのアウトラインを、汗一つかかずに書き上げた。各段落には分かりやすくラベルが付けられ(例えば「本文」「分析と考察」)、物議を醸すテーマについて冷静な論調を保っている。

I) はじめに: 銃規制の話題を紹介し、多くの人が個人には武器を所持する権利があるべきだと主張する一方で、銃規制法が銃による暴力を減らすのに役立つと主張する人もいることを指摘します。

II) 本文第1段落:銃規制賛成派の主張:銃規制賛成派は、銃器への容易なアクセスが殺人、自殺、その他の銃関連死の増加につながると主張する。彼らは、銃規制が厳しい州では銃関連死が少ないことを指摘する。身元調査、待機期間、アサルトウェポンの規制といったより厳格な措置は、犯罪者、テロリスト、その他の危険人物の手に銃が渡らないようにすることで、人命を救うことにつながる可能性がある。

III) 本文第2段落:銃規制反対論:反対派は、人々には自衛の権利があり、「善良な」人々は「悪人」から身を守るために銃を所有できるべきだと反論する。彼らは、銃の所有は重要な自由であり、責任感があり法を遵守する市民は銃を所有できるべきだと主張する。銃規制法は犯罪者を抑止するものではなく、彼らは常に銃を入手する方法を見つけるだろうと主張する。より厳しい法律は、一般市民の自由を制限し、安全を脅かすだけだ。

IV) 分析と議論:双方の視点から議論し、それぞれの議論の長所と問題点を分析します。例えば、銃規制は銃による暴力を減らすのでしょうか、それとも自由を制限するだけなのでしょうか?規制は善良な市民の武装を解除し、彼らを危険にさらすのでしょうか?それとも、主に無責任な人々や犯罪者を抑止するだけなのでしょうか?身元調査などの対策は、両者のバランスをとることができるでしょうか?規制レベルが異なる様々な地域における、銃による暴力の問題と発生率に関する複雑な状況を説明します。

V) 結論:銃規制法のメリットに関する分析と全体的な結論を改めて述べて、エッセイを締めくくります。問題の多面的な性質に留意し、権利を尊重しつつ銃による暴力を減らす可能性のある前進の道を論じてください。

輪郭線は私を騙したかもしれないが、検出器はもっと簡単に検出できた。OpenAIの分類器、GPTZero、CatchGPTの3つが検出した。

テキスト生成分類器
OpenAIの分類器がAI生成テキストを発見。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:正しく分類されました
  • AIライティングチェック:誤分類
  • GPTZero: 正しく分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 正しく分類されました
  • Originality.ai: 誤った分類

ニュース記事

以前のサンプルと同様に、Claudeを使って生成したニュース記事には、明らかに不自然な点はありません。読みやすく、ほぼ逆ピラミッド型の構成になっています。また、明らかな事実誤認や論理的矛盾もありません。

2020年米大統領選でバイデン氏がトランプ氏を破り、分裂を招いた選挙戦に終止符

ジョー・バイデン前副大統領は、記録的な数の有権者を集め、トランプ大統領の波乱に満ちた任期に対する国民投票となった選挙でトランプ大統領を破った。

バイデン氏の勝利は、国の価値観と未来をめぐる激しい議論を巻き起こした激動の4年間を経て、数百万人の有権者がトランプ氏を拒絶したことを意味した。バイデン氏は、医療制度の拡充、経済格差の是正、気候変動対策といった計画を掲げ、「国家の魂を回復」し、アメリカ国民を共通の目的へと導くことを誓った。

バイデン氏は土曜朝の短い声明で、アメリカ国民が自分に寄せてくれた信頼に「光栄であり、身の引き締まる思いだ」と述べた。「戦いは終わった。しかし、国の魂を取り戻す戦いは始まったばかりだ」と、デラウェア州ウィルミントンで述べた。近くでは祝賀者たちが歓声を上げ、クラクションを鳴らしていた。「アメリカ国民が団結する時が来た」

トランプ氏は敗北を認める気配を見せず、証拠もなく選挙は「不正操作」されたと主張し、選挙当夜の一部州でのリードは自分が正当な勝者であることを示していると主張した。州選挙管理当局や外部専門家によると、致命的なパンデミックのさなか、選挙は順調に進んだとのことだが、大きな不正は報告されていない。

この結果は、人種差別の不満に訴えるトランプ氏の分断を招く訴えや、米国で23万2000人以上の命を奪い、数百万人を失業に追い込んだウイルスに対する強硬な対応を否定することになった。

検出器が苦戦するのも無理はありません。GPTZeroを除いて、どのシステムもこの記事を正しく分類できませんでした。Originality.aiは、AI生成の可能性を0%と判定しました。本当にひどい話です。

AIテキスト分類器
AIライティングチェックは大きく間違っていました。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 正しく分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 誤って分類されました
  • Originality.ai: 誤った分類

カバーレター

クロード氏と共同で作成したカバーレターは、率直で無駄のないプロフェッショナルな文書の特徴をすべて備えています。架空のパラリーガル候補者のスキルを強調し、(やや奇妙に)法律事務所の名前を架空で作成し、WestlawやLexisNexisといった法的情報開示ツールに言及しています。

採用担当者様

貴社におけるパラリーガル職に強い関心を抱き、ご連絡いたしました。法律分野での経験と学歴を活かし、このポジションに最適な候補者であると確信しております。

過去2年間、スミス&ジョーンズ法律事務所でパラリーガルとして勤務し、民事訴訟のあらゆる側面において弁護士をサポートする豊富な経験を積んできました。記録、宣誓供述書、証拠開示資料など、数千ページに及ぶ法的文書を継続的に整理・管理してきました。また、事務所のファイル管理システムを合理化し、大幅な時間節約を実現しました。さらに、依頼人、相手方弁護士、第三者との書簡の作成、裁判での補佐、そして公判前申立てや和解交渉を支援するための法的調査プロジェクトにも携わってきました。

パラリーガルとして働く前は、[大学名]でパラリーガル研究の準学士号を取得しました。授業とインターンシップの経験を通して、法的調査や法的ライティングといった主要分野で確固たる基礎を築き、WestlawやLexisNexisといった関連ソフトウェアやデータベースの知識も身に付けました。継続的な専門能力開発を通じて、スキルと知識を常に最新の状態に保っています。

仕事と学業の経験以外では、勤勉で細部にまで気を配り、優れた組織力とコミュニケーション能力を備えています。ペースの速い環境で力を発揮し、複雑で時間的制約のあるタスクのバランスを取り、優先順位を付けて、厳しい納期に間に合わせることに長けています。貴社のクライアントと案件の成功に貢献できる機会をいただければ幸いです。

ご検討いただきありがとうございます。この機会について、今後ともご連絡させていただければ幸いです。

心から、

[あなたの名前]

この文字はOpenAIの分類器を困惑させ、AIが作成したものか人間が作成したものかを確実に判断することができませんでした。GPTZeroとCatchGPTはAIが作成したテキストを判別することに成功しましたが、他の検出ツールは同様の結果を得ることができませんでした。

テキスト生成分類器
GPTZeroはAI由来のビットを印象的に検出した。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 正しく分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 正しく分類されました
  • Originality.ai: 誤った分類

再開する

偽のカバーレターと偽の履歴書を組み合わせるのは、まさにうってつけだと思った。クロードにソフトウェアエンジニア向けのカバーレターを書いてもらったところ、ほぼ期待通りの成果が出た。架空の候補者は様々なプログラミングスキルを持っているが、特に突飛なスキルは持っていない。

• ジョン・ドウ

• ソフトウェアエンジニア、3年の経験

• [email protected] • 123-456-7890

• 技術スキル: Java、JavaScript、C++、SQL、MySQL、Git、アジャイル手法、ソフトウェア設計、アルゴリズム、データ構造

• 職務経験:

› ACME Corp、ソフトウェアエンジニア、2018年現在

› 当社の主力製品である SaaS ベースのビッグデータ分析プラットフォームのコアコンポーネントに取り組みました。

› 膨大な量のストリーミングデータを処理できるデータ取り込みモジュールの設計と開発を主導しました。JavaとMySQLを使用しました。

› 高度なデータ検証および修正アルゴリズムの実装により、上流のデータエラーを 42% 削減しました。

› XYZテック社、ソフトウェアエンジニアインターン、2017年夏

› JavaScript と Node.js を使用して、eコマース会社向けのバックエンド コンポーネントを開発しました。

› 5 倍の成長に対応するためのコア データベースと API のスケーリングのプロトタイプを作成し、実証しました。

• 教育:

› ビッグテック大学 コンピュータサイエンス学士号(2017年)

› コースには、アルゴリズム、オペレーティングシステム、機械学習、ソフトウェアアーキテクチャ、計算理論が含まれていました。

› 3.8 GPA

• スキル: 分析力、コミュニケーション能力、問題解決能力、細部へのこだわり

• 趣味: ランニング、読書、ハイキング

どうやら、検出機も一致しているようだ。偽の履歴書は、それまで最も信頼性が高かったGPTZeroでさえも困惑させた。

テキスト生成分類器
GPTZeroでも全てに勝てるわけではない。画像クレジット: TechCrunch画像クレジット: TechCrunch
  • OpenAI分類器:誤って分類された
  • AIライティングチェック:誤分類
  • GPTZero: 誤って分類されました
  • コピーリーク:誤った分類
  • GPTレーダー: 誤って分類されました
  • CatchGPT: 正しく分類されました
  • Originality.ai: 誤った分類

分類器の問題点

これらすべてのテストを経て、どのような結論を導き出せるでしょうか?一般的に、AIテキスト検出器は…まあ、検出という点では劣っています。GPTZeroは唯一安定したパフォーマンスを示し、AI生成テキストを7回中5回正しく分類しました。残りのツールは…それほどではありませんでした。CatchGPTは7回中4回正しく分類し、精度で2位でした。一方、OpenAIの分類ツールは7回中1回で、大きく差をつけて3位でした。

では、なぜ AI テキスト検出器はそれほど信頼できないのでしょうか?

検出器は本質的に、Web上で公開されている膨大なテキスト例を用いて学習されたAI言語モデルであり、テキストがAIによって生成された可能性を予測するように微調整されています。学習中、検出器はテキストを、Webサイトやその他の情報源から抽出した類似(ただし完全に同一ではない)の人間が書いたテキストと比較し、テキストの起源を明らかにするパターンを学習しようとします。

問題は、AIが生成するテキストの品質は常に向上しており、検出器はおそらく古い世代の多くの例で学習されているということです。ほぼ継続的に再学習されない限り、分類モデルの精度は時間の経過とともに低下していくのは必然です。

もちろん、AIが生成したテキスト内の単語や文を少し変更するだけで、これらの分類器は簡単に回避できます。意志の強い学生や詐欺師にとっては、いたちごっこになるでしょう。テキスト生成AIが進化するにつれて、検出装置も進化していくでしょう。

分類器は特定の状況では役立つかもしれませんが、テキストがAIによって生成されたかどうかを判断するための唯一の信頼できる証拠となることは決してありません。つまり、AI生成テキストがもたらす問題を解決する特効薬は存在しないということです。おそらく、今後も存在しないでしょう。