中国農村部の貧困に関する訴え。腐敗した共産党員に関するニュース報道。腐敗した警官が起業家を脅迫しているという助けを求める声。
これらは、中国政府が機密とみなすコンテンツに自動的にフラグを付けるように設計された、高度な大規模言語モデルに入力された 133,000 の例のほんの一部です。
TechCrunchが入手した流出したデータベースによると、中国は、天安門事件のような従来のタブーをはるかに超えて、すでに強力な検閲システムをさらに強化するAIシステムを開発したことが明らかになった。
このシステムは主に中国国民のオンライン検閲を目的としているようだが、中国のAIモデルのすでに広範囲に及ぶ検閲を改善するなど、他の目的にも使用される可能性がある。

中国の検閲を研究し、データセットも調査したカリフォルニア大学バークレー校の研究者、シャオ・チアン氏は、これは中国政府またはその関連機関が弾圧を強化するために法学修士号を利用しようとしていることの「明確な証拠」だとTechCrunchに語った。
「キーワードベースのフィルタリングと手動レビューに人力に頼る従来の検閲メカニズムとは異なり、そのような指示で訓練されたLLMは、国家主導の情報統制の効率と粒度を大幅に改善するだろう」とQiang氏はTechCrunchに語った。
これは、権威主義体制が最新のAI技術を急速に導入していることを示す証拠をさらに増やすものです。例えば、OpenAIは2月に、複数の中国企業がLLMを使用して反政府投稿を追跡し、中国の反体制派を中傷しているのを発見したと発表しました。
ワシントンD.C.の中国大使館は、TechCrunchへの声明で「中国に対する根拠のない攻撃や中傷」に反対し、中国は倫理的なAIの開発を非常に重視していると述べた。
目に見えないデータ
このデータセットはセキュリティ研究者のNetAskari氏によって発見され、同氏はBaiduサーバー上でホストされている安全でないElasticsearchデータベースに保存されていることを発見し、そのサンプルをTechCrunchと共有した。
これはどちらの会社も関与していることを示すものではありません。あらゆる種類の組織がこれらのプロバイダーにデータを保存しています。
データセットを誰が作成したかは正確には示されていないが、記録によればデータは最近のものであり、最新のエントリは 2024 年 12 月のものである。
異議を検出するための法学修士号
ChatGPTを作動させる際の不気味な表現を彷彿とさせる言葉遣いで、このシステムの開発者は、名前を伏せた法学修士(LLM)に、コンテンツが政治、社会生活、軍事に関するデリケートな話題に関連しないかを判断するよう指示している。そのようなコンテンツは「最優先事項」とみなされ、直ちにフラグ付けする必要がある。
最優先の課題には、汚染や食品安全スキャンダル、金融詐欺、労働争議などがあり、これらは中国で重要な問題であり、2012年の石坊公害反対運動のように、時には国民の抗議行動につながることもある。
あらゆる形態の「政治風刺」は明確に標的とされています。例えば、歴史的な類推を用いて「現在の政治家」について主張する人は、即座に警告を受ける必要があります。これは「台湾の政治」に関するものも同様です。軍事関連の問題は、軍の動き、演習、兵器に関する報道など、広範囲に及んでいます。
データセットの一部を以下に示します。コードにはプロンプトトークンとLLMが参照されており、システムがAIモデルを用いて命令を実行していることが確認できます。

トレーニングデータの内部
LLM が検閲を評価する必要がある 133,000 件の膨大な例の中から、TechCrunch は代表的なコンテンツを 10 件集めました。
社会不安をかき立てそうな話題が繰り返し登場する。例えば、ある事業主が、腐敗した地元警察が起業家を脅迫していると訴える投稿がその一例だ。これは、経済低迷の中、中国で深刻化する問題となっている。
別のコンテンツでは、中国の農村部の貧困を嘆き、老人と子供しか残っていない荒廃した町の様子を描写しています。また、中国共産党が深刻な汚職とマルクス主義ではなく「迷信」を信じているとして地方の役人を追放したというニュースも報じられています。
台湾の軍事力に関する解説や中国の新型ジェット戦闘機の詳細など、台湾と軍事に関する資料が豊富に含まれている。TechCrunchによる検索によると、台湾を表す中国語(台湾)だけでも、データ内で1万5000回以上使用されている。
微妙な反対意見も標的にされているようだ。データベースに含まれる断片の一つは、中国の有名なことわざ「木が倒れると猿が散る」を用いて、権力のはかなさを説いた逸話だ。
中国では権威主義的な政治体制のため、権力の移行は特にデリケートな問題となっている。
「世論調査」のために作られた
このデータセットには作成者に関する情報は一切含まれていない。しかし、「世論調査」を目的としていると明記されており、これは中国政府の目的達成を意図したものであることを強く示唆していると、ある専門家はTechCrunchに語った。
人権団体Article 19のアジアプログラムマネージャー、マイケル・キャスター氏は、「世論活動」は中国政府の強力な規制機関である中国サイバースペース管理局(CAC)によって監督されており、通常は検閲やプロパガンダ活動を指すと説明した。
最終目標は、中国政府の主張がオンライン上で確実に保護され、それとは異なる見解が排除されることである。習近平国家主席自身も、インターネットを中国共産党の「世論工作」の「最前線」と表現している。
抑圧はより巧妙になっている
TechCrunchが調査したデータセットは、権威主義的な政府が抑圧的な目的でAIを活用しようとしていることを示す最新の証拠だ。
OpenAIは先月、中国を拠点としていると思われる身元不明の人物が生成AIを使用してソーシャルメディアの会話、特に中国に対する人権抗議を訴える会話を監視し、中国政府に転送していたことを明らかにする報告書を発表した。
お問い合わせ
AI が国家の対抗手段にどのように利用されているかについて詳しく知りたい場合は、Charles Rollet に Signal (charlesrollet.12) で安全に連絡を取ることができます。また、SecureDrop 経由で TechCrunch に連絡することもできます。
OpenAIはまた、この技術が中国の著名な反体制活動家である蔡霞氏を強く批判するコメントを生成するために使われていることも発見した。
伝統的に、中国の検閲方法は、多くのユーザーが初めてDeepSeekを使用した際に経験したように、「天安門事件」や「習近平」などのブラックリストに載っている用語に言及するコンテンツを自動的にブロックする、より基本的なアルゴリズムに依存しています。
しかし、法学修士課程のような新しいAI技術は、たとえ些細な批判であっても、大規模に発見することで検閲をより効率的に行うことができます。また、一部のAIシステムは、より多くのデータを蓄積していくことで、継続的に進化していくことも可能です。
「ディープシークなどの中国のAIモデルが波紋を呼んでいる今、AIによる検閲がどのように進化し、公共の言論に対する国家の統制がさらに巧妙化しているかを強調することは非常に重要だと思います」とバークレーの研究者であるシャオ氏はTechCrunchに語った。