「イチゴ」という単語には「r」という文字が何回出てきますか?GPT-4oやClaudeといった優れたAI製品によると、答えは2回です。
大規模言語モデル(LLM)は、数秒でエッセイを書き、方程式を解くことができます。人間が本を開くよりも速く、テラバイト単位のデータを合成できます。しかし、一見全知全能のように見えるこれらのAIは、時に劇的な失敗を犯し、その失敗がミームのように拡散し、私たちは安堵し、新しいAIの支配者に屈服するまでにはまだ時間があるかもしれないと喜びます。
大規模言語モデルが文字や音節の概念を理解できないことは、私たちがしばしば忘れがちな、より大きな真実を示唆しています。つまり、これらの存在には脳がないということです。彼らは私たちのようには考えません。彼らは人間ではなく、ましてや特に人間に似ているわけでもありません。
ほとんどのLLMは、ディープラーニングアーキテクチャの一種であるトランスフォーマーに基づいて構築されています。トランスフォーマーモデルは、テキストをトークンに分割します。トークンは、モデルに応じて完全な単語、音節、または文字になります。
「LLMはこのトランスフォーマーアーキテクチャに基づいていますが、注目すべきことに、これは実際にはテキストを読み取っているわけではありません。プロンプトを入力すると、それがエンコードに変換されます」と、アルバータ大学のAI研究者で助教授のマシュー・ガズディアル氏はTechCrunchに語った。「『the』という単語を見ると、『the』の意味を表すエンコードは1つしか持っていませんが、『T』『H』『E』の意味は理解できません。」
これは、変換機能が実際のテキストを効率的に入力したり出力したりできないためです。代わりに、テキストは数値表現に変換され、その後、文脈に応じてAIが論理的な応答を導き出せるように調整されます。つまり、AIは「straw」と「berry」というトークンが「strawberry」を構成していることを理解しているかもしれませんが、「strawberry」が「s」「t」「r」「a」「w」「b」「e」「r」「r」「y」という文字の順序で構成されていることを理解していない可能性があります。つまり、「strawberry」という単語に文字がいくつ出現するか、ましてや「r」がいくつ出現するかをAIは知ることができません。
これは、LLM を動作させるアーキテクチャそのものに組み込まれているため、修正が簡単な問題ではありません。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
TechCrunchのKyle Wiggersは先月この問題を詳しく調べ、ノースイースタン大学で法学修士課程の解釈可能性を研究している博士課程の学生、Sheridan Feucht氏と話をした。
「言語モデルにとって『単語』とは一体何であるべきかという問題を回避するのは、なかなか難しいものです。たとえ人間の専門家が完璧なトークン語彙について合意したとしても、モデルはおそらく、さらに細かく『チャンク化』することを有用だと考えるでしょう」と、フォイヒト氏はTechCrunchに語った。「こうした曖昧さゆえに、完璧なトークナイザーなど存在しないというのが私の推測です。」
この問題は、法学修士(LLM)が学習する言語が増えるにつれて、さらに複雑になります。例えば、一部のトークン化手法では、文中のスペースは常に新しい単語の前に来ると想定されますが、中国語、日本語、タイ語、ラオス語、韓国語、クメール語など、多くの言語では単語の区切りにスペースを使用しません。Google DeepMindのAI研究者であるイェニー・ジュンは、2023年の研究で、一部の言語では同じ意味を伝えるのに英語の最大10倍のトークンが必要であることを発見しました。
「トークン化を強制せずにモデルに文字を直接見させるのがおそらく最善ですが、現時点では、それはトランスフォーマーにとって計算上不可能です」と Feucht 氏は言います。
MidjourneyやDALL-Eのような画像生成器は、ChatGPTのようなテキスト生成器の基盤となるトランスフォーマーアーキテクチャを使用しません。代わりに、画像生成器は通常、ノイズから画像を再構成する拡散モデルを使用します。拡散モデルは大規模な画像データベースで学習され、学習データから学習したものに近いものを再現しようとするように動機づけられます。

Lesanの共同創業者であり、DAIR研究所の研究員でもあるAsmelash Teka Hadgu氏は、TechCrunchに対し、「画像ジェネレーターは、車や人の顔などの人工物ではパフォーマンスがはるかに優れている傾向がありますが、指や手書きのような小さなものに対してはそれほど優れたパフォーマンスを発揮しません」と語った。
これは、木が通常どのように緑の葉を持つかといった概念ほど、これらの小さなディテールがトレーニングセットで目立つことは少ないためかもしれません。しかし、拡散モデルの問題は、変換モデルを悩ませている問題よりも簡単に解決できるかもしれません。例えば、一部の画像生成器は、実際の人間の手の画像をより多く学習させることで、手の表現力を向上させています。
「昨年でさえ、これらのモデルは指の認識が非常に苦手で、それはテキストの認識と全く同じ問題です」とガズディアル氏は説明した。「指の認識に関しては、局所的にはすごく良くなってきているので、6本指や7本指の手を見て、『おお、指みたい』と言えるでしょう。同様に、生成されたテキストについても、『これは『H』みたい』『これは『P』みたい』と言えるのですが、全体を構造化するのが本当に苦手なのです。」

そのため、AI画像ジェネレーターにメキシコ料理レストランのメニューを作成するように依頼すると、「タコス」のような一般的なメニューが返されることもありますが、「タミロス」「エンチダー」「ブルヒルトス」などのメニューが見つかる可能性が高くなります。
「strawberry(ストロベリー)」の綴りに関するミームがインターネット上に広がる中、OpenAIはコードネーム「Strawberry」の新しいAI製品の開発に取り組んでいます。この製品は推論能力をさらに向上させる予定です。ChatGPTのような製品の精度を高めるには、世の中に十分な学習データが存在しないという理由から、LLM(論理的言語モデル)の成長は制限されてきました。しかし、Strawberryは正確な合成データを生成し、OpenAIのLLMをさらに向上させることができると報じられています。The Informationによると、Strawberryは創造的思考とパターン認識を必要とするニューヨーク・タイムズの「Connections」ワードパズルを解くことができ、これまでに見たことのない数式も解くことができるとのことです。
一方、Google DeepMindは最近、形式的な数学推論向けに設計されたAIシステム「AlphaProof」と「AlphaGeometry 2」を発表しました。Googleによると、これら2つのシステムは国際数学オリンピックの6問中4問を解いたとのことで、これは権威ある大会で銀メダルを獲得するのに十分な成績です。
OpenAIの「Strawberry」に関する報道と同時に、AIが「strawberry」の綴りができないというミームが拡散されているのは、少々皮肉な話です。しかし、OpenAIのCEOであるサム・アルトマン氏は、自宅の庭で驚くほどのベリーの収穫量を見せてくれるこの機会を喜んで受け入れました。