AIはSATで楽々と高得点を取り、チェスのグランドマスターを破り、コードをデバッグするのも簡単だ。しかし、スペリング大会でAIを中学生と対戦させれば、「拡散」と言うよりも早く負けてしまうだろう。
AIはこれまで多くの進歩を遂げてきましたが、それでもスペルは理解できません。DALL-Eのようなテキスト画像生成ツールにメキシコ料理店のメニューを作成させれば、「タアオ」「バート」「エンチダ」といったおいしそうなメニューが、意味不明な言葉の海に紛れて見つかるかもしれません。
ChatGPTは論文を代筆してくれるかもしれませんが、「A」や「E」を含まない10文字の単語を生成させると、滑稽なほど無能です(私の場合は「バラクラバ」と出てきました)。また、友人がInstagramのAIを使って「新しい投稿」と書かれたステッカーを生成しようとしたところ、TechCrunchのような家族向けウェブサイトでは繰り返し使用できないような内容のグラフィックが生成されました。

「画像生成器は、車や人の顔のような人工物ではパフォーマンスがはるかに優れている傾向があるが、指や手書きのような小さなものに対してはそれほどうまく機能しない」と、Lesanの共同設立者でDAIR研究所研究員のアスメラシュ・テカ・ハドグ氏は述べた。
画像ジェネレータとテキストジェネレータの基盤技術は異なりますが、どちらのモデルもスペルなどの細部への対応において同様の課題を抱えています。画像ジェネレータは一般的に拡散モデルを用いてノイズから画像を再構成します。一方、テキストジェネレータに関しては、大規模言語モデル(LLM)は人間の脳のようにプロンプトを読み取って応答しているように見えるかもしれません。しかし実際には、複雑な数学的手法を用いてプロンプトのパターンを潜在空間内のパターンと照合し、そのパターンを答えへと繋げているのです。
「画像生成に用いられる最新のアルゴリズムである拡散モデルは、与えられた入力を再構成します」とハグドゥ氏はTechCrunchに語った。「画像上の文字は非常に小さな部分だと想定できるので、画像生成器はこれらのピクセルをより多く覆うパターンを学習します。」
アルゴリズムは、トレーニング データで見たものに似たものを再現するように動機づけられますが、私たちが当然のことと思っているルール、つまり「hello」は「heeelllooo」と綴られないことや、人間の手は通常 5 本の指があることをネイティブに認識していません。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「昨年でさえ、これらのモデルは指の認識が非常に苦手で、それはテキストの認識と全く同じ問題です」と、アルバータ大学のAI研究者で助教授のマシュー・ガズディアル氏は述べた。「彼らは局所的にはかなり良くなってきているので、6本指や7本指のある手を見て、『おお、指のようだ』と言えるでしょう。同様に、生成されたテキストについても、『これは『H』のようだ』『これは『P』のようだ』と言えるでしょう。しかし、これら全体を構造化するのは非常に苦手なのです。」
エンジニアは、AIに手の正しい形を教える目的で特別に設計されたトレーニングモデルをデータセットに追加することで、これらの問題を改善できます。しかし、専門家はこれらのスペルミスがすぐに解決するとは考えていません。

「似たようなことを想像してみてください。大量のテキストを用意すれば、良いものと悪いものを認識できるようにモデルをトレーニングできます。そうすれば、状況は多少改善されるかもしれません。しかし残念ながら、英語は非常に複雑な言語です」と、ガズディアル氏はTechCrunchに語った。AIが学習しなければならない言語の多さを考えると、問題はさらに複雑になる。
Adobe Fireflyのような一部のモデルは、テキストを全く生成しないように学習されています。「レストランのメニュー」や「広告の看板」といった単純な単語を入力すると、食卓の上の白紙や高速道路の白い看板の画像が表示されます。しかし、プロンプトに十分な詳細を与えれば、こうしたガードレールは簡単に回避できます。
「まるでモグラ叩きをしているようなものです。『多くの人が私たちの手について不満を言っているので、次のモデルでは手に対応するだけの新しい機能を追加しよう』といった具合です」とガズディアル氏は述べた。「しかし、テキストははるかに難しい。そのため、ChatGPTでさえスペルを正確に書くことができないのです。」
Reddit、YouTube、Xには、ChatGPTがASCIIアート(テキスト文字を使って画像を作成する初期のインターネットアート形式)のスペルミスを見せる動画がいくつか投稿されています。「プロンプトエンジニアリングの英雄の旅」と題された最近の動画では、ある人物がChatGPTに「Honda」と書かれたASCIIアートを作成させようと苦心しています。最終的には成功しますが、オデュッセイアの試練と苦難を経ずには実現しませんでした。
ああ、なんてことだ。byu
/debiEszter inChatGPT
「私が考えている仮説の一つは、彼らの訓練ではアスキーアートはあまり扱われていなかったということです」とハグドゥ氏は言った。「それが一番単純な説明です。」
しかし、法学修士たちは、たとえ数秒でソネットを書くことができたとしても、根本的には文字が何であるかを理解していないのです。
「LLMはこのトランスフォーマーアーキテクチャに基づいていますが、注目すべきことに、これは実際にはテキストを読み取っているわけではありません。プロンプトを入力すると、それがエンコードに変換されます」とGuzdial氏は述べた。「『the』という単語を見ると、『the』の意味を表すエンコードは1つしか持っていませんが、『T』『H』『E』については認識していません。」
そのため、ChatGPTに「O」や「S」を含まない8文字の単語のリストを作成させると、約半分の確率で間違った結果が出ます。ChatGPTは実際には「O」や「S」が何なのかを知りません(ただし、その文字のWikipediaの由来を引用することはできるでしょう)。
DALL-Eによるまずいレストランメニューの画像は面白いものですが、AIの欠点は誤情報を見分ける際に役立ちます。疑わしい画像が本物かAIが生成したものかを見極めるには、道路標識、文字が書かれたTシャツ、本のページなど、ランダムな文字列が画像の合成元を裏付ける可能性のあるものを見ることで、多くのことを学ぶことができます。また、これらのモデルが手の合成能力を向上させる以前は、6本目(あるいは7本目、8本目)の指も、その正体を明かす手がかりとなる可能性がありました。
しかし、よく見てみると、AIが間違えるのは指やスペルだけではない、とガズディアル氏は言う。
「これらのモデルは、こうした小さな地域的な問題を常に作り出している。ただ、私たちはそれらの問題のいくつかを認識するのに特によく適応しているだけだ」と彼は語った。

例えば、一般の人にとっては、AIが生成した楽器店の画像は簡単に信じられるかもしれません。しかし、音楽に少し詳しい人なら、同じ画像を見て、ギターの弦が7本あることや、ピアノの黒鍵と白鍵の間隔が間違っていることに気づくかもしれません。
これらの AI モデルは驚くべき速度で改善していますが、これらのツールは依然としてこのような問題に遭遇する可能性があり、それがテクノロジーの能力を制限しています。
「これは確かな進歩です。疑いの余地はありません」とハグドゥ氏は述べた。「しかし、この技術がこれほどまでに誇大宣伝されていることは、常軌を逸しています。」