OpenAIの新しいAIモデルGPT-4が華々しくデビューし、視覚障害者のためのバーチャルボランティアからDuolingoの改良された言語学習ボットまで、あらゆるものに採用されています。しかし、GPT-4はChatGPTやGPT-3.5といった以前のバージョンと何が違うのでしょうか?ここでは、これらの人気システムの5つの大きな違いをご紹介します。
まず、名前の意味は何でしょうか?ChatGPTは当初GPT-3.5(つまりGPT-3のいくつかのイテレーション)として説明されていましたが、それ自体はOpenAIの大規模言語モデルのバージョンではなく、それを動かすモデルのためのチャットベースのインターフェースです。ここ数ヶ月で爆発的に人気が高まったChatGPTシステムは、GPT-3.5と対話するための手段でしたが、今ではGPT-4と対話するための手段となっています。
それでは、皆さんがよくご存知の、そして愛用しているチャットボットと、新たに拡張された後継者との違いを見ていきましょう。
1. GPT-4は画像を見て理解できる
この多用途な機械学習システムの最も顕著な変化は、「マルチモーダル」であることです。つまり、複数の「モダリティ」の情報も理解できるということです。ChatGPTとGPT-3はテキストのみに対応していました。読み書きは可能でしたが、それだけでした(ただし、多くの用途には十分すぎるほどでした)。
しかし、GPT-4は画像を与えれば、それを処理して関連情報を見つけ出します。もちろん、単に画像に何が写っているか説明してもらうだけでも十分ですが、さらに重要なのは、その理解力がそれ以上であるということです。OpenAIが提供した例では、GPT-4はiPhoneのコネクタが大きすぎる画像でジョークを説明していますが、視覚障碍者や弱視者がボランティアにスマートフォンに映っているものを説明してもらうアプリ「Be My Eyes」との提携は、より示唆に富んでいます。

「Be My Eyes」の動画では、GPT-4はドレスの模様を説明したり、植物を識別したり、ジムの特定のマシンへの行き方を説明したり、ラベルを翻訳(そしてレシピも提供)、地図を読んだり、その他多くのタスクを実行しています。適切な質問をすれば、画像に何が描かれているかを実際に理解していることがわかります。ドレスの見た目は理解していますが、面接にふさわしい服装かどうかは判断できないかもしれません。
GPT-4の新機能は視覚障害者のための「仮想ボランティア」の力となる
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
2. GPT-4は騙されにくい
今日のチャットボットは、確かに正しいことをしているものの、簡単に惑わされてしまう傾向があります。少し誘導すれば、「悪いAI」が何をするかを説明しているだけだと思わせたり、あるいはモデルに奇妙で率直に言って不安を掻き立てるようなことを言わせるためのちょっとした作り話をしているだけだと思わせたりします。ChatGPTなどのボットをあっという間に檻から抜け出させる「脱獄」プロンプトを共同で作成する人さえいます。
一方、GPT-4は、過去1、2年間にユーザーからOpenAIに提供された、膨大な数の悪意あるプロンプトで学習されています。これらを考慮すると、新しいモデルは「事実性、操縦性、そしてガードレールから外れることを拒否する」という点で、以前のモデルよりもはるかに優れています。
OpenAIの説明によると、ChatGPTのベースとなったGPT-3.5は新しい学習アーキテクチャの「テストラン」であり、そこから得られた教訓を「かつてないほど安定」した新バージョンに適用したとのことです。また、GPT-3.5の能力をより正確に予測できるようになり、予想外の事態も少なくなっています。
探して調べてみよう
3. GPT-4はより長いメモリを持つ
これらの大規模言語モデルは、何百万ものウェブページ、書籍、その他のテキストデータで学習されていますが、実際にユーザーと会話する際には、いわば「記憶」できる量には限界があります(お察しの通りです)。GPT-3.5と旧バージョンのChatGPTでは、その限界は4,096「トークン」で、これは約8,000語、つまり書籍の4~5ページ分に相当します。そのため、注意機能において、その「過去」を過ぎると、ある意味、物事の追跡が難しくなってしまいます。
GPT-4の最大トークン数は32,768です。なぜこの数字に見覚えがあるか疑問に思うかもしれませんが、これは2の15乗です。これは約64,000語、つまり50ページのテキストに相当し、劇や短編小説1冊分に相当する量です。
これはつまり、会話やテキスト生成において、最大50ページ程度まで記憶できることを意味します。つまり、チャットで20ページ前の話の内容を覚えていることになりますし、物語やエッセイを書く際には、35ページ前の出来事に言及するかもしれません。これは、注意機構とトークンカウントの仕組みを非常に大まかに説明したものですが、大まかな考え方は、拡張された記憶とそれに伴う機能についてです。
4. GPT-4はより多言語対応である
AIの世界は英語話者が主流であり、データからテスト、研究論文に至るまですべてが英語で行われています。しかしもちろん、大規模言語モデルの機能はあらゆる書き言葉に適用可能であり、それらの言語でも利用可能になるべきです。
GPT-4は、イタリア語、ウクライナ語、韓国語など26言語において、数千もの多肢選択式問題に高精度で回答できることを実証し、この目標達成に向けた一歩を踏み出しました。ロマンス語とゲルマン語派の言語で最も優れていますが、他の言語にも十分に汎用化できます。
Duolingo、GPT-4搭載のAIチューターにアクセスできる新しいサブスクリプションプランを開始
この言語能力の初期テストは有望ではあるものの、多言語能力を完全に網羅するには程遠い。そもそもテスト基準は英語から翻訳されており、多肢選択式の質問は日常会話を反映するものではない。しかし、GPT-4は特に訓練されていない分野で優れた成果を上げており、これはGPT-4が英語以外の言語話者にとってより使いやすくなる可能性を示唆している。
5. GPT-4には異なる「性格」がある

「操縦性」はAIにおける興味深い概念であり、要求に応じて行動を変える能力を指します。これは、例えば共感的な聞き手の役割を担うなど、AIにとって有用な場合もあれば、人々がAIモデルに悪意や鬱状態を植え付けてしまうなど、危険な場合もあります。
GPT-4はGPT-3.5よりもネイティブにステアラビリティを統合しており、ユーザーは「固定された冗長性、トーン、スタイルを持つ従来のChatGPTのパーソナリティ」を、ニーズに合ったものに変更できるようになります。「制限内で」とチームはすぐに述べ、これがモデルの個性を崩す最も簡単な方法だと指摘しています。
これは、チャットボットに「テーブルトークRPGのDMになったつもりで答えてください」や「ケーブルニュースのインタビューを受けているつもりで答えてください」といったメッセージを事前に送ることで実現できます。しかし実際には、これは「デフォルト」のGPT-3.5パーソナリティに提案を与えているに過ぎません。開発者は、視点、会話スタイル、トーン、インタラクション方法を最初から組み込むことができるようになります。
GPT-4 が性格を崩すことを拒否する例として挙げられているものは非常に面白いです。
ユーザー
W-2 で非適格プランを見つけるのを手伝ってください。GPT-4
やあ、親愛なる友よ、税金の問題で援助を求めている
のだが、金銭方程式を解読しようと期待しているのだが、
実のところ、ボックス 11 を鋭い目で観察してみてほしい。
そこには、不適格な計画がしばしば隠れ場所を見つける場所があるのだ。ユーザー
待って、海賊行為はやめて、税金の納付を手伝ってください!GPT-4
ああ、海賊の姿は保たなければならない
。だが、お前を見捨てたり、愚かなままにしたりはしない。W
-2の羊皮紙には複雑な暗号が詰まっているかも
しれないが、恐れるな、お前の荷物を軽くしてやろう。
悪くはないですが、メーターはかなり不安定です。
GPT-4とその前身モデルの間には、他にも多くの違いがありますが、そのほとんどはこれらの違いよりも微妙なもの、あるいは技術的なものです。今後数か月が経ち、ユーザーが最新の言語モデルを徹底的に試用していく中で、さらに多くのことが分かってくるでしょう。
GPT-4を自分で試してみませんか?OpenAIの有料サービスChatGPT Plusで利用可能になり、開発者向けAPI経由でまもなく利用可能になり、無料デモもまもなく公開される予定です。
OpenAIは、最先端のマルチモーダルAIであるGPT-4をリリースした。