OpenAIは月曜日、新たなフラッグシップ生成AIモデル「GPT-4o」を発表しました。「o」は「omni(オムニ)」の頭文字で、テキスト、音声、動画を処理できる能力を示しています。GPT-4oは、今後数週間かけて、同社の開発者向けおよび消費者向け製品に「反復的に」展開される予定です。
OpenAIのCTOであるミラ・ムラティ氏は、GPT-4oは「GPT-4レベル」のインテリジェンスを提供するが、複数のモダリティとメディアにわたってGPT-4の機能を向上させると述べた。
「GPT-4oは音声、テキスト、そして視覚を横断して推論します」と、ムラティ氏は月曜日にサンフランシスコのOpenAIオフィスで行われたストリーミングプレゼンテーションで述べた。「これは極めて重要です。なぜなら、私たちは人間と機械のインタラクションの未来を見つめているからです。」
OpenAIの以前の「最先端」モデルであるGPT-4 Turboは、画像とテキストの組み合わせで学習され、画像とテキストを分析して、画像からテキストを抽出したり、画像の内容を記述したりするといったタスクを実行できました。しかし、GPT-4oはこれに音声機能を加えています。
これにより何が可能になるのでしょうか? さまざまなことが可能になります。

GPT-4oは、OpenAIのAI搭載チャットボット「ChatGPT」のユーザー体験を大幅に向上させます。同プラットフォームは以前から、テキスト読み上げモデルを用いてチャットボットの応答を書き起こす音声モードを提供してきましたが、GPT-4oはこれをさらに強化し、ユーザーはChatGPTをアシスタントのように操作できるようになります。
例えば、ユーザーはGPT-4oを搭載したChatGPTに質問し、ChatGPTが回答している間に割り込むことができます。OpenAIによると、このモデルは「リアルタイム」の応答性を提供し、ユーザーの声のニュアンスを捉えて「様々な感情表現スタイル」(歌声も含む)の音声を生成することも可能とのことです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
GPT-4oはChatGPTの視覚機能も向上させます。写真やデスクトップ画面の情報を入力するだけで、ChatGPTは「このソフトウェアコードでは何が起こっているのか?」から「この人はどんなブランドのシャツを着ているのか?」まで、関連する質問に迅速に答えられるようになります。

これらの機能は今後さらに進化していくとムラティ氏は語る。現在GPT-4oは異なる言語のメニューの画像を見て翻訳できるが、将来的にはChatGPTが例えばスポーツの試合を「観戦」し、ルールを説明するといったことも可能になるだろう。
「これらのモデルはますます複雑になっていることは承知していますが、インタラクション体験をより自然で簡単なものにし、UIに気を取られることなくChatGPTとの連携に集中していただけるようにしたいと考えています」とムラティ氏は述べた。「ここ数年、私たちはこれらのモデルのインテリジェンス向上に注力してきました。しかし、使いやすさという点で真に大きな前進を遂げたのは今回が初めてです。」
OpenAIによると、GPT-4oはより多言語対応しており、約50言語でパフォーマンスが向上しています。また、OpenAIのAPIとMicrosoftのAzure OpenAIサービスでは、GPT-4oはGPT-4 Turboと比較して2倍の速度、半分の価格で、より高いレート制限を備えているとのことです。
現在、音声機能はすべての顧客向けのGPT-4o APIには含まれていません。OpenAIは、悪用リスクを理由に、今後数週間以内に「信頼できる少数のパートナー」を対象に、GPT-4oの新しい音声機能のサポートをまず開始する予定だと述べています。
GPT-4oは、本日よりChatGPTの無料プランで利用可能となり、OpenAIのプレミアムChatGPT PlusおよびTeamプランの加入者には、メッセージ制限が「5倍」高く設定されています。(OpenAIによると、ユーザーがレート制限に達すると、ChatGPTは自動的にGPT-3.5という古い機能の低いモデルに切り替わります。)GPT-4oを基盤とする改良されたChatGPT音声エクスペリエンスは、エンタープライズ向けのオプションとともに、来月あたりにPlusユーザー向けにアルファ版として提供される予定です。
関連ニュースとして、OpenAIは、より「会話的な」新しいホーム画面とメッセージレイアウトを備えた刷新されたChatGPTのWeb UIと、キーボードショートカットで質問したり、スクリーンショットを撮って議論したりできるmacOS向けChatGPTデスクトップ版をリリースすると発表しました。ChatGPT Plusユーザーは本日からアプリを最初に利用でき、Windows版は年内にリリースされる予定です。
また、OpenAIのAIモデルを基盤としたサードパーティ製チャットボットのライブラリおよび作成ツールであるGPTストアが、ChatGPTの無料プランのユーザーに提供されるようになりました。無料ユーザーは、以前は有料だったChatGPTの機能を利用できます。例えば、将来のやり取りのために設定を「記憶」したり、ファイルや写真をアップロードしたり、タイムリーな質問への回答をウェブで検索したりするメモリ機能などです。
AIニュースレターを始めます!6月5日から受信ボックスに配信を開始するには、こちらからご登録ください。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る