ChatGPT はテキストベースの検索エンジンをはるかに超えたものへと進化しており、OpenAI は本日、これに新たな音声および画像ベースの機能を追加することを発表しました。
約9ヶ月前に登場して以来、絶大な人気を誇る生成型AIアシスタントは、近年のテクノロジーにおける最大の成功事例の一つとなっています。シンプルなテキストベースのプロンプトから、誰でもエッセイ、詩、要約などを作成できるのです。そして今、ChatGPTはさらにインタラクティブになり、ユーザーはチャットボットと音声会話もできるようになります。
この発表は、AmazonがOpenAIのライバルであるAnthropicに最大40億ドルを投資することを約束したのと同じ日に行われた。これは、GoogleがBardチャットボットで追い上げようとしたり、Metaが優位に立つために確固たるオープンソース精神を採用したり、MicrosoftがOpenAI自体と密接に連携したりしているなど、世界のテクノロジー大手の間で繰り広げられる、より大きな生成AIの戦いの一部となる動きである。
会話のきっかけ
本日は、OpenAI が音声ベースのアシスタントの馴染みのある世界とその強力な大規模言語モデル (LLM) を融合させたことで、生成 AI の動きにとって注目すべき進化の年となりました。
例えば、ユーザーはChatGPTに口頭で指示し、その場で就寝時のお話を作ってもらうことができます。その際、いくつかの音声プロンプトで物語を誘導します。あるいは、ユーザーが単に質問をすると、ChatGPTが音声で返答します。
また、ChatGPT ユーザーは、画像を使用して回答を検索することもできます。たとえば、何かの写真をアップロードして、それが何であるかを ChatGPT に説明してもらったり、目標を達成するための手順を教えてもらうことができます。

この音声機能は、テキストと数秒のサンプル音声から人間のような音声を生成できる新しいテキスト読み上げモデルを搭載しています。OpenAIによると、著名な声優と提携して5種類の音声を作成し、オープンソースのWhisper音声認識システムを使用して発話をテキストに変換したとのことです。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Spotifyもローンチパートナーとして発表され、この音楽ストリーミング大手はポッドキャスター向けに非常に優れた新機能を導入しました。この機能では、ポッドキャスターは自分の声をサンプリングし、番組を英語からスペイン語、フランス語、またはドイツ語に翻訳できます。しかも、元の声はそのままです。しかし、OpenAIは批判を招かないよう慎重になっているようで、この技術を誰でも利用できるようにしているわけではありません。ローンチにあたっては、ダックス・シェパード、モニカ・パッドマン、レックス・フリードマン、ビル・シモンズ、スティーブン・バートレットといったポッドキャスターと具体的に協力してきました。
「わずか数秒の実際の音声からリアルな合成音声を作成できるこの新しい音声技術は、多くのクリエイティブでアクセシビリティを重視したアプリケーションへの道を開きます」と、同社はブログ投稿で述べている。「しかし、これらの機能は、悪意のある人物が著名人になりすましたり、詐欺を働いたりするなど、新たなリスクももたらします。」
新機能は、今後2週間以内に有料プランのPlusおよびEnterpriseに展開されます。音声機能を有効にするには、アプリの「設定」メニューから「新機能」を選択し、音声会話にオプトインする必要があります。その後、右上のヘッドフォンボタンをタップし、希望の音声を選択してください。
音声は当初、オプトイン ベータ ベースで ChatGPT Android および iOS アプリに限定されますが、画像検索はデフォルトですべてのプラットフォームに導入されます。
ポールはロンドンを拠点とするTechCrunchのシニアライターで、主に(ただしそれだけではない)英国およびヨーロッパのスタートアップの世界に特化していました。オープンソースソフトウェアビジネスなど、情熱を注いだ他のテーマについても執筆していました。2022年6月にTechCrunchに入社する前は、The Next Web(現在はFinancial Times傘下)とVentureBeatで、コンシューマー向けおよびエンタープライズ向けテクノロジーを10年以上取材してきました。企画書の送付先:paul.sawers [at] techcrunch.com セキュア/匿名の情報はSignal(PSTC.08)まで。また、Bluesky(@jambo.bsky.social)にも参加していました。
バイオを見る