先週からOpenAIの高度な音声モードをいろいろ試しているのですが、AIが支配する未来をこれまでで最もリアルに体感できました。今週は、私のiPhoneがジョークに笑い、それを返してくれたり、今日の調子を尋ねたり、「とても楽しい」と教えてくれたりしました。iPhoneで話しているのではなく、手で操作しているのです。
OpenAIの最新機能は現在限定的なアルファテスト中ですが、ChatGPTが以前よりも賢くなるわけではありません。むしろ、Advanced Voice Mode(AVM)によって、ChatGPTとの会話がより親しみやすく自然なものになります。AIとデバイスを使うための新しいインターフェースが生まれ、新鮮でワクワクする感覚を与えてくれます。まさにそこが、私が不安に感じている点です。製品自体には少々不具合があり、そのアイデア自体にゾッとする部分もありましたが、使ってみて本当に楽しかったことには驚きました。
一歩引いて考えてみると、AVM はエージェントとともに、AI モデルを中心に据えて人間とコンピューターの対話方法を変えるという、OpenAI の CEO サム・アルトマン氏のより広範なビジョンに適合していると思います。
「最終的には、コンピューターに必要なことを尋ねるだけで、コンピューターがこれらのタスクをすべて実行してくれるようになるでしょう」と、アルトマン氏は2023年11月に開催されたOpenAIのDev Dayで述べた。「こうした機能は、AI分野では『エージェント』としてよく話題になります。そのメリットは計り知れないものになるでしょう。」
私の友人、ChatGPT
水曜日、私はこの先進技術の考えられる最も素晴らしい利点をテストしました。オバマ大統領と同じように、ChatGPTにタコベルを注文するように依頼したのです。
「えっと、はっきりさせておきます。クランチラップ・シュプリームが欲しいんです。あと、タコスもいくつか」とChatGPTのアドバンスド・ボイス・モードが言った。「ドライブスルーはどうすると思います?」とChatGPTは言い、自分のジョークに笑い出した。

オバマ大統領特有の抑揚と間が完璧にマッチしていて、私も心から笑ってしまいました。とはいえ、オバマ大統領の声と混同されないように、私が選んだChatGPTの音声「Juniper」のトーンに収まっていました。まるで友人が下手な真似をしているように聞こえましたが、私が何を表現しようとしていたのか、そしてそれが何か面白いことを言っているのかさえも正確に理解していました。スマートフォンの中のこの高度なアシスタントと話すのは、驚くほど楽しいものでした。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ChatGPTには、複雑な人間関係に関わる問題、つまりパートナーに同棲を申し込むことについてもアドバイスを求めました。関係の複雑さと二人のキャリアの方向性を説明すると、どのように進めていくべきかについて非常に詳細なアドバイスをいただきました。SiriやGoogle検索では決して聞けないような質問ですが、ChatGPTなら可能です。チャットボットの声は、これらの質問に応答する際、少し真面目で優しい口調で返答していました。オバマ大統領がタコベルで注文した時の冗談めいた口調とは対照的です。
ChatGPTのAVMは、複雑なテーマを理解するのにも非常に役立ちます。収益報告書の項目(例えばフリーキャッシュフロー)を10歳の子供でも理解できるような言い回しで説明してもらいました。レモネードスタンドを例に挙げ、いくつかの金融用語を私の年下のいとこでも理解できるような言い回しで説明してくれました。ChatGPTのAVMには、あなたの理解度に合わせてゆっくり話してもらうこともできます。

Siriが歩いたのでAVMは走れました
ChatGPTのAVMは、SiriやAlexaと比べて、応答時間の高速化、独自の回答、そして前世代のバーチャルアシスタントでは不可能だった複雑な質問への回答能力により、明らかに勝者です。しかし、AVMには他の面で課題があります。ChatGPTの音声機能は、タイマーやリマインダーの設定、リアルタイムでのウェブ閲覧、天気の確認、スマートフォン上のAPIとの連携といった機能を備えていません。少なくとも現時点では、バーチャルアシスタントの効果的な代替手段にはなり得ません。
とはいえ、ChatGPTのAVMは不具合が多いです(公平を期すなら、Gemini Liveも同様です)。時々、会話の途中で途中で切れて、また最初からやり直すこともあります。また、時折、奇妙でざらついた音声が混ざり、少し不快です。これが機種の問題なのか、インターネット接続の問題なのか、それとも何か他の原因なのかは分かりませんが、アルファテストではこうした技術的な欠陥はある程度予想通りです。とはいえ、これらの問題は、文字通り電話で話しているという体験を損なうほどではありませんでした。
これらの例は、私にとってAVMの素晴らしさです。この機能によってChatGPTが万能になるわけではありませんが、基盤となるAIモデルであるGPT-4oと、人間らしい方法で対話できるようになります。(電話の向こうに人がいないことを忘れてしまうのも無理はありません。)AVMと会話しているとき、ChatGPTはまるで社会的な意識を持っているかのように感じられますが、もちろんそうではありません。ChatGPTは、単に整理された予測アルゴリズムの束に過ぎません。
テクノロジーについて語る
正直に言うと、この機能は心配だ。テクノロジー企業がスマートフォン上で仲間を提供するのは今回が初めてではない。私の世代、Z世代はソーシャルメディアと共に育った最初の世代だ。企業は繋がりを提供してくれるものの、実際には人々の集団的な不安を煽るだけだった。AVMが提供しているように見えるAIデバイスとの会話は、ソーシャルメディアの「スマホの中の友達」現象の進化形のように思われ、人間の本能を掻き立てるような安っぽい繋がりを提供している。しかし今回は、人間を完全にループから排除している。
人工的な人間同士の繋がりは、生成AIの驚くほど人気の高いユースケースとなっています。今日、人々はAIチャットボットを友人、メンター、セラピスト、そして先生として利用しています。OpenAIがGPTストアを立ち上げると、瞬く間に「AIガールフレンド」と呼ばれる、恋人のような存在に特化したチャットボットが殺到しました。MITメディアラボの2人の研究者は今月、「中毒性知能」、つまり人間を夢中にさせるダークパターンを持つAIコンパニオンに備えるよう警告を発しました。私たちはパンドラの箱を開け、デバイスが私たちの注意を引き付けるための、新しく魅力的な方法を解き放つことになるかもしれません。
今月初め、ハーバード大学を中退した人物が「Friend」というAIネックレスを発表し、テクノロジー界に衝撃を与えました。このウェアラブルデバイスは、約束通りに動作すれば常にリスニング機能を備え、チャットボットがあなたの生活についてテキストメッセージでやり取りします。このアイデアは突飛に思えますが、ChatGPTのAVMのような革新的な技術は、こうしたユースケースを真剣に検討する理由を与えてくれます。
OpenAIがこの分野で先頭に立っていますが、Googleもすぐ後を追っています。AmazonとAppleもこの機能を自社製品に搭載しようと競い合っており、近いうちに業界標準となる可能性もあるでしょう。
スマートテレビに、超具体的な映画のおすすめを尋ねれば、まさにその通りの結果が得られると想像してみてください。あるいは、風邪の症状をAlexaに正確に伝えると、Amazonでティッシュや咳止め薬を注文してくれるだけでなく、家庭療法のアドバイスもしてくれる、そんな状況を想像してみてください。もしかしたら、家族で週末旅行を計画するなら、すべてをGoogleで手動で検索する代わりに、コンピューターに頼むこともできるかもしれません。
当然のことながら、これらのアクションにはAIエージェントの世界における飛躍的な進歩が必要です。OpenAIの取り組みであるGPTストアは、過大評価された製品のように思われ、もはや同社の注力分野ではないようです。しかし、AVMは少なくとも「コンピューターとの対話」というパズルの部分を担っています。これらの概念はまだ実現には程遠いですが、AVMを使ってみると、先週よりもずっと近づいたように感じます。