ChatGPTの高度な音声モードに対するGoogleの回答であるGemini Liveがリリースされました

ChatGPTの高度な音声モードに対するGoogleの回答であるGemini Liveがリリースされました

Gemini Liveは、OpenAIのChatGPT向けに最近(限定アルファ版として)リリースされたAdvanced Voice Modeに対するGoogleの回答であり、Google I/O 2024開発者会議での発表から数ヶ月後の火曜日にリリースされる。これはGoogleのMade by Google 2024イベントで発表された。

Gemini Liveは、GoogleのAI生成型チャットボット「Gemini」とスマートフォン上で「濃密な」音声チャットを可能にします。Googleによると、より一貫性があり、感情表現が豊かで、リアルなマルチターンの対話を実現する強化された音声エンジンのおかげで、ユーザーはチャットボットの会話中に割り込んで追加の質問をすることができ、Geminiはユーザーの話し方に合わせてリアルタイムで適応します。

Googleはブログ記事で次のように説明しています。「Gemini Live(Geminiアプリ経由)を使えば、Geminiに話しかけ、自然な音声(10種類)から選んで応答できます。自分のペースで話したり、応答の途中で質問を挟んで説明したり、他の会話と同じように操作できます。」

Gemini Liveは、必要に応じてハンズフリー通話が可能です。バックグラウンドでも、スマートフォンがロックされている状態でも、Geminiアプリを起動したまま通話を続けることができ、会話はいつでも一時停止・再開できます。

では、これはどのように役立つのでしょうか?Googleは就職面接のリハーサルを例に挙げています。少し皮肉なシナリオですが、まあいいでしょう。Googleによると、Gemini Liveはユーザーと一緒に練習することができ、採用担当者(場合によってはAI)と話す際に、スピーキングのヒントや強調すべきスキルを提案してくれるそうです。

Gemini LiveがChatGPTの高度な音声モードに対して持つ利点の一つは、より優れたメモリ容量でしょう。Live、Gemini 1.5 Pro、そしてGemini 1.5 Flashを支える生成AIモデルのアーキテクチャは、平均よりも長い「コンテキストウィンドウ」を備えています。つまり、大量のデータ(理論的には何時間もの会話)を取り込み、推論した上で、返答を作成することができるのです。

「Liveは、より会話的な機能に改良したGemini Advancedモデルを使用しています」と、Googleの広報担当者はTechCrunchへのメールで述べた。「このモデルの大きなコンテキストウィンドウは、ユーザーがLiveと長い会話をする際に活用されます。」

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

もちろん、実際にこれがどれだけうまく機能するかは見てみないとわかりません。OpenAIのAdvanced Voice Modeでの失敗を見れば、デモが現実世界にシームレスに移植されることは稀だと言えるでしょう。

ジェミニライブ
画像クレジット: Google

ところで、Gemini Live には、 Google I/O で披露された機能の一つ、マルチモーダル入力がまだ搭載されていません。5月にGoogleは、スマートフォンのカメラで撮影した写真や映像を使って、Gemini Live がユーザーの周囲の状況を認識し、反応する様子を映した録画済みの動画を公開しました。例えば、壊れた自転車の部品の名前を言ったり、コンピューター画面上のコードの一部が何をするのかを説明したりといった機能です。

Googleは、マルチモーダル入力機能は「今年後半」に利用可能になると発表しましたが、具体的な時期については言及を避けました。また、Liveは今年後半に他の言語にも拡大され、Googleアプリ経由でiOSにも利用可能になります。ただし、現時点では英語のみの対応となります。

Gemini Live は、Advanced Voice Mode と同様に無料ではありません。Gemini のより高度なバージョンである Gemini Advanced でのみ利用可能で、月額 20 ドルの Google One AI プレミアムプランでのみご利用いただけます。

ただし、今後登場するその他の Gemini の新機能は無料です。

Androidユーザーはまもなく(数週間以内に)、使用中のアプリの上にGeminiのオーバーレイを表示し、画面に表示されているもの(YouTube動画など)について質問できるようになります。質問の際は、スマートフォンの電源ボタンを長押しするか、「Hey Google」と話しかけてください。Geminiはオーバーレイから直接画像(残念ながら人物の画像はまだ生成できません)を生成し、GmailやGoogleメッセージなどのアプリにドラッグ&ドロップできます。

Geminiは、モバイルとウェブの両方でGoogleサービス(Googleは「拡張機能」と呼ぶことが多い)との新たな連携機能も追加しています。今後数週間のうちに、タイマーやアラーム、メディアコントロール、懐中電灯、音量、Wi-Fi、Bluetoothといったデバイス内機能を操作できるGoogleカレンダー、Keep、ToDoリスト、YouTube Music、ユーティリティといったアプリとの連携がGeminiでさらに強化される予定です。

Googleはブログ記事で、人々がどのように活用できるかについていくつかのアイデアを紹介しています。すべてが確実に機能すると仮定すると、非常に魅力的に思えます。

  • ジェミニに「90年代後半を思い出させる曲のプレイリストを作って」と依頼します。
  • コンサートのチラシの写真を撮って、その日に空いているかどうかを Gemini に尋ねてみましょう。チケットを購入するリマインダーを設定することもできます。
  • Gemini に Gmail からレシピを取り出し、その材料を Keep の買い物リストに追加するよう依頼します。

最後に、今週後半から、Gemini は Android タブレットでも利用できるようになります。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る