GoogleのGeminiアップデート:Project AstraがI/Oのビッグ発表を支えている

GoogleのGeminiアップデート:Project AstraがI/Oのビッグ発表を支えている

Google は、AI 搭載チャットボット「Gemini」を改良し、周囲の世界や会話する人々をより深く理解できるようにしている。

火曜日に開催されたGoogle I/O 2024開発者会議で、同社はGeminiの新機能「Gemini Live」をプレビューしました。これは、ユーザーがスマートフォンでGeminiと「詳細な」音声チャットを行える機能です。ユーザーはチャットボットの会話中に割り込んで質問をすることができ、Geminiはユーザーの話し方に合わせてリアルタイムで適応します。また、Geminiはスマートフォンのカメラで撮影した写真や動画を通して、ユーザーの周囲の状況を認識し、反応することができます。

「Liveを使えば、Geminiはユーザーの理解度をより高めることができます」と、GoogleのGeminiエクスペリエンス担当ゼネラルマネージャー、シシー・シャオ氏は記者会見で述べた。「直感的に操作できるようカスタマイズされており、(基盤となるAI)モデルと実際に対話できるようになっています。」

Gemini Live は、ある意味では、画像や動画を分析するための Google の長年のコンピューター ビジョン プラットフォームである Google Lens と、電話、スマート スピーカー、テレビで利用できる AI 搭載の音声生成および音声認識仮想アシスタントである Google Assistant の進化形です。

一見すると、Liveは既存の技術を大幅にアップグレードしたようには見えません。しかしGoogleは、生成AI分野の最新技術を活用することで、より正確でエラーの少ない画像分析を実現し、さらにこれらの技術と強化された音声エンジンを組み合わせることで、より一貫性があり、感情表現が豊かで、リアルなマルチターンの対話を実現していると主張しています。

「これはリアルタイムの音声インターフェースで、非常に強力なマルチモーダル機能と長いコンテキストを組み合わせたものです」と、GoogleのAI研究部門DeepMindの主任科学者オリオール・ヴィニャルズ氏はTechCrunchのインタビューで語った。「この組み合わせがどれほどパワフルなものになるか、想像に難くありません。」

Live を推進する技術革新の一部は、リアルタイムのマルチモーダル理解のための AI 搭載アプリと「エージェント」を作成するという DeepMind の新しい取り組みである Project Astra から生まれました。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「私たちは常に、日常生活に役立つユニバーサルエージェントを開発したいと考えてきました」と、DeepMindのCEO、デミス・ハサビス氏は説明会で述べた。「私たちの行動を見て聞いて、私たちが置かれている状況をより深く理解し、会話に素早く反応してくれるエージェントを想像してみてください。そうすれば、インタラクションのペースと質がはるかに自然に感じられるでしょう。」

今年後半にリリース予定のGemini Liveは、スマートフォンのカメラに映っているもの(または最近映っていたもの)に関する質問に答えることができます。例えば、ユーザーが現在どの地域にいるのか、壊れた自転車の部品の名前などです。コンピューターコードの一部を指さすと、Liveはそのコードが何をするのか説明してくれます。また、メガネがどこにあるか尋ねると、Liveは最後にメガネを「見た」場所を教えてくれます。

ジェミニ
画像クレジット: Google

Liveは、イベントのリハーサルやアイデアのブレインストーミングなど、ユーザーをサポートするバーチャルコーチのような役割も担うように設計されています。例えば、今後の就職面接やインターンシップ面接でアピールすべきスキルを提案したり、人前で話す際のアドバイスをしたりすることも可能です。

「Gemini Liveは、例えばテキストだけでやり取りする場合よりも、より簡潔に情報を提供し、より会話的な回答を提供できます」とシシー氏は述べた。「AIアシスタントは複雑な問題を解決でき、かつ、ユーザーが操作する際に非常に自然でスムーズな操作感を提供できるべきだと考えています。」

Gemini Live の「記憶」能力は、その基盤となるモデルのアーキテクチャによって可能になっています。Gemini 1.5 Pro(および、それほどではないものの他の「タスク特化型」生成モデル)は、Google の Gemini ファミリー生成 AI モデルにおける現在のフラッグシップモデルです。平均よりも長いコンテキストウィンドウを備えているため、大量のデータ(約1時間分の動画データ(スマートフォンのバッテリー切れはごめんです))を取り込み、推論した上で応答を作成できます。

「モデルとやりとりするビデオを何時間も撮ることができ、モデルは以前に起こったことすべてを記憶します」とヴィニャルズ氏は言う。

Liveは、MetaのRay-Banメガネに搭載されている生成AIを彷彿とさせます。Metaもカメラで撮影した画像をほぼリアルタイムで解釈できます。Googleが説明会で公開した事前録画のデモ映像から判断すると、OpenAIが最近改良したChatGPTと非常によく似ており、その差は歴然としています。

新しいChatGPTとGemini Liveの大きな違いは、Gemini Liveが無料ではないことです。リリース後は、LiveはGeminiのより高度なバージョンであるGemini Advancedでのみ利用可能となり、Google One AIプレミアムプラン(月額20ドル)でのみご利用いただけます。

おそらくMetaへの皮肉なのだろうが、Googleのデモの一つでは、Gemini Liveのようなアプリを搭載したARグラスを装着した人物が登場した。Googleは、メガネ部門で再び失敗作を出したくないのは明らかで、このグラス、あるいは同社の生成AIを搭載した他のグラスが近い将来に市場に登場するかどうかについては明言を避けた。

しかし、ヴィニャルズ氏はこのアイデアを完全に否定したわけではない。「まだ試作段階ですが、もちろん(AstraとGemini Liveを)世界に披露しています」と彼は語った。「試用していただいた方々の反応を見ながら、今後の方向性を決めていきたいと思っています」

ジェミニのその他のアップデート

Live 以外にも、Gemini は日常的にさらに便利になるようにさまざまなアップグレードを実施しています。

150カ国以上、35以上の言語でGemini Advancedユーザーは、Gemini 1.5 Proのより広範なコンテキストを活用し、最大1,500ページにも及ぶ長文ドキュメントをチャットボットに分析、要約、そして質問への回答を依頼できます。(Liveは今年後半にリリース予定ですが、Gemini Advancedユーザーは本日よりGemini 1.5 Proをご利用いただけます。)ドキュメントはGoogleドライブからインポートしたり、モバイルデバイスから直接アップロードしたりできるようになりました。

今年後半には、Gemini Advanced ユーザー向けにコンテキスト ウィンドウがさらに大きくなり、200 万トークンまで拡張され、Gemini へのビデオ (最長 2 時間) のアップロードや、大規模なコードベース (30,000 行を超えるコード) の Gemini による分析がサポートされるようになります。 

Googleは、大きなコンテキストウィンドウによってGeminiの画像理解能力が向上すると主張しています。例えば、魚料理の写真があれば、Geminiは似たようなレシピを提案できるようになります。また、数学の問題があれば、Geminiは解法をステップバイステップで説明してくれます。 

そしてそれはジェミニの旅行計画にも役立つでしょう。 

ジェミニ
画像クレジット: Google

今後数ヶ月以内に、Gemini Advanced に新しい「プランニングエクスペリエンス」が追加されます。この機能は、ユーザーの Gmail 受信トレイのメールから取得したフライト時間、食事の好み、地元の観光スポットの情報(Google 検索とマップのデータから)、そして観光スポット間の距離などを考慮し、Gemini は変更があれば自動的に更新される旅程を作成します。 

近い将来、Gemini Advancedユーザーは、GoogleのGeminiモデルを活用したカスタムチャットボット「Gem」を作成できるようになります。OpenAIのGPTと同様に、Gemは自然言語による説明(例えば「あなたは私のランニングコーチです。毎日のランニングプランを教えてください」など)から生成され、他のユーザーと共有することも、非公開にすることもできます。GoogleがOpenAIのGPT StoreのようなGemのストアを立ち上げる予定があるかどうかはまだ発表されていませんが、I/Oの進展とともに詳細が明らかになることを期待しています。

まもなく、Gems と Gemini 本体は、Google カレンダー、ToDo リスト、Keep、YouTube Music などの Google サービスとの統合の拡張セットを活用して、さまざまな省力化タスクを実行できるようになります。

ジェミニ
画像クレジット: Google

「例えば、お子さんの学校のチラシがあって、そこにたくさんのイベントが書いてあって、それを自分のカレンダーに追加したいとします」とシャオ氏は言います。「チラシの写真を撮って、Geminiアプリにカレンダーの予定を直接追加してもらうことができます。これは大きな時間節約になるでしょう。」

生成AIは要約を間違えたり、大抵は軌道から外れたりする傾向があること(そしてGeminiの初期レビューがあまり芳しくなかったこと)を考えると、Googleの主張は鵜呑みにしない方が良いだろう。しかし、改良されたGeminiとGemini Advancedが本当にHsiao氏の説明通りの性能を発揮するなら(これは大きな「もし」だが)、確かに時間の節約になるかもしれない。 

AIニュースレターを始めます!6月5日から受信ボックスに配信を開始するには、こちらからご登録ください。

Google I/O 2024の詳細については、TechCrunchをご覧ください。