Google I/O で発表された主要な AI 関連ニュース

Cemubo vgnpne 0

Vision

GoogleはAIに全力を注いでおり、そのことをユーザーに知ってもらいたいと考えています。火曜日に開催されたGoogle I/O開発者カンファレンスの基調講演で、Googleは「AI」という言葉を120回以上も使いました。これはかなりの数です！

しかし、GoogleのAI関連の発表のすべてがそれ自体で重要なものだったわけではありません。中には漸進的なものもあれば、焼き直しのようなものもありました。そこで、良いものとそうでないものを選別するために、Google I/O 2024で発表された主要なAI関連の新製品と機能をまとめてみました。

検索における生成AI

Google は生成 AI を使用して Google 検索結果ページ全体を整理する予定です。

AIが整理したページはどのようなものになるのでしょうか？それは検索クエリによって異なります。しかし、Googleによると、AIが生成したレビューの要約、Redditなどのソーシャルメディアサイトでの議論、AIが生成した提案リストなどが表示される可能性があります。

Googleは現時点で、ユーザーが旅行の計画を立てているなど、インスピレーションを求めていることを検知すると、AIを活用した検索結果ページを表示する予定です。近い将来には、レストランやレシピを検索した際にも、映画、書籍、ホテル、eコマースなどの検索結果が表示されるようになります。

プロジェクト・アストラとジェミニ・ライブ

Google は、周囲の世界をよりよく理解できるように、AI 搭載チャットボット Gemini を改良しています。

同社はGeminiの新機能「Gemini Live」をプレビューしました。これは、ユーザーがスマートフォンでGeminiと「詳細な」音声チャットを楽しめる機能です。ユーザーはチャットボットの会話中に割り込んで質問をすることができ、Geminiはユーザーの話し方に合わせてリアルタイムで適応します。また、Geminiはスマートフォンのカメラで撮影した写真や動画を通して、ユーザーの周囲の状況を認識し、反応することができます。

テッククランチイベント

サンフランシスコ | 2025年10月27日～29日

今年後半にリリース予定のGemini Liveは、スマートフォンのカメラに映っている（または最近映っていた）ものに関する質問に答えることができます。例えば、ユーザーが現在どの地域にいるのか、壊れた自転車の部品の名前などです。Liveを支える技術革新の一部は、DeepMindの新たな取り組みであるProject Astraから生まれています。Project Astraは、リアルタイムのマルチモーダル理解のためのAI搭載アプリと「エージェント」を開発するプロジェクトです。

Google Veo

Google は、テキストプロンプトを与えると約 1 分間の 1080p ビデオクリップを作成できる AI モデル Veo で、OpenAI の Sora を狙っています。

Veoは、風景やタイムラプスなど、様々な映像スタイルや映画的なスタイルを捉え、既に生成された映像に編集や調整を加えることができます。このモデルは、カメラの動きやVFXを指示（「パン」「ズーム」「爆発」など）からかなり正確に理解します。また、Veoは流体力学や重力といった物理学もある程度理解しており、これが生成する動画のリアリティに貢献しています。

Veoは、動画の特定領域を変更するマスク編集もサポートしており、Stability AIのStable Videoのような生成モデルのように、静止画から動画を生成することもできます。おそらく最も興味深いのは、一連のプロンプトでストーリーを伝えることで、Veoは1分を超えるような長めの動画を生成できることです。

写真について質問する

Google フォトには、Google の Gemini ファミリーの生成 AI モデルを活用した Ask Photos という実験的機能のリリースにより AI が注入されます。

今夏後半にリリース予定の Ask Photos を使用すると、ユーザーは、写真の内容やその他のメタデータに関する Gemini の理解を活用した自然言語クエリを使用して、Google フォトコレクション全体を検索できるようになります。

例えば、「ワンワールドトレードセンター」のような写真内の特定のものを検索する代わりに、ユーザーは「訪れた国立公園ごとに撮影した最高の写真」を見つけるなど、より広範で複雑な検索を実行できるようになります。この例では、Geminiは照明、ぼやけ具合、背景の歪みの少なさといった情報を用いて、ある写真が特定のセットの中で「最高」である理由を判断し、それを位置情報や日付の情報と組み合わせて、関連する画像を返します。

GmailのGemini

Gmail ユーザーは、Gemini のおかげで、メールの検索、要約、下書きができるようになるほか、返品処理の支援など、より複雑なタスクをメールで処理できるようになります。

I/Oでのデモでは、GoogleはGeminiに学校からの最近のメールをすべて要約するよう指示することで、保護者が子供の学校で何が起こっているかを把握できる様子を披露しました。Geminiはメール本文に加えて、PDFなどの添付ファイルも分析し、要点と対応策をまとめた要約を作成します。

Gmailのサイドバーから、Geminiを使ってメール内の領収書を整理したり、Googleドライブのフォルダに保存したり、領収書から情報を抽出してスプレッドシートに貼り付けたりできます。出張時の経費管理など、こうした作業を頻繁に行う場合は、Geminiはワークフローを自動化し、将来的に活用できるようにすることも可能です。

通話中の詐欺の検出

Google は、通話中に詐欺の可能性があることをユーザーに警告する AI 搭載機能をプレビューしました。

この機能は、Androidの将来のバージョンに組み込まれる予定で、デバイス上で完全に実行可能なGoogleの生成AI製品の最小バージョンであるGemini Nanoを使用し、「詐欺によく関連する会話パターン」をリアルタイムで聞き取る。

この機能の具体的なリリース日は未定です。こうした機能の多くと同様に、GoogleはGemini Nanoが将来的にどこまで実現できるかをプレビューしています。ただし、この機能はオプトイン方式になることは分かっています。これは良いことです。Nanoを使用することで、システムが自動的に音声をクラウドにアップロードすることはなくなりますが、それでもシステムはユーザーの会話を事実上盗聴しており、プライバシーリスクとなる可能性があります。

アクセシビリティのためのAI

Google は、生成 AI マジックを活用して、Android 向けの TalkBack アクセシビリティ機能を強化しています。

TalkBackはまもなく、Gemini Nanoを活用して、視覚障碍者や全盲のユーザー向けに物体の音声説明を作成します。例えば、TalkBackは衣服について次のように説明します。「白黒のギンガムチェックのドレスのクローズアップです。丈が短く、襟と長袖が付いています。ウエストで大きなリボンで結ばれています。」

Googleによると、TalkBackユーザーは1日に約90枚のラベルのない画像に遭遇します。Nanoを使用することで、システムはコンテンツに関する洞察を提供できるようになるため、誰かが手動で情報を入力する必要がなくなる可能性があります。

AIニュースレターを始めます！6月5日から受信ボックスに配信を開始するには、こちらからご登録ください。

Google I/O 2024の詳細については、TechCrunchをご覧ください。

Posted by Cemubo