ディープサイエンス:視覚と言語を組み合わせることが、より有能なAIの鍵となるかもしれない

ディープサイエンス:視覚と言語を組み合わせることが、より有能なAIの鍵となるかもしれない

どのような知能理論を信奉するかにもよりますが、「人間レベル」のAIを実現するには、音、視覚、テキストといった複数のモダリティを活用して世界を推論できるシステムが必要です。例えば、雪の積もった高速道路で横転したトラックとパトカーの画像を見せられた場合、人間レベルのAIは危険な道路状況が事故の原因であると推論するかもしれません。あるいは、ロボットに冷蔵庫からソーダ缶を取るように指示された場合、人、家具、ペットを避けて缶を取り出し、依頼者の手の届くところに置くでしょう。

今日のAIは不十分です。しかし、新たな研究では、基本的な指示(例えば「水筒を持ってきなさい」)を満たすための手順を理解できるロボットから、説明から学習するテキスト生成システムまで、明るい兆しが見られます。AIと幅広い科学分野の最新動向を毎週お届けするシリーズ「Deep Science」の復活版となる本号では、DeepMind、Google、OpenAIによる、世界を完全に理解することはできないとしても、画像生成といった限定的なタスクを驚くほど堅牢に解決できるシステムに向けて前進している研究成果を取り上げます。

AI研究機関OpenAIの改良型DALL-EであるDALL-E 2は、AI研究機関の深淵から生まれたプロジェクトの中でも、間違いなく最も印象的なものです。同僚のDevin Coldeweyが書いているように、オリジナルのDALL-Eは、事実上あらゆるプロンプト(例えば「ベレー帽をかぶった犬」)に対応する画像を生成するという驚異的な能力を示しましたが、DALL-E 2はさらに進化しています。生成される画像ははるかに詳細で、DALL-E 2は画像内の特定の領域をインテリジェントに置き換えることができます。例えば、適切な反射が施された大理石の床の写真にテーブルを挿入するといったことが可能です。

オープンAI DALL-E 2
DALL-E 2 が生成できる画像の種類の例。

今週最も注目を集めたのはDALL-E 2でした。しかし木曜日、Googleの研究者たちは、GoogleのAIブログに投稿した記事の中で、DALL-E 2に劣らず優れた視覚理解システム「Visually-Driven Prosody for Text-to-Speech(VDTTS)」について詳細を明かしました。VDTTSは、話している人のテキストと動画フレームだけを入力とするだけで、リアルでリップシンクされた音声を生成できます。

VDTTSによって生成された音声は、録音された会話の完璧な代替品とは言えないものの、それでも非常に優れており、人間のような表現力とタイミングを備えています。Googleは、将来的にはスタジオで騒音下で録音されたオリジナルの音声を置き換えるためにVDTTSが使用されることを期待しています。

幸いなことに、アルファベットの支援を受けるAI研究室DeepMindは、この問題に対処する技術を研究している企業の一つだ。新たな研究で、DeepMindの研究者らは、既存のテキスト(書籍やソーシャルメディアなど)の多数の例からテキスト生成を学習するAI言語システムが、それらのテキストの説明を与えることで恩恵を受けられるかどうかを調査している。数十の言語タスク(例:「2番目の文が最初の比喩的な文の適切な言い換えであるかどうかを特定することによって、これらの質問に答えてください」)に説明(例:「ダビデの目は文字通りの短剣ではなく、ダビデがポールを激しく睨みつけていることを暗示するために使用される比喩です」)を注釈付けし、それらに対するさまざまなシステムのパフォーマンスをDeepMindチームは評価した結果、例がシステムのパフォーマンスを実際に向上させることを発見した。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

DeepMindのアプローチが学術界で認められれば、将来的にはロボット工学にも応用され、段階的な指示なしに漠然とした要求(例えば「ゴミを捨てて」など)を理解できるロボットの構成要素となる可能性がある。Googleの新しいプロジェクト「Do As I Can, Not As I Say(私が言う通りにはしない、私ができる通りにする)」は、大きな制約はあるものの、こうした未来を垣間見せてくれる。

Googleのロボティクス部門とAlphabetのEveryday Robotsチームの共同研究「Do As I Can, Not As I Say」は、任意のタスクを与えられたロボットにとって「実行可能」かつ「文脈的に適切な」行動を提案するようAI言語システムを条件付けることを目指しています。ロボットは言語システムの「手と目」として機能し、システムはタスクに関する高度な意味知識を提供します。この理論は、言語システムがロボットにとって有用な豊富な知識をエンコードしているというものです。

Googleロボティクス
画像クレジット: Googleのロボティクス

SayCanと呼ばれるシステムは、(1) 与えられたスキルが有用である確率と、(2) そのスキルを成功裏に実行できる可能性を考慮して、ロボットがコマンドに応じてどのスキルを実行するかを選択します。例えば、「コーラをこぼしちゃったんだけど、拭くものを持ってきてくれない?」と誰かが言った場合、SayCanはロボットにスポンジを探し、拾い、頼んだ人のところまで持ってくるように指示することができます。

SayCanはロボット工学のハードウェアによって制限されており、研究チームは実験に選んだロボットが誤って物を落とすのを何度も観察しました。それでも、SayCanは、DALL-E 2やDeepMindの文脈理解に関する研究と相まって、AIシステムを組み合わせることで、いかにして私たちを「宇宙家族ジェットソン」のような未来に近づけるかを示す好例と言えるでしょう。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る