AI業界の一部の人々にとって究極の成果は、汎用人工知能(AGI)、つまり人間が実行できるあらゆるタスクを理解し学習する能力を備えたシステムの構築です。長らくSFの領域に追いやられてきましたが、AGIは推論、計画、学習、知識の表現、そして自然言語によるコミュニケーション能力を備えたシステムをもたらすと示唆されています。
AGIが現実的な目標だと、あるいは実現可能だと確信している専門家は必ずしもいない。しかし、アルファベット傘下の研究機関DeepMindは今週、「Gato」と呼ばれるAIシステムをリリースし、AGI実現に向けた一歩を踏み出したと言えるだろう。
GatoはDeepMindが「汎用」システムと表現するものであり、様々な種類のタスクを実行するように学習させることができるシステムです。DeepMindの研究者たちは、Gatoに画像へのキャプションの付与、会話、実際のロボットアームを使ったブロック積み上げ、Atariゲームのプレイなど、正確には604のタスクを完了するよう訓練しました。
「現在のAIシステムのほとんどは、一度に単一のタスクまたは狭い領域にしか対応していません。この研究の意義は、1つのエージェントと1つのモデルが、実際のロボットの制御や基本的な字幕作成、チャットなど、数百もの非常に異なるタスクを実行できることです」と、DeepMindの研究者であり、Gatoの共同開発者の一人であるスコット・リード氏は、TechCrunchへのメールで述べた。
アレンAI研究所の研究科学者、ジャック・ヘッセル氏は、単一のAIシステムが多くのタスクを解決できるというのは新しいことではないと指摘する。例えば、Googleは最近、Google検索にマルチタスク統合モデル(MUM)と呼ばれるシステムを導入し始めた。このシステムは、テキスト、画像、動画を処理でき、単語の綴りの言語間差異の検出から検索クエリと画像の関連付けまで、さまざまなタスクを実行できる。しかし、ヘッセル氏によると、ここでより新しい可能性があるのは、処理対象となるタスクの多様性とトレーニング方法だ。

「単一のモデルが驚くほど多様な入力セットを処理できるという証拠は、これまでにも見られてきました」とヘッセル氏はTechCrunchへのメールで述べた。「私の見解では、マルチタスク学習における核心的な問題は、タスクが互いに補完し合うかどうかです。モデルがタスクを解決する前に暗黙的にタスクを分離する、例えば『タスクAを入力として検出した場合、サブネットワークAを使用します。代わりにタスクBを検出した場合は、異なるサブネットワークBを使用します』といった、より退屈なケースを想像してみてください。この帰無仮説では、AとBを個別にトレーニングすることで同様のパフォーマンスを達成できる可能性がありますが、これは期待外れです。対照的に、AとBを共同でトレーニングすることで、どちらか(または両方!)の改善につながるのであれば、状況はより刺激的です。」
他のAIシステムと同様に、Gatoは例によって学習し、数十億もの単語、現実世界とシミュレーション環境からの画像、ボタンの押下、関節のトルクなどをトークンの形で取り込みました。これらのトークンは、Gatoが理解できる方法でデータを表す役割を果たし、例えば、ブレイクアウトの仕組みを解明したり、文中のどの単語の組み合わせが文法的に意味を成すかを判断したりすることを可能にしました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Gatoは必ずしもこれらのタスクをうまくこなしているわけではない。例えば、人とチャットをする際、システムは表面的な返答や事実誤認の返答をすることが多い(「フランスの首都は?」という質問に対して「マルセイユ」と答えるなど)。写真にキャプションを付ける際、Gatoは人物の性別を間違える。また、現実世界のロボットを使ってブロックを積み上げる場合、正しく積み上げられる確率はわずか60%に過ぎない。
しかし、DeepMind は、前述の 604 のタスクのうち 450 では、Gato が半分以上の時間で専門家よりも優れたパフォーマンスを発揮していると主張しています。
「AIや機械学習の分野では多くの人が汎用的なシステムが必要だと考えているようですが、Gatoはまさにその通りです」と、アルバータ大学のコンピューターサイエンス助教授、マシュー・ガズディアル氏はTechCrunchへのメールで述べた。「GatoをAGIへの大きな一歩だと言っている人たちは、少々誇張しすぎだと思います。私たちはまだ人間の知能には達しておらず、近い将来に到達する可能性も低いでしょう(私の意見では)。個人的には、小規模なモデルやシステムを多数構築する方が有用だと考えていますが、訓練データ以外のタスクにおけるパフォーマンスという点では、こうした汎用モデルにも間違いなくメリットがあります。」
興味深いことに、アーキテクチャの観点から見ると、Gatoは現在運用されている多くのAIシステムと劇的に異なるわけではありません。「Transformer」であるという点で、OpenAIのGPT-3と共通の特性を持っています。2017年に登場したTransformerは、複雑な推論タスクに最適なアーキテクチャとなり、文書の要約、音楽の生成、画像内のオブジェクトの分類、タンパク質配列の解析といった分野で優れた能力を発揮しています。

さらに注目すべきは、Gatoのパラメータ数がGPT-3を含むシングルタスクシステムと比べて桁違いに少ないことです。パラメータとは、学習データから学習するシステムの一部であり、テキスト生成などの問題に対するシステムのスキルを本質的に定義します。Gatoのパラメータ数はわずか12億であるのに対し、GPT-3は1700億を超えています。
DeepMindの研究者たちは、システムがロボットアームをリアルタイムで制御できるように、Gatoを意図的に小型化しました。しかし、規模を拡大すれば、Gatoはあらゆる「タスク、行動、そして関心のある具現化」に対応できると研究者たちは仮説を立てています。
仮にこれが事実だとすれば、Gatoが特定のタスクにおいて最先端のシングルタスクシステムよりも優れているためには、Gatoが継続的な学習ができないといった、他にもいくつかのハードルを克服する必要があるだろう。Transformerベースのシステムの多くと同様に、Gatoの世界に関する知識は学習データに基づいており、静的である。もしGatoに、例えば現在のアメリカ合衆国大統領のような日付が重要な質問をした場合、Gatoはおそらく誤った回答をするだろう。
Transformer、そして拡張してGatoにも、コンテキストウィンドウ、つまりシステムが特定のタスクのコンテキストにおいて「記憶」できる情報量という点で、もう一つの限界があります。最高のTransformerベースの言語モデルでさえ、長文のエッセイを書くことは不可能で、ましてや書籍を書くとなると、重要な詳細を記憶し損ね、結果として話の筋が分からなくなってしまいます。忘却は、文章を書くことであれロボットを制御することであれ、あらゆるタスクで発生するため、一部の専門家はこれを機械学習の「アキレス腱」と呼んでいます。
これらの理由とその他の理由から、Knives & Paintbrushes 研究集団のメンバーである Mike Cook 氏は、Gato が真の汎用 AI への道であると想定することに対して警告しています。
「この結果は多少誤解を招く可能性があると思います。AIが、テキストを書くのとロボットを操作するのとでは全く異なるように聞こえるため、これらの全く異なるタスクをすべて実行できるというのは刺激的な話です。しかし実際には、GPT-3が普通の英語のテキストとPythonコードの違いを理解するのとそれほど変わりません」とクック氏はTechCrunchへのメールで述べた。「Gatoは、他の同種のAIと同様に、これらのタスクに関する具体的なトレーニングデータを受け取り、データ内のパターンが互いにどのように関連しているかを学習します。これには、特定の種類の入力と特定の種類の出力を関連付けることも含まれます。これは簡単だと言っているわけではありませんが、外部の観察者にとっては、AIがお茶を一杯淹れたり、他の10個や50個のタスクを簡単に学習したりできるように聞こえるかもしれません。しかし、実際にはそうではありません。大規模モデリングにおける現在のアプローチでは、一度に複数のタスクを学習できることが分かっています。これは素晴らしい成果だと思いますが、何かを達成するための大きな足がかりになるとは思えません。」