Unified-IOは、画像の生成を含むさまざまなタスクを実行できるAIシステムです。

Unified-IOは、画像の生成を含むさまざまなタスクを実行できるAIシステムです。

非営利団体アレン研究所内の機械学習研究に特化した部門であるアレンAI研究所(AI2)は本日、「Unified-IO」と呼ばれるAIシステムに関する研究成果を発表しました。AI2によると、このシステムは「大規模かつ多様な」AIタスク群を実行できる初のシステムの一つです。Unified-IOは画像、テキスト、その他の構造化データの処理と作成が可能で、この成果は高性能で統合された汎用AIシステムの構築に向けた一歩であると研究チームは述べています。

「私たちはタスクに依存しない[AIシステム]の構築に関心を持っています。これにより、実践者は基盤となる仕組みに関する知識をほとんど、あるいは全く持たずに、新しいタスク向けに[機械学習]モデルを訓練できるようになります」と、Unified-IOに携わったAI2の研究科学者、ジェイセン・ルー氏はTechCrunchへのメールで述べた。「このような統合アーキテクチャは、タスク固有のパラメータやシステム変更の必要性を軽減し、多種多様なタスクを実行するための共同訓練を可能にし、タスク間で知識を共有することでパフォーマンスを向上させることができます。」

AI2の統合AIシステム構築における初期の取り組みは、画像キャプションの付与や質問への回答など、いくつかのワークロードをサポートする汎用「ビジョン言語」システムであるGPV-1とGPV-2につながりました。Lu氏によると、Unified-IOでは設計図に立ち返り、ゼロから新しいモデルを設計する必要がありました。

Unified-IOは、「Transformer」という点でOpenAIのGPT-3と共通の特性を持っています。2017年に登場したTransformerは、複雑な推論タスクに最適なアーキテクチャとなり、文書の要約、音楽の生成、画像内のオブジェクトの分類、タンパク質配列の解析といった分野で優れた能力を発揮しています。

他のAIシステムと同様に、Unified-IOは例によって学習し、数十億もの単語や画像などをトークンの形で取り込みました。これらのトークンは、Unified-IOが理解できる方法でデータを表すために役立ちました。

統合IO
Unified-IOは簡単な説明を与えると画像を生成できます。画像クレジット: Unified-IO

「自然言語処理(NLP)コミュニティは、多くの異なるタスクをサポートする統合AIシステムの構築に非常に成功してきました。これは、多くのNLPタスクが単語を入力として、単語を出力として均質的に表現できるためです。しかし、コンピュータービジョンタスクの性質と多様性により、これまでのマルチタスクモデルは少数のタスクに限定され、ほとんどが言語出力を生成するタスク(質問に答える、画像にキャプションを付けるなど)でした」と、AI2でLuとUnified-IOで共同作業を行ったChris Clark氏はTechCrunchへのメールで述べた。「Unified-IOは、画像、バイナリマスク、バウンディングボックス、キーポイントのセット、グレースケールマップなど、多様な構造化出力を均質なトークンのシーケンスに変換することで、NLPでタスクをモデル化するのと非常によく似た方法で、多くの古典的なコンピュータービジョンタスクをモデル化できることを実証しています。」

一部のシステムとは異なり、Unified-IOは動画や音声を分析・作成することができません。これは「モダリティの観点から」このモデルの限界だとクラーク氏は説明しました。しかし、Unified-IOが実行できるタスクには、画像の生成、画像内のオブジェクトの検出、深度の推定、文書の言い換え、写真内の特定領域の強調表示などがあります。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「これはコンピュータービジョンに大きな影響を与えます。画像、マスク、言語、境界ボックスといった多様なモダリティを、言語に似たトークンのシーケンスとして扱うようになるからです」とクラーク氏は付け加えた。「さらに、この規模の統合は、大規模な統合事前学習、タスク間の知識移転、少数ショット学習など、コンピュータービジョンにおける新たな道を切り開く可能性があります。」

AI2の研究には関わっていないアルバータ大学の計算科学助教授、マシュー・ガズディアル氏は、Unified-IOを画期的な技術と呼ぶことには慎重だった。同氏は、このシステムは、DeepMindが最近詳細を発表したGatoに匹敵すると指摘した。Gatoは、ゲームのプレイからロボットの制御まで、600以上のタスクを単一のモデルで実行できる。

「(Unified-IOとGatoの)違いは、明らかにタスクセットが異なることですが、これらのタスクははるかに使い勝手が良いという点も重要です。つまり、Unified-IOネットワークが実行できる機能には、明確な既存のユースケースがあるのに対し、Gatoは主にゲームをプレイするだけです。そのため、Unified-IOやそれに類似したモデルが、将来の製品やサービスという形で人々の生活に実際に影響を与える可能性は高くなります」とGuzdial氏は述べています。「唯一の懸念は、デモは派手ですが、個々のタスクを個別にトレーニングしたモデルと比較して、これらのタスクでどれほど優れたパフォーマンスを発揮するかという点が示されていないことです。Gatoが個々のタスクでトレーニングしたモデルよりもパフォーマンスが低かったことを考えると、Gatoでも同じ結果になるだろうと予想しています。」

統合IO
Unified-IOは、照明条件が厳しい場合でも画像を分割できます。画像クレジット: Unified-IO

それでも、AI2の研究者たちはUnified-IOを将来の研究のための強力な基盤と見なしています。彼らはシステムの効率性を向上させつつ、音声や動画といったより多くのモダリティのサポートを追加し、パフォーマンスを向上させるためにスケールアップしていく予定です。

「ImagenやDALL-E 2といった最近の研究では、十分な訓練データがあれば、モデルは非常に印象的な結果を生み出すように訓練できることが示されています。しかし、これらのモデルは1つのタスクしかサポートしていません」とクラーク氏は述べています。「Unified-IOは、大規模なマルチタスクモデルの訓練を可能にします。私たちの仮説は、データとモデルサイズを大幅に拡大することで、はるかに優れた結果が得られるというものです。」

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る