パーセプトロン:数学の問題を解き、200の言語を翻訳し、カンガルーを描くAI

パーセプトロン:数学の問題を解き、200の言語を翻訳し、カンガルーを描くAI

機械学習とAIは、今やほぼあらゆる業界や企業にとって重要な技術となっていますが、その研究は膨大で、全てを読むのは容易ではありません。このコラム「パーセプトロン」では、特に人工知能(AIに限らず)分野において、近年の最も関連性の高い発見や論文をいくつか集め、それらがなぜ重要なのかを説明することを目指しています。

最近の研究成果として、Metaは200種類の言語を「最先端」の翻訳結果で翻訳できる初の言語システムをオープンソース化しました。Googleも負けじと、数学や科学的な問題を含む定量的な推論問題を解く機械学習モデル「Minerva」の詳細を発表しました。また、Microsoftは、Googleが広く宣伝しているLamdaに似た「リアルな」会話を生成する言語モデル「Godel」をリリースしました。さらに、一風変わったテキスト画像生成ツールもいくつか登場しています。

Meta社の新モデルNLLB-200は、世界中のほとんどの言語に対応する機械翻訳機能の開発を目指す同社の「No Language Left Behind(取り残された言語をなくす)」イニシアチブの一環です。カンバ語(バンツー族が話す言語)やラオス語(ラオスの公用語)といった言語に加え、従来の翻訳システムでは十分に、あるいは全くサポートされていなかった540以上のアフリカ言語を理解するように訓練されたNLLB-200は、Wikimedia財団のコンテンツ翻訳ツールに加え、FacebookのニュースフィードやInstagramの言語翻訳にも使用される予定であると、Meta社は最近発表しました。

AI翻訳は、人間の専門知識なしに翻訳できる言語の数を大幅に増やす可能性を秘めており、既にその数は増加しています。しかし、一部の研究者が指摘しているように、AI翻訳システムは主にインターネット上のデータに基づいて学習されており、そのデータは全てが高品質であるわけではないため、用語の誤り、省略、誤訳といったエラーがAI翻訳に発生する可能性があります。例えば、Google翻訳はかつて医師は男性、看護師は女性と想定していました。また、Bingの翻訳は「テーブルは柔らかい」といったフレーズを、ドイツ語の女性形「die Tabelle」(数字の表)と翻訳していました。

Meta社は、NLLB-200において、データクリーニングパイプラインを「全面的に見直し」、200言語すべてを対象に「主要なフィルタリング手順」と毒性フィルタリングリストを導入したと述べています。実際にどれほどうまく機能するかはまだ分かりませんが、NLLB-200を開発したMeta社の研究者たちが、その手法を解説した学術論文で認めているように、バイアスが全くないシステムは存在しません。

ゴデルも同様に、ウェブ上の膨大なテキストで学習された言語モデルです。しかし、NLLB-200とは異なり、ゴデルは「オープン」な対話、つまり様々なトピックに関する会話を処理するように設計されています。

ゲーデル
画像クレジット: Microsoft

ゲーデルは、レストランに関する質問に答えたり、地域の歴史や最近のスポーツの試合など、特定のテーマについて対話したりすることができます。GoogleのLamdaと同様に、このシステムはトレーニングデータセットに含まれていないウェブ上のコンテンツ、例えばレストランのレビュー、Wikipediaの記事、その他公開ウェブサイト上のコンテンツなどを活用できるという利点があります。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

しかし、ゲーデルはNLLB-200と同じ落とし穴に陥っています。ゲーデルの開発チームは論文の中で、学習に使用したデータに含まれる「社会的バイアスやその他の有害性」のために、「有害な反応を引き起こす可能性がある」と指摘しています。こうしたバイアスを排除、あるいは軽減することは、AI分野における未解決の課題であり、完全に解決されることはないかもしれません。

GoogleのMinervaモデルは、潜在的な問題が少ない。開発チームがブログ記事で説明しているように、このシステムは118GBの科学論文と数式を含むウェブページのデータセットから学習し、電卓などの外部ツールを使わずに定量的な推論問題を解くことができる。Minervaは数値計算と「記号操作」を含む解を生成でき、一般的なSTEMベンチマークでトップクラスの性能を達成している。

Minervaは、この種の問題を解くために開発された最初のモデルではありません。例えば、AlphabetのDeepMindは、数学者が複雑かつ抽象的なタスクを遂行するのを支援する複数のアルゴリズムを実証し、OpenAIは小学校レベルの数学の問題を解くように訓練されたシステムの実験を行いました。しかし、Minervaは数学の問題をより良く解くための最新技術を取り入れていると研究チームは述べています。これには、新しい問題を提示する前に、既存の問題に対する段階的な解決策をモデルに「提示」するアプローチなどが含まれます。

ミネルヴァ
画像クレジット: Google

ミネルバは依然としてかなりの間違いを犯し、時には正しい最終解に到達しても誤った推論をしてしまうこともあります。それでも、研究チームはミネルバが「科学と教育の限界を押し広げる」モデルの基盤となることを期待しています。

AIシステムが実際に何を「知っている」のかという問いは、技術的なものではなく哲学的なものです。しかし、その知識をどのように体系化するかは、妥当かつ妥当な問いです。例えば、物体認識システムは、イエネコとトラが何らかの点で類似していることを「理解している」ことを示すために、それらの概念を意図的に重複させて識別するかもしれません。あるいは、実際には理解しておらず、この2種類の生き物は全く無関係である可能性もあります。

UCLAの研究者たちは、言語モデルがその意味で言葉を「理解」しているかどうかを検証しようとし、「意味投影」と呼ばれる手法を開発しました。この手法は、モデルが「理解」していることを示唆しています。モデルに「クジラ」と「魚」の違いを単純に説明させることはできませんが、「哺乳類「大型「鱗」といった他の単語と、それらの単語がどれほど密接に関連付けられているかを確認することができます 。「クジラ」が「哺乳類」と「大型」を強く関連付けている一方で、「鱗」とは関連付けていないとすれば、モデルが何について話しているのかをある程度理解していると言えるでしょう。

モデルによって概念化された、小型から大型の範囲における動物の分類例。画像クレジット: Idan Blank/UCLA

簡単な例として、動物は大きさ、性別、危険、湿り気といった概念と一致していることがわかりました(選択は少し奇妙でしたが)。一方、州は天気、富、党派性といった概念と一致していました。動物は党派性がなく、州は性別がないため、すべてのトラックが一致します。

モデルが特定の単語を理解しているかどうかを確かめるには、今のところ、単語を描画させる以上に確実な方法はありません。そして、テキスト画像変換モデルは進化を続けています。Googleの「Pathways Autoregressive Text-to-Image」(Parti)モデルは、今のところ最も優れたモデルの一つに見えますが、アクセス機能がないために競合モデル(DALL-Eなど)と比較するのは困難です。アクセス機能は、ほとんどのモデルで提供されていません。Partiのアプローチについては、こちらで読むことができます。

Googleの解説で興味深いのは、パラメータ数を増やしていくとモデルがどのように機能するかを示している点です。パラメータ数が増えるにつれて、画像が徐々に改善されていく様子をご覧ください。

お題は「シドニーオペラハウス前の芝生にオレンジ色のパーカーと青いサングラスをかけたカンガルーが立ち、胸に「Welcome Friends!」と書かれたサインボードを持っているポートレート写真」でした。画像クレジット: Google

これは、最高のモデルはすべて数百億のパラメータを持ち、学習に膨大な時間がかかり、スーパーコンピューターでしか実行できないことを意味するのでしょうか? 今のところは確かにその通りです。物事を改善するための一種の力ずくのアプローチですが、AIの「刻々と変化する速度」を考えると、次のステップは単に大きくしてより良くすることではなく、より小さく、同等にすることです。誰がそれを実現できるのか、見守っていきましょう。

Metaもこの楽しさに負けまいと、今週、生成AIモデルを披露しました。Metaによると、このモデルはアーティストの自由度を高めるとのことです。私自身もこれらのジェネレーターをよく使ってきましたが、どんな結果が出てくるかを見るのも楽しみの一つです。しかし、意味不明なレイアウトが出てきたり、指示を「理解」できなかったりすることもよくあります。MetaのMake-A-Sceneは、この問題を解決しようとしています。

同じテキストとスケッチプロンプトから生成された異なる画像のアニメーション。画像クレジット: Meta

これは全く独創的なアイデアとは言えません。話しているものの基本的なシルエットを描き、それを基にして画像を生成するというものです。2020年にはGoogleのナイトメアジェネレーターで似たようなものがありました。これは似たようなコンセプトですが、スケッチをベースにテキストプロンプトからリアルな画像を作成できるようにスケールアップされています。しかも、解釈の余地は十分にあります。大まかな構想はあるものの、モデルの無限で奇抜な創造性を取り入れたいアーティストにとって役立つかもしれません。

他のシステムと同様に、Make-A-Sceneも実際には一般公開されていません。他のシステムと同様に、計算量が非常に多いためです。ご心配なく。まともなバージョンがすぐに家庭でも使えるようになります。