パーセプトロン: 多言語対応、笑い、落とし穴をいじる、世渡り上手なAI

パーセプトロン: 多言語対応、笑い、落とし穴をいじる、世渡り上手なAI

機械学習とAIは、今やほぼあらゆる業界や企業にとって重要な技術となっていますが、その研究は膨大で、全てを読むのは容易ではありません。このコラム「パーセプトロン」では、特に人工知能(AIに限らず)分野において、近年の最も関連性の高い発見や論文をいくつか集め、それらがなぜ重要なのかを説明することを目指しています。

ここ数週間、Googleの研究者たちは、100以上の言語で様々なタスクを実行できるAIシステム「PaLI」のデモを行ってきました。また、ベルリンを拠点とするグループが「Source+」というプロジェクトを立ち上げました。これは、ビジュアルアーティスト、ミュージシャン、作家などのアーティストが、自身の作品をAIの学習データとして使用することを許可(あるいは拒否)できるように設計されています。

OpenAIのGPT-3のようなAIシステムは、かなり意味のあるテキストを生成したり、ウェブ、電子書籍、その他の情報源から既存のテキストを要約したりすることができます。しかし、これまでは単一の言語に限定されており、その有用性と適用範囲は限られていました。

幸いなことに、ここ数ヶ月で多言語システムの研究は加速しており、これはHugging FaceのBloomのようなコミュニティの取り組みも一因となっています。こうした多言語化の進歩を活用するため、Googleチームは画像とテキストの両方で学習し、画像キャプションの付与、物体検出、光学文字認識などのタスクを実行できるPaLIを開発しました。

Google PaLI
画像クレジット: Google

Googleによると、PaLIは109の言語と、それらの言語の単語と画像の関係を理解できるため、例えば、絵葉書の写真にフランス語でキャプションを付けるといったことも可能だ。この研究はまだ研究段階にあるものの、開発者たちは、言語と画像の重要な相互作用を示すものであり、将来的には商用製品の基礎を築く可能性があると述べている。

音声認識は、AIが絶えず進化を遂げている言語のもう一つの側面です。Play.htは最近、驚くほどの感情表現と幅広い表現を実現する新しいテキスト読み上げモデルを発表しました。先週投稿されたクリップは、もちろん厳選されたものではありますが、素晴らしい音質です。

私たちはこの記事の冒頭部分を使って独自のクリップを生成しましたが、結果は依然として堅実です。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

この種の音声生成が最も役立つ用途は、まだはっきりとしていません。書籍全体を音声化する段階には至っていません。というか、音声生成は可能ではあるものの、まだ誰にとっても第一選択肢ではないかもしれません。しかし、品質が向上するにつれて、用途は拡大していくでしょう。

マット・ドライハースト(学者)とホリー・ハーンドン(音楽家)は、Spawningと提携し、Source+を立ち上げました。これは、アーティストが事前に通知も許可も受けていない作品を使って写真を生成するAIシステムを開発しているという問題に、注目を集めることを目的とした規格です。Source+は無料で提供され、アーティストが希望すれば、自分の作品がAIの訓練目的で利用されることを拒否できるようにすることを目指しています。

Stable DiffusionやDALL-E 2のような画像生成システムは、Webから収集した数十億枚の画像を用いて、テキストプロンプトをアートに変換する方法を「学習」しました。これらの画像の一部は、ArtStationやDeviantArtなどのパブリックアートコミュニティから提供されたもので、必ずしもアーティストの知識に基づいているわけではありません。これらの画像によって、グレッグ・ルトコウスキーのようなアーティストを含む特定のクリエイターを模倣する能力がシステムに付与されました。

安定性AI安定拡散
安定拡散からのサンプル。画像クレジット: Stability AI

これらのシステムは芸術スタイルを模倣する傾向があるため、一部のクリエイターは生計を脅かす可能性があると懸念している。Source+は任意ではあるものの、アーティストが自身の作品の利用方法についてより大きな発言権を持つための一歩となる可能性があると、ドライハースト氏とハーンドンは述べている。ただし、大規模に導入されればの話だが(ただし、大きな「もし」という条件付きだ)。

DeepMindの研究チームは、AIの長年の課題である、有害で誤解を招く情報を吐き出す傾向の解決に取り組んでいます。テキストに着目し、チームはGoogleを使ってウェブ検索することで一般的な質問に答える「Sparrow」というチャットボットを開発しました。GoogleのLaMDAなどの最先端システムも同様の機能を備えていますが、DeepMindはSparrowが他のシステムよりも、質問に対してもっともらしく、有害ではない回答をより頻繁に提供すると主張しています。

鍵となったのは、システムを人々の期待に沿わせることだった。DeepMindはSparrowを使ってくれる人を募集し、回答の有用性を評価するモデルを訓練するためにフィードバックを求めた。参加者には同じ質問に対する複数の回答を見せ、どの回答が一番気に入ったかを尋ねた。研究者たちはまた、「脅迫的な発言をしない」「憎悪や侮辱的なコメントをしない」といったSparrowのルールを定義し、参加者にルールを破らせることで、システムにこれらのルールを課した。

DeepMindのスズメが会話をしている例。画像提供: DeepMind

DeepMindはSparrowに改善の余地があることを認めている。しかし、ある研究によると、このチャットボットは事実に関する質問をされた際に、78%の確率で証拠に基づいた「もっともらしい」回答を提供し、前述のルールに違反したのはわずか8%だった。これは、DeepMindの従来の対話システムよりも優れていると研究者らは指摘している。従来のシステムは、ルールに違反するように仕向けられた場合、約3倍の確率でルールに違反していた。

DeepMindの別のチームは最近、全く異なる分野、つまり歴史的にAIが素早く習得するのが困難とされてきたビデオゲームに取り組みました。彼らのシステムは「MEME」と冗談めかして名付けられ、57種類のAtariゲームで「人間レベル」のパフォーマンスを達成したと報じられています。これは、これまでの最高システムよりも200倍も高速です。

DeepMindがMEMEを詳述した論文によると、このシステムは約3億9000万フレームを観察することでゲームのプレイ方法を学習できるという。「フレーム」とは、動きの印象を与えるために非常に高速に更新される静止画像を指す。これは多いように思えるかもしれないが、従来の最先端技術では、同数のAtariゲームで800億フレームの学習が必要だった。

ディープマインドミーム
画像クレジット: DeepMind

Atariを巧みにプレイすることは、望ましいスキルには聞こえないかもしれません。実際、ゲームは抽象的で比較的単純であるため、AIベンチマークとしては欠陥があると主張する批評家もいます。しかし、DeepMindのような研究機関は、これらのアプローチが将来、動画を見ることでより効率的にタスクを学習するロボットや、自己改善型の自動運転車など、より有用な分野に応用できると考えています。

NVIDIAは20日、数十もの製品とサービスを発表し、盛況のうちに幕を閉じました。その中には、興味深いAIへの取り組みもいくつか含まれていました。自動運転車は同社の注力分野の一つであり、AIの駆動と学習の両面で活用されています。学習においてはシミュレーターが不可欠であり、仮想道路が現実の道路に忠実であることも同様に重要です。NVIDIAは、実車のカメラやセンサーで収集されたデータをデジタル領域に迅速に取り込む、新しく改良されたコンテンツフローについて説明しました。

現実世界のデータに基づいて構築されたシミュレーション環境。画像クレジット: Nvidia

現実世界の車両や道路の凹凸、樹木の覆いなどを正確に再現できるため、自動運転AIは道路の無害化されたバージョンで学習する必要がありません。また、より大規模で多様なシミュレーション設定を作成できるため、堅牢性が向上します。(上の画像もご覧ください。)

NVIDIAは、産業現場における自律プラットフォーム向けのIGXシステムも発表しました。これは、工場の現場のような人間と機械の協働を実現するものです。もちろん、こうしたシステムは数多く存在しますが、タスクや動作環境の複雑さが増すにつれて、従来の方法ではもはや通用しなくなり、自動化の改善を目指す企業は将来を見据えた対応策を検討しています。

工場のフロアにおける物体と人物をコンピュータービジョンで分類する例。画像クレジット: Nvidia

IGXが目指すのは、「プロアクティブ」かつ「予測的」な安全性、つまり、停止や怪我につながる前に安全上の問題を把握することです。ロボットには独自の緊急停止機構が搭載されているかもしれませんが、周囲を監視しているカメラがフォークリフトの進路に干渉する前に迂回を指示できれば、すべてがよりスムーズに進みます。具体的にどの企業やソフトウェアがこれを実現するのか(そしてどのようなハードウェア上で、そしてどのように費用を負担するのか)はまだ開発段階であり、NvidiaやVeo Roboticsのようなスタートアップ企業が手探りで取り組んでいるところです。

「新しく奇妙な」仕事の世界のために人間とロボットの相互作用を調和させる

NVIDIAの得意分野であるゲーム業界で、新たな興味深い前進がありました。同社の最新かつ最高のGPUは、三角形やシェーダーの処理だけでなく、独自のDLSS技術によるアップレゾリューションやフレーム追加といったAIを活用したタスクを高速に実行できるよう設計されています。

彼らが解決しようとしている問題は、ゲームエンジンの要求があまりにも高く、(最新のモニターに対応するために)120フレーム/秒以上を生成しながら視覚的な忠実度を維持するのは、強力なGPUでさえほとんど不可能なほど至難の業であるという点です。しかし、DLSSは、エイリアシングやアーティファクトを発生させることなくソースフレームの解像度を高めることができるインテリジェントなフレームブレンダーのようなもので、ゲームはそれほど多くのピクセルをプッシュする必要がなくなります。

DLSS 3では、NVIDIAは追加フレームを1:1の比率で生成できると主張しているため、60フレームを自然描画し、残りの60フレームをAIでレンダリングすることが可能です。高性能ゲーミング環境では、この現象が奇妙になる理由はいくつか考えられますが、NVIDIAもおそらくそれらを十分に認識しているでしょう。いずれにせよ、この新しいシステムはRTX 40シリーズのカードでのみ動作するため、使用するには約1,000ドルを支払う必要があります。しかし、グラフィックの忠実度を最優先するのであれば、ぜひ試してみてください。

遠隔地でドローンが建物を建設している様子のイラスト。画像提供:インペリアル・カレッジ・ロンドン

最後にご紹介するのは、インペリアル・カレッジ・ロンドンが開発したドローンを使った3Dプリント技術です。これは、遠い将来、自律的な建築プロセスに利用される可能性があります。今のところ、ゴミ箱よりも大きなものを作るのに実用的ではありませんが、まだ開発の初期段階です。最終的には、上記のような製品を開発したいと考えています。確かに見た目はクールですが、期待を裏切らないためにも、下の動画をご覧ください。