今週の AI: DeepMind が倫理的であると信頼できるでしょうか?

今週の AI: DeepMind が倫理的であると信頼できるでしょうか?

AIのように急速に変化する業界に追いつくのは至難の業です。AIがあなたの代わりにそれをこなしてくれるようになるまで、機械学習の世界における最近の話題や、私たちが単独では取り上げなかった注目すべき研究や実験をまとめてご紹介します。

今週のAI分野では、Googleが所有するAI研究開発ラボであるDeepMindが、AIシステムの社会的および倫理的リスクを評価するためのフレームワークを提案する論文を発表しました。

AI の評価と監査に AI 開発者、アプリ開発者、そして「より広範な公衆の利害関係者」からさまざまなレベルの関与を求めるこの論文の発表のタイミングは偶然ではない。

来週はAI安全サミットが開催されます。これは英国政府が主催するイベントで、各国政府、大手AI企業、市民社会団体、そして研究専門家が一堂に会し、生成型AI(ChatGPT、安定拡散など)を含むAIの最新技術によるリスクをいかに管理するのが最善かについて焦点を当てます。英国はサミットで、国連の気候変動に関する政府間パネル(IPCC)をモデルにしたAIに関する国際諮問グループを設置する予定です。このグループは、AIの最先端の開発とその危険性について定期的に報告書を作成する、複数の学者が交代で参加することになります。

DeepMindは、2日間にわたるサミットでの政策協議に先立ち、その見解を非常に明確に表明している。そして、当然のことながら、同研究所は、AIシステムを「人間とのインタラクションの場」で検証するアプローチや、これらのシステムが社会にどのように活用され、組み込まれる可能性があるかといった点を提唱するなど、いくつかの妥当な(しかし明白な)点を指摘している。

AIのどの側面を評価するのが最も得意な人材を示すチャート。画像クレジット: Google DeepMind

しかし、DeepMindの提案を検討するにあたっては、スタンフォード大学の研究者らが最近発表した、10の主要なAIモデルの運営のオープン性についてランク付けした調査で、同研究所の親会社であるGoogleがどのような評価を得ているかを見ることが有益だ。

トレーニングデータのソース、使用したハードウェアに関する情報、トレーニングに要した労力などの詳細をメーカーが公開しているかどうかを含む100の基準で評価されたが、Googleの主力テキスト分析AIモデルの1つであるPaLM 2のスコアはわずか40%だった。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

ディープマインドはPaLM 2を開発していません ― 少なくとも直接的には。しかし、同研究所はこれまで自社のモデルについて一貫した透明性を保ってきませんでした。親会社が主要な透明性基準を満たしていないという事実は、ディープマインドに改善を求めるトップダウンのプレッシャーがあまりないことを示唆しています。

一方、DeepMindは、政策に関する公の見解に加えて、モデルのアーキテクチャや内部の仕組みについて口を閉ざしているという認識を払拭するための措置を講じているようだ。同研究所は、OpenAIおよびAnthropicと共同で、数ヶ月前に英国政府にAIモデルへの「早期アクセスまたは優先アクセス」を提供し、評価と安全性に関する研究を支援することを約束した。

問題は、これが単なるパフォーマンスなのだろうか、ということだ。結局のところ、DeepMindを慈善事業だと非難する人はいないだろう。同研究所は毎年数億ドルもの収益を上げており、その主な収益源はGoogle社内のチームへのライセンス供与だ。

おそらく、DeepMindの次なる大きな倫理的試金石は、近々登場するAIチャットボット「Gemini」だろう。DeepMindのCEO、デミス・ハサビス氏は、Geminiの性能はOpenAIのChatGPTに匹敵すると繰り返し約束している。DeepMindがAI倫理の分野で真剣に受け止められるためには、Geminiの強みだけでなく、弱点や限界についても徹底的に詳細に説明する必要があるだろう。今後数ヶ月、事態がどのように展開していくのか、私たちは注意深く見守っていくことになるだろう。

ここ数日間で注目されたその他の AI 関連ニュースは次のとおりです。

  • Microsoftの研究でGPT-4の欠陥が発見: Microsoft関連の新たな科学論文は、OpenAIのGPT-4を含む大規模言語モデル(LLM)の「信頼性」と毒性について検証した。共著者らは、GPT-4の初期バージョンは他のLLMよりも有害で偏ったテキストを吐き出すように誘導されやすいことを発見した。これは実に恐ろしい。
  • ChatGPTがウェブ検索とDALL-E 3に対応: OpenAIといえば、同社は数ヶ月の休止期間を経てベータ版で再導入した ChatGPTのインターネット閲覧機能を約 3週間後に正式にリリースしました。関連ニュースとして、OpenAIはテキスト画像生成ツールの最新版を発表してから1か月後に、DALL-E 3もベータ版に移行しました。
  • GPT-4Vへの挑戦者: OpenAIは、テキストだけでなく画像も理解できるGPT-4の亜種であるGPT-4Vをまもなくリリースする予定です。しかし、オープンソースの代替モデルとして、資金力のあるスタートアップ企業AdeptのモデルであるLLaVA-1.5とFuyu-8Bが先を越しました。どちらもGPT-4Vほど高性能ではありませんが、近い性能を備えています。そして重要なのは、どちらも無料で利用できることです。
  • AIはポケモンをプレイできるのか?:シアトルを拠点とするソフトウェアエンジニア、ピーター・ウィッデン氏はここ数年、ポケモンシリーズの名作ゲーム『ポケットモンスター』をプレイするための強化学習アルゴリズムの訓練に取り組んできた。現時点では、このアルゴリズムはセレナシティまでしか到達していないが、ウィッデン氏は今後も改善が続くと確信している。
  • AI搭載の語学チューター: Googleは、英語のスピーキングスキルの練習と向上を支援する新しいGoogle検索機能で、Duolingoに迫ろうとしています。今後数日中に一部の国でAndroidデバイス向けに展開されるこの新機能は、英語から、あるいは英語への翻訳を通して、インタラクティブなスピーキング練習を可能にします。
  • Amazon、倉庫ロボットの導入を拡大:今週開催されたイベントで、AmazonはAgility社の二足歩行ロボット「Digit」を自社施設で試験運用すると発表した。しかし、行間を読むと、Amazonが実際に倉庫施設にDigitを導入する保証はないようだ。現在、倉庫施設では75万台以上のロボットシステムが稼働している。ブライアン氏の記事によると、そのようだ。
  • シミュレーターの積み重ね: Nvidiaが、AI駆動型ロボットのタスク遂行能力を向上させるための強化学習コードの作成を支援するLLM適用のデモを行った同じ週に、MetaはHabitat 3.0をリリースしました。リアルな屋内環境でAIエージェントを訓練するためのMetaデータセットの最新バージョンであるHabitat 3.0では、VR空間内で人間のアバターが空間を共有する機能が追加されています。
  • 中国のテック大手、OpenAIのライバル企業に投資: OpenAIや生成AI分野の他社に匹敵するAIモデルを開発する中国拠点のスタートアップ企業Zhipu AIは今週、今年に入ってから総額25億元(3億4000万ドル)の資金調達を完了したと発表した。米中間の地政学的緊張が高まり、鎮静化の兆しが見られない中での発表となった。
  • 米国、中国へのAIチップ供給を遮断: 地政学的緊張を背景に、バイデン政権は今週、中国の軍事的野心を抑制するための一連の措置を発表した。これには、NVIDIAの中国向けAIチップ輸出に対する更なる制限も含まれる。NVIDIAが中国への輸出継続を目的として特別に設計した2つのAIチップ、A800とH800は、今回の新たな規制の影響を受けることになる。
  • AIによるポップソングのリプライズが話題に: アマンダは奇妙なトレンドを取り上げている。AIを使ってホーマー・シンプソンなどのキャラクターに「スメルズ・ライク・ティーン・スピリット」などの90年代や2000年代のロックソングを歌わせるTikTokアカウントだ。表面的には楽しくて滑稽だが、その裏には暗い影が潜んでいるとアマンダは書いている。

さらなる機械学習

機械学習モデルは、生物科学の進歩を常にリードしています。AlphaFoldとRoseTTAFoldは、タンパク質の折り畳みという難題が、適切なAIモデルによって実質的に容易に解決できることを示した例です。そして今、後者のモデルの開発者であるDavid Baker氏と彼の研究室の仲間たちは、予測プロセスを拡張し、関連するアミノ酸鎖の構造だけでなく、それ以上の要素も対象としています。結局のところ、タンパク質は他の分子や原子の集合体として存在しており、体内の異物や元素とどのように相互作用するかを予測することは、タンパク質の実際の形状と活性を理解する上で不可欠です。RoseTTAFold All-Atomは、生物システムのシミュレーションにおける大きな前進です。

画像クレジット: MIT/ハーバード大学

視覚AIを実験作業の強化や学習ツールとして活用することも大きな可能性を秘めています。MITとハーバード大学によるSmartEMプロジェクトでは、走査型電子顕微鏡にコンピュータービジョンシステムと機械学習制御システムを搭載し、これらを組み合わせることで装置をインテリジェントに制御し、標本を観察することができます。重要度の低い領域を避け、興味深い領域や鮮明な領域に焦点を合わせ、さらに結果画像にスマートラベルを付けるといったことも可能です。

AIやその他のハイテクツールを考古学の目的に使うことは、私にとって決して飽きることはありません(そう言えるなら)。ライダーを使ってマヤの都市や高速道路を解明したり、古代ギリシャの不完全な文献の空白を埋めたりと、見るのはいつでもワクワクします。そして、ポンペイを壊滅させた火山噴火で失われたと考えられている巻物の復元は、これまでで最も印象的なものの一つです。

焼失し、巻かれたパピルスのCTスキャン画像(機械学習による解析)。「紫」という文字が見える。画像提供: UK Photo

ネブラスカ大学リンカーン校のコンピューターサイエンス専攻の学生、ルーク・ファリター氏は、焼け焦げて巻かれたパピルスのスキャン画像に見られる、肉眼では見えない微細な模様を増幅する機械学習モデルを訓練しました。彼の手法は、巻物の解読を目指す国際的な試みで試みられている多くの手法の一つであり、改良すれば貴重な学術研究に役立つ可能性があります。Nature誌のこちらの記事でさらに詳しい情報をご覧ください。巻物には何が書かれていたのでしょうか?今のところは「紫色」という言葉だけが記されていますが、それでもパピルス学者たちは頭がいっぱいです。

AIのもう一つの学術的勝利は、Wikipediaの引用文献を審査し、提案するシステムです。もちろん、AIは何が真実で何が事実かを判断することはできませんが、文脈から質の高いWikipediaの記事と引用文献がどのようなものかを理解し、サイトやウェブから代替案を探し出すことができます。ユーザー主導で知られるオンライン百科事典をロボットに運用させようという人はいませんが、引用文献が不足している記事や編集者が確信を持てない記事の補強に役立つ可能性があります。

Llemma で解く数学の問題の例。画像提供: Eleuther AI

言語モデルは様々なトピックで微調整が可能で、意外にも高等数学もその一つです。Llemmaは、数学的な証明や論文で学習された新しいオープンモデルで、かなり複雑な問題を解くことができます。これは初めてのものではありません。Google ResearchのMinervaも同様の機能に取り組んでいます。しかし、同様の問題セットでの成功と効率性の向上は、「オープン」モデル(この用語の意味はさておき)がこの分野で競争力があることを示しています。特定の種類のAIがプライベートモデルに支配されることは望ましくないため、たとえ新境地を開拓するものではないとしても、それらの機能をオープンに複製することは価値があります。

困ったことに、Metaは心を読むことを目指した独自の学術研究を進めている。しかし、この分野の多くの研究と同様に、その発表方法はプロセスを誇張しすぎている。「脳のデコーディング:視覚知覚のリアルタイム再構築に向けて」という論文では、まるで彼らが心を読んでいるかのように感じられるかもしれない。

左は人に見せた画像、右は生成AIが人が何を見ているかを推測する様子。画像クレジット: Meta

しかし、それはもう少し間接的なものです。人が馬や飛行機など特定のものの画像を見ているときの高周波数脳スキャンの様子を研究することで、研究者たちは、その人が何を考えているのか、何を見ているのかをほぼリアルタイムで再構成することができます。それでも、スキャン画像に直接対応していなくても、何かの視覚的表現を作り出すという点で、生成AIがここで役割を果たしている可能性は高いようです。

しかし、もしそれが可能になったとしたら、AIを使って人の心を読むべきなのでしょうか?DeepMindに聞いてみてください(上記参照)。

最後に、LAIONのプロジェクトを紹介します。現時点では具体的な取り組みというよりは、あくまでも野心的なプロジェクトですが、それでも称賛に値します。音声表現獲得のための多言語対照学習(CLARA)は、言語モデルが人間の発話のニュアンスをより深く理解できるようにすることを目的としています。口調や発音といった言語に含まれない情報から、皮肉や嘘を見抜くことができることをご存知ですか?機械はそれが苦手で、これは人間とAIのインタラクションにとって非常に厄介な問題です。CLARAは、複数の言語の音声とテキストのライブラリを用いて、感情状態やその他の非言語的な「音声理解」の手がかりを特定します。