AIのように急速に進化する業界に追いつくのは至難の業です。AIがあなたに代わってそれをこなしてくれるようになるまで、機械学習の世界における先週のニュースと、私たちが単独では取り上げなかった注目すべき研究や実験をまとめてご紹介します。
今週、Googleは年次開発者会議I/Oで発表した一連の新製品で、AI関連のニュースサイクルを席巻しました。GitHubのCopilotに対抗するコード生成AIから、テキストプロンプトを短い曲に変換するAI音楽ジェネレーターまで、その範囲は多岐にわたります。
これらのツールの多くは、マーケティングの宣伝文句以上の、真に効果的な省力化ツールのように見えます。特に興味深いのは、AIを活用して個人のGoogleドキュメントフォルダ内のファイルを整理、要約、分析するメモアプリ「Project Tailwind」です。しかし、これらのツールは、今日の最高のAI技術でさえも限界や欠点があることも明らかにしています。
Googleの最新の大規模言語モデル(LLM)であるPaLM 2を例に挙げましょう。PaLM 2は、OpenAIのChatGPTの競合であるGoogleのアップデート版チャットツールBardの基盤となり、Googleのほとんどの新しいAI機能の基盤モデルとして機能します。しかし、PaLM 2は同等のLLMと同様にコードやメールなどを記述できる一方で、質問に対して有害で偏った方法で応答する点も欠点です。
Googleの音楽ジェネレーターも、できることはかなり限られています。ハンズオンで書いたように、MusicLMで作った曲のほとんどは、せいぜいそこそこの出来で、最悪の場合は4歳児がDAWで自由に演奏しているような出来でした。
AIがどのように仕事を奪うかについては、多くの議論が交わされてきました。ゴールドマン・サックスのレポートによると、AIは潜在的に3億人のフルタイム雇用に相当するとされています。ハリスによる調査では、OpenAIのAI搭載チャットボットツール「ChatGPT」を熟知している労働者の40%が、自分の仕事が完全に奪われるのではないかと懸念しています。
GoogleのAIは万能ではありません。実際、同社はAI開発競争において後れを取っていると言えるでしょう。しかし、Googleが世界トップクラスのAI研究者を雇用していることは紛れもない事実です。もしこれが彼らの最善策だとしたら、AIが解決済みの問題には程遠いことを物語っています。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Google I/O 2023が終了しました。発表されたすべてのリストはこちらです。
ここ数日で注目されたその他の AI 関連のニュースは次のとおりです。
- Metaが広告に生成AIを導入: Metaは今週、広告主向けにAIサンドボックスのようなものを発表しました。FacebookやInstagramの広告において、代替コピーの作成、テキストプロンプトによる背景生成、画像の切り抜きなどを支援するものです。Metaによると、これらの機能は現在一部の広告主のみ利用可能で、7月にはさらに多くの広告主が利用可能になる予定です。
- コンテキストの追加: Anthropicは、主力のテキスト生成AIモデルであるClaude(まだプレビュー段階)のコンテキストウィンドウを9,000トークンから100,000トークンに拡張しました。コンテキストウィンドウとは、モデルが追加テキストを生成する前に考慮するテキストを指し、トークンは生のテキストを表します(例えば、「fantastic」という単語は「fan」、「tas」、「tic」というトークンに分割されます)。歴史的にも、そして今日でも、メモリ不足はテキスト生成AIの有用性の妨げとなってきました。しかし、コンテキストウィンドウの拡大は、この状況を変える可能性があります。
- アントロピックは「コンスティテューショナルAI」を謳う:アントロピックのモデルの差別化要因は、より広いコンテキストウィンドウだけではありません。同社は今週、「コンスティテューショナルAI」の詳細を発表しました。これは、AIシステムに「コンスティテューション」によって定義された「価値観」を植え付けることを目的とした、自社開発のAIトレーニング手法です。他のアプローチとは対照的に、アントロピックはコンスティテューショナルAIによってシステムの振る舞いがより理解しやすくなり、必要に応じて調整も容易になると主張しています。
- 研究に特化した法学修士課程(LLM):非営利団体アレンAI研究所(AI2)は、研究に特化した法学修士課程(LLM)「Open Language Model」の育成計画を発表しました。この課程は、現在も成長を続ける大規模オープンソースライブラリへの追加となります。AI2は、Open Language Model(略称OLMo)を単なるモデルではなく、プラットフォームとして捉えています。AI2が構築する各コンポーネントを研究コミュニティが利用し、自ら活用したり、改良したりできるプラットフォームです。
- AIのための新ファンド: AI2に関するその他のニュースとして、非営利団体AI2インキュベーターのAIスタートアップファンドが、以前の1,000万ドルから3,000万ドルへと3倍の規模で再び活動を拡大しています。2017年以降、21社がこのインキュベーターを通過し、約1億6,000万ドルの追加投資と、少なくとも1件の大型買収が行われました。その一つが、AIアクセラレーションと効率化を専門とするXNOR社です。同社はその後、Appleに約2億ドルで買収されました。
- EU、生成AIに関する規則を導入:欧州議会での一連の投票において、欧州議会議員は今週、EUのAI関連法案草案に対する一連の修正案を承認した。これには、OpenAIのChatGPTのような生成AI技術の基盤となる、いわゆる「基盤モデル」の要件を定めることが含まれる。この修正案は、基盤モデルの提供者に、モデルを市場に出す前に安全性チェック、データガバナンス対策、リスク軽減策を実施する責任を課す。
- 万能翻訳機: Googleは、動画を別の言語に吹き替えると同時に、話者の口の動きを実際に話していない言葉と同期させる強力な新翻訳サービスをテストしています。これは多くの点で非常に役立つ可能性がありますが、同社は悪用される可能性と、その防止策について率直に説明しました。
- 自動説明: OpenAIのChatGPTのようなLLMはブラックボックスだとよく言われますが、確かに一理あります。OpenAIは、LLMのレイヤーを剥がす試みとして、LLMのどの部分がどの動作に関与しているかを自動的に識別するツールを開発しています。このツールを開発しているエンジニアたちは、まだ初期段階であることを強調していますが、このツールを実行するコードは今週からGitHubでオープンソースとして公開されています。
- IBMが新たなAIサービスを発表: IBMは年次カンファレンス「Think」において、AIモデル構築ツールと、コンピューターコードやテキスト生成のための事前学習済みモデルへのアクセスを提供する新プラットフォーム「IBM Watsonx」を発表しました。IBMによると、このサービス開始のきっかけは、多くの企業が職場へのAI導入において依然として直面している課題でした。
その他の機械学習

アンドリュー・ン氏の新会社Landing AIは、コンピュータービジョンのトレーニングにおいて、より直感的なアプローチを採用しています。画像内の識別したいものをモデルに理解させるのは非常に骨の折れる作業ですが、同社の「ビジュアルプロンプティング」技術を使えば、ブラシで数ストローク描くだけで、そこからモデルがユーザーの意図を汲み取ってくれます。セグメンテーションモデルの構築を迫られている人は皆、「やっと来た!」と喜んでいるでしょう。おそらく、現在何時間もかけて細胞小器官や家庭用品をマスキングしている大学院生は多いでしょう。
Microsoftは、拡散モデルを独特で興味深い方法で応用しました。これは、多数の人間の行動を観察することで学習させ、画像ではなく行動ベクトルを生成するというものです。まだ研究の初期段階であり、拡散モデルがこの問題の明確な解決策となるわけではありませんが、安定性と汎用性を備えているため、純粋に視覚的なタスク以外にもどのように応用できるかを見るのは興味深いことです。彼らの論文は、今年後半にICLRで発表される予定です。

MetaはImageBindでAIの限界に挑戦しています。同社によると、これは画像と動画、音声、3D深度データ、熱情報、動きまたは位置データという6つの異なるモダリティからのデータを処理・統合できる初のモデルです。つまり、この小さな機械学習埋め込み空間では、画像が音声、3D形状、そして様々なテキスト記述と関連付けられる可能性があり、それらのいずれかについて質問したり、意思決定に利用したりすることが可能になります。これは、脳のようにデータを吸収し関連付けるという点で「汎用」AIへの一歩ですが、まだ基礎的で実験的な段階なので、期待しすぎないようにしましょう。

AlphaFoldに誰もが興奮したのは当然のことですが、実際には構造はプロテオミクスという非常に複雑な科学のほんの一部に過ぎません。重要なのは、タンパク質がどのように相互作用するかであり、予測は困難です。しかし、EPFLのこの新しいPeSToモデルはまさにそれを実現しようとしています。「このモデルは、タンパク質構造内の重要な原子と相互作用に焦点を当てています」と、主任開発者のルシアン・クラップ氏は述べています。「つまり、この手法はタンパク質構造内の複雑な相互作用を効果的に捉え、タンパク質結合界面の正確な予測を可能にするのです。」たとえ正確で100%信頼できるものでなくても、ゼロから始める必要がないことは研究者にとって非常に有益です。
連邦政府はAIに力を入れています。大統領はAI関連の一流CEOたちとの会合に立ち寄り、AI導入を成功させる重要性を訴えました。企業に依頼するのは必ずしも適切ではないかもしれませんが、少なくとも検討に値するアイデアはいくつかあるはずです。しかし、彼らには既にロビイストがいますよね?
連邦政府の資金援助を受けて次々と設立されるAI研究センターに、私はむしろ期待を寄せています。OpenAIやGoogleのような企業が行っている製品中心の研究に対抗するには、基礎研究が極めて重要です。だからこそ、社会科学(CMU)や気候変動と農業(ミネソタ大学)といった分野を研究するAIセンターが存在すると、まるで(比喩的にも文字通りにも)緑豊かな野原のように感じられます。とはいえ、森林計測に関するこのメタ研究にも少し触れておきたいと思います。

AIについて、興味深い議論がたくさんあります。UCLA(私の母校、頑張れブルーインズ)のジェイコブ・フォスター教授とダニー・スネルソン教授へのインタビューは興味深いものでした。今週末、AIについて人々が話題にしている時に、法学修士課程について思いついたと思わせる素晴らしい考えがあります。
これらのシステムは、ほとんどの文章がいかに形式的に一貫しているかを明らかにしています。これらの予測モデルがシミュレートする形式が汎用的であればあるほど、その精度は高くなります。こうした発展は、私たちに形式の規範的機能を認識しさせ、潜在的にそれらを変革させるよう促します。表象空間を捉えることに非常に優れた写真技術の導入後、絵画界は印象派という様式を生み出しました。印象派は、正確な表現を完全に拒絶し、絵の具そのものの物質性にこだわるスタイルでした。
絶対使いますよ!
カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。
バイオを見る
デヴィン・コールドウェイはシアトルを拠点とする作家兼写真家です。
彼の個人ウェブサイトは coldewey.cc です。
バイオを見る