AIのように急速に変化する業界に追いつくのは至難の業です。AIがあなたの代わりにそれをこなしてくれるようになるまで、機械学習の世界における最近の話題や、私たちが単独では取り上げなかった注目すべき研究や実験をまとめてご紹介します。
今週のAIは、ホリデーシーズンを前にニュースサイクルがようやく(ようやく!)少し落ち着きました。しかし、だからといって書くネタが全くなかったわけではありません。睡眠不足の記者にとっては、これは幸いでもあり、また災いでもあります。
今朝、AP通信の見出しが目に留まりました。「AI画像生成ツールが児童の露骨な写真で学習中」。記事の要点は、Stable DiffusionやImagenなど、多くのオープンソースおよび商用AI画像生成ツールの学習に使用されているデータセットLAIONに、児童性的虐待の疑いのある画像が数千枚含まれているという点です。スタンフォード大学を拠点とする監視団体「スタンフォード・インターネット・オブザーバトリー」は、虐待対策慈善団体と協力し、違法コンテンツを特定し、法執行機関にリンクを報告しました。
現在、非営利団体LAIONはトレーニングデータを削除し、再公開前に問題のある資料を削除することを約束しました。しかし、この事件は、競争圧力が高まる中で、生成型AI製品への配慮がいかに不十分であるかを浮き彫りにしています。
ノーコードAIモデル作成ツールの普及により、想像し得るあらゆるデータセットで生成AIを学習させることが驚くほど容易になっています。これは、スタートアップ企業や巨大テクノロジー企業にとって、こうしたモデルを市場に投入する上で大きなメリットとなります。しかし、参入障壁が低くなると、市場投入までのスピードを優先し、倫理観を軽視してしまう誘惑に駆られることも少なくありません。
倫理は難しい。それは否定できない。今週の例のように、LAIONにある何千枚もの問題画像を精査するのは一朝一夕でできるものではない。そして理想的には、AIを倫理的に開発するには、AIシステムによってしばしば疎外され、悪影響を受ける集団を代表する組織を含む、すべての関係者と協力する必要がある。
AI業界には、倫理学者ではなく株主を念頭に置いたAIリリースの決定例が数多くあります。例えば、Bing上のMicrosoftのAI搭載チャットボットであるBing Chat(現Microsoft Copilot)は、リリース当初、ジャーナリストをヒトラーに例え、容姿を侮辱する発言をしました。10月時点では、ChatGPTとGoogleのChatGPTの競合であるBardは、依然として時代遅れで人種差別的な医療アドバイスを提供していました。また、OpenAIの画像生成ツールDALL-Eの最新バージョンには、アングロセントリズムの証拠が見られます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
AIの優位性、あるいは少なくともウォール街のAI優位性という概念の追求によって、弊害が生じていると言えば十分だろう。特定のAIガイドラインに違反した場合に罰金を科す可能性があるEUのAI規制が可決されたことで、希望の光が見えてきたかもしれない。しかし、今後の道のりは実に長い。
ここ数日間で注目されたその他の AI 関連ニュースは次のとおりです。
2024 年の AI に関する予測: Devin は、2024 年の AI に関する予測を提示し、AI が米国の予備選挙にどのような影響を与えるか、OpenAI の今後などについて触れています。
疑似人間論に反対: デヴィン氏はまた、AI が人間の行動を模倣することを禁止すべきだと提案しました。
偽人間に反対
Microsoft Copilot が音楽作成に対応: Microsoft の AI 搭載チャットボットである Copilot は、GenAI 音楽アプリ Suno との統合により、曲を作曲できるようになりました。
ライト・エイドの顔認識システム使用禁止:米ドラッグストア大手ライト・エイドは、連邦取引委員会の調査で「顔認識監視システムの無謀な使用」により顧客に屈辱を与え、「機密情報を危険にさらした」と認定されたため、顔認識技術の使用を5年間禁止された。
EUがコンピューティングリソースを提供: EUは、9月に最初に発表され先月開始された計画を拡大し、域内のスーパーコンピューターでモデルトレーニングを行うための処理能力へのアクセスを提供することで、自国製のAIスタートアップ企業を支援する。
OpenAI、理事会に新たな権限を付与: OpenAIは、有害なAIの脅威に対抗するため、社内の安全対策プロセスを拡充しています。新たに設置された「安全諮問グループ」は技術チームの上位に位置し、経営陣に勧告を行います。また、理事会には拒否権が付与されています。
カリフォルニア大学バークレー校のケン・ゴールドバーグ氏との Q&A: 定期的に発行される Actuator ニュースレターで、ブライアンはカリフォルニア大学バークレー校の教授であり、スタートアップ企業の創設者で優れたロボット工学者でもあるケン・ゴールドバーグ氏と対談し、ヒューマノイド ロボットやロボット工学業界の幅広い動向について語り合いました。
CIO は GenAI をゆっくりと導入: Ron 氏は、CIO は ChatGPT をオンラインで利用しているときに人々が経験するような体験を提供するプレッシャーにさらされているものの、ほとんどの CIO は企業向けにこの技術を導入する際には慎重かつ慎重なアプローチを取っていると書いています。
ニュース出版社がAIをめぐりGoogleを提訴: 複数のニュース出版社が起こした集団訴訟では、Googleが反競争的な手段でニュースコンテンツを「吸い上げている」と非難している。その一部はGoogleのSearch Generative Experience(SGE)やBardチャットボットなどのAI技術を通じて行われている。
OpenAI が Axel Springer と契約を締結:出版社といえば、OpenAI は、Business Insider や Politico などの出版物を所有するベルリン拠点の Axel Springer と契約を結び、同社のコンテンツで生成 AI モデルをトレーニングし、Axel Springer が最近発行した記事を ChatGPT に追加することになった。
Google は、Gemini をさらに多くの場所に導入しました。Googleは、Vertex AI が管理する AI 開発プラットフォームや、AI ベースのチャットボットやそれに類するその他のエクスペリエンスを作成するためのツールである AI Studio など、さらに多くの自社製品やサービスに Gemini モデルを統合しました。
さらなる機械学習
ここ1、2週間で最も奇想天外(そして誤解されやすい)研究は、間違いなくlife2vecでしょう。これはデンマークの研究で、人の人生における無数のデータポイントを使って、その人の性格や死期を予測するものです。おおよそですが!

この研究は、予言的な正確さを主張しているわけではありません(ちなみに、この言葉を3回早口で言ってみてください)。むしろ、人生が経験の総和であるとすれば、現在の機械学習技術を用いて、それらの道筋をある程度推測できることを示すことを目的としています。生い立ち、教育、仕事、健康、趣味などの指標を組み合わせることで、例えば、ある人が内向的か外向的かだけでなく、これらの要因が平均寿命にどのような影響を与えるかを合理的に予測できる可能性があります。まだ「犯罪予防」レベルには達していませんが、保険会社がこの研究のライセンス取得を待ちきれないのは間違いありません。
もう一つの大きな主張は、CMUの科学者たちが開発した「Coscientist」というシステムです。これは、法学修士課程の学位(LLM)に基づいた研究者向けアシスタントで、実験室での多くの単調な作業を自律的に行うことができます。現在は化学の特定の分野に限定されていますが、科学者と同様に、このようなモデルも専門家になるでしょう。
主任研究者のゲイブ・ゴメス氏はネイチャー誌にこう語った。「人間が発明した化学反応を、無機の知能が自律的に計画、設計、実行できるのを見た瞬間は、本当に驚きでした。まさに『マジか!』という瞬間でした」。この研究は基本的に、GPT-4のようなLLM(法則モデル)を化学文献に合わせて微調整し、一般的な反応、試薬、手順を特定して実行する。つまり、実験室の技術者に触媒を4バッチ合成するように指示する必要はなく、AIがそれをこなしてくれるのだ。人間がAIに指示を出す必要さえない。
GoogleのAI研究者にとっても、今週は重要な週でした。興味深いフロンティア領域にいくつか飛び込んできたのです。FunSearchは子供向けのGoogleのように聞こえるかもしれませんが、実際には関数検索の略語で、Coscientistと同様に数学的な発見を促し、その助けとなります。興味深いことに、幻覚を防ぐために、この研究でも(最近の他の研究と同様に)「古い」GANアーキテクチャによく似た、マッチドペアのAIモデルが使用されています。一方が理論化し、もう一方が評価を行うのです。
FunSearch は画期的な新発見をするわけではありませんが、既存の技術を改良したり、新しい分野で再適用したりすることができます。そのため、ある分野で使用されているが別の分野では認識されていない関数が、業界標準のアルゴリズムの改善に活用される可能性があります。
StyleDropは、生成画像を使って特定のスタイルを再現したい人にとって便利なツールです。問題は(研究者によると)、あるスタイル(例えば「パステルカラー」)を思い描いてそれを説明しようとすると、モデルが「パステルカラー」のサブスタイルをあまりにも多く取り込んでしまい、結果が予測不可能になってしまうことです。StyleDropでは、思い描いているスタイルの例を提示するだけで、モデルがその例に基づいて作業を進めます。つまり、非常に効率的な微調整と言えるでしょう。

ブログ記事と論文では、これがかなり堅牢で、写真、絵画、都市の風景、猫の肖像画など、あらゆる画像のスタイルを、アルファベット (何らかの理由で非常に難しいことで有名) を含む他の種類の画像に適用できることが示されています。
GoogleもVideoPoetでジェネレーティブ・ビデオゲームの分野に進出しています。VideoPoetはLLMベース(近頃のあらゆるものと同様…他に何を使うというのでしょう?)を用いて、テキストや画像を動画に変換したり、既存の動画を拡張したり、スタイルを適用したりするなど、様々な動画タスクを実行します。どのプロジェクトでも明らかになっているように、ここでの課題は、単に互いに関連性のある一連の画像を作成することではなく、より長い期間(1秒以上)にわたって、そして大きな動きや変化を伴う画像に一貫性を持たせることです。

VideoPoet は前進しているように見えますが、ご覧の通り、結果はまだかなり奇妙なものになっています。でも、こういうのはそういう風に進化していくものです。最初は不十分で、次に奇妙になり、そして不気味になります。おそらく、ある時点で不気味になるはずですが、まだ誰もそこにたどり着いていません。
実用面では、スイスの研究者たちがAIモデルを積雪測定に応用しています。通常は気象観測所に頼りますが、気象観測所は遠く離れている場合があり、私たちは豊富な衛星データを持っていますよね?そうですよね?ETHZチームはSentinel-2衛星群から公開されている衛星画像を使用しましたが、リーダーのKonrad Schindler氏によると、「衛星画像上の白い部分だけを見ても、積雪の深さをすぐに判断することはできません」とのことです。
そこで彼らは、連邦地形局(アメリカのUSGSのような機関)から国全体の地形データを取得し、画像内の白い部分だけでなく、地上データや融解パターンなどの傾向に基づいて推定するようにシステムをトレーニングしました。この技術はExoLabsによって商用化されており、詳細を知るために連絡を取る予定です。
ただし、スタンフォード大学からの注意点があります。上記のようなアプリケーションは強力ですが、どれも人間のバイアスの影響をあまり受けないことに注意してください。健康問題となると、これは突如として大きな問題となり、多くのAIツールがテストされている分野です。スタンフォード大学の研究者たちは、AIモデルが「古くからある医学的人種的比喩」を広めていることを示しました。GPT-4は何かが真実かどうか判断できないため、黒人は肺活量が低いなど、古くて反証された集団に関する主張をそのまま繰り返す可能性があります。そうではありません!健康や医療分野で何らかのAIモデルを扱う場合は、常に注意を払う必要があります。
最後に、バードが書いた短編小説と、VideoPoetがレンダリングした撮影台本とプロンプトをご紹介します。ピクサー、気をつけて!