AIのように急速に進化する業界に追いつくのは至難の業です。AIがあなたに代わってそれをこなしてくれるようになるまで、機械学習の世界における先週のニュースと、私たちが単独では取り上げなかった注目すべき研究や実験をまとめてご紹介します。
既にご存知の通り、AI、特に生成AIと呼ばれる分野における競争環境は熾烈を極めています。そして、その熱気はますます高まっています。Dropboxは今週、初のコーポレートベンチャーファンド「Dropbox Ventures」を立ち上げました。同社はこのファンドが「仕事の未来を形作る」AI搭載製品を開発するスタートアップ企業に注力すると発表しました。AWSも負けじと、パートナー企業や顧客が主導する生成AIイニシアチブに資金を提供する1億ドル規模のプログラムを発表しました。
AI分野には確かに多額の資金が投入されています。SalesforceのVC部門であるSalesforce Venturesは、生成型AI技術を開発するスタートアップ企業に5億ドルを投入する計画です。Workdayは最近、AIと機械学習のスタートアップ企業を支援するため、既存のVCファンドに2億5000万ドルを追加しました。また、AccentureとPwCはそれぞれAIに30億ドルと10億ドルを投資する計画を発表しました。
しかし、お金が AI 分野の未解決の課題の解決策になるのかどうかは疑問だ。
今週サンフランシスコで開催されたブルームバーグのカンファレンスで行われた啓発的なパネルディスカッションで、セキュアメッセージングアプリSignalの社長メレディス・ウィテカー氏は、今話題のAIアプリの基盤技術が危険なほど不透明になりつつあると主張した。彼女は、銀行に行って融資を申し込む人の例を挙げた。
融資が拒否されても、「裏でおそらくマイクロソフトのAPIで動いているシステムが、ソーシャルメディアのスクレイピング情報に基づいて私の信用度が低いと判断していることに全く気づかない」とウィテカー氏は述べた。「それを知る手段がないので、私は決して知ることはないでしょう」
問題は資本ではなく、むしろ現在の権力構造にあるとウィテカー氏は言う。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
「私はもう15年、いや20年もテーブルに座っているんです。ずっとテーブルに座っているんです。権力がないのにテーブルに座っているなんて、何の意味もありません」と彼女は続けた。
もちろん、構造改革を実現するのは、資金集めよりもはるかに困難です。特に、その構造改革が必ずしも権力者に有利にならない場合はなおさらです。そしてウィテカー氏は、十分な抵抗がなければ何が起こるかを警告しています。
AIの進歩が加速するにつれ、社会への影響も加速し、私たちは「AIに向かう誇大宣伝に満ちた道」を歩み続けるだろうと彼女は述べた。「そこではAIの力は知性を装って定着し、自然化され、私たちは個人的および集団的な生活においてほとんど主体性を持たないほど監視されることになる」
これは業界に一石を投じるはずだ。実際にそうなるかどうかは別の問題だ。おそらく、彼女が9月に開催されるDisruptのステージに立った際に、その点について議論されるだろう。
https://[削除されたリンク]/2023/06/13/announceing-the-security-stage-agenda-at-techcrunch-disrupt/?utm_source=internal&utm_medium=WPunit
ここ数日のその他の注目すべき AI 関連のニュースは次のとおりです。
- DeepMindのAIがロボットを制御: DeepMindは、様々なロボットアームのモデルを使って幅広いタスクを実行できる「RoboCat」と呼ばれるAIモデルを開発したと発表しました。それ自体は特に目新しいものではありませんが、DeepMindは、このモデルが複数のタスクを解決し、適応し、しかも様々な実世界のロボットを使って実行できる初めてのモデルだと主張しています。
- ロボットはYouTubeから学ぶ:ロボットといえば、CMUロボティクス研究所のディーパック・パタック助教授が今週、VRB(Vision-Robotics Bridge)を披露しました。これは、人間の動画を視聴することでロボットシステムを訓練するAIシステムです。ロボットは接触点や軌道といったいくつかの重要な情報を捉え、タスクを実行しようとします。
- Otter がチャットボット分野に参入:自動文字起こしサービスの Otter は今週、参加者が会議中や会議後に質問したり、チームメイトと共同作業したりできるようにする新しい AI 搭載チャットボットを発表しました。
- EU、AI規制の必要性を訴え: 欧州の規制当局は、域内におけるAIの規制方法、そして最終的には商業的・非商業的利用のあり方について岐路に立たされている。今週、EU最大の消費者団体である欧州消費者機構(BEUC)は、独自の見解を表明した。「先延ばしをやめ、今すぐ『生成型AIのリスクに関する緊急調査を開始』すべきだ」。
- Vimeo が AI を活用した機能を発表:今週、Vimeo は、ユーザーがスクリプトを作成したり、内蔵のテレプロンプターを使用して映像を録画したり、録画から長い休止や「あー」や「えー」などの不要な言葉遣いを削除したりできるように設計された AI を活用したツール スイートを発表しました。
- 合成音声への資金調達: AIを活用した合成音声作成プラットフォームとして話題沸騰中のElevenLabsが、新たな資金調達ラウンドで1,900万ドルを調達しました。ElevenLabsは1月下旬のローンチ後、急速に勢いを増しています。しかし、評判は必ずしも好意的なものばかりではありませんでした。特に、悪意のある人物がプラットフォームを悪用し始めてからは、その傾向が顕著です。
- 音声をテキストに変換:フランスのAIスタートアップ企業Gladiaは、OpenAIのWhisper文字起こしモデルを活用し、API経由であらゆる音声をほぼリアルタイムでテキスト化するプラットフォームを立ち上げました。Gladiaは、1時間の音声を0.61ドルで文字起こしでき、文字起こしプロセスには約60秒かかると謳っています。
- Harnessが生成型AIを採用: 開発者の作業効率向上を支援するツールキットを開発するスタートアップ企業Harnessは、今週、自社のプラットフォームにAIを組み込みました。これにより、Harnessはビルドとデプロイメントの失敗を自動的に解決し、セキュリティ上の脆弱性を発見・修正し、クラウドコストを管理するための提案を行うことができます。
その他の機械学習
今週はカナダのバンクーバーでCVPR(コンピュータビジョンとパターン認識に関する会議)が開催されました。講演と論文がとても興味深かったので、ぜひ参加したかったです。もし1つしか見られないなら、AIの可能性、不可能性、そしてパラドックスについて語ったYejin Choi氏の基調講演をぜひご覧ください。

ワシントン大学教授であり、マッカーサー・ジーニアス・グラント受賞者でもあるチェイ氏は、まず、今日の最も有能なモデルの予想外の限界をいくつか指摘した。特に、GPT-4は乗算が極めて苦手だ。3桁の数字2つの積を正しく求めることができない割合は驚くほど高いが、少し工夫すれば95%の確率で正しく求めることができる。言語モデルが数学ができないことがなぜ問題なのか、と疑問に思う人もいるかもしれない。それは、現在のAI市場全体が、言語モデルが税金や会計処理など、多くの興味深いタスクにうまく一般化できるという考えに基づいているからだ。チェイ氏の指摘は、AIの限界を探り、その内側へと向かうべきであり、その逆ではないということだ。そうすることで、AIの能力についてより深く理解できるからだ。
彼女の講演の他の部分も同様に興味深く、考えさせられるものでした。全編はこちらでご覧いただけます。
「誇大広告の打破者」として紹介されたロッド・ブルックス氏は、機械学習の中核概念のいくつかについて興味深い歴史を語った。これらの概念は、発明された当時、ほとんどの人がまだ存在していなかったため、新しく見えるだけなのだ。数十年を遡り、マカロック、ミンスキー、さらにはヘブといった理論にも触れ、これらの概念がいかに時代をはるかに超えて重要であり続けたかを示している。これは、機械学習が戦後以来の巨人たちの功績の上に成り立っている分野であることを改めて認識させてくれる。
CVPRには数多くの論文が提出・発表されました。受賞者だけに注目するのは少々難しそうですが、これはニュースのまとめであり、包括的な文献レビューではありません。そこで、会議の審査員が最も興味深いと思った論文をご紹介します。

AI2の研究者によるVISPROGは、多目的コードツールボックスを用いて複雑な視覚操作タスクを実行する、一種のメタモデルです。例えば、草むらにいるハイイログマの写真(写真参照)があるとします。「このハイイログマを雪の上のホッキョクグマに置き換えて」と指示するだけで、作業が開始されます。画像の各部分を識別し、視覚的に分離し、適切な代替画像を検索・生成し、全体をインテリジェントにつなぎ合わせます。ユーザー側からの操作は一切不要です。『ブレードランナー』の「拡張」インターフェースは、実に平凡なものに見え始めています。そして、これはVISPROGの多くの機能の一つに過ぎません。
中国の複数の機関からなる研究グループによる「計画指向型自動運転」は、これまで自動運転車に対して取られてきた、やや断片的なアプローチの様々な要素を統合しようとする試みです。通常、自動運転には「認識、予測、計画」という段階的なプロセスがあり、それぞれに複数のサブタスク(人物のセグメント化、障害物の特定など)が含まれる場合があります。彼らのモデルは、これらすべてを1つのモデルに統合しようと試みており、テキスト、音声、画像を入出力として使用できるマルチモーダルモデルに似ています。同様に、このモデルは現代の自動運転スタックの複雑な相互依存関係をある意味で簡素化しています。

DynIBaRは、「ダイナミック・ニューラル・ラディアンス・フィールド」(NeRF)を用いて、高品質かつ堅牢なビデオ操作を実現する手法を実証しています。ビデオ内のオブジェクトを深く理解することで、手ブレ補正やドリーモーションなど、ビデオ撮影後には通常は不可能と思われる様々な機能を実現します。繰り返しますが、「エンハンスメント」です。まさにAppleがあなたに依頼し、次のWWDCでその功績を誇示するような仕事です。
DreamBooth。今年少し前にプロジェクトのページが公開されたのを覚えている方もいるかもしれません。これは、言わずもがな、ディープフェイクを作るための最高のシステムです。もちろん、こうした画像操作は価値があり、強力で、楽しいだけでなく、Googleなどの研究者たちは、よりシームレスでリアルなシステムを目指して取り組んでいます。その成果は…後ほど明らかになるかもしれません。
最優秀学生論文賞は、メッシュ、つまり3Dポイントクラウドの比較とマッチングを行う手法に贈られます。正直なところ、技術的すぎて説明が難しいのですが、これは現実世界の認識にとって重要な機能であり、改善は歓迎されます。例やその他の詳細については、こちらの論文をご覧ください。
あと2つだけ、ちょっとしたヒントをご紹介します。Intelは、3Dの360度画像のような仮想環境を生成するための興味深いモデル、LDM3Dを披露しました。メタバースで「ジャングルの草木が生い茂った遺跡に私たちを移して」と頼めば、要求に応じて新しい遺跡が自動生成されます。
MetaはVoiceboxという音声合成ツールをリリースしました。これは、入力がクリーンでなくても、声の特徴を抽出して複製するのに非常に優れています。通常、音声の複製には、十分な量と種類のクリーンな音声録音が必要ですが、Voiceboxは他の多くのツールよりも少ないデータ量(約2秒程度)で、より優れた性能を発揮します。幸いなことに、Metaはこのツールを今のところは秘密にしています。自分の声を複製する必要があるかもしれないと考えている方は、Acapelaをチェックしてみてください。