皆さん、こんにちは。TechCrunchの定期AIニュースレターへようこそ。毎週水曜日に受信箱に配信をご希望の場合は、こちらからご登録ください。
今週の AI では、合成データが注目を集めました。
OpenAIは先週木曜日、AI搭載チャットボットプラットフォーム「ChatGPT」と連携するための新たな方法「Canvas」を発表しました。Canvasは、プロジェクトの作成とコーディングのためのワークスペースを備えたウィンドウを開きます。ユーザーはCanvasでテキストやコードを生成し、必要に応じてChatGPTで編集するセクションをハイライトすることができます。
ユーザーの観点から見ると、Canvasは生活の質を大きく向上させます。しかし、私たちにとってこの機能の最も興味深い点は、それを支える微調整されたモデルです。OpenAIは、合成データを使用してGPT-4oモデルを調整し、Canvasで「新しいユーザーインタラクションを可能にした」と述べています。
「OpenAIのo1-previewからの出力を抽出するなどの新しい合成データ生成技術を使用して、GPT-4oを微調整し、キャンバスを開き、対象を絞った編集を行い、インラインで高品質のコメントを残すことができました」とChatGPTの製品責任者であるニック・ターリー氏はXの投稿で述べています。「このアプローチにより、人間が生成したデータに頼ることなく、モデルを迅速に改善し、新しいユーザーインタラクションを可能にすることができました。」
モデルのトレーニングに合成データへの依存を高めている大手テクノロジー企業は OpenAI だけではない。
Metaは、動画クリップの作成と編集のためのAI搭載ツールスイート「Movie Gen」の開発において、Llama 3モデルの派生モデルによって生成された合成キャプションを部分的に活用しました。同社はこれらのキャプションのエラー修正や詳細情報の追加を行うために人間の注釈者チームを雇用しましたが、基礎作業の大部分はほぼ自動化されました。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
OpenAIのCEO、サム・アルトマン氏は、AIが将来、効果的に自己学習できるほど優れた合成データを生成するようになると主張している。これは、人間のアノテーターやデータライセンスに多額の費用を費やしているOpenAIのような企業にとって有利となるだろう。
MetaはLlama 3モデル自体を合成データを用いて微調整しました。また、OpenAIは次世代モデル(コードネームOrion)向けにo1から合成トレーニングデータを取得すると言われています。
しかし、合成データファーストのアプローチにはリスクが伴います。最近、ある研究者が指摘したように、合成データを生成するために使用されるモデルは、必然的に幻覚(つまり、事実を捏造する)を生じ、バイアスや限界を含んでいます。これらの欠陥は、モデルによって生成されたデータに現れます。
したがって、合成データを安全に使用するには、人間が生成したデータで標準的な方法である、徹底したキュレーションとフィルタリングが必要です。そうしないと、モデルが崩壊する可能性があります。つまり、モデルの出力は「創造性」が低下し、偏りが増し、最終的にはその機能性が著しく損なわれる可能性があります。
大規模に展開するのは容易ではありません。しかし、実世界の学習データのコストが上昇し(入手が困難であることは言うまでもありません)、AIベンダーは合成データこそが唯一の現実的な道筋と見なすかもしれません。彼らが合成データの導入に慎重になることを期待しましょう。
ニュース
AI 概要内の広告: Google は、特定の Google 検索クエリに対して AI が生成した概要である AI 概要内に、まもなく広告の表示を開始すると発表しました。
Google レンズ、動画にも対応:Google のビジュアル検索アプリ「レンズ」がアップグレードされ、周囲の状況に関する質問をほぼリアルタイムで回答できるようになりました。レンズで動画を撮影し、動画内の興味のあるものについて質問することができます。(この機能にも広告が表示される可能性があります。)
SoraからDeepMindへ:OpenAIの動画生成ツールSoraのリーダーの一人、ティム・ブルックス氏が、ライバルのGoogle DeepMindに移籍しました。ブルックス氏はXの投稿で、動画生成技術と「世界シミュレーター」の開発に取り組むと発表しました。
Fluxing it up : xAI の Grok アシスタントの画像生成コンポーネントを開発している、Andreessen Horowitz が支援するスタートアップ企業 Black Forest Labs がベータ版の API をリリースし、新しいモデルをリリースしました。
透明性が低い:カリフォルニア州で最近可決されたAB-2013法案は、生成型AIシステムを開発する企業に対し、システムの学習に使用したデータの概要を公開することを義務付けている。今のところ、この法案に従う意思を表明する企業はほとんどない。法律では、企業に2026年1月までの期限が与えられている。
今週の研究論文

Appleの研究者たちは長年にわたりコンピュテーショナルフォトグラフィー(計算写真)に取り組んできました。そのプロセスの重要な側面の一つが深度マッピングです。当初はステレオスコピーやLIDARユニットのような専用の深度センサーを用いて行われていましたが、これらは高価で複雑になり、貴重な内部メモリを占有する傾向があります。そのため、ソフトウェアのみで処理する方が多くの点で望ましいのです。それが、この論文「Depth Pro」のテーマです。
Aleksei Bochkovskii氏らは、ゼロショット単眼深度推定の高精度手法を公開しました。これは、単一のカメラを使用し、特定の対象物(ラクダを一度も見たことがないのにラクダでも認識できるなど)を学習する必要がなく、毛束のような難しい特徴も捉えることができることを意味します。この手法は現在、ほぼ間違いなくiPhoneで利用されています(ただし、おそらく改良されたカスタムビルド版でしょう)。ご自身でちょっとした深度推定を行いたい場合は、こちらのGitHubページのコードを使って試してみることができます。
今週のモデル
Google は、Gemini ファミリーの新モデル、Gemini 1.5 Flash-8B をリリースしました。同社では、このモデルが最も高性能であると主張しています。
速度と効率がすでに最適化されている Gemini 1.5 Flash の「蒸留」バージョンである Gemini 1.5 Flash-8B は、使用コストが 50% 削減され、レイテンシが低く、Google の AI に重点を置いた開発環境である AI Studio でのレート制限が 2 倍になっています。
Googleはブログ記事で、「Flash-8Bは、多くのベンチマークにおいて、5月にリリースされた1.5 Flashモデルの性能にほぼ匹敵します」と述べています。「当社のモデルは、開発者からのフィードバックと、可能性を検証する独自のテストによって、継続的に改善されていきます。」
Googleによると、Gemini 1.5 Flash-8Bは、チャット、文字起こし、翻訳など、あらゆる「シンプル」かつ「大量」なタスクに適しているとのことです。AI Studioに加えて、このモデルはGoogleのGemini APIからも無料で利用できます。レート制限は1分あたり4,000リクエストです。
グラブバッグ
安価な AI といえば、Anthropic は、開発者がより低コストで大量の AI モデル クエリを非同期的に処理できるようにする新しい機能、Message Batches API をリリースしました。
GoogleのGemini APIにおけるバッチリクエストと同様に、AnthropicのMessage Batches APIを使用する開発者は、1バッチあたり最大10,000クエリという一定サイズまでのバッチを送信できます。各バッチは24時間以内に処理され、標準的なAPI呼び出しよりも50%低コストです。
Anthropic社によると、Message Batches APIは、データセット分析、大規模データセットの分類、モデル評価といった「大規模」なタスクに最適とのことです。同社は投稿の中で、「例えば、数百万ものファイルが含まれる可能性のある企業のドキュメントリポジトリ全体を分析する場合、このバッチ処理の割引を活用することで、より経済的に実行可能になります」と述べています。
メッセージ バッチ API は、Anthropic の Claude 3.5 Sonnet、Claude 3 Opus、および Claude 3 Haiku モデルをサポートするパブリック ベータ版で利用可能です。