皆さん、こんにちは。TechCrunchの定期AIニュースレターへようこそ。毎週水曜日に受信箱に配信をご希望の場合は、こちらのリンクをクリックしてご登録ください。
OpenAIは先週、Visionを搭載したAdvanced Voice Modeを発表しました。これはChatGPTにリアルタイムビデオを送信することで、チャットボットがアプリレイヤーの境界を超えて「見る」ことを可能にします。ChatGPTに高度なコンテキスト認識を与えることで、ボットはより自然で直感的な応答を行えるようになるというのがその前提です。
しかし、初めて試したとき、それは私をだましました。
「あのソファ、座り心地良さそう!」私がスマホを掲げて、ボットにリビングルームの様子を説明してもらうと、ChatGPTがそう言った。オットマンをソファと勘違いしていたのだ。
「私の間違いです!」と私が訂正すると、ChatGPTは言った。「まあ、それでも居心地の良い空間には見えますけどね。」
OpenAIがAdvanced Voice Mode with Visionを初めてデモしてからほぼ1年が経ちました。同社はこれを、スパイク・ジョーンズ監督の映画「her」で描かれたAIへの一歩として売り込んでいました。OpenAIの売り文句によれば、Advanced Voice Mode with VisionはChatGPTにスーパーパワーを与え、ボットがスケッチされた数学の問題を解いたり、感情を読んだり、愛情のこもった手紙に返信したりできるようにするとのことでした。
果たして全てが実現できたのでしょうか?ほぼ達成できたと言えるでしょう。しかし、Vision搭載の高度な音声モードは、ChatGPTの最大の課題である信頼性を解決できていません。むしろ、この機能によってボットの幻覚がより顕著になっていると言えるでしょう。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
ある時、Vision搭載の高度な音声モードがChatGPTのファッションアドバイスに役立つかどうか興味があり、それを有効にして、ChatGPTに自分の服装を評価してもらいました。ボットは喜んで評価してくれました。しかし、ジーンズとオリーブ色のシャツの組み合わせについては意見を言ってくれるものの、私が着ていた茶色のジャケットについては、全く評価してくれませんでした。
失敗を経験した人は私だけではありません。
OpenAIのグレッグ・ブロックマン社長が今月初め、「60 Minutes」でVisionの高度な音声モードを披露した際、ChatGPTは幾何学の問題でミスを犯しました。三角形の面積を計算する際、三角形の高さを誤って認識したのです。
そこで私の質問なのですが、「Her」のような AI は信頼できないのであれば何の役に立つのでしょうか?
ChatGPTが失敗するたびに、ポケットに手を入れてロックを解除し、ChatGPTを起動し、高度な音声モードを開き、Visionを有効にするという、どんなに良い状況でも面倒な一連の手順を踏む気がだんだんなくなっていきました。明るく陽気な雰囲気を持つ高度な音声モードは、明らかに信頼感を生み出すように設計されています。その暗黙の約束が果たされないと、不快感を覚え、がっかりします。
もしかしたらOpenAIがいつか幻覚問題を完全に解決してくれるかもしれない。それまでは、私たちは世界を交差する配線を通して見るボットに縛られている。正直なところ、誰がそんなボットを望むのか私にはわからない。
ニュース

OpenAI の 12 日間にわたる「shipmas」は継続中です。OpenAIは 12 月 20 日まで毎日新製品をリリースします。ここでは、定期的に更新されるすべての発表のまとめをご紹介します。
YouTube、クリエイターにオプトアウトの選択肢を提供:YouTubeは、第三者がAIモデルの学習にコンテンツをどのように利用するかについて、クリエイターにより多くの選択肢を提供します。クリエイターと権利保有者は、特定の企業に自身のクリップでモデルの学習を許可している場合、YouTubeに報告することができます。
Meta のスマート グラスがアップグレード: Meta の Ray-Ban Meta スマート グラスには、Meta の AI と継続的に会話したり、言語間で翻訳したりする機能を含む、AI を活用したいくつかの新しいアップデートが導入されました。
SoraへのDeepMindの回答: Googleの主力AI研究所であるDeepMindは、動画生成の分野でOpenAIに打ち勝ちたいと考えている。DeepMindは月曜日、最大4K(4,096 x 2,160ピクセル)の解像度で2分以上の動画クリップを作成できる次世代動画生成AI「Veo 2」を発表した。
GrammarlyがCodaを買収:スタイルとスペルチェックツールで知られるGrammarlyは、生産性向上スタートアップのCodaを買収しました。買収額は非公開です。買収に伴い、CodaのCEO兼共同創業者であるシシル・メロトラ氏がGrammarlyの新CEOに就任します。
CohereがPalantirと提携:TechCrunchは、企業向けAIスタートアップ企業Cohere(評価額55億ドル)がデータ分析企業Palantirと提携したと独占的に報じました。Palantirは、米国の国防機関および情報機関との緊密な(そして時に物議を醸す)協力関係について公言しています。
今週の研究論文
アンスロピックは、顧客が同社の様々なAIモデルをどのように利用しているかを把握するために使用するシステム「Clio」(「 Claude Insights and o Bservations」)を公開した。アンスロピックは、Googleトレンドなどの分析ツールに匹敵するClioが、アンスロピックのAIの安全性向上に役立つ「貴重な洞察」を提供していると主張している。
アンスロピックはClioに匿名化された使用状況データの収集を依頼し、その一部を先週公開しました。では、顧客はアンスロピックのAIをどのような用途で利用しているのでしょうか? 様々なタスクがありますが、Webおよびモバイルアプリの開発、コンテンツ制作、学術研究が上位に挙げられます。予想通り、言語によってユースケースは異なります。例えば、日本語話者はスペイン語話者よりもアンスロピックのAIにアニメの分析を依頼する傾向があります。

今週のモデル
AIスタートアップのPikaは、次世代動画生成モデル「Pika 2」をリリースしました。これは、ユーザーが入力したキャラクター、オブジェクト、場所からクリップを作成できます。Pikaのプラットフォームでは、複数の参考資料(例えば、役員会議室とオフィスワーカーの画像)をアップロードでき、Pika 2は各参考資料の役割を「直感的に」判断し、それらを1つのシーンに組み合わせます。
もちろん、完璧なモデルなどありません。Pika 2が作成した以下の「アニメ」をご覧ください。驚くほどの一貫性はあるものの、生成AI映像にありがちな美的違和感に悩まされています。
pic.twitter.com/3jWCy4659o 前にも言ったように、アニメは100%AI生成の初のジャンルになるだろう。Pika 2.0で既に何が実現できているのか、本当に驚かされる。
— Chubby♨️ (@kimmonismus) 2024年12月16日
それでも、ビデオ分野ではツールが急速に進歩しており、クリエイターたちの興味をそそる一方で怒りも引き起こしている。
グラブバッグ
MITの宇宙学者マックス・テグマーク氏が共同設立した非営利団体Future of Life Institute(FLI)は、現在の危害、安全フレームワーク、実存的安全戦略、ガバナンスと説明責任、透明性とコミュニケーションの5つの主要分野にわたって、大手AI企業の安全慣行を評価するために設計された「AI安全指数」を発表しました。

MetaはIndexで評価されたグループの中で最悪で、総合評価はFでした(Indexは数値とGPAに基づく採点システムを採用しています)。Anthropicは最も評価が高かったものの、C以上の評価は得られず、改善の余地があることを示唆しています。