アレクシス・コノーは映画『her/世界でひとつの彼女』について深く考えている。ここ数年、彼は映画に登場する架空の音声技術「サマンサ」を現実のものにしようと夢中になっている。
コノー氏はツイッターのバナーに、映画でホアキン・フェニックスが演じたキャラクターの写真まで使用している。

ChatGPTの高度な音声モードは、コノー氏がMetaで同様の研究を行った後、OpenAIで立ち上げたプロジェクトで、いわばそれを実現した。このAIシステムはネイティブに音声を処理し、人間とほぼ同様に応答する。
現在、彼は新しいスタートアップ企業 WaveForms AI を立ち上げ、より優れたものを作ろうとしています。
コノー氏はTechCrunchのインタビューで、映画に描かれたディストピアをどう回避するかについて、かなりの時間を費やして考えていると語った。『her/世界でひとつの彼女』は、人間同士ではなくAIシステムと親密な関係を築く世界を描いたSF映画だった。
「この映画はディストピアですよね? 私たちが望む未来ではありません」とコノー氏は言った。「私たちは、今存在し、これからも存在し続けるであろうあの技術を、未来永劫に活用したいのです。そして、それを永続させたいのです。映画の中の会社がやっていることと正反対のことをしたいのです。」
技術を構築しながら、それに伴うディストピアを回避しようとするのは、矛盾しているように思える。しかし、コノー氏はいずれにせよそれを構築するつもりだ。そして、彼の新しいAIスタートアップは、人々が耳で「AGIを感じる」ことを可能にすると確信している。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
コノーは月曜日、独自の基礎モデルを訓練する新しいオーディオLLM企業、WaveForms AIを設立した。同社は2025年にOpenAIやGoogleの製品に匹敵するAIオーディオ製品をリリースすることを目指している。同社は月曜日、アンドリーセン・ホロウィッツが主導するシードラウンドで4,000万ドルを調達したと発表した。
コノー氏によると、AIは人間の生活のあらゆる側面の一部であるべきだと以前に書いたマーク・アンドリーセン氏が、彼の取り組みに個人的に興味を持っているという。
コノー氏の映画「her/世界でひとつの彼女」への執着が、OpenAIを一時トラブルに巻き込んだ可能性もあることは注目に値する。スカーレット・ヨハンソンは今年初め、サム・アルトマン氏のスタートアップ企業に法的脅迫を送り、最終的にOpenAIは、映画で彼女が演じるキャラクターに酷似したChatGPTの声を削除せざるを得なくなった。OpenAIは、コノー氏の声を模倣しようとしたことは一度もないと否定している。
しかし、この映画がコノーにどれほど影響を与えたかは否定できない。2013年に公開された『her/世界でひとつの彼女』は明らかにSFだった。当時、AppleのSiriはまだ登場して間もなく、機能も非常に限られていた。しかし今日、そのテクノロジーは恐ろしいほど手の届くところにあるように感じられる。
Character.AIのようなAIコンパニオンシッププラットフォームは、毎週何百万人ものユーザーにリーチしており、彼らはただチャットボットと話したいだけなのです。この分野は、時に悲劇的で不安な結末を迎えることもあるにもかかわらず、生成型AIの人気のユースケースとして台頭しています。一日中チャットボットとタイピングしている人が、特にChatGPTの高度な音声モードのような説得力のある技術を使って、チャットボットと話す機会をどれほど喜ぶかは想像に難くありません。
WaveForms AIのCEOは、AIコンパニオンシップ分野に慎重な姿勢を示しており、それは彼の新会社の中核事業ではない。車の中で20分間AIと会話して何かを学ぶといった、WaveFormsの製品が新しい形で利用されるようになると考えている一方で、コノー氏は同社をより「水平」なものにしたいと考えている。
「[WaveForms AI]は、人々にインスピレーションを与えてくれる先生になることができます。少なくとも、実際の人生では出会うことのない先生になるかもしれません」とCEOは語った。
将来的には、生成AIとの対話が、あらゆるテクノロジーとのインタラクションにおけるより一般的な方法になると彼は考えています。それは、車やコンピューターとの対話も含むかもしれません。WaveFormsは、これらすべてを可能にする「感情知能」を備えたAIの提供を目指しています。
「人間とAIのやり取りが人間同士のやり取りに取って代わる未来は信じていません」とコノー氏は述べた。「むしろ、相互補完的なものになるでしょう。」
AIはソーシャルメディアの失敗から学ぶことができると彼は言う。例えば、AIは「プラットフォーム上での滞在時間」を最適化すべきではないと彼は考えている。これは、ドゥームスクロールのような不健全な習慣を助長する可能性のあるソーシャルアプリの成功指標として一般的である。より広い視点で見ると、彼はWaveFormsのAIが人間の最善の利益に沿っていることを確かめたいと考えており、これを「最も重要な仕事」と呼んでいる。
コノー氏は、OpenAI が彼のプロジェクトに付けた「高度な音声モード」という名前は、この技術が ChatGPT の通常の音声モードとどれほど異なるかを正確に表していないと語る。
従来の音声モードは、音声をテキストに変換し、GPT-4に通して、そのテキストを音声に変換するだけでした。いわば、寄せ集めのソリューションでした。しかし、コノー氏によると、Advanced Voice Modeでは、GPT-4oは音声をトークンに分解し(どうやら、音声の1秒あたり約3トークンに相当するようです)、それらのトークンを音声専用のトランスフォーマーモデルに直接通します。これが、Advanced Voice Modeの低レイテンシを実現している理由だとコノー氏は説明します。
AI音声モデルについて語る際によく聞かれる主張の一つに、「感情を理解できる」というものがあります。テキストベースのLLMが大量のテキスト文書に見られるパターンに基づいているのと同様に、音声LLMも人間の話し声の音声クリップを用いて同じことを行います。人間はこれらのクリップを「悲しい」や「興奮している」などとラベル付けするため、AIモデルは人間の話し声を聞くと似たような音声パターンを認識し、独自の感情的なイントネーションで応答することもあります。つまり、AIモデルは「感情を理解する」というよりは、人間がそれらの感情と関連付ける音声特性を体系的に認識していると言えるでしょう。
AIをより賢くするのではなく、より人間らしくする
コノー氏は、今日の生成AIは、より優れた製品を開発するためにGPT-4oよりも大幅に賢くなる必要はないと確信している。OpenAIがo1で行っているように、これらのモデルの基盤となる知能を向上させるのではなく、WaveFormsはAIとの対話をより良くすることを目指している。
「[生成AIを使用して]自分にとって最も楽しいインタラクションを選択する人々の市場が存在するだろう」とコノー氏は述べた。
だからこそ、このスタートアップは独自の基盤モデルを開発できると確信している。理想的には、より小規模で、より低コストで高速に実行できるモデルだ。AIの従来のスケーリング則が減速しつつあるという最近の兆候を考えると、これは決して悪い賭けではない。
コノー氏によると、OpenAIの元同僚であるイリヤ・スツケヴァー氏が、よく「AGIを感じる」こと、つまり直感で超知能AIに到達したかどうかを見極めることについて語ってくれたという。WaveFormsのCEOであるスツケヴァー氏は、AGIの実現は何らかのベンチマークに到達することではなく、むしろ感覚的なものになると確信しており、音声LLMはその感覚を得るための鍵となるだろう。
「AGI に話しかけたり、AGI の声を聞いたり、実際にトランスフォーマー自体に話しかけたりできるようになれば、AGI をもっと実感できるようになると思います」とコノー氏は、夕食の席でスツケバー氏に述べたコメントを繰り返しながら述べた。
しかし、スタートアップ企業がAIとの対話をより快適なものにしていく中で、人々がAIに依存しないようにする方法を模索する責任も当然ながら負っている。しかし、WaveFormsへの投資を主導したアンドリーセン・ホロウィッツのゼネラルパートナー、マーティン・カサド氏は、人々がAIとより頻繁に対話することは必ずしも悪いことではないと述べている。
「インターネットで誰かと話すと、その人からいじめられたり、利用されたりするかもしれません。…恣意的に暴力的なビデオゲームと話すこともできますし、AIと話すこともできます」とカサド氏はTechCrunchのインタビューで述べた。「これは重要な問題研究だと思います。AIと話す方が実際には好ましいという結果が出ても驚きません。」
一部の企業は、AIと愛情深い関係を築くことを成功の証と捉えるかもしれません。しかし、社会的な観点から見ると、それは映画「her/世界でひとつの彼女」が描こうとしたように、完全な失敗の証とも捉えられる可能性があります。それが、WaveFormsが今、歩まなければならない綱渡りなのです。