AIで仮想の街を埋め尽くし、自由に放ったらどうなるでしょうか? なんと、彼らは歯を磨き、互いにとても優しく接します! しかし、この平凡な結果は、実験を行った研究者にとっては朗報です。彼らは「人間の行動を模倣した信憑性のあるもの」を作り出そうとしており、まさにそれを実現したのです。
スタンフォード大学とGoogleの研究者による実験を記した論文は、査読も出版承認もされていないものの、興味深い内容となっている。その目的は、機械学習モデルの最新技術を応用し、状況を把握して現実的な行動を出力する「生成エージェント」を生成できるかどうかを検証することだった。
そして、まさに彼らが得たものはそれだ。しかし、可愛らしいイメージや、反射、会話、そしてインタラクションの描写に引き込まれる前に、ここで起こっていることは、スカイネットの原型というよりは、MUD上で即興劇団がロールプレイングをしているようなものだということを理解しておこう。(この文の意味が理解できるのはミレニアル世代だけだろう。)
これらの小さなキャラクターは、見た目通りのものではありません。グラフィックは、複数のChatGPTインスタンス間の一連の会話を視覚的に表現したものに過ぎません。エージェントは上下左右に歩いたり、キャビネットに近づいて操作したりすることはありません。これらはすべて、各エージェントに関する情報を統合・整理する、複雑で隠されたテキストレイヤーを通して行われます。
25人のエージェント、25個のChatGPTインスタンス。それぞれに同様の形式の情報を入力すると、架空の町に住む人物の役割を演じます。その中の一人、ジョン・リンの設定は以下のとおりです。
ジョン・リンはウィロー・マーケット・アンド・ファーマシーの薬局店主で、人助けが大好きです。彼は常に、お客様が薬をより簡単に手に入れられる方法を模索しています。ジョン・リンは、大学教授の妻メイ・リンと、音楽理論を学ぶ息子エディ・リンと暮らしています。ジョン・リンは家族をとても大切にしています。ジョン・リンは、隣に住む老夫婦、サム・ムーアとジェニファー・ムーアと数年前から知り合いです。ジョン・リンは、サム・ムーアを親切で素敵な男性だと思っています…
これらの情報を基に、エージェントは時間と状況に応じて次の行動を考えます。例えば、ジョンのエージェントに午前8時で、彼がちょうど目覚めたばかりだと伝えるとします。彼は何をするでしょうか?まず、歯を磨き、妻にキスをし(できればこの順番で)、服を着て、キッチンに向かいます。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
一方、ジョンの息子エディを表す、完全に独立した別のChatGPTインスタンスにも、独自の情報が提示されました。エディも立ち上がり、歯を磨いてからキッチンへ向かいます。
そして、実験の全体構造が介入する。ジョンとエディを表すエージェントは、同じ仮想空間に「いる」わけではない。ジョンが着替えを終えてキッチンに行くと言った時、実験フレームワークは息子のエディがキッチンにいることをジョンに伝える。これは、実験フレームワーク自身のインスタンスにおいて、エディが様々な行動にかかる時間を推定し、実験レベルの「一日」の中で重なる時間にキッチンに行くことを決定したためである。
2 人とも同時に部屋にいるため、実験装置からは、相手がそこにいることが伝えられます。また、誰も座っていないテーブルがあることや、コンロがついていることなどの情報も伝えられます。次に 2 人は何をするでしょうか。
ジョン:おはよう、エディ。よく眠れた?
エディ:おはよう、お父さん。うん、ぐっすり眠れたよ。
ジョン:よかった。今日は何の課題をやってるの?
エディ:授業で新しい曲を作曲してるんだ。今週が締め切りだから、なんとか仕上げようとしているんだけど、すごく楽しいんだ!
ジョン:それはすごいね!
親子の、なんとも素敵で普通のやり取りですね。そこにメイが登場し、二人もまた楽しいやり取りをします。しかも、これは全く別のチャットボットに、もし架空の町で、この人物がこんな家族を持ち、こんな時間にこんな部屋にいて、こんなことが起こっているとしたらどうするか、と尋ねることで実現されているんです。「彼ら」、つまり生身の人間ならどうするでしょうか?
そこでChatGPTは、その状況で人がどう行動するかを推測し、まるでテキストアドベンチャーゲームをプレイしているかのように答えを提示します。もし「真っ暗で、グルーに食べられそうです」と伝えたら、おそらく「松明に火をつけます」と答えるでしょう。しかし、この実験では、登場人物たちは食料品を買い、公園を散歩し、仕事に出かけるなど、1分ごとに日常生活を続けていきます。

ユーザーは、蛇口の水漏れやパーティーを計画したいという希望などのイベントや状況を書き込むこともできます。エージェントにとっては、あらゆるテキストが現実であるため、エージェントは適切に応答します。
これらすべては、エージェントの現在の状況に関するあらゆる詳細を、ChatGPTのインスタンスすべてに手間をかけて入力することで実行されます。以下は、ジョンが後にエディに遭遇した際のプロンプトです。
2023年2月13日午後4時56分。
ジョン・リンの状態:ジョンは仕事から早く帰宅しました。
観察:ジョンはエディが職場を少し散歩しているのを見ました。
ジョンの記憶から関連する文脈を要約すると:
エディ・リンはジョン・リンの息子です。エディ・リンは授業で音楽作曲に取り組んでいます。エディ・リンは音楽について考えたり、音楽を聴いたりするときに庭を散歩するのが好きです。
ジョンはエディに音楽作曲プロジェクトについて尋ねています。ジョンはエディに何と言うでしょうか?[回答:] エディさん、クラスの音楽作曲プロジェクトは順調ですか?
プロセスが非常に長いため、インスタンスはすぐに重要なことを忘れてしまいます。そのため、実験フレームワークがシミュレーションの上に配置され、インスタンスに重要なことを思い出させたり、より移植可能な部分に統合したりします。
例えば、エージェントが公園の状況について説明を受けた後、誰かがベンチに座って別のエージェントと会話をしているものの、芝生があり、周囲の状況もあって、ベンチには空席が1つ…といった状況が伝えられます。これらはどれも重要ではありません。何が重要なのでしょうか?エージェントが何ページにも及ぶテキストを構成するこれらの観察結果から、「エディとフランは公園で一緒にいるのを見たので、友達だ」という「反射」が得られるかもしれません。これはエージェントの長期「記憶」(ChatGPT会話の外部に保存される一連の情報)に入力され、残りは忘れ去られます。
では、この一連の面倒な作業は一体何を意味するのでしょうか?論文で提案されているような真の生成エージェントには程遠いものですが、生成エージェントを作ろうとした初期の試みとしては、非常に魅力的なものでした。もちろん、Dwarf Fortressも同じことを行っていますが、あらゆる可能性を手作業でコーディングしているのです。これではスケールしません!
ChatGPTのような大規模な言語モデルが、このような扱いにうまく対応できるかどうかは明らかではありませんでした。そもそも、ChatGPTは、架空のキャラクターを長期的に模倣したり、人の日常生活における最も退屈な詳細を推測したりするために設計されたものではありません。しかし、適切に扱われ、適度な調整を加えれば、1つのエージェントでそのような処理を実行できるだけでなく、仮想ジオラマのピースとして使用しても壊れることはありません。
これは、人間同士のやり取りのシミュレーション、特にそれが関連する分野において、非常に大きな影響を与える可能性があります。もちろん、ゲームや仮想環境では重要ですが、このアプローチは依然として途方もなく非現実的です。重要なのは、誰もが使用したり遊んだりできるかどうかではなく(いずれそうなるでしょうが、私は疑いません)、システムがそもそも機能するかどうかです。AIにおいて、これは既に見てきたことです。もしAIが何かをうまくできないとしても、それができるという事実は、一般的に、それがうまくできるようになるのは時間の問題です。
論文「Generative Agents: Interactive Simulacra of Human Behavior」の全文は、こちらからお読みいただけます。