こんにちは!
今週はDX Solution 事業本部 Simulation Team AIエンジニアの甘粕が担当します!
今回は、2023年にスタンフォード大学とGoogleの研究チームによって発表された論文「Generative Agents: Interactive Simulacra of Human Behavior」を解説します。
Generative Agents(生成エージェント)は、人間の認知と行動を計算機上で再現する研究分野に対してパラダイムシフトを引き起こした研究です。
エージェントベースモデリング(ABM)のエージェントにLLMを組み込むことで、人間同士のコミュニケーションや情報伝達、協力がうまく再現できています。人間の行動を考える上でも学びが多く、読んでいてとても面白い論文です!

Motivation: 研究の出発点
伝統的なエージェントベースモデリング(ABM)の限界
本研究以前の「エージェント・ベース・モデリング(ABM)」は、物理学や生態学の知見を応用し、単純な局所的なルールから複雑な全体的挙動(創発)を導き出すことに主眼を置いていました。例えば、レイノルズの「ボイド(Boids)」モデルに見られる鳥の群れのシミュレーションや、シェリングの分断モデルは、最小限の数理的ルールで社会現象を説明しようとしたものです。
しかし、これらの伝統的なABMには、人間行動の「信憑性(believability)」を再現する上で大きな限界がありました。
- 推論の欠如:伝統的なエージェントはあらかじめ定義されたIF-THEN形式のルールや状態遷移図(FSM)に従って動作するに過ぎず、文脈に応じた柔軟な思考や長期的な経験に基づく判断を下す能力を欠いていた。
- 言語的相互作用の不在:人間の社会生活の根幹は言語によるコミュニケーションにあるが、従来のモデルではエージェント間の情報のやり取りをスカラー値やベクトル値に簡略化しており、対話を通じた関係構築や噂の伝播といったリアリティを確保できなかった。
- モデリングの硬直性:複雑な社会環境を構築するためには開発者が数千行に及ぶスクリプトを手動で記述する必要があり、スケーラビリティと適応性に乏しかった。
大規模言語モデル(LLM)の台頭
2020年のGPT-3のリリース以降、大規模言語モデルは人間に近い自然なテキストを生成できるようになってきており、シミュレーションの推論エンジンとして使えるのではないか、という期待が高まっていました。
しかし、LLMをそのままエージェントとして利用するには、以下の技術的な課題が残されていました。
- 文脈ウィンドウの制限: 当時のLLMは一度に処理できる情報の長さ(コンテキスト)が限られており、エージェントの全人生の記憶をプロンプトに詰め込むことは物理的に不可能だった。
- ステートレス(状態保持の欠如): LLM自体は一過性の応答を生成するだけであり、過去の対話や経験を内部に保持して将来の行動に反映させる仕組みを持たなかった。
- 長期的な一貫性: 記憶がないため、エージェントは数分前の会話内容を忘れ、キャラクターの設定から逸脱した振る舞い(ペルソナ・ドリフト)を見せることが頻発した。
本研究では、これらの歴史的・技術的な制約を打破し、LLMを「静的な応答マシン」から「動的で自律的なエージェント」へと進化させるためのアーキテクチャを提示しました。
人同士の交流をシミュレーションするため、エージェントのモデルとしてLLMを採用し、実際に人間らしい交流が生まれるのかを検証しています。
Method: 研究手法
シミュレーション設定
本研究では、Phaser(ゲーム開発フレームワーク)を使って、25人のエージェントが暮らす仮想の町「Smallville」を構築しています。Smallvilleには、カフェ、バー、公園、学校、寮、家、店など、小さな村にある一般的な施設(アフォーダンス)が揃っています。また、台所の調理台など、各空間を機能させるためのサブエリアやオブジェクトも定義されています。
エージェントはSmallville内をシンプルなビデオゲームのように動き回り、建物を出入りしたり、マップ上を移動したり、他のエージェントに近づいたりします。こうしたエージェントの動きは、生成エージェントアーキテクチャとゲームエンジンが制御しています。

エージェント設定
各エージェントには、その人物像を描写した自然言語の設定文が用意されています。
具体例
John Linは、人々を助けることが好きなThe Willows Market and Pharmacyの薬局経営者である。彼は常に顧客が薬を手に入れるプロセスをより簡単にする方法を探している。John Linは大学教授の妻Mei Linと、音楽理論を学ぶ学生の息子Eddy Linと一緒に住んでいる。John Linは家族をとても愛している。John LinはSam MooreとJennifer Mooreという隣のお年寄り夫婦を数年来知っている。John LinはSam Mooreを優しく親切な人だと思っている。John Linは隣人のYuriko Yamamotoをよく知っている。John LinはTamara TaylorとCarmen Ortizという隣人のことを知っているが、まだ会ったことはない。John LinとTom MorenoはThe Willows Market and Pharmacyの同僚である。John LinとTom Morenoは友人であり、地域の政治について議論するのが好きだ。John Linはモレノ家(夫Tom MorenoとJane Moreno)をある程度よく知っている。
エージェント同士は自然言語でコミュニケーションを取ります。同じエリアにいる他のエージェントを認識すると、生成エージェントアーキテクチャが通り過ぎるか会話に入るかを判断します。対話が行われると、情報がエージェント間で広がっていきます。
会話例
Sam: ねえTom、調子はどう?
Tom: いいよ、ありがとう。どうかした?
Sam: 実は、何か話したいことがあるんだ。来たる地方選挙で市長に立候補するんだ。
Tom: 本当に?それは素晴らしいニュースだ!なぜ立候補するの?
Sam: 地域政治に長年携わってきて、コミュニティに本当に違いをもたらせると感じている。新しいアイデアと視点をもたらしたいんだ。
対話は、2体のエージェントのうち一方が終了を決めるまで、同じメカニズムによって継続的に生成されます。
認知アーキテクチャ
本論文が提案する認知アーキテクチャは、LLMを中心に据えつつ、「記憶流(Memory Stream)」「反省(Reflection)」「計画(Planning)」という3つの主要コンポーネントで構成されています。これにより、エージェントは長期的な一貫性を保ちながら、環境の変化や他者との対話にリアルタイムで反応できるようになりました。

記憶流(Memory Stream)と動的検索メカニズム

エージェントの全体験を自然言語のリストとして記録する「記憶流」は、エージェントのアイデンティティの基盤となります。すべての観察、行動、発言はタイムスタンプと共に保存されます。しかし、膨大な記憶の中から現在最も重要な情報を抽出するには、単純な検索では不十分です。そこで、以下の3つの指標を用いた重み付け検索モデルが導入されました。
- 新近性(Recency): 直近の出来事に高いスコアを与える指標。これにより、エージェントは「今何が起きているか」を重視した行動をとる。
- 重要性(Importance): その記憶がエージェントの人生においてどれほど重要かをLLMで評価(1〜10点)する指標。例えば「朝食を食べた」ことよりも「告白された」ことの方が高い重要度を持つ。
- 関連性(Relevance): 現在の状況や問いかけとの意味的な近さを、ベクトル埋め込み(Embedding)を用いたコサイン類似度で計算する指標。
これらの統合スコアに基づき、エージェントは限定されたコンテキストウィンドウの中に、現在最も「参照すべき過去」を詰め込むことができます。
反省(Reflection)による高次推論

単なるエピソード記憶の蓄積だけでは、エージェントは断片的な反応しかできません。そこで導入されたのが、記憶を抽象化し、エージェントの信念や性格を形成するための「反省」プロセスです。エージェントは定期的に自身の記憶を振り返り、「自分はどのような人物か」「あの人は自分をどう思っているか」といった高次の問いを立て、それに対する結論(インサイト)を導き出します。この反省プロセスによって、エージェントは単にデータを処理するだけの存在を超え、自己意識に近い一貫性を持つようになります。
計画(Planning)と再計画
エージェントは、自身の目標や現在の文脈、過去の記憶をもとに「一日の予定」を立てます。この計画は階層的に構成されており、まず「仕事に行く」「昼食を食べる」といった大まかなスケジュールを立て、次にそれを具体的なアクション(例:カフェへ移動し、メニューを読み、注文する)へと分解します。さらに、環境の変化(例:友人に会う、火事が発生する)に応じて、動的に計画を修正する「再計画(Re-planning)」機能も備わっています。計画を持つことで、エージェントは一貫した行動(例えば、ランチを2回食べたりしない)をとれるようになります。
Insights: 結果と知見
Smallvilleでの実験で特に興味深かったのは、研究者が直接プログラムしていない、エージェント間の自律的な協力や情報の拡散が観察されたことです。
1日の行動の例

Linファミリーでは、Johnが午前7時に最初に目覚めます。歯を磨き、シャワーを浴び、着替え、朝食を食べ、リビングルームのダイニングテーブルでニュースをチェックします。午前8時、Eddy(息子)が続いて起床し、授業の準備をするために急いでベッドから出ます。彼はちょうど出かけようとしているJohnに追いつきます。
John: おはよう、Eddy。よく眠れた?
Eddy: おはよう、お父さん。うん、とてもよく眠れたよ。
John: それは良かった。今日は何をするの?
Eddy: 授業のために新しい音楽作品に取り組んでいるんだ。今週が締め切りなので完成させようとしているけど、とても楽しいよ!
John: それは素晴らしい!
Eddyが出かけてすぐに、Mei(妻)が起きてきてJohnと合流します。Meiが息子のことを尋ねると、Johnはたった今Eddyと交わした会話を思い出します。
Mei: Eddyはもう学校に行った?
John: うん、さっき出発したよ。授業のために音楽作品に取り組んでいるよ。
Mei: まあ、素晴らしい!教えて。
John: 本当に楽しんでいると思う!とても楽しいって言っていたよ。
Mei: 素晴らしい!とても誇りに思うわ。
このように、エージェントが過去の会話を参照して、別のエージェントと会話する様子が確認できました。
バレンタイン・パーティーの成功

また、研究者がエージェントの一人、イザベラに「バレンタイン・パーティーを開きたい」と伝えただけで、町全体の動きが大きく変わりました。
- 情報の拡散: イザベラは友人のマリアにパーティーのことを話し、マリアはさらに他の住人に招待を広めました。この過程は自然言語の対話を通じて行われ、住人たちはパーティーの日時と場所を正確に記憶していました。
- 社会的調整: 別のエージェントであるマリアは、意中の相手であるクラウスをパーティーに誘うという行動をとりました。これは、彼女の「クラウスが好きだ」という設定記憶と、「パーティーがある」という新しい記憶が組み合わさって生まれた自律的な判断です。
- 実行と出席: パーティー当日、招待を受けた住人たちはそれぞれのスケジュールを調整し、実際に会場に集まって交流を楽しみました。この「多人数間の長期的な協調」は、従来のスクリプト型AIでは実現が極めて困難だった領域です。
評価手法:インタビューによる信憑性テスト
エージェントの「人間らしさ」を定量化するため、研究チームはエージェントに対して直接インタビューを行うという独自の評価手法を導入しました。
- 自己認識: 「あなたは誰ですか?」という問いに、設定されたペルソナに基づき正確に回答できるか。
- 記憶力: 「昨日、誰と会いましたか?」という問いに、記憶流から正しいエピソードを抽出できるか。
- 計画性: 「今日の午後は何をしますか?」という問いに、矛盾のない予定を提示できるか。
- 反省能力: 「最近の人間関係はどうですか?」といった抽象的な問いに対し、過去の出来事を総合して分析できるか。
人間によるブラインドテストの結果、生成エージェントは、人間がキャラクターを演じた場合よりも高い信憑性スコアを示しました(ただし著者らは、これはベースライン比較であり人間の最大パフォーマンスを表すものではないと注記しています)。この結果は、LLMが学習した膨大な行動パターンが、一人の人間の想像力では描ききれない多様さとリアルさをシミュレーションにもたらしたと考えられます。
まとめ
本記事では、Generative Agentsの認知アーキテクチャ(記憶流・反省・計画)と、Smallvilleでの創発的な社会行動の観察結果を紹介しました。
伝統的なABMが数理ルールで集団挙動を記述してきたのに対し、本研究は「言語で思考し、言語で交流するエージェント」という新しいパラダイムを提示しました。これは、都市計画や公衆衛生のシミュレーション、ゲームNPCの高度化、さらには弊社が取り組む各種シミュレーション領域においても、応用余地の大きいアプローチだと感じています。
興味を持たれた方は、ぜひ原論文や派生プロジェクト(AI Town等)もご参照ください。最後までお読みいただき、ありがとうございました!
We’re Hiring!
燈株式会社(Akari Inc.)では、お客様へのAIソリューション提供だけでなく、社内の開発プロセスでもAI活用を積極的に進めています。 論文を読みながら新しい技術をキャッチアップし、実際の開発につなげていくことに興味のあるAIエンジニアを募集しています! 興味がある方は、ぜひカジュアル面談でお話ししましょう!🔥