燈の DXソリューション事業本部 AIエンジニア の 大迎です!
今回の AKARI Tech Blog は、2月にNVIDIA の研究チームが公開した DreamZero: World Action Models are Zero-shot Policies[1] を紹介します!2026/2/17(火) の AKARI Lightning Talk でも発表させていただいたテーマとなります!

- 要点(TL;DR)
- 世界モデルの定義を確認してみる
- 既存VLAs(Vision Language Action Models)の課題
- DreamZeroの貢献
- DreamZeroの詳細
- 実験
- Limitation
- DreamZero を試してみる
- 参考文献
- 最後に
- We’re Hiring!
- AKARI Lightning Talk
要点(TL;DR)
- この手法は何か?
- DreamZeroは、事前学習済みvideo diffusionをバックボーンに、将来の世界の状態(world states)と行動(actions)とが整合するように同時に予測する14Bの World Action Model (WAM)です。
- 達成したことは何か?
- 反復的なデモンストレーションに依存することなく、異なる種類のロボットデータから多様なスキルを効果的に学習でき、実機実験において、最新のVLAと比較して、新しいタスクや環境への汎化能力が2倍以上向上したと報告されています。
- Limitationはあるか?
- 動画にhallucinationがあると整合性の取れていないactionになりやすい
- 計算コストが重い
- naive実装だと1chunkあたり約5.7秒で閉ループ制御が厳しい。これに対しては、実装レベル、システムレベル、モデルレベルでの最適化を行い、最適化後は 2x GB200 構成で約7Hzのリアルタイム閉ループ制御を達成しています
- DreamZeroを試してみる
- 自社計算機クラスタ内のH200 x 2基使用して、サンプルデータに対して DreamZero の推論サーバーを立てて実行しました。
- 結果、予測した動画の一部に巻き戻っているような箇所があるようにも見えますが、予想では action chunk の切れ目の部分でこのような現状が起きるのではないかと考えています。

サンプルデータでDreamZeroの推論を実行
世界モデルの定義を確認してみる
厳密さを置いておいて端的に言うと、世界モデルは、AIの「頭の中のシミュレーター」であり、現在の状況と自分の行動を元に次に何が起きそうかを予測するモデルです。
複数の論文を読んでいると少し世界モデルの定義に揺れがあるように感じますが、GoogleのProject Genie[2]のページには下記のように記載があります。
A world model simulates the dynamics of an environment, predicting how they evolve and how actions affect them.
個人的には、現在の状態(環境)とそれに対する行動から、次の状態を予測することができるモデルで、強化学習に出てくる状態遷移確率 をモデル化したもののように考えています。(
: 次の状態,
: 現在の行動,
: 現在の状態)
世の中で公開されている世界モデルの例
例えば、以下のような5つの世界モデルが公開されています。
既存VLAs(Vision Language Action Models)の課題
論文中では、既存のVLAには以下のような課題があると記載されています。
- 既存研究のほとんどで物体や意味レベルでの汎化を実証している一方で、学習されていない分布外(Out-of-Distribution, OOD)のタスクや環境、異なる種類のロボットなどに対しての汎化が限定的
- 2025年のPhysical intelligenceの例では、特定のタスクのために何百もの多様な環境にわたる人間の遠隔操作データを収集することで、環境の汎化を実現している
- 同じタスクや環境に対して何度も反復した実行が必要。
DreamZeroの貢献
既存VLAsの課題に対して、DreamZeroでは以下の貢献があると報告されています。
- 従来の反復実行ではなく、多種多様で非反復的なデータから効率的な学習を可能にする
- タスクと環境のベンチマークに対して、新しい物体や環境に対して汎化性能を保持したまま、SOTAのVLAと比較して、OODのタスク環境に対するゼロショットの汎化性能が2倍以上改善
- 7Hzでaction chunkを生成するというベースライン比38倍の推論速度向上を達成し、リアルタイム閉ループ制御を可能にするモデルとシステムの最適化
- 動画とactionのノイズスケジュールを分離する DreamZero-Flash などのアルゴリズム改善
- システムで並列とキャッシュ戦略を活用
- 量子化、cudaカーネルのチューニングなど低レベル最適化
- 人間12分、他の種類のロボット20分の動画のみのデータから初見のタスクで相対的に42%改善
- AgiBot G1で事前学習されたDreamZeroは、YAMロボット上の約30分・55軌跡・11タスクの play data を用いた few-shot post-training により、新しいロボットへ適応可能であり、適応後は言語指示追従を保ったまま novel object にもzero-shot汎化する定性結果が報告
DreamZeroの詳細
Video diffusionからWorld Action Model への変換時の3つの課題
DreamZeroは事前学習されたvideo diffusion modelをバックボーンとして World Action Model に変換されますが、このとき3つ課題があるとされています。
1. アーキテクチャ設計
1つ目の課題はアーキテクチャ設計です。動画とactionなどモダリティの整合性、誤差の累積、推論の効率性に関する影響を加味した、WAMに最適なアーキテクチャが、 双方向型 なのか自己回帰型なのかは不明確です。
これに対して、下記の3つの利点があるため、DreamZeroでは、特に動画モダリティ側に自己回帰性を導入したアーキテクチャを採用しています。action は chunk 内で動画と整合するよう同時に denoising され、閉ループ実行時には各 chunk 実行後に予測フレームを実観測で KV-cache に差し替えることで誤差蓄積を抑えます。
- KV-cacheを利用することで推論速度を高速化できる
- policyモデルは次の予測のガイドとして、過去の観測を活用できる
- 双方向モデルに固有のモダリティアライメントの課題(映像、行動、言語アライメント)を回避できる。
また、閉ループ制御の中で、各action chunkが実行された後、予測された動画フレームをKV-cacheに格納されているground truth の観測値に置き換えることで、誤差の蓄積などを抑制しています。


論文中では、DreamZeroは定式化すると video diffusion と Inverse-dynamics model (IDM)に分離することができ、video diffusionとIDM 2つで別々の目的関数を用いてモデル化を行う代わりに、2.動画とactionのアラインメント のように共通の目的関数で単一のモデルをend-to-endで学習しています。
2. 動画とactionの整合
2つ目の課題は、動画とactionを整合させることです。動画とactionを同時に予測するには、視覚的な未来とモーターのコマンドの間の緊密な結合が必要ですが、素朴に動画とactionヘッドを組み合わせてしまうと、不整合につながる可能性があります。 これに対して、動画とactionを共通の目的関数でノイズ除去を行うend-to-endなモデルとしています。
DreamZeroの学習には、flow matchingとteacher forcingを採用しています。動画とactionモダリティ間のノイズ除去のタイムステップを共有し、また、モデル が動画とactionの速度を同時に学習するように
に従います。

3. リアルタイムの推論
3つ目の課題はリアルタイム性です。video diffusion モデルは、高次元の潜在空間にわたって反復的なノイズ除去を必要とするため、閉ループ制御には時間がかかってしまいます。 これに対して、DreamZeroでは、システムレベル、実装レベル、モデルレベルの3つのレベルで最適化を行い、ベースラインと比較して38倍の推論高速化となる、7Hzでのリアルタイム制御を可能にしています。

実験
実験設定
DreamZeroの主実験では、AgiBot G1 [9](双腕)とFranka(単腕)の2つのロボットで、DreamZero が多様で非反復的なデータからどこまで汎化できるかを検証しています。重要な点として、論文ではまず各エンボディメントごとに別々に事前学習を行い、multi-embodiment の同時事前学習は将来課題としています。そのうえで cross-embodiment の検証では、追加データとして YAM ロボットおよび人間の egocentric データを利用しています。

比較対象は SOTA の VLA である GR00T N1.6 と π₀․₅ です。各ベースラインについて、(1) from-scratch(ロボットデータでの事前学習を行っていない pretrained VLM 重みで初期化)と、(2) from-pretrained(数千時間規模の cross-embodiment ロボットデータで事前学習済みの公式 checkpoint で初期化)の2条件を評価しています。どちらの条件でも、その後は同一データで学習を継続し、総バッチサイズと勾配ステップ数を揃えて compute budget を比較可能にしています。
DreamZero 本体の学習では、バックボーンとして Wan2.1-I2V-14B-480P を用い、AgiBot / DROID ともに global batch size 128・100K steps で事前学習しています。学習時には DiT blocks、state encoder、action encoder / decoder を更新し、text encoder・image encoder・VAE は凍結しています。また、両データセットで relative joint positions をデフォルトの action 表現として使用しています。
AgiBot G1 の事前学習データは、論文中では 約500時間・22環境(家庭、レストラン、スーパー、コーヒーショップ、オフィスなど)から収集された遠隔操作データで、約7.2K episodes、1エピソードあたり平均 4.4分、平均 約42 subtasks と報告されています。著者らは、既存 VLA でよく見られる「反復的でタスク特化のデータ収集」と対照的に、多様性と実用性を優先した収集方針を取っている点を強調しています。

評価のデフォルト設定は、論文の言い方を借りると “unseen environments, unseen objects” で、学習・評価地点が異なるため、OOD 汎化を見に行く設計になっています。評価は seen tasks と unseen tasks の2カテゴリで行われ、AgiBot では seen / unseen ともにそれぞれ 10タスク×各8ロールアウト(計80ロールアウト)です。なお、PnP-Easy / PnP-Hard / Contact-Rich Manipulation の3分類は seen tasks 側の分類で、unseen tasks 側は「アイロンがけ」「靴紐ほどき」「帽子取り」「握手」など、学習分布にないタスクを個別に評価しています。
cross-embodiment(Q4)の実験では、AgiBot で事前学習済みの DreamZero を起点に、(1) YAM→AgiBot の robot-to-robot transfer、(2) human→AgiBot の human-to-robot transfer の2設定を評価します。このとき、追加する cross-embodiment データには action ラベルを使わず、video prediction objective のみを適用し、AgiBot 側の事前学習データには従来どおり joint video-action objective を適用したまま、1:1 ミックスで 10K steps co-trainしています。各設定で 9つの unseen tasks に対して 72 本の軌跡(各タスク8本)を収集し、YAM 側は約20分、人間側は約12分の動画デモのみを使います。
さらに Q5 の few-shot embodiment adaptation では、AgiBot で学習した checkpoint を新しい双腕ロボット(YAM)に移し、11タスク・55 trajectories・約30分の play dataだけで post-training して、言語指示追従を伴う pick-and-place 系タスクで定性的に評価しています。
実験結果
まず seen tasks(unseen environment / unseen objects)に対する評価では、AgiBot G1 上で DreamZero が平均 task progress 62.2% を達成し、論文中でSOTAの pretrained VLA ベースライン(27.4%)を 2倍以上上回っています。著者らは、from-scratch の VLA はほぼゼロに近い性能しか出せず、pretrained VLA も一定の改善はあるものの、未知環境・未知物体での動作精度に限界がある一方、DreamZero は heterogeneous なデータから有効に学習できている、と解釈しています。DROID-Franka でも同様の傾向が見られると報告されています。

unseen tasks(学習分布に存在しない 10 タスク)に対するゼロショット汎化では、AgiBot G1 上で DreamZero が平均 39.5% の task progress を達成し、from-scratch VLA は <1%、pretrained VLA 平均(16.3%)も大きく上回っています。個別タスクでも、たとえば Remove Hat from Mannequin: 85.7%、Shake Hands: 59.2% といった比較的高いスコアが報告されています。著者らは、pretrained VLA は未知タスクでも「とりあえず掴みに行く」ような優勢行動(pick-and-place 的挙動)に引っ張られやすく、部分進捗は出ても意図したタスク完遂に繋がりにくい一方、DreamZero は生成した未来映像に基づく visual planning を通じて、よりタスク意味に整合した行動を出せると述べています。
DROID-Franka の unseen tasks でも、DreamZero は 49% task progress / 22.5% success rate を達成し、pretrained GR00T N1.6(31% / 12.5%)および pretrained π₀․₅(33% / 7.5%)を上回っています。AgiBot 専用データだけでなく、公開データセット(DROID)でも同様の傾向が見える点は、WAM の利点が特定データセット依存ではないことを示す材料として読みやすいです。

特に面白いのが cross-embodiment transfer(Q4)です。ここでは、AgiBot 事前学習済み DreamZero に対して、追加の action ラベルなし動画データ(10〜20分)だけを投入して unseen task の性能をどこまで伸ばせるかを見ています。ベースライン(9タスク平均)は 38.3% ± 7.6% ですが、Human2Robot transfer で 54.3% ± 10.4%、Robot2Robot transfer(YAM→AgiBot)で 55.4% ± 9.5% まで改善しています。これはベースライン比でそれぞれ 約41.8%、約44.6% の相対改善で、論文の主張する「10〜20分の動画のみで 42%超の改善」と整合しています。著者らは、YAM と AgiBot がどちらも双腕・平行グリッパ構成であるため embodiment gap が比較的小さいことから、robot-to-robot の改善幅がやや大きいと説明しています。
また、few-shot new embodiment adaptation(Q5)では、AgiBot から YAM への移行において、約30分の play dataしか使っていないにもかかわらず、著者らは 言語指示追従を維持したまま新しい物体(pumpkin, teddy bear, pen, cup noodles, paper bag など)への汎化が見られることを定性的に示しています。


Limitation
DreamZeroの現在の limitation として、動画にhallucinationがあると整合性の取れていないactionになりやすいこと、計算コストが重く、naive実装だと1chunkあたり約5.7秒となりリアルタイムの閉ループ制御が厳しいことが挙げられています。 また、DreamZeroは stateful policy として visual history を使える設計ですが、論文では memory が必須なタスクに対する明示的評価は未実施 です。また、現状の visual memory は 短い時間範囲(論文では約6秒) に留まるとされており、長期的な実行には System 2 planner やコンテキストウィンドウが今後の課題として挙げられています。
DreamZero を試してみる
2026/2/24 時点で、DreamZero のコードと Hugging face 上の pretrained checkpoint は Apache-2.0 ライセンスで公開されているので、実際に試してみます。Github star数も伸びているので注目されていることがわかります。

バックボーンのvideo diffusionモデルであるWan2.1が14Bと、それなりにパラメータサイズの大きいモデルとなるため、弊社の計算機クラスタを活用します。リポジトリの Quick Start では、分散推論向けに 最低 2GPU 構成(GB200/H100で検証)が前提として記載されているので、H200を2基使用し、Quick Start に沿ってコマンドを実行して自社計算機クラスタ上で推論サーバーを立ち上げます。
DreamZeroのリポジトリに格納されているサンプルデータに対して推論を実行した結果が下記のgifです。一部巻き戻っているような箇所があるようにも見えますが、予想では action chunk の切れ目の部分でこのような現状が起きるのではないかと考えています。3つのカメラ視点の予測が概ね整合しており、実機への活用が期待できそうです。
現時点では計算コストや長期記憶の課題は残るものの、DreamZero は「動画生成の改善がそのまま policy 改善につながる」設計を強く打ち出しており、今後の video foundation model の進化をロボティクスに直結させるアーキテクチャとして非常に面白いです。

参考文献
[1] Ye, S., Ge, Y., Zheng, K., Gao, S., Yu, S., Kurian, G., Indupuru, S., Tan, Y. L., Zhu, C., Xiang, J., Malik, A., Lee, K., Liang, W., Ranawaka, N., Gu, J., Xu, Y., Wang, G., Hu, F., Narayan, A., Bjorck, J., Wang, J., Kim, G., Niu, D., Zheng, R., Xie, Y., Wu, J., Wang, Q., Julian, R., Xu, D., Du, Y., Chebotar, Y., Reed, S., Kautz, J., Zhu, Y., Fan, L. ("Jim"), & Jang, J. (n.d.). DreamZero: World Action Models are Zero-shot Policies. NVIDIA. Retrieved February 19, 2026, from https://dreamzero0.github.io/
[2] Project Genie: AI world model now available for Ultra users in U.S.
[3] Google Labs: Google's home for AI experiments - Google Labs
[4] Odyssey
[6] Marble
[7] Runway Research | Introducing Runway GWM-1
[9] インテリジェントマシンによる無限の生産性を創造する-AGIBOT Innovation (Shanghai) Technology Co., Ltd.
最後に
燈では、全エンジニアが圧倒的当事者意識を持って、ビジネスの現場に直結する本質的な技術課題に挑戦しています。 リアルな課題解決を通じて自身の技術力を試してみたい、成長させたい、と考えている皆さん(インターン生も中途の方も)。もしご興味があれば、ぜひ弊社の採用情報もチェックしてみてください。
We’re Hiring!
燈では、最新論文を社会実装するAIエンジニアを募集しております!
興味がある方は、ぜひカジュアル面談でお話しましょう!🔥 akariinc.co.jp
AKARI Lightning Talk
燈では、毎月第3火曜日にAKARI Lightning Talk として、論文紹介を行い知見を深める会を開催しています。 少しでも気になる場合はぜひ参加してみてください! Connpass から参加申し込みができます! https://akari.connpass.com/event/