
はじめに
皆さんこんにちは!
今週のAKARI Tech Blogは、DX Solution 事業本部 Dev Lyra AIエンジニアの 大迎 が担当します!
今回は、Ctrl-World: A Controllable Generative World Model for Robot Manipulation [1]について紹介します!
最近では主にロボットの分野で、世界モデルやVLA、Physical AIやEmbodied AIの単語をよく見聞きするようになりました。2025/10/28にはNEO[2]が注文可能になったこともあり、ますますロボットとそこで活用される世界モデルやVLAへの注目が増えていくものと思われます。
弊社でも主にロボット分野で世界モデルやVLAの活用について調査や研究に取り組んでいますが、取り組む中での大きな課題としては、やはりモデル構築のためのデータ収集だと認識しています。理想的にはロボットの動作に関するデータを自動生成できると収集の手間が少なくうれしいですが、そのために世界モデルが活用できると考えています。 そこで今回は、世界モデルやVLAに関わる論文の中で、特に世界モデル統合型のVLAについて、最近の論文である Ctrl-World を紹介します。

Ctrl-World が取り組む課題
Ctrl-World が取り組む課題としては3つ挙げられており、これらの課題に対して、Ctrl-World というロボット操作のための制御可能な世界モデルの提案により改善を試みています。
1. 評価の難しさ
policyの評価のためには、様々なタスクや環境で繰り返して実世界での試行が必要であり、高コストで実験のサイクルを遅らせることになります。
2. 改善の難しさ
generalist model を改良するための高速で低コストなフィードバック駆動型の仕組みが不足しているため、例えばロボットアームの動作などの失敗事例と修正経験を収集し、繰り返して方針を改善する方法が求められています。
3. 既存の世界モデルのlimitation
既存の世界モデルの limitation として、論文中では単一の三人称視点のカメラ動画のみではハルシネーションが発生しやすい、世界モデルが生成するactionの細かい制御を欠いていること、長時間シミュレーションの生成では空間的な一貫性が失われることが挙げられています。
手法
問題の定式化
generalist robot policy(π)から提案される action の結果を予測可能な世界モデルを構築することを目的としています。一般的には、n 個の視点のカメラ観測とロボットの姿勢()、言語による指示(l)をHステップの action chunkにマッピングすることになります。
ここでの目標は、の各ステップを実行した結果を予測するために世界モデルを使うことです。
ここで予測されたは、次のaction chunkを予測するためにπへ渡されます。
このようにpolicyと世界モデルがループして相互作用することで、想像の空間内で長期的な試行を可能にするという考え方で世界モデルを構築しています。
Ctrl-Worldの3つのキモ
Ctrl-Worldには3つの手法のキモがあります。
Multi-View Joint Predictions
n個の三人称視点のカメラと手首カメラすべてで空間的に一貫した予測を行うことで、単一視点よりもハルシネーションを減らします。
Pose-conditioned Memory Retrieval Mechanism
長く試行すると予測誤差が蓄積されてあらぬ予測をしてしまうので、これを回避するために、モデルへの入力を過去のフレームからストライドmでk個サンプリングしたものを加えて補強しています。
ST Transformerでは、次に紹介するフレームごとのcross-attentionで先程サンプリングしたフレームに対応するロボットアームの姿勢をフレームに埋め込みます。 モデルが関連する過去のアーム姿勢を使って予測することで、効果的に過去の姿勢に予測をアンカリングしています。
Frame-level Action Conditioning
テキストと画像だけではモデル予測の制御の精度を欠くため、テキストと画像に加えてpolicyから出力されるactionでも条件付けします。ロボットアームの姿勢を直交座標系に変換し、過去の姿勢()とconcatしてcross-attentionを適用することで、vision tokenが関連する姿勢に注意を向けられるようになっています。

性能評価のための3つの問い
論文中では、DROIDデータセット[3]を用いて、以下3つの問いに回答するように実験されています。
- 1.Ctrl-Worldは高い制御性を維持しながら、空間的・時間的に一貫性のあるlong horizon の試行を生成できるか?
- 2.Ctrl-Worldは、現実世界のロボットアームの性能を忠実に再現し、想像した空間における様々なgeneralist policyを評価できるか?
- 3.Ctrl-Worldは、成功した動作の軌跡を合成することでpolicyの指示追従性能を改善できるか?
1つ目の問い
1つ目の問いについて、既存の行動条件付き世界モデルであるWPEとIRASim、そして提案しているCtrl-Worldの単一視点版と複数視点版の4つのモデルで比較を行っています。Ctrl-Worldの単一視点版を実験に使う理由は、WPEとIRASimが単一視点でありこれらと公平な条件で実験を行うためです。DROIDの validation データに対して、1秒間15ステップのactionを世界モデルへの入力にし、10秒の動作を生成するタスクでは、複数視点版のCtrl-Worldの性能が既存モデルより高いことがわかります。
確かに単一視点のカメラから見えにくい場所などでは別の角度のカメラから見た状況も含めて参考にしたほうがより多くの情報を活用できるということで、一貫性のある予測ができることは直感的にも納得感があります。

2つ目の問い
2つ目の問い前半の「現実世界の忠実な再現」について、DROIDデータセットのみで事前学習したCtrl-Worldが、学習に使われていないカメラ配置で設定したシーンに対して、正確な予測をゼロショットで行えることもわかっています。

3つ目の問い
3つ目の問いについて、Ctrl-Worldで生成したデータを用いてpolicyの事後学習を行ったところ、平均44.7%でBaseモデルよりも指示に追従する能力が高いことがわかっており、policyの指示追従性能を改善できることが示されています。

まとめ
今回は、ロボット操作のための制御可能な世界モデル「Ctrl-World」に関する論文を紹介しました。
Ctrl-Worldは世界モデルが生成した想像の空間内をシミュレーションすることで、長期的かつ一貫性のある高精度な試行の生成を目指しています。これにより、ロボットのpolicyを実世界で試すことなく安全かつ高速に評価・改善できる可能性が示されています。
冒頭で触れた現実世界のデータ収集の手間という課題に対する1つの対応策と言えそうです。
参考文献
[1] Y. Guo, L. X. Shi, J. Chen, and C. Finn, “Ctrl-World: A Controllable Generative World Model for Robot Manipulation,” arXiv preprint, arXiv:2510.10125, Oct. 2025. doi:10.48550/arXiv.2510.10125. https://arxiv.org/abs/2510.10125 arxiv.org
[2] https://www.1x.tech/neo www.1x.tech
[3] https://arxiv.org/abs/2403.12945 arxiv.org
[4] https://github.com/Robert-gyj/Ctrl-World github.com
最後に
燈では、全エンジニアが圧倒的当事者意識を持って、ビジネスの現場に直結する本質的な技術課題に挑戦しています。 リアルな課題解決を通じて自身の技術力を試してみたい、成長させたい、と考えている皆さん(インターン生も中途の方も)。もしご興味があれば、ぜひ弊社の採用情報もチェックしてみてください。
We’re Hiring!
燈では、最新論文を社会実装するAIエンジニアを募集しております!
興味がある方は、ぜひカジュアル面談でお話しましょう!🔥 akariinc.co.jp