Agent2World来了，把世界模型做成可运行的符号环境

让模型真正 “能行动”，往往需要一个可执行、可验证的符号世界模型（Symbolic World Model）：它不是抽象的文字描述，而是能被规划器或执行器直接调用的形式化定义 —— 例如 PDDL 领域 / 问题，或可运行的环境代码 / 模拟器。一旦世界被 “写成可运行的规则”，我们就能在同一套约束下进行推演、测试与复现：模型不再停留在 “会说”，而是能回答 “如果我这样做，会发生什么”，并用执行结果检验自己是否真的理解了这个世界。

问题在于，现有自动生成路线普遍陷入三重困局：脚本式工作流、知识边界封闭、表示覆盖单一。许多方法仍沿用固定的 “生成 — 修复” 脚本，并以解析 / 规则匹配 / 固定检查集等静态校验为主：它们或许能修语法与格式，却常常抓不住只有在交互执行中才暴露的行为级错误（例如状态更新不一致、目标不可达、奖励机制失效）。与此同时，当任务规格含糊、缺失关键规则或背景常识时，系统缺少主动检索与补全机制，只能依赖模型记忆 “猜”。更关键的是，既有研究往往只覆盖一种世界模型表示（只做 PDDL，或只做可执行代码），导致同一任务难以在不同符号表达之间共享验证闭环与改进经验，限制了方法的通用性与可扩展性。

为攻克这一难题，研究团队提出 Agent2World：一个工具增强（tool-augmented）的多智能体框架，用 “知识合成（Knowledge Synthesis）→ 世界模型实现（World Model Generation）→ 评估驱动精炼（Evaluation-Driven Refinement）” 的三阶段闭环，把 “查资料补规格 + 写实现 + 交互测试纠错” 内化为可复用的生成范式，从而稳定产出高可执行、可验证的符号世界模型。

实验结果显示，Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戏) 三大基准上均实现了 SOTA 性能。更关键的是，该框架展现了可持续改进潜力：基于 Agent2World 生成的高质量轨迹进行微调（SFT）后，模型性能显著跃升 —— 与训练前的同一模型相比，平均相对性能提升了 30.95%，有力证明了其作为高质量世界模型数据合成引擎的工程与研究价值。

Agent2World来了，把世界模型做成可运行的符号环境

媒体报道更多>>

每日读书更多>>

写作分享更多>>

原创笔记更多>>

阅读交流更多>>

学习知识更多>>