让模型真正 “能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model):它不是抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义 —— 例如 PDDL 领域 / 问题,或可运行的环境代码 / 模拟器。一旦世界被 “写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在 “会说”,而是能回答 “如果我这样做,会发生什么”,并用执行结果检验自己是否真的理解了这个世界。
问题在于,现有自动生成路线普遍陷入三重困局:脚本式工作流、知识边界封闭、表示覆盖单一。许多方法仍沿用固定的 “生成 — 修复” 脚本,并以解析 / 规则匹配 / 固定检查集等静态校验为主:它们或许能修语法与格式,却常常抓不住只有在交互执行中才暴露的行为级错误(例如状态更新不一致、目标不可达、奖励机制失效)。与此同时,当任务规格含糊、缺失关键规则或背景常识时,系统缺少主动检索与补全机制,只能依赖模型记忆 “猜”。更关键的是,既有研究往往只覆盖一种世界模型表示(只做 PDDL,或只做可执行代码),导致同一任务难以在不同符号表达之间共享验证闭环与改进经验,限制了方法的通用性与可扩展性。
为攻克这一难题,研究团队提出 Agent2World:一个工具增强(tool-augmented)的多智能体框架,用 “知识合成(Knowledge Synthesis)→ 世界模型实现(World Model Generation)→ 评估驱动精炼(Evaluation-Driven Refinement)” 的三阶段闭环,把 “查资料补规格 + 写实现 + 交互测试纠错” 内化为可复用的生成范式,从而稳定产出高可执行、可验证的符号世界模型。
实验结果显示,Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戏) 三大基准上均实现了 SOTA 性能。更关键的是,该框架展现了可持续改进潜力:基于 Agent2World 生成的高质量轨迹进行微调(SFT)后,模型性能显著跃升 —— 与训练前的同一模型相比,平均相对性能提升了 30.95%,有力证明了其作为高质量世界模型数据合成引擎的工程与研究价值。
