
双向进化
内置激励模型,使模型首次具备自评估能力。它可以基于文本对生成状态自动评估与优化,无需人工激励的训练,可以完成强化学习。这意味着,训练闭环第一次真正被内嵌进模型世界本身。
这一技术升级或将推动机器人彻底跳出“复现经验”的局限,真正走向自主探索、持续进化的新阶段。
但在真实应用中,仅仅引入底层的动作建模,依然不足以支撑一个完整的机器人系统。策略训练仍然高度依赖真实环境,评估成本高昂且效率有限,高质量数据的获取与扩展始终是关键瓶颈。
至此,世界模型从表征模型,演进为具备环境级能力的系统基础设施。本次发布的GE-Sim 2.0不再只是一个生成模型,而是一个可以被使用的系统、一个真正意义上的“可操作世界”。
如果由模型构建的世界足够真实、足够稳定、足够高效,能像现实一样响应机器人的每一个动作,机器人就可以在模型世界里完成大规模训练、试错、迭代,大幅降低真实世界的试错成本。
4月10日,智元进一步推出世界模型的迭代版本Genie Envisioner World Simulator 2.0(GE-Sim 2.0),首次构建出可交互、可训练、可评估的“物理进化引擎”东升国际官网,让机器人在世界中学习、成长、进化。

智元首先构建了EnerVerse,将具身场景拓展为可计算的4D世界模型;而后推出Genie Envisioner Act(GE-Act),实现从世界的表征能力到动作轨迹的生成;并通过Act2Goal,让机器人实现目标驱动的长程控制。这些探索使世界模型首次具备了承载动作策略的能力。

让世界可以被“运行”
具身智能的长远未来,在于拥有自主学习与持续进化的能力,这份进化,既来自对真实世界的观察与沉淀,更来自模型世界里无限的推演、试错与成长可能。当模型成为可交互、可训练、可进化的完整世界,现实就不再是机器人唯一的训练场。
GE Sim 2.0能够严格响应机器人动作信号,生成高保真的环境变化,并严格遵循物理与语义逻辑。世界不再是被想象的、无法被干预的,而是被行动不断推进的过程。
机器人面对的世界是连续变化的,动作不仅是输出,更是影响环境演化的核心变量。因此,在传统世界模型仅建模“状态”的基础上,智元提出并推进了世界动作模型的方向,关注如何让世界模型理解“动作”这一变量。机器人做了什么动作?动作如何改变世界?世界又如何反馈给策略?将“状态-动作-状态演化”作为统一建模对象,使世界模型能够成为策略学习与动作生成的基础表示层。
随着推理效率的提升,GE Sim 2.0已经可以接近实时运行,世界模型不再是一个离线工具,而是一个可以实时交互的系统环境。
在智元的技术路径里,世界模型一直沿着两条主线生长:一条是世界动作模型(World Action Model),专注于动作表征的深度建模;另一条是世界模拟器(World Simulator),负责打造一个可交互、可推演、可训练的完整环境。
多视角视觉、跨视角3D一致性与机器人本体状态被统一建模。进一步让机器人面对的不再是“画面”,而是一个完整、可交互的具身世界。
2025年,智元机器人发布行业首个世界模型开源平台Genie-Envisioner,希望让机器人“理解世界”,即通过视觉、语言与动作的统一建模,让机器感知环境、读懂指令、做出反应。
智元在强化世界动作模型建模能力的同时,同步推动世界模型走向可交互的模拟器能力。通过EnerVerse-AC,引入动作条件化世界建模,使模型能够基于动作进行未来推演;通过Genie Envisioner Sim(GE-Sim 1.0),构建可用于策略闭环评估的神经模拟器;并从场景一致性、动作正确性与语义对齐等多个维度,对世界模型的模拟能力进行系统评估。
当模型成为世界
模型支持分钟级长时序稳定推演,从零散视频片段,走向完整任务过程的连续生成。
具身智能迎来了一次真正的范式革新,不再只是“用模型理解世界”,而是真正走进“模型世界”,在其中自主学习、自主决策、自主成长。一方面,世界动作模型与视觉-语言-动作模型深度融合,让机器人从被动响应环境的“反应式控制”,变成能预判未来、规划全局的“生成式决策”;另一方面,世界模拟器搭建起一个无限延伸的虚拟训练场,让机器人可以在这里大规模试错、反复优化,不再被真实数据的稀缺性束缚,其能力上限,从此由模拟的真实度与高效性决定。
更重要的是东升国际官网,一套全新的数据与训练范式也随之建立。真实数据与生成数据的组合,使策略训练既具备真实性,又拥有更强的泛化能力;而后,智元提出Real2Edit2Real流程,真实数据不再只是被动采集,而是成为可被模型扩展与编辑的基础,从而显著提升数据规模与多样性。
本文链接: http://axiangcloud.com/dongshengguojiguanwang/4996.html