Air ApolloFM 世界模型
AIR Apollo FM 是以视频、文本、和图像等多模态数据生成的世界模型。模型能理解物理世界,并推演未来运动状态。我们以此为基础,构建具身机器人大脑 AIR Brain,高效完成决策、运动。
当前视频:1/2
一、VLA 模型的局限性
当前机器人行业主流的 VLA 模型,在仿真环境能够取得较好效果;但在真实场景下,泛化能力较弱,部署成功率不高。 分析其原因在于:
1、真实场景输入数据的分布空间很广,比现有真机数据集高1-2个数量级,无法激发模型泛化能力。
2、视频和语言的词元(token)规模差距很大,语言样本量占比过低,大语言模型优势无法正确发挥。
3、机械臂供应链不成熟导致的一致性误差,不管是在出厂阶段的一致性不足,还是应用过程中的性能衰退,都持续降低模型性能。
二、解决方案
1、更多的仿真图像观测
当前真机采集的数据远远不够,且真机采集数据成本很高。最经济的方式是以世界模型仿真生产真机数据。 现有的真机数据约26000小时,数据分布不均匀,质量参差不齐。使用世界模型增加大约150%的数据,对真机部署的效果提升较大。
2、更多的仿真真机观测
无论是生产供应链一致性问题,还是日常使用老化,机械臂和夹爪都会出现偏差。使用世界模型,生成符合真机偏差分布的数据,能够非常有效的提高真机部署的成功率。
三、系统结构图

四、基于强化学习和真机数据的世界模型迭代方法
1、使用专家数据构造基础策略。
2、策略在线推理,并使用世界模型,计算奖励。
3、推理产生同时生产数据集,并积累奖励,形成优势样本和惩罚样本。
4、对策略再次进行迭代并形成闭环。

