Air ApolloFM 世界模型

AIR Apollo FM 是以视频、文本、和图像等多模态数据生成的世界模型。模型能理解物理世界，并推演未来运动状态。我们以此为基础，构建具身机器人大脑 AIR Brain，高效完成决策、运动。

当前视频：1/2

一、VLA 模型的局限性

当前机器人行业主流的 VLA 模型，在仿真环境能够取得较好效果；但在真实场景下，泛化能力较弱，部署成功率不高。分析其原因在于：

1、真实场景输入数据的分布空间很广，比现有真机数据集高1-2个数量级，无法激发模型泛化能力。

2、视频和语言的词元（token）规模差距很大，语言样本量占比过低，大语言模型优势无法正确发挥。

3、机械臂供应链不成熟导致的一致性误差，不管是在出厂阶段的一致性不足，还是应用过程中的性能衰退，都持续降低模型性能。

二、解决方案

1、更多的仿真图像观测

当前真机采集的数据远远不够，且真机采集数据成本很高。最经济的方式是以世界模型仿真生产真机数据。现有的真机数据约26000小时，数据分布不均匀，质量参差不齐。使用世界模型增加大约150%的数据，对真机部署的效果提升较大。

2、更多的仿真真机观测

无论是生产供应链一致性问题，还是日常使用老化，机械臂和夹爪都会出现偏差。使用世界模型，生成符合真机偏差分布的数据，能够非常有效的提高真机部署的成功率。

系统结构图

1、使用专家数据构造基础策略。

2、策略在线推理，并使用世界模型，计算奖励。

3、推理产生同时生产数据集，并积累奖励，形成优势样本和惩罚样本。

4、对策略再次进行迭代并形成闭环。

性能提升数据