最新新闻
慧荣产业观 | 机器人VLA模型八大趋势
来源: | 作者:HONRULE | 发布时间 :2025-12-06 | 56 次浏览: | 分享到:

(一)趋势一:高效架构新范式—— 离散扩散模型

1.核心优势:相较于自回归模型 “逐词生成” 的低效模式,离散扩散模型可并行化生成完整动作序列,显著提升推理效率; 同时支持 “动作 推理过程”并行生成(即具身思维链 ECoT)。

2.代表研究:《 DISCRETE DIFFUSION VLA》《dVLA》等,在LIBERO 评测任务中表现优异。

图片

(二)趋势二:具身思维链( ECoT—— 让机器  “先想后做”

1.核心思想:生成具体动作前,先产出中间推理步骤(如文本规划、视觉感知、轨迹构图 以此增强机器人的任务计划能力与行为解释性,提升复杂场景下的泛化能力。

2.当前挑战:对高质量标注数据依赖度极高,但此类数据目前仍处于稀缺状态。

3.代表研究:《ACTIONS AS LANGUAGE》《 EMBODIED-R1》,通过 “推理 动作解耦”设计,在 SIMPLER 评测中表现突出。

图片

(三)趋势三:动作分词器—— 连接 “大脑”(VLM)与“身体”(机器人)的桥梁

1.核心作用:将机器人连续、高频的原始动作,转换为视觉 语言模型(VLM)可理解的离散 “词汇”,为语言驱动机器人控制奠定基础。

2.技术进展

1. FASTer Tokenizer:结合残差矢量量化技术,平衡动作压缩率与动作连续性,避免信息丢失。

2.   OmniSAT:利用样条曲线对动作进行建模,实现更紧凑的动作表达。

图片

(四)趋势四:强化学习( RL)作为微调利器

核心价值:弥补模仿学习在极端场景(如突发干扰、非标准任务环境)下的性能不足,用于微调 VLA 策略,提升模型鲁棒性。

1.关键技术

1. 残差RL:在冻结的VLA 基础策略上,叠加轻量级 “残差策略”,仅对关键任务环节进行干预,降低训练成本。

2.   阶段感知RL:将复杂任务拆解为语义明确的子阶段,分阶段开展训练,提升任务适配性。

2.效果表现:相关模型在LIBEROSIMPLER 评测中的任务成功率可达 98%-99%

图片

(五)趋势五:效率优化—— 推动 VLA 平民化

1.核心目标:解决VLA 模型规模庞大、训练 推理成本高昂的问题,降低研究与应用门槛。

2.技术方向

1. 推理效率优化:如 HyperVLA 采用超网络架构,可动态生成轻量级子网络,适配不同算力场景。

2. 显存占用优化:如AutoQVLA 通过智能量化技术压缩模型参数,减少显存消耗。

图片

(六)趋势六:视频预测—— 赋予 VLA 物理直觉

1.核心思路:利用具备时序动态理解与物理规律学习能力的视频生成模型,作为VLA 的强先验知识,让模型具备 “想象未来” 的能力。

2.实现路径

1. 路径1:在现有视觉语言模型(VLM )基础上,新增“未来帧预测” 任务,强化时序感知能力。

2. 路径2:直接微调视频生成大模型(如Cosmos),使其适配动作生成任务。

3.核心价值:提升VLA 对物理世界规律的理解,减少因环境误判导致的动作失误。

图片

(七)趋势七:更真实的评测基准—— 打破 “仿真高分、现实失效” 的过拟合困境

1.核心问题:现有评测集(如 LIBEROCALVIN )任务场景趋于固化、数据接近饱和,模型在评测中易获得高分,但高分性能难以迁移到真实物理环境,存在  “过拟合”风险。

2.新基准代表

1. ROBOTARENA :构建 “真实场景 仿真环境” 的自动评估框架,缩小评测与现实的差距。

2. RoboCasa365:大规模仿真环境,涵盖365 种日常任务、2000 + 厨房场景,提升任务多样性。

3. WorldGym:采用生成式世界模型构建动态评测环境,避免场景固化,推动模型泛化能力提升。

图片

(八)趋势八:跨体态学习 —— 通用机器人的  “必经之路”

1.核心挑战:让单一VLA模型能够驱动不同结构(如单臂、双臂、轮式底盘、履带式底盘)、不同动作空间的机器人,打破 “一模型一机器人” 的局限。

2.技术方案

1. X-VLA:通过软提示(Soft Prompt)技术,为不同机器人学习专属适配模块(适配器)。

2. XR-1:提出“统一视觉 运动编码”方案,将不同机器人的视觉输入与运动输出映射到共享特征空间,形成通用 “词典”。

3. HIMOE-VLA:采用层级式混合专家(Hierarchical Mixture of Experts)架构,让模型自动适配新机器人的 “身体结构”。

图片
图片