字节跳动 GR-3:VLA 模型助力机器人完成复杂任务,开启智能操作新纪元
突破传统局限,GR-3开启机器人新纪元
近日,字节跳动Seed团队正式发布全新视觉-语言-动作模型GR-3。该模型在机器人操作领域展现出前所未有的能力,不仅能理解抽象语言指令,还能精准操控柔性物体,并具备快速适应新任务与识别新物体的泛化能力。这一成果被视为向通用机器人"大脑"迈进的关键一步。
架构创新:Mixture-of-Transformers打造端到端智能
传统机器人操作模型通常依赖大量轨迹数据训练,迁移新任务时效率低下、成本高昂。GR-3则通过少量人类数据即可高效微调。其核心采用Mixture-of-Transformers(MoT)网络结构,将视觉-语言模块与动作生成模块整合为一个40亿参数的端到端模型。
在动作生成方面,GR-3融合了Diffusion Transformer(DiT) 与Flow-Matching技术,并引入归一化RMSNorm设计,显著提升动态指令跟随能力。这意味着,GR-3能像人类一样,根据摄像头画面与语言指令自主规划连续动作。例如,听到"收拾餐桌"后,它能依次完成"打包剩菜→收拾餐具→倒垃圾"的完整流程。
数据融合策略:三合一训练法显著提升泛化能力
GR-3突破单一数据源限制,采用三合一训练方法:
- 遥操作机器人数据:获取高质量真机数据,确保基础操作能力。
- VR设备采集轨迹:用户授权下收集人类操作轨迹,使新任务学习效率提升近一倍(450条/小时 vs 传统250条/小时)。
- 公开图文数据融合:帮助模型理解"大""小""左右"等抽象概念,并识别未见过的物体特征。
这种数据融合策略使GR-3在未见过的物体抓取任务中成功率较基准模型提升17.8% ,仅需10条人类轨迹数据即可将新物体操作成功率从60%提升至80%以上。
多场景验证:性能稳定,适应性强
为全面验证GR-3的能力,团队在三大任务中开展系统测试:
- 通用拾取放置:在训练场景中指令遵循率与成功率分别达98.1%和96.3%,在新环境(如卧室书桌、超市柜台)中性能几乎无衰减,且能精准执行"把雪碧旁边的可乐放进盘子"等复杂空间指令。
- 长程餐桌清理:GR-3可自主完成多步骤操作,平均完成度超95%,严格遵循分步指令,面对无效指令时能准确判断不动作。
- 柔性衣物操作:在挂衣服任务中完成度达86.7%,即使面对短袖等未见款式或混乱摆放状态,仍能稳定完成任务。
软硬协同:ByteMini机器人实现精细操作
GR-3的成功离不开与硬件的协同创新。团队专门开发了通用双臂移动机器人ByteMini,配备22个全身自由度与独特手腕球角设计,结合全身运动控制系统(WBC),实现狭小空间内的精细操作与平滑轨迹生成。
例如在抓取纸杯时,GR-3能自动调整力度避免捏碎;机械臂可像人类手腕般灵活转动。多摄像头布局(2个手腕摄像头看细节、头部摄像头看全局)确保"眼观六路"的感知能力。
未来展望:持续优化,迈向通用智能
尽管GR-3在泛化性与操作精度上已超越当前主流VLA模型,团队仍计划通过扩大模型规模、增加训练数据量(如更多物体的视觉语言数据、复杂任务机器人数据)进一步提升其泛化能力。
同时,团队将引入强化学习(RL)方法突破模仿学习局限,使机器人在遇到物体滑落等突发情况时能自主调整策略,增强抗干扰能力。
三大瓶颈突破,迈向机器人助手新时代
字节跳动Seed团队表示,GR-3的研发旨在解决传统机器人三大核心问题:"听不懂抽象指令""不适应环境变化""做不好长程任务"。未来,团队将持续探索大模型与机器人技术的深度融合,推动通用机器人"大脑"走进日常生活,成为帮助人类处理各类事务的智能助手。
这一成果不仅为机器人学习领域提供了新范式,也让"机器人全能助手"的愿景更近一步。