0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能

新机器视觉 来源:机器之心 2024-01-23 16:02 次阅读

还在苦苦寻找开源的机器人大模型?试试RoboFlamingo!

近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?

对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM,从而适用于语言交互的机器人操作任务。

OpenFlamingo 在机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。

随着 RT-X 数据集开放,采用开源数据预训练 RoboFlamingo 并 finetune 到不同机器人平台,将有希望成为一个简单有效的机器人大模型 pipeline。论文还测试了各种不同 policy head、不同训练范式和不同 Flamingo 结构的 VLM 在 Robotics 任务上微调的表现,得到了一些有意思的结论。

807bea80-b9b7-11ee-8b88-92fbcf53809c.png

项目主页:https://roboflamingo.github.io/

代码链接:

https://github.com/RoboFlamingo/RoboFlamingo

论文链接:

https://arxiv.org/abs/2311.01378

研究背景

80a369fc-b9b7-11ee-8b88-92fbcf53809c.png

基于语言的机器人操作是具身智能领域的一个重要应用,它涉及到多模态数据的理解和处理,包括视觉、语言和控制等。近年来,视觉语言基础模型(VLMs)已经在多个领域取得了显著的进展,包括图像描述、视觉问答和图像生成等。然而,将这些模型应用于机器人操作仍然存在一些挑战,例如如何将视觉和语言信息结合起来,如何处理机器人操作的时序性等。

为了解决这些问题,ByteDance Research 的机器人研究团队利用现有的开源 VLM,OpenFlamingo,设计了一套新的视觉语言操作框架,RoboFlamingo。其中 VLM 可以进行单步视觉语言理解,而额外的 policy head 模组被用来处理历史信息。只需要简单的微调方法就能让 RoboFlamingo 适应于基于语言的机器人操作任务。

RoboFlamingo 在基于语言的机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能(多任务学习的 task sequence 成功率为 66%,平均任务完成数量为 4.09,基线方法为 38%,平均任务完成数量为 3.06;zero-shot 任务的成功率为 24%,平均任务完成数量为 2.48,基线方法为 1%,平均任务完成数量是 0.67),并且能够通过开环控制实现实时响应,可以灵活部署在较低性能的平台上。

这些结果表明,RoboFlamingo 是一种有效的机器人操作方法,可以为未来的机器人应用提供有用的参考。

方法

80abd52e-b9b7-11ee-8b88-92fbcf53809c.png

本工作利用已有的基于图像 - 文本对的视觉语言基础模型,通过训练端到端的方式生成机器人每一步的 relative action。模型的主要模块包含了 vision encoder,feature fusion decoder 和 policy head 三个模块。

Vision encoder 模块先将当前视觉观测输入到 ViT 中,并通过 resampler 对 ViT 输出的 token 进行 down sample。

Feature fusion decoder 将 text token 作为输入,并在每个 layer 中先将 vision encoder 的 output 作为 query 进行 cross attention,之后进行 self attention 以完成视觉与语言特征的融合。

最后,对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中,policy head 根据 feature fusion decoder 输出的当前和历史 token 序列直接输出当前的 7 DoF relative action,包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。

在训练过程中,RoboFlamingo 利用预训练的 ViT、LLM 和 Cross Attention 参数,并只微调 resampler、cross attention 和 policy head 的参数。

实验结果

数据集:

80ba71c4-b9b7-11ee-8b88-92fbcf53809c.png

CALVIN(Composing Actions from Language and Vision)是一个开源的interwetten与威廉的赔率体系 基准测试,用于学习基于语言的 long-horizon 操作任务。与现有的视觉 - 语言任务数据集相比,CALVIN 的任务在序列长度、动作空间和语言上都更为复杂,并支持灵活地指定传感器输入。CALVIN 分为 ABCD 四个 split,每个 split 对应了不同的 context 和 layout。

定量分析:

80bff658-b9b7-11ee-8b88-92fbcf53809c.png

RoboFlamingo 在各设置和指标上的性能均为最佳,说明了其具有很强的模仿能力、视觉泛化能力以及语言泛化能力。Full 和 Lang 表示模型是否使用未配对的视觉数据进行训练(即没有语言配对的视觉数据);Freeze-emb 指的是冻结融合解码器的嵌入层;Enriched 表示使用 GPT-4 增强的指令。

消融实验:

80c5b0ca-b9b7-11ee-8b88-92fbcf53809c.png

不同的 policy head:

实验考察了四种不同的策略头部:MLP w/o hist、MLP w hist、GPT 和 LSTM。其中,MLP w/o hist 直接根据当前观测预测历史,其性能最差,MLP w hist 将历史观测在 vision encoder 端进行融合后预测 action,性能有所提升;GPT 和 LSTM 在 policy head 处分别显式、隐式地维护历史信息,其表现最好,说明了通过 policy head 进行历史信息融合的有效性。

视觉-语言预训练的影响:

预训练对于 RoboFlamingo 的性能提升起到了关键作用。实验显示,通过预先在大型视觉-语言数据集上进行训练,RoboFlamingo 在机器人任务中表现得更好。

模型大小与性能:

虽然通常更大的模型会带来更好的性能,但实验结果表明,即使是较小的模型,也能在某些任务上与大型模型媲美。

指令微调的影响:

指令微调是一个强大的技巧,实验结果表明,它可以进一步提高模型的性能。

80d22774-b9b7-11ee-8b88-92fbcf53809c.gif

80fdc46a-b9b7-11ee-8b88-92fbcf53809c.gif

8125b150-b9b7-11ee-8b88-92fbcf53809c.gif

81bf1228-b9b7-11ee-8b88-92fbcf53809c.gif

82717f44-b9b7-11ee-8b88-92fbcf53809c.gif

82f82f94-b9b7-11ee-8b88-92fbcf53809c.gif

定性结果相较于基线方法,RoboFlamingo 不但完整执行了 5 个连续的子任务,且对于基线页执行成功的前两个子任务,RoboFlamingo 所用的步数也明显更少。

8378a886-b9b7-11ee-8b88-92fbcf53809c.png

总结本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人威廉希尔官方网站 研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人威廉希尔官方网站 的实际应用提供宝贵的经验和数据,有助于未来的研究和威廉希尔官方网站 发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28389

    浏览量

    206927
  • 开源
    +关注

    关注

    3

    文章

    3323

    浏览量

    42473
  • 大模型
    +关注

    关注

    2

    文章

    2425

    浏览量

    2646

原文标题:字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Al大模型机器人

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器人有哪些的优势?萨科微AI大模型机器人由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优
    发表于 07-05 08:52

    ROS让机器人开发更便捷,基于RK3568J+Debian系统发布

    本帖最后由 Tronlong创龙科技 于 2024-7-19 17:18 编辑 ROS系统是什么 ROS(Robot Operating System)是一个适用于机器人开源的元操作系统。它
    发表于 07-09 11:38

    ColorSky双足机器人开源项目

    本帖最后由 colorsky 于 2016-4-21 14:05 编辑 大家好,我是ColorSky。这是我的双足机器人开源项目。先发出视频给大家看看,后面陆续会把威廉希尔官方网站 资料上传。机器人鞠躬动作
    发表于 04-21 10:51

    ROS让机器人开发更便捷,基于RK3568J+Debian系统发布

    ROS系统是什么 ROS(Robot Operating System)是一个适用于机器人开源的元操作系统。它提供了操作系统应有的服务,包括硬件抽象,底层设备控制,常用函数的实现,进
    发表于 11-30 16:01

    助理机器人开源分享

    电子发烧友网站提供《助理机器人开源分享.zip》资料免费下载
    发表于 10-21 10:10 0次下载
    助理<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    Arduino机器人开源分享

    电子发烧友网站提供《Arduino机器人开源分享.zip》资料免费下载
    发表于 10-26 14:55 0次下载
    Arduino<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    机器人开源案例

    电子发烧友网站提供《机器人开源案例.zip》资料免费下载
    发表于 12-07 15:12 0次下载
    <b class='flag-5'>机器人</b><b class='flag-5'>开源</b>案例

    英雄机器人开源

    电子发烧友网站提供《英雄机器人开源.zip》资料免费下载
    发表于 12-14 11:39 0次下载
    英雄<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>

    堆肥机器人开源分享

    电子发烧友网站提供《堆肥机器人开源分享.zip》资料免费下载
    发表于 12-22 15:14 1次下载
    堆肥<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    伺服机器人开源分享

    电子发烧友网站提供《伺服机器人开源分享.zip》资料免费下载
    发表于 02-01 11:07 0次下载
    伺服<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    机器人守卫开源分享

    电子发烧友网站提供《机器人守卫开源分享.zip》资料免费下载
    发表于 02-06 10:32 7次下载
    <b class='flag-5'>机器人</b>守卫<b class='flag-5'>开源</b>分享

    坦克机器人开源分享

    电子发烧友网站提供《坦克机器人开源分享.zip》资料免费下载
    发表于 06-20 11:34 1次下载
    坦克<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    检测机器人开源分享

    电子发烧友网站提供《检测机器人开源分享.zip》资料免费下载
    发表于 07-06 14:37 0次下载
    检测<b class='flag-5'>机器人</b><b class='flag-5'>开源</b>分享

    国内首个!北京人形机器人创新中心成立

    据悉,北京人形机器人创新中心将面向未来打造世界首个通用人形机器人“硬件主控平台”、首个模型+开源
    的头像 发表于 11-09 10:41 1414次阅读

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo
    发表于 01-19 11:43 408次阅读
    <b class='flag-5'>机器人</b>基于<b class='flag-5'>开源</b>的多模态<b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>