您的位置:首页 > 互联网

李飞飞数字表兄弟破解机器人训练难题!零样本sim2real成功率高达90%

发布时间:2024-10-14 17:04:37  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】在用模拟环境训练机器人时,所用的数据与真实世界存在着巨大的差异。为此,李飞飞团队提出数字表亲,这种虚拟资产既具备数字孪生的优势,还能补足泛化能力的不足,并大大降低了成本。

如何有效地将真实数据扩展到模拟数据,进行机器人学习?

最近,李飞飞团队提出一种数字表亲的新方法,可以同时降低真实到模拟生成的成本,同时提高学习的普遍性。

项目主页:https://digital-cousins.github.io/

论文地址:https://arxiv.org/abs/2410.07408

目前,论文已被CORL2024接收。

你可能会问,什么是数字表亲,有啥用呢?

让我们把它跟数字孪生比较一下。

的确,数字孪生可以准确地对场景进行建模,然而它的生成成本实在太昂贵了,而且还无法提供泛化功能。

而另一方面,数字表亲虽然没有直接模拟现实世界的对应物,却仍然能够捕获相似的几何和语义功能。

这样,它就大大降低了生成类似虚拟环境的成本,同时通过提供类似训练场景的分布,提高了从模拟到真实域迁移的鲁棒性。

共同一作Tianyuan Dai表示,既然有免费的数字表亲了,何必再去手工设计数字孪生?

亮眼的是,数字表亲能同时实现——

  • 单幅图像变成交互式场景

  • 全自动(无需注释)

  • 机器人策略在原始场景中的零样本部署

简单拍一张照片,就能搞定了

模拟数据难题:与现实环境差异过大

在现实世界中训练机器人,存在策略不安全、成本高昂、难以扩展等问题;相比之下,模拟数据是一种廉价且潜在无限的训练数据来源。

然而,模拟数据存在一个难以忽视的问题——与现实环境之间的语义和物理差异。

这些差异可以通过在数字孪生中进行训练来最小化,但数字孪生作为真实场景的虚拟复制品,同样成本高昂且无法跨域泛化。

正是为了解决这些限制,论文提出了数字表亲(digital cousion)的概念。

数字表亲是一种虚拟资产或场景,与数字孪生不同,它不明确模拟现实世界的对应物,但仍然展现类似的几何和语义功能。

因此,数字表亲既具备了数字孪生的优势,能够补足现实数据的不足,同时降低了生成类似虚拟环境的成本,并能更好地促进跨域泛化。

具体而言,论文引入了一种自动创建数字表亲(Automatic Creation of Digital Cousins,ACDC)的新方法,并提出了一个完全自动化的,从真实到模拟再到真实的流程,用于生成交互式场景和训练策略。

实验结果发现,ACDC生成的数字表亲场景能够保留几何和语义功能,训练出的策略也优于数字孪生(90% vs.25%),而且可以通过零样本学习直接部署在原始场景中。

方法概述

与数字孪生不同,数字表亲并不苛求在所有微小细节上都要重建给定场景,而是专注于保留更高级别的细节,例如空间关系和语义。

ACDC是一个完全自动化的端到端流程,从单个RGB图像生成完全交互式的模拟场景,由三个连续步骤组成:

  • 信息提取:首先,从输入的RGB图像中提取对象信息。

  • 数字表亲匹配:利用第一步提取的信息,结合预先准备的3D模型资产数据集,为检测到的每个对象匹配相应的数字表亲。

  • 场景生成:对选择的数字表亲进行后处理并编译在一起,生成一个物理上合理且完全交互式的模拟场景。

  • 通过这三个步骤,ACDC能够自动创建与输入图像语义相似但不完全相同的虚拟场景,为机器人策略训练提供多样化的环境。

    策略学习

    构建了一组数字表亲后,就可以这些环境中训练机器人策略。

    虽然这种方法适用于多种训练范式,例如强化学习或模仿学习,但本文选择聚焦于于脚本演示(scripted demonstrations)的模仿学习,因为这种范式不需要人类演示,与完全自主化的ACDC流程更加适配。

    为了能在模拟环境中自动实现演示的收集,作者首先实施了一组基于样本的技能,包括Open(开)、 Close(关)、 Pick(拿)和Place(放)四种。

    虽然技能的种类数仍然有限,但已经足够收集各种日常任务的演示,例如对象重新排列和家具铰接。

    实验

    通过实验,团队回答了以下研究问题:

    • Q1:ACDC能否生成高质量的数字表亲场景?给定单张RGB图像,ACDC能否捕捉原始场景中固有的高级语义和空间细节?

    • Q2:在原始的环境设置上评估时,在数字表亲上训练的策略能否匹配数字孪生的性能?

    • Q3:在分布外设置上评估时,在数字表亲上训练的策略是否表现出更强的稳健性?

    • Q4:在数字表亲上训练的策略能否实现零样本的sim2real策略迁移?

    通过ACDC进行场景重建

    首先团队需要论证的最重要的问题,就是ACDC能生成高质量的数字表亲场景吗?

    从表格中的数据来看,结果十分令人满意。

    以下是在sim-to-sim场景中对ABCD场景重建进行的定量和定性评估。

    在sim2sim场景中对ACDC进行场景重建的定量和定性评估

    评估指标包括:

    • Scale:输入场景中两个对象边界框之间的最大距离。

    • Cat.:正确分类对象占场景总对象总数的比例。

    • Mod.:正确建模对象占场景中对象总数的比例。

    • L2Dist.:输入和重建场景中边界框中心间欧几里得距离的均值和标准差。

    • Ori. Diff.:每个中心对称对象方向幅度差异的均值和标准差。

    • Bbox IoU:资产3D边界框的交并比(IoU)。

    以下是ACDC实景到模拟场景的重建结果。

    在给定场景中,会显示多个数字表亲。

    ACDC真实到模拟场景重建结果的定性评估,展示了为给定场景生成的多个数字表亲

    基于这些结果,研究者可以肯定地回答Q1了——

    ACDC确实能够保留输入场景的语义和空间细节,从单张RGB图像生成真实世界对象的数字表亲,并能准确定位和缩放以匹配原始场景。

    sim2sim的策略学习

    这部分的实验主要是为了回答上述研究中的Q2和Q3,在3个任务上分析ACDC训练策略的能力,包括开门、打开抽屉和收起碗,每项任务都与数字孪生设置进行了对比。

    不同设置中的总体成功率如下图所示。

    可以发现,在数字表亲上训练的策略通常可以匹配,甚至优于数字孪生的设置。

    作者假设,由于数字表亲的策略是在不同环境设置的数据上进行训练的,因此可以覆盖广泛的状态空间,从而很好地推广到原始数字孪生设置。

    然而,在另一个极端,针对所有可行资产(All Assets)进行训练场的策略要比数字孪生差得多,这表明朴素的领域随机化并不总是有用的。

    此外,随着DINO嵌入距离的增加,即评估设置与原始设置的差异逐渐增大,数字孪生的策略性能通常会出现成比例的显著下降,但数字孪生策略整体表现更加稳定,证明了在分布外设置上的鲁棒性。

    sim2real的策略学习

    随后,研究者对数字孪生和数字表亲策略进行了零样本现实世界评估。

    任务是给宜家柜子上开门。

    评估指标就是成功率。

    结果显示,模拟结果平均超过50次试验,真实结果平均超过20次试验。

    real2sim2real的场景生成和策略学习

    无论是数字孪生还是数字表亲,最终的落脚点还是要在真实环境中对比性能。

    因此实验的最后,团队在完全真实(in-the-wild)的厨房场景中端到端地测试了完整的ACDC管道和自动化策略学习框架。

    在经过数字表亲的专门模拟训练后,机器人可以成功打开厨房橱柜,证明了ACDC方法迁移到真实环境中的有效性。

    以下Demo展示了完全自动化的数字表亲生成过程。

    左右滑动查看

    零样本的sim2real策略迁移实验表明,仅从上述生成的四个数字表亲训练的模拟策略,可以直接迁移到相应的真实厨房场景。

    基于这些结果,研究者可以肯定地回答Q2、Q3和Q4了——

    使用数字表亲训练的策略,表现出了与在数字孪生上训练策略相当的分布内性能,以及更强的分布外鲁棒性,并且可以实现零样本从模拟到现实的策略迁移。

    失败案例

    即使ACDC方法表现出了整体上的优越性能,研究团队也在实验中观察到了几个失败案例,例如:在打开柜子的任务中,机器人未能完全移动到把手所在位置——

    或者移动时错过把手——

    即使正确找到了把手所在位置,也有可能手滑——

    可以观察到,ACDC经常在以下几种情况下陷入困境:

    a. 高频深度信息

    b. 遮挡

    c .语义类别差异

    d. 缺乏相应类别的资产

    e. 除位于顶部之外的对象关系

    前三个限制,与ACDC的参数化方式直接相关。

    比如对于(a),由于ACDC依赖于相对准确的深度估计,来计算预测的对象3D边界框,因此不准确的深度图可能会导致ACDC对物体模型的估计相应较差。

    原生深度传感器在物体边界附近可能难以产生准确的读数,这是因为深度图在这些区域可能出现不连续性。当物体具有许多精细边界时(例如植物和栅栏),这个问题会变得更加复杂。

    此外,由于研究者依赖现成的基础模型(DepthAnything-v2)来预测合成深度图,因此也承袭了模型自身的一系列限制,例如对特殊物体或在不利的视觉条件下的预测较差。

    结论

    最终,研究者得出了以下结论。

    ACDC是一个全自动化管线,能够快速生成与单张真实世界RGB图像相对应的完全交互式数字表亲场景。

    研究发现:

    1. 鲁棒性

    在这些数字表亲设置上训练的策略,比在数字孪生上训练的策略表现出更强的鲁棒性。

    为了进一步检查数字表亲对朴素域随机化的相对影响,研究者根据其他基线在 DoorOpening任务上重新运行了sim2sim实验

    2.性能对比

    • 领域内性能:数字表亲训练的策略与数字孪生训练的策略相当。

    • 领域外泛化:数字表亲训练的策略展现出优越的领域外泛化能力。

    3. 零样本学习

    数字表亲训练的策略能够实现零样本从模拟到现实的策略迁移。

    作者介绍

    科技2013母乳喂养不可替代

    TianyuanDai

    元宇宙社交平台

    Tianyuan Dai本科毕业于香港科技大学,获得了计算机科学和数学学士学位,目前在斯坦福攻读硕士学位,隶属于斯坦福SVL实验室(Vision and Learning Lab)和PAIR研究小组(People, AI & Robots Group),由李飞飞指导。

    他的长期愿景是将人类对现实世界环境的理解融入到机器人算法中,使用数据驱动的方法帮助人们完成日常任务;最近研究的重点是开发real2sim2real范式,以实现稳健的操控策略学习(manipulation policy learning)。

    Josiah Wong

    Josiah Wong目前在斯坦福大学攻读机械工程博士学位,导师是李飞飞,同样在SVL和PAIR组工作。

    此前,他在斯坦福大学获得硕士学位,在加利福尼亚大学圣迭戈分校获得学士学位。

    他致力于利用仿真技术来拓展机器人操作能力,目标是推动日常通用机器人的发展,从而改善我们的日常生活。

    参考资料:

    https://x.com/RogerDai1217/status/1844411408374693941


    返回网站首页

    本文评论
    马斯克称若推特能确认部分内容 或将继续推进收购计划(马斯克推特投票)
    当地时间8月6日,特斯拉首席执行官埃隆·马斯克在社交媒体上表示,如果推特能够确认一些关于如何衡量用户账户是“机器人或虚假账户”还是真人的细节,他以440亿美元收购推特的计...
    日期:08-20
    问界新M7大五座车内空间最优:后排能塞进30个登机箱_问界m5什么时候上市
    快科技9月12日消息,AITO汽车问界新款M7于今日午间发布。余承东介绍,问界新M7整体升级投入超过5个亿,光内外饰就花了1个亿进行全新设计升级,除了华为鸿蒙智能座舱和华为ADS2.0高...
    日期:09-12
    结合今年双十一的情况,谈谈你对直播带货的看法「当直播带货退潮,双十一需要新爆点」
    声明:本文来自于微信公众号 孟永辉(ID:menglaoshi0071),作者:孟永辉,授权转载发布。当李佳琦回归,很多人直呼今年双十一总算是有了些看点。然而,我们同样要看到的是,尽管李佳琦回归...
    日期:10-09
    X平台清除2014年前图片、推文链接 网友:马斯克已为你设置“仅十年可见”
    快科技8月21日消息,在收购推特之后,马斯克进行了一系列大刀阔斧的改革,甚至如今已经把推特更名为X”,而更令人想不到的是,马斯克或许还要删除掉推特的2014年前的内容。据悉,Tom Co...
    日期:08-21
    美股周二:三大股指全线下跌,谷歌涨逾2%,百度涨超4%「美股周几跌」
    5月17日消息,美国时间周二,美股收盘主要股指全线下跌。投资者仍在关注美国白宫与国会就债务上限问题谈判的最新进展。道琼斯指数收于33012.14点,下跌336.46点,跌幅1.01%;标准普尔...
    日期:05-17
    英特尔推出新款游戏显卡,以性价比挑战英伟达_英伟达最好的游戏显卡
    记者 | 彭新9月28日,英特尔在其技术峰会上宣布,将于下个月开始销售面向游戏玩家的新款游戏显卡。该举动有望打破英伟达和AMD对于游戏图形处理器(GPU)市场的垄断。英特尔即将发售...
    日期:10-05
    华为汪涛:使能百模千态,赋能千行万业,加速行业智能化
    通信世界网消息(CWW)9月20日,在华为全联接大会2023(HUAWEI CONNECT 2023)期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛发表了“加速行业智能化”主题发言,分...
    日期:09-20
    air下一代什么时候出来Air将于2025年发布 将取代Plus机型 曝苹果iPhone
    来源:中关村在线iphone12无线充电支持多少w快充关于苹果iPhone新机的传闻已经悄然兴起,但并不是 iPhone 16 系列或者 iPhone 17 系列,而是 iPhone Air。这一消息来自 Front Pag...
    日期:08-06
    航旅纵横招工程师 华为鸿蒙原生应用大量启动_航旅纵横pro 华为市场
    华为方面在9月份就曾宣布,之后的鸿蒙系统将不再兼容安卓应用,鸿蒙将启用原生应用,会为开发者提供相应的工具和支持。在鸿蒙分布式技术支持下,使开发者能够一次开发实现多终端部...
    日期:11-28
    微软承认输掉“主机战争”:Xbox难以与竞争对手抗衡_微软新主机xbox series x
    快科技6月24日消息,近日,在微软与FTC(美国联邦贸易委员会)就收购动视暴雪的诉讼中,微软承认已经输掉了主机战争”。从提交文件来看,从微软2001年进军游戏行业开始,Xbox足迹的销量就...
    日期:06-24
    截至9月底全国新能源汽车保有量1149万辆 占汽车保有量的3.65%_中国新能源汽车市场保有量
    10月8日消息,据公安部统计,截至2022年9月底,全国机动车保有量达4.12亿辆,其中汽车3.15亿辆;机动车驾驶人4.99亿人,其中汽车驾驶人4.61亿人。苹果今年会发布什么新产品截至9月底,全...
    日期:10-13
    统一签发“网号”“网证” !国家网络身份认证公共服务管理办法公开征求意见
    7月26日,公安部、国家网信办等研究起草了《国家网络身份认证公共服务管理办法(征求意见稿)》,并向社会公开征求意见。起草说明指出,国家组织建设网络身份认证公共服务基础设施,旨...
    日期:07-27
    斩获全球技术金奖,海信激光电视电影院同源技术引发关注
    近日,在德国柏林举办的国际消费电子展吸引了全球的目光,作为科技的风向标,来自 139 个国家及地区的 1800 多家参展商上演了一场技术大秀。在这场全球科技竞技舞台上,中国品牌成...
    日期:09-14
    网红王妈塌房 公司回应:即日起实行双休制度_王妈新号
    5月26日,网络上掀起了一场关于“王妈公司待遇”的热议,该话题迅速登上微博热搜榜。网红“王妈”在社交媒体账号@七颗猩猩i 中以一系列短剧走红,她以打工人代言人的形象出现,为那...
    日期:05-27
    苏宁的24期免息_苏宁推24期免息,苹果华为联想等3C大牌响应
      2月24日晚,苏宁易购召开线上直播发布会,侯恩龙宣布自2月27日开始,苏宁将全面联合家电、家装、手机、电脑等品类品牌,线上线下同步推出“购家电家装手机,享24期分期免息”活...
    日期:05-07
    沈腾担任双十一“狮晚”惊喜福利官 实力宠粉从代言人做起
      11月10日晚,“2019年湖南卫视苏宁易购11.11嗨爆夜”直播现场,灯火绚烂,群星闪耀。   这场聚集了娱乐圈顶流明星的精彩晚会,引来了粉丝们的阵阵尖叫。随着火箭少女101成员...
    日期:07-20
    小米14全新冰雪山粉配色亮相 雷军:专门为女生准备的_小米雪山壁纸无水印
    小米14全新配色岩石青和雪山粉在预热中公布。岩石青的配色灵感来源于“细雨润青石”,而雪山粉的配色则源自“黎光映山雪”。小米CEO雷军表示,岩石青配色是设计师们经过长时间...
    日期:10-26
    华为 2023 春季旗舰新品发布会正式定档 3 月 23 日「23号华为新品发布会」
    IT之家 3 月 13 日消息,刚刚,华为正式官宣将于 3 月 23 日 14:30 在上海召开华为春季旗舰新品发布会,届时将发布华为 P60 系列、华为 Mate X3 折叠屏等众多全场景新品。三星折...
    日期:03-13
    团宝网否认裁员达50% 只是内部调整
      9月27日消息,有消息称团购网站团宝网内部下令劝退所有试用期员工,裁员比例达到50%。对此消息,TechWeb致电团宝网市场负责人,该负责人表示并不存在大规模裁员一说,只是内部在...
    日期:07-23
    17.58万元起 2025款比亚迪海豹正式上市:极速可达240km/h_比亚迪海豹汽车
    【TechWeb】8月8日消息,2025款比亚迪海豹正式上市,共推出4款配置车型,售价区间为17.58-23.98万元。新车是基于比亚迪e平台3.0 Evo技术平台打造的首款高性能轿车,并搭载激光雷达,...
    日期:08-11