您的位置:首页 > 互联网

自动驾驶雨天也能平稳规划,北理港中文腾讯提出端到端学习道路几何图形

发布时间:2024-07-15 15:35:35  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:GeMap团队,授权转载发布。

用几何图形来实时构建高精地图,真香!

支付变革与创新

就是雨天也不在话下~

我们都知道,实时高精地图,能为自动驾驶汽车提供及时、紧凑且语义丰富的环境信息。但如何提高它的稳健性、有效应对各种复杂场景,成为一大挑战。

来自北理、港中文、腾讯AI Lab团队引入一种新表征学习方法——GeMap,端到端学习地图实例中的几何形状和关系。

结果在各种遮挡、路口转弯的场景也能表现平稳,并实现SOTA。该论文被ECCV2024收录。

来看看这到底是如何做到的?

高精地图的几何表示

在线矢量化高清 (HD) 地图的构建对于下游预测和规划至关重要。

然而,城市道路系统中实例的形状和关系仍未得到充分探索,例如矩形、平行、垂直或特定车道宽度。

此外,当车辆前进或转弯时,这些形状和关系属性将保持不变。以前的方法基于绝对坐标来格式化实例,在这种情况下,绝对坐标对平移和旋转很敏感。

团队提出了GeMap(几何地图),它以端到端的方式学习地图实例的欧几里得形状和关系,超越了基本感知。

来看看具体框架。

首先,透视图 (PV) 图像被转换为鸟瞰图 (BEV) 特征,然后几何解耦解码器输出矢量化高清地图。

在解码器的每个块中,查询首先通过欧几里得形状和关系注意力进行处理,重点关注几何相关性。

最后,通过形状和关系约束在 G-Representations 中增强预测。

几何表示。

团队引入了捕捉单个地图实例的形状(欧几里得形状线索)和不同实例之间的关系(欧几里得关系线索)的几何表示。

欧几里得形状线索。位移向量的长度和相邻向量之间的角度构成形状线索,用于计算形状损失。例如,矩形与90度角和两个相等的边相关。

欧几里得关系线索。点对之间的距离和位移矢量对之间的角度表示关系线索。关系线索与欧几里得关系几何有更表面的联系,例如平行或垂直。

几何解耦注意力。

一种被MapTR,PivotNet等采用的架构将地图元素上的每一个点对应到Transformer的一个查询。这一架构的问题在于:对两大类的几何性质(关系和形状)不加区分。

在自注意力中,所有查询(也就是“点”)之间都平等地相互作用。然而,地图元素的形状对应着一组一组的查询。这些组之间的交互,在感知元素形状时就成为了累赘。反之在感知元素之间关联的时候,形状亦成为了冗余因素。这意味着将形状、关联的感知解耦,可能带来更好的结果。

他们提出了几何解耦注意力(GDA)。GDA 将 vanilla 自注意力模块解耦为欧几里得形状注意力(捕获实例内几何)和欧几里得关系注意力(捕获实例间几何)。

实验结果

他们在nuScenes和Argoverse2两个数据集上进行了大量实验。

两者都是常用的大规模自动驾驶数据集,且提供了地图标注。

主要结果。

在nuScenes上,他们进行了三组实验。

我们首先使用了一种比较纯粹的目标函数组合,只包括几何损失和其它必要的损失(如点到点距离、边的方向、分类),这一组合是为了体现我们提出的几何性质的重要价值,而不过多追求SOTA的结果。

可以看到,在这种情况下,相比于MapTR,我们的方法能在mAP提升了4%。为了探索GeMap的极限,团队还加上了一些辅助目标,包括分割和深度估计,在这种情况下实现了SOTA(mAP提升0.7%)。

值得注意的是,取得这样的提升并不需要牺牲太多的推理速度。

公子小白智能机器人

最后,我们还尝试了引入额外的LiDAR模态输入,在额外模态输入的加持下,GeMap的性能也能取得进一步提升。

同样,在Argoverse2数据集上也取得了非常突出的效果。

cpu3nm制程

消融实验。

在nuScenes上进一步进行的消融实验证明了几何损失和几何解耦注意力的价值。

有趣的是,正如团队所预料的,直接使用几何损失反而会带来模型表现的下降。他们认为这是因为结构上的对形状和关联处理的耦合,导致模型很难优化几何表示;而在与几何解耦注意力结合之后,几何损失就发挥了应有的作用。

更多结果。

此外,我们还在nuScenes上进行了可视化分析。可视化的结果表明,GeMap除了具有对旋转和平移的鲁棒性,在处理遮挡问题上也表现出了一定优势,如下图。图中有挑战性的地图元素使用橘色方框标出。

对于对遮挡的鲁棒性,在雨天的实验结果中也得到了定量验证。

(因为雨水对相机有天然的遮挡)

这可以解释为模型学到了几何性质,因此即使有遮挡,也能更好地猜出地图元素。

例如,模型理解了车道线的形状,那么只需要”看到“一部分,就能够估计剩下的部分;模型理解了车道线之间的平行关系,或者车道的宽度特点,因此哪怕其中一条被遮挡,也能根据平行、宽度因素猜测被遮挡的部分。

在自动驾驶系统中,几何性质实际上广泛存在。

例如,在3D目标检测中,车辆的朝向在同车道上通常具有一致性;在运动预测中,轨迹本身具有形状上的先验;在3D车道线检测中具有车道宽度先验。

GeMap的建模几何性质的思路可以恰当地扩展到上述更多的自动驾驶任务中,从几何角度增强整个自动驾驶系统的性能。

不过,GeMap本身的感知距离相对有限,可以对此进行针对性的改进以增强长距离的感知。

比较常见的思路包括增加时序融合模块;将相机、激光雷达、毫米波雷达等多种传感器输入有机地融合,实现感知距离上的优势互补。

论文链接:https://arxiv.org/abs/2312.03341

项目主页:https://invictus717.github.io/GeMap/

GitHub源代码:https://github.com/cnzzx/GeMap


返回网站首页

本文评论
笔记本未检测到电池_荣耀笔记本未检测到电池
当您开启您的笔记本电脑时,您可能会遇到一个非常让人头痛的问题,“”。这个问题不仅会导致您的电脑无法充电,也会影响到电脑的性能。下面我们将介绍这个问题的原因以及可能的解...
日期:05-29
雷军官宣小米汽车发布日 小米汽车AI人工智能应用有哪些?_小米智能汽车有限公司
最近关于雷军官宣小米汽车发布日的报道,小米集团宣布将推出小米SU7 汽车,标志着小米正式踏入汽车行业。这一举措显示了小米迈向“人车家全生态”构想的努力,加速了其高端化战略...
日期:03-12
国内汽车价格高的原因「国内车企缘何热衷价格战?, 16家车企“不降价承诺”反转」
 文/卞海川第一款国产安卓手机在日前举行的2023年中国汽车论坛上,特斯拉、比亚迪、上汽、一汽和蔚小理等16家国内主流车企,签署了《汽车行业维护公平竞争市场秩序承诺书》,承...
日期:09-20
transformer 多模态「多模态运动语言模型MotionGPT 可将语言指令转换为3D人体运动」
1月5日 消息:MotionGPT是一款令人惊叹的技术创新,它统一了语言和运动,将语言指令转换为引人入胜的3D人体运动。这一模型的设计灵感源于即时学习,通过混合运动语言数据进行预训...
日期:01-05
昔日安卓手机王者!HTC U23 Pro官宣:搭载骁龙7芯片_htc u20
快科技5月13日消息,HTC宣布将于5月18日发布新品U23Pro。目前这款新品谍照已在社交平台上曝光,它采用120Hz AMOLED全面屏,搭载高通骁龙7Gen1芯片,后置主摄是一亿像素(108MP),电池是4...
日期:05-14
变化极大的iOS 17要来了!苹果内测iOS 16.6系统:或为绝唱更新
快科技4月14日讯,苹果今年的WWDC开发者大会定档6月6日,届时,iOS 17系统将首发亮相,有望带来控制中心、灵动岛交互等重大变化。iOS 17的推出也意味着iOS 16更新即将进入收官阶段,...
日期:04-14
LLaVA++:为Phi-3和Llama-3模型增加视觉处理能力
4月28日 消息:LLaVA++项目通过扩展现有的LLaVA模型,成功地为LLaVA++和Llama-3模型赋予了视觉能力。这一改进标志着AI在多模态交互领域的进一步发展。主要创新点包括:美国大城...
日期:04-28
世界点击量前十网站 你用过哪些?_全球点击量前十的网站
  随着移动互联网的发展,在网站上浏览新闻、查找信息、购买商品等,成为大众网络生活真实写照,也已经成为大众习以为常的习惯。那么,你知道世界上点击量最大,最受欢迎的网站是...
日期:10-02
亚马逊给中国的零售业带来了什么机会「电商巨头亚马逊将关闭数十个仓库,增长率跌至 20 年来低」
IT之家 9 月 4 日消息,咨询公司 MWPVL 表示,在线零售巨头亚马逊正在关闭或放弃在在美国开设 42 家设施的计划,总可用空间近 2500 万平方英尺。彭博社表示,亚马逊还推迟了其他 21...
日期:09-09
达实智能高管年薪「达实智能的高管们学历都挺高 副总苏俊锋薪酬91.86万比董事长还高」
  运营商财经 杨杨/文  达实智能副总经理苏俊锋的薪酬位91.86万元,比董事长、总经理刘磅的都高,他都有什么经历呢?运营商财经试图揭秘。realme创始人、CEO 李炳忠  公开...
日期:07-23
818半价来袭:苏小团单店24小时最高达1000单
  当下,818发烧购物节正如火如荼进行中。苏宁作为主战场似乎也没有停歇,一直在为消费者密谋一场巨额优惠的活动。   今天刚到凌晨0点,苏宁小店官方就宣布半价日24小时战报...
日期:02-27
DNV GL开放INSTATRUST:高效、透明的可再生能源发电数字交易市场
  DNV GL 邀请可再生能源开发商加入该项目,加速全球市场达成可再生能源购电协议(PPA)   全球最大的独立能源咨询与认证机构DNV GL邀请可再生能源开发商与销售商拜访,探索...
日期:06-27
苹果 iPhone 14 Pro 相机在第三方 App 中出现画面模糊和抖动问题_苹果手机相机画面抖动
IT之家 9 月 19 日消息,综合外媒 9To5Mac 和 Apple Insider 报道,有部分苹果 iPhone 14 Pro 用户称,第三方 App 使用相机时出现了画面模糊和抖动问题,同时伴随着物理的嗡嗡声。...
日期:09-27
阿里云盘如何备份文件「实测阿里云盘备份盘可防和谐,重要文件永不被夹」
相信多数人都被网盘文件和谐的烦恼折磨过,但是很多人却不清楚,为什么上传到网盘的重要文件,那些珍贵的照片、文件,突然就消失不见了,是不是气得想捶墙?这是因为网盘会对上传的文件...
日期:08-21
电子邮件大战转向云战场:Gmail威胁Outlook
  9月20日消息,Gartner调查显示,Google公司的Gmail电子邮件服务在推出五年后,终于壮大到足以挑战微软Outlook Online和其它在线电子邮件服务的地步。   Gartner分析师说,Gm...
日期:07-23
Redmi新机开售:8+512G卖2099元_redmi note7价格
早在今年3月,Redmi就推出了面向1000多元入门市场的新系列“Redmi Note 11T Pro”其中拥有Note 11T Pro、Note 11T Pro+两款新机,首发价1699元起。吃金针菇有什么营养价值而现...
日期:10-03
人类真的没有生殖隔离吗?黄种人与白种人能够生育的神秘秘密揭示
人类的演化历程充满了神秘和谜团。在地球上的人类分布广泛,肤色、面貌、体型各不相同。有一项常被讨论的问题是:黄种人和白种人能否生育后代?或许你已经听过各种关于这个话题的...
日期:12-26
春日出行,鸣盏烧水杯温暖相伴
  每年新春,家里的小物件都要进行大换新。例如家里的保温杯、烧水壶用的太久了,该换一个了。对比很多家的烧水壶品牌,最终选择了鸣盏便携烧水杯。之所以会选择鸣盏烧水杯...
日期:07-16
消息称游戏设计软件开发商Unity准备分拆中国业务:正寻找投资者合作
windows正在更新office移动应用开发行业发展趋势高通4100芯片携号转网 诈骗   讯 北京时间8月3日早间消息,据报道,知情人士透露称,游戏设计软件开发商Unity Software准备分拆...
日期:08-04
OPPO Find X6屏幕细节曝光:支持2160Hz PWM超高频调光_OPPO Find X60
中关村在线消息:近日,有数码博主曝光了OPPO新一代旗舰——Find X6系列手机的一些屏幕细节,他表示,Find X6系列将拥有3.3xmm的下巴,采用号称最高屏占比的单孔曲面屏,支持最高2160Hz...
日期:11-14