萧箫发自凹非寺量子位|公众号QbitAI只需“100K大小的外挂”,就能让自
08月04日 12:30
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI
(资料图片仅供参考)
只需“100K大小的外挂”,就能让自动驾驶AI识别 “物体运动状态” 的能力大幅上升!
这是一项来自香港大学计算机视觉与机器智能实验室 (CVMI Lab) 和TCL AI Lab的新研究,目前论文已被CVPR 2023收录。
研究提出了一种叫做 MarS3D 的轻量级模型,给原本只能识别物体“是什么”的 语义分割 模型用上后,就能让它们进一步学会识别这些物体“是否在动”。
而且是任意主流模型 即插即用 ,几乎不需要额外的计算量 (推理时间只增加不到秒) ,目前已 开源 。
要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于3D点云语义分割模型的准确率和效率。
如果想提升模型识别“运动物体”的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。
相比之下,MarS3D参数量只有约100K大小,却能将主流点云分割模型的性能提升 近5% 。
这究竟是怎么做到的?
首先要了解一下3D点云的两种语义分割任务,单扫描 (single-scan) 和多扫描 (multi-scan) 。
这两种方法的核心差异,在于能否区分物体的 运动状态 。
单扫描 任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车:
多扫描 任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。
换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体 是否在运动 。如汽车标签扩展成“运动的车”和“不动的车”,以及行人扩展成“运动的行人”和“不动的行人”:
目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。
虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让AI掌握识别物体运动状态的能力,但存在两个问题:
一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是“争分夺秒”的自动驾驶系统无法接受的。
为了解决这两个问题,让语义分割模型又快又好地掌握识别“运动物体”的方法,MarS3D横空出世。
即使之前模型只能做单扫描语义分割,给它加个MarS3D后,不仅能大幅提升多扫描语义分割能力,区分物体“是否在运动”,效果还比其他多扫描方法更好。
所以,MarS3D的核心思路是什么?
具体来说,模型设计了一个基于2D CNN网络的分支 BEV Branch ,这个模型能提取点云数据转换的BEV (Bird’s Eye View) 表征,即自上而下的鸟瞰视角。
之所以选用BEV,主要有两个原因。
一方面,目前的运动物体基本都是在地上跑 (即使在空中飞,也几乎不存在垂直上升的情况) ,也就是说,几乎所有的运动都在水平面上有位移,因此它能很好地反映物体在绝大部分场景中的运动状态;
另一方面,BEV相比点云数据量更小,还能通过参考帧和特征图相减,降低点云稀疏性带来表征不稳定的问题,即同样静态区域的表征近似,含有动态物体区域的表征距离更远。此外,多尺寸卷积对表征抽取特征图,以保证模型对不同运动速度的物体都有很强感知力。
随后,将这个分支提取的运动状态信息特征、和其他被时序嵌入向量增强的单扫描任务模型分支 3D Branch 提取的语义信息特征结合起来,进行特征融合,最终实现语义分割。
那么,这样实现的3D点云语义分割,效果究竟怎么样?
相比和其他输入如RGB图像进行结合,论文重点测试了模型针对纯点云输入的分割效果。
从下表可见,对于SemanticKITTI数据集,在目前主流的单扫描点云分割模型如SPVCNN、SparseConv和MinkUNet上,MarS3D在只给模型增加的情况下 (参数量增加不到%) ,将性能 (mIoU) 分别提升了%、%和%。
同时,计算时间 (延迟) 只增加了19ms、14ms和28ms。
5%对于模型分割性能提升有多显著?下图是在两个扫描场景中,模型增加MarS3D前和增加后的效果对比,其中左图是增加前,中间是增加后,右边是真实值:
显然,增加MarS3D后模型识别物体的效果要更好。
直接将分割效果和真实值对比,可见增加MarS3D后的“错误值”,比增加前要低不少:
整个推理过程,只需要一块英伟达GeForce RTX 3090 GPU就能搞定。
对MarS3D感兴趣的小伙伴们,可以去试试了~
项目地址: /CVMI-Lab/MarS3D
论文地址: /abs/
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
关键词:
萧箫发自凹非寺量子位|公众号QbitAI只需“100K大小的外挂”,就能让自
08月04日 12:30
格隆汇8月2日丨有投资者向凯旺科技(301182 SZ)提问,“公司旗下研究院
08月04日 12:29
华声在线8月1日讯(通讯员彭展)近日,中华全国总工会、科学技术部、工
08月04日 12:30
聊聊一篇欧杰,对于朱欧杰简单介绍的文章,网友们对这件事情都比较关注
08月04日 12:29
沪苏湖铁路是连接上海、苏州、湖州等城市的快速铁路通道。截至目前,沪
08月04日 12:29
近日,厦门市同安区市场监督管理局公示4批次不合格食品风险控制情况。
08月04日 12:27
据SMM光伏视界消息,7月胶膜出货大增,价格已全面上调,其中,透明EVA
08月04日 12:29
7月30日,由乌鲁木齐开往北京西的Z180次列车因暴雨临时停靠在北京门头
08月04日 12:25
头脑灵活,快速学习和理解,总是能够做出明智的决策,将来10月生肖鸡之
08月04日 12:19
人民网上海8月2日电近日,首次长三角地区越冬水鸟同步调查报告经江浙沪
08月04日 12:16
Uber(UBER N)美股盘前上涨4 7%,该公司公布第三季度总订单量预测值高于预期
08月04日 12:16
激光被誉为“万能加工工具”,是21世纪与原子能、半导体、计算机并称的
08月04日 12:17
记者 李想俣实习生 张志浩黄思韵杨欣雨杜鑫编辑 刘汨涿州众多临近河道
08月04日 12:15
据意大利国家统计局7月31日最新数据,二季度意大利国内生产总值(GDP)环
08月04日 12:21
据百度公众号,8月3日,百度宣布调拨3000万资金,持续用于支援京津冀等
08月04日 12:20
不知道是不是被梅西激怒了,在上半场他进球后,奥兰多城对梅西的防守动
08月04日 12:27
苹果CFOLucaMaestri:第三财季业绩季环比改善,所有地缘市场的活跃设备
08月04日 12:26
中交管理荣登2023中国房地产代建企业品牌10强TOP10。
08月04日 12:19
美国亚利桑那州立大学研究人员对太阳系陨石上的小斑点开展了最新分析,
08月04日 12:23
2023年8月4日,读者社群信息!,床垫,家具,家居,浴室柜,博古架,自然风,
08月04日 12:14
8月3日,太平智行三个月定开混合发起式最新单位净值为0 7427元,累计净
08月04日 12:25
新西兰元对人民币汇率多少?8月3日新西兰元汇率实时查询,新西兰元对人
08月04日 12:25
深圳打造世界一流汽车城:三电、三智等核心技术全球领先
08月04日 12:20
北京连日强降雨导致位于西南部的房山区、门头沟区等地洪涝地质灾害严重
08月04日 12:22
本月,一汽红旗HS3正式于吉林长春上市,新车以“大有可为”的产品实力
08月04日 12:26
IT之家8月3日消息,根据@teslashanghai最新消息,项目代号“ProjectHig
08月04日 12:18
直播吧8月4日讯据意大利记者阿尔巴内塞的消息,尤文图斯的两名球员弗拉
08月04日 12:15
湖北省创建国家水情教育基地工作受水利部肯定---湖北日报讯(记者艾红
08月04日 12:25
时隔近一年后拿地,如此缓慢的投资节奏远无法满足杭州万科。因此,万科
08月04日 12:20
苹果CFO:第四财季同比业绩将与第三财季相似,第四财季iPad和Mac的收入
08月04日 12:27