本文内容整理主要来自知乎用户@巫婆塔里的工程师 发布的文章,建议大家去看原文(一位很有深度,专业性极强的宝藏博主,搬运的目的也是为了记录自己学习的过程,没有其他用途)侵权删。

1.前言

激光雷达作为一种可以直接并且精确获取3D信息的传感器,它与视觉的融合在多传感器感知系统中是非常重要的一环。既然是传感器融合,当然也逃不开老生常谈的两种模式:后融合(决策层融合)和前融合(特征层融合)。当然有的时候也会是二者的结合。

后融合主要是基于一些传统的方法,比如多目标跟踪,卡尔曼滤波状态估计等,另外也有一些基于机器学习模型的方法。后融合方法基本上不会区分具体融合的是什么传感器,因为融合的输入是各个传感器的感知结果。不管是什么传感器,感知结果的形式都是类似的(最常见的就是目标框,而融合的核心则在于如何关联来自不同传感器的感知结果。原博主原文中有关于后融合的一篇文章。

后融合方案目前在自动驾驶的量产系统里仍然是主流,但是随着端到端范式的兴起,前融合方法会变得越来越重要。其实,前融合就是感知模块的端到端,是端到端自动驾驶系统的一个组成部分。

特征和决策层的混合融合,通常是一种传感器提供目标框proposal,另外一种传感器提供辅助特征。这种方式严重依赖于单一传感器提供的proposal质量,无法充分利用传感器数据之间的互补性

特征层融合,在早期的方法中主要是在图像视图(Perspective View,PV)下进行融合。激光点云具有3D信息,因此可以准确的转换到图像平面,与图像像素进行关联。然后,我们可以选择图像像素附加上激光点云的几何特征,也可以反过来给激光点云附加上图像特征。后续的任务也就可以相应的在图像或者点云数据上进行,只不过这里无论是图像特征还是点云特征都是经过融合增强了的。但是,无论采取那种方式,都会带来信息的损失。如果以图像为主导,激光点云投影到图像平面会丢失3D信息。如果以激光点云为主导,由于其稀疏性,图像中丰富的语义信息也无法充分利用。

近几年,BEV方法逐渐成为视觉感知的主流方案,解决了视觉特征从PV到BEV的转换问题。LiDAR点云本来就在3D坐标下,可以很容易的生成BEV视图特征。统一到BEV视图后,两种传感器的特征融合变得更加方便,而且理论上没有信息的损失。接下来,本文就对最新的视觉和激光雷达融合方法进行梳理,尤其是BEV视图下的特征(前)融合

这些特征融合方法大致可以分为两类。一种是图像和激光分支分别生成稠密的BEV特征(激光提供增强的深度信息),两种特征利用拼接操作或者交叉注意力进行融合。另一种是直接用稀疏的交叉注意力来融合不同传感器的特征(不要求特征在同一视图下),但是这种方式无法接下游的稠密感知任务。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐