BEV感知融合框架-526互联

BEVPerception Survey 最新文献综述研究主要包含三个部分 ——BEV 相机、BEV 激光雷达和 BEV 融合。BEV 相机表示仅有视觉或以视觉为中心的算法，用于从多个周围摄像机进行三维目标检测或分割；BEV 激光雷达描述了点云输入的检测或分割任务；BEV 融合描述了来自多个传感器输入的融合机制，例如摄像头、激光雷达、全球导航卫星系统、里程计、高清地图、CAN 总线等。

BEV 感知工具箱是为基于 BEV 相机的 3D 对象检测提供平台，并在 Waymo 数据集上提供实验平台，可以进行手动教程和小规模数据集的实验。

图 1：BEVPerception Survey框架

具体来说，BEV 相机表示用于从多个周围相机进行 3D 对象检测或分割的算法；BEV 激光雷达表示用点云作为输入来完成检测或分割任务；BEV 融合则是用多个传感器的输出作为输入，例如摄像头、LiDAR、GNSS、里程计、HD-Map、CAN-bus 等。

BEVPercption 文献综述研究

No.1

BEV 相机

BEV 相机感知包括 2D 特征提取器、视图变换和 3D 解码器三部分。下图展示了 BEV 相机感知流程图，在视图变换中，有两种方式对 3D 信息进行编码 —— 一种是从 2D 特征预测深度信息；另一种是从 3D 空间中采样 2D 特征。

图 2：BEV相机感知流程图

对于2D 特征提取器，2D 感知任务中存在大量可以在 3D 感知任务中借鉴的经验，比如主干预训练的形式。

视图转换模块是与 2D 感知系统非常不同的一方面。如上图所示，一般有两种方式进行视图变换：一种是从 3D 空间到 2D 空间的变换，另一种是从 2D 空间到 3D 空间的变换，这两种转换方法要么是利用在 3D 空间中的物理先验知识或利用额外的 3D 信息监督。值得注意的是并非所有 3D 感知方法都有视图变换模块，比如有些方法直接从 2D 空间中的特征检测 3D 空间中的对象。

3D 解码器接收 2D/3D 空间中的特征并输出 3D 感知结果。大多数 3D 解码器的设计来自基于 LiDAR 的感知模型。这些方法在 BEV 空间中执行检测，但仍然有一些 3D 解码器利用 2D 空间中的特征并直接回归 3D 对象的定位。

No.2

BEV 激光雷达

BEV 激光雷达感知的普通流程主要是将两个分支将点云数据转换为 BEV 表示。下图为 BEV 激光雷达感知流程图，上分支提取 3D 空间中的点云特征，提供更准确的检测结果。下分支提取 2D 空间中的 BEV 特征，提供更高效的网络。除了基于点的方法能在原始点云上进行处理外，基于体素的方法还将点体素化为离散网格，通过离散化连续的 3D 坐标提供更高效的表示。基于离散体素表示，3D 卷积或 3D 稀疏卷积可用于提取点云特征。

图 3：BEV激光雷达感知流程图

No.3

BEV 融合

BEV 感知融合算法有 PV 感知和 BEV 感知两种方式，适用于学术界和工业界。下图展示了 PV 感知与 BEV 感知流程图的对比，两者的主要区别在于 2D 到 3D 的转换和融合模块。在 PV 感知流程图中，不同算法的结果首先被转换到 3D 空间中，然后使用一些先验知识或者手工设计的规则进行融合。而在 BEV 感知流程图中，PV 特征图会被转换到 BEV 视角下，然后进行 BEV 空间下的融合从而得到最终的结果，因而能够最大化保留原始特征信息，避免过多的手工设计。

图 4：PV感知(左)与BEV感知(右)流程图

适用于 BEV 感知模型的数据集

针对 BEV 感知任务存在很多的数据集。通常数据集由各种场景组成，并且每个场景在不同数据集中的长度不同。下表总结了目前学界常用的数据集。我们可以从中看到 Waymo 数据集相比其他数据集有着更多样的场景以及更丰富的 3D 检测框的标注。

表 1：BEV 感知数据集一览