A Guide to Image and Video based Small Object Detection using Deep Learning : Case Study of Maritime Surveillance

基于图像和视频的小对象指南使用深度学习进行检测：的案例研究海上监视

1 介绍

在本文中我们对 2017 年至 2022年间发表的 160 多篇研究论文进行了全面回顾，以调查这一不断发展的主题。本文总结了现有文献并提供了个分类法来说明当前研究的概况。我们研究如何提高海洋环境中小物体检测的性能，其中提高性能至关重要。通过在通用 SOD 研究和海事 SOD 研究之间建立联系，未来的方向已经确定。此外，还讨论了用于通用和海事应用的 SD的流行数据集，并且还提供了一些数据集上最先进方法的众所周知的评估指标。

尽管 SOD 方法在海上监视中具有广泛的潜在用途，但与其他应用不同，该领域尚未得到应有的探索。这可能是由于与其他应用程序的数据集相比，海洋环境的公开可用数据集较少的结果。

地球上大约 70% 的面积被水覆盖，因此全球大部分贸易和货物运输都是通过海上进行的 [54]。这就需要准确监测救援任务的环境，避免碰撞、漏油污染、非法货物、非法走私、渔业倾倒污染物以及不明船只越境。尽管自动识别系统（AIS）可以用来监控船舶，但许多小型甚至中型船舶缺乏这种技术，或者在进行非法活动时故意将其关闭。因此，开发能够检测和识别微小物体的广泛自动化系统船至关重要。合成孔径雷达 (SAR) 技术自 20 世纪 90 年代以来一直是领先技术，提供前所未有的性能和来自正常大型船舶的强烈信号反射响应。然而，雷达截面较小的中小型目标的反射信号相对较弱，由于观察到的散斑乘性噪声而难以识别目标，从而导致大量误报。此外，由于时空覆盖范围有限，SAR无法提供全球范围的监测。这为海洋环境开辟了广泛的研究机会，包括基于图像和视频的物体检测。

文献中对“小物体”有多种定义，但大多数研究将小物体定义为小于 32×32 像素的物体。在高分辨率图像中，小物体是指覆盖图像面积不到 10% 的物体 [46]。这个定义意味着感兴趣的物体在颜色、形状、纹理或任何其他类型的视觉可辨别信息方面不提供太多信息，使得 SOD 的任务特别具有挑战性。小的原因主要有两个物体出现在图像和视频中。

小物体检测的任务通常通过各种计算机视觉技术来执行，例如语义分割、前景背景（FB）分离、异常检测、回归和最终分类。文献中还在 SOD 背景下探讨了许多数据模式，包括AIS 数据、星基 SAR 和多光谱数据、机载 SAR、无人机(UAV) 的多光谱数据、机载（船基）数据、无人水面舰艇等）视觉（RGB 视频和图像）、红外（IR）和近红外（NIR）数据，最后是岸基数据，包括视觉数据（RGB 视频和图像）等。这些模式通常在以下方面有所不同：其空间和时间分辨率、获取数据的成本、延迟、鲁棒性、覆盖范围等[55]。例如，可以远程访问星载数据（卫星）。位于地球静止轨道上的卫星也可以在保持相同足迹的同时捕获地球表面的图像。该技术产生的数据量相当大，通常不适合连续监测[55]。此外，星载光学图像会受到恶劣天气（云层覆盖感兴趣物体）的影响，而雷达数据的分辨率较低。红外成像特别适合夜间监控。然而，它在白天变得饱和并且不提供颜色信息。另一方面，光学成像提供丰富的色彩信息、实时操作、足够的空间分辨率，并且相对便宜。特别是，星载光学传感器的数量不断增加，并且由于其出色的空间覆盖范围而变得越来越受欢迎。因此，本调查论文将重点关注光学相机从太空、空中、近海和近海获取的图像或视频。

文章的贡献：
• 首先，我们回顾通用的小物体检测方法。这是第一篇探讨使用深度学习框架（包括 CNN 和 Transformer）进行小物体检测的图像和视频模式的综述（之前的任何调查中都没有涉及到 Transformer）。我们对文献的仔细审查使我们能够确定研究差距并提出潜在的研究方向。
• 我们的研究发现海洋环境中的物体检测是一项重要且具有挑战性的任务，除了通用 SOD 之外，我们还对海洋环境中的 SOD 进行了系统综述。
• 通过比较通用 SOD 文献和海事 SOD 文献之间的联系并建立联系，突出了这两个领域可能的研究方向。
• 可用的数据集数量有限，我们认为这对于不在该研究领域工作的研究人员来说是主要障碍。因此，为了更有效地探索未来的研究，我们编制了针对 SOD 的最相关和最全面的数据集（50 个数据集）。
• 最后，确定了现有工作的局限性以及未来可能的方向，以及可能对 SOD 有用的潜在工具。

2 SOD面临的挑战

• 由于代表每个对象的像素数量较少，SOD 会丢失网络深层的几何信息，从而导致错误的对象检测。
• 小物体通常被较大物体遮挡，由于其特征值相对较弱，它们提取的特征表现得像杂波。
• 常用的物体检测评估指标并不适合小物体。当边界框很小时，这些指标可能变得非常敏感，导致低估方法甚至错误的解决方案。
• 与常规尺寸的物体检测相比，迄今为止发布的小物体数据集非常少。
• 为了在视频对象检测中注释真实人类注释帧之间的真实帧，最常用的软件使用插值来绘制边界框（例如，它们注释第 1 和第 10 帧，假设线性运动，并使用线性插值来注释之间的框架）。这不是问题对于大型物体检测，但是它可能会为 SOD 产生非常嘈杂的真实标签。因此，SOD 方法应对此类偏差具有鲁棒性。

与海洋环境中的小物体检测相关的挑战包括：

• 水和波浪的光反射会导致视频帧中的照明发生快速变化。
• 海洋环境的动态特性和恶劣的天气条件大大缩小了视野范围，使图像变得模糊或朦胧。因此，此类环境因素会对探测性能产生不利影响，特别是在使用被动遥感成像来探测船舶时。
• 大多数海洋数据集都是航拍的。因此，根据目标的视角和相对位置，物体在图像中可能会出现扭曲，或者可能以不同的尺度、结构和形状出现，这使得检测更具挑战性。
• 船舶数据集可以显示比类间变化更大的类内变化，从而增加了海事 SOD 的复杂性。
• 获取航空数据时，相机对物体的视角可能会在帧之间快速变化。像这样的高度动态场景可能会导致 SOD在许多帧中丢失对象。
• 特别是对于安装在船上的摄像机，图像数据显示出由于不规则抖动、船体摇摆和船体起伏而导致的高频抖动和低频视场偏移。

3 通用小物体检测

3.1 基于图像的SOD

3.1.1 数据增强

数据增强。在计算机视觉中，数据增强通常用于解决标记数据样本有限的问题。其目标是生成大量、高质量且多样化的训练数据集，使深度学习模型更加稳健和通用。传统的数据增强方法大致可分为：
(i) 基于几何变换，包括旋转、缩放、翻转、裁剪、填充、平移、仿射变换等。
(ii) 基于光度变换，即改变颜色分量，包括亮度、对比度、色调、饱和度等。

然而，与中型或大型物体相比，现有的物体检测方法通常在小物体上表现较差。主要原因有两个：
（i）训练数据集中包含小物体的图像少得多，导致模型偏向中型或大型物体。
(ii)在那些包含小物体的图像中，小物体区域太小，导致匹配的锚点数量有限。即，这降低了小物体被检测到的概率。

相应地提出了两种数据增强方法。 (i)采用过采样方法增加小物体的训练样本数量。（ii）为了增加单个图像中出现的小对象的数量，使用小对象的多次复制粘贴来增加锚点与小目标对象匹配的可能性。

对象导致特征信息不足以进行准确的检测预测。为了解决这个问题，一种简单的方法是执行超分辨率，即从低分辨率图像中恢复高分辨率图像。小物体检测通常有两种类型的
超分辨率策略：（i）图像超分辨率和（ii）特征超分辨率。哈里斯等人。建议在检测网络之前连接一个超分辨率网络以进行端到端训练。超分辨率过程也是由检测目标驱动的，从而产生更好的面向检测的超分辨率图像。白等人。提出了一种用于小目标检测的多任务生成对抗网络（ SODMTGAN）。更具体地说，SOD-MTGAN 由以下部分组成：（i）从小的模糊图像中重建超分辨率 RoI 图像的生成器，以及（ii）多任务鉴别器，对超分辨率 RoI 图像执行检测并区分真实的 RoI 图像。来自假生成图像的高分辨率 RoI 图像。图像超分辨率可以帮助恢复图像中小物体的细节，从而使检测性能得到一定程度的提高。然而，基于图像超分辨率的小物体检测方法存在一些局限性。首先，超分辨率的整个图像不可避免地会放大其他不相关的区域，这会对检测性能产生不利影响。其次，如果仅对RoI图像进行超分辨率，则由于缺乏上下文信息，超分辨率RoI图像上的目标检测将在很大程度上限制检测性能。第二个限制可以通过对由上下文卷积生成的深度特征图执行超分辨率来缓解。李等人提出了一种感知 GAN，通过生成无法与大物体特征区分开的小物体超分辨特征来改进小物体检测。同样，Noh 等人使用GAN为小物体生成超分辨率特征。这被证明可以通过提供一个显着提高检测性能使用具有适当感受野的高分辨率特征来直接监督学习小物体的超分辨率特征。 Pang 等人在他们的文章中。引入了一个称为 JCS-Net 的统一网络，用于集成分类和超分辨率任务，并利用大尺度物体和小尺度物体（行人）之间的关系来恢复详细信息。最后，其他几种方法执行半预处理步骤以提高检测性能。例如作者使用重叠平铺技术来增加训练阶段出现小物体的可能性。

3.1.2 深度学习架构

Transformer。一些研究建议按照 Dosovitskiy 等人的研究，使用 Transformer 来检测物体。等人的开创性工作。视觉变压器（ViT）首次在 ViT-FRCNN中使用，以检查变压器用于复杂目标检测任务的可行性。然而，SOD结果表明所提出的方法并不合适，需要进行修改以提高检测性能。

提出了一种集成视觉和检测变压器（ViDT）的方法，并引入了三个主要贡献：（i）一种称为重新配置注意力模块（RAM）的新注意力机制； (ii) 轻量级无编码器颈部结构； (iii) 用于知识蒸馏的令牌匹配。混合架构。各种研究都提出了使用 CNN 和 Transformer 架构。最常见的方法是首先使用 CNN 网络作为主干并提取几个合适的特征图。然后这些特征图应该被输入到变压器中以进行决策。在基于Transformer 的目标检测 (OD) 的早期工作。提出了在 CNN 之上使用 Transformer（带有编码器和解码器）的 DEtection TRansformer (DETR)。 DETR 的性能优于仅基于 CNN 的 SOTA 方法，同时减少了对非极大值抑制(NMS) 等复杂后处理步骤的需求。考虑到DETR的计算成本，[111]提出了另一种紧凑的端到端变体，它用低阶矩阵表示一层中的大权重矩阵。此外，[112]中提出了仅解码器检测器（D2ETR）来解决复杂性。此外，[113]中引入了 DETR 的两个额外修改，以增强学习和 SOD 性能。首先，为了更新查询的位置信息，解码器中添加了一个名为引导查询位置（GQPos）的模块。其次，作者提出了类似注意力（SiA），这是一种新的融合方案，可对低分辨率注意力权重图进行插值以生成高
分辨率注意力图，因为多尺度特征学习的计算成本很高。这个想法的动机是物体的相对位置在不同尺度上是唯一的。Zhu等人提出了一种基于可变形注意力（遵循可变形卷积的思想[114]）并只关注一小部分采样位置的CNN变换器。 [115]，其优点是训练速度比 DETR 快得多（训练次数减少了 10倍）。通过添加多尺度可变形注意力模块，SOD 性能也得到了提高。他们的方法被称为“Deformable DETR”。尽管 DETR和 Deformable DETR 仅考虑空间信息，但它们对于视频 SOD来说仍然足够快。一种新方法9[116] 中提出了提取小尺寸特征 SOF-DETR 以及归一化归纳偏差。简而言之，SOF-DETR 使用输入图像的多尺度特征表示。因此，变压器的输入捕获更丰富的信息（语义和几何信息），更适合 SOD。仅在 DETR 和 Deformable DETR 中的 CNN 模块上进行预训练，而不在 Transformer 模块上进行预训练。[117] 解决了这个问题，他提出了 UP-DETR，它利用无监督的预训练来训练预训练的 CNN 主干网络。然而，由于Transformer 和 CNN 的预训练是分开进行的，因此它们不太可能一起表现良好。在 FP-DETR [118] 中，在使用任务适配器微调对象检测任务之前，使用 ImageNet 在编码器模块
（而不是解码器）上执行预训练。在[119]中，提出了一种基于变压器的目标检测框架（RESC），它最大限度地减少了后处理步骤和超参数的数量。 RESC 比 DETR 收敛得更快。除了更轻之外，它还可以使用 FPN 结构 [29] 来检测小物体。

3.1.3 特征学习

多尺度学习。多尺度特征学习是 SOD 最常见的方法之一，并且已经开发了多种架构来支持它。

情境学习。对象不是孤立的，它们通常与其他对象或特定背景共变，这提供了丰富的上下文关联源。对于上下文学习，通常有两种类型的方法：（i）深度 CNN 提供了一种隐式方法，通过卷积和池化操作对每个像素的空间上下文进行建模。为了融入局部上下文信息，现有方法通常手动选择周围区域并聚合其特征以增强目标区域特征[128]，[129]。为了对全局上下文信息进行建模，通常采用扩大感受野以覆盖整个图像并执行全局池化。此外，贝尔等人。 [130]将特征图视为按四个基本方向排列的四个特征图序列，即、右、左、上、下，并提出通过使用四个循环神经网络（RNN）来处理每个序列并连接输出来对全局上下文信息进行建模。为了增强深度CNN 的上下文学习，已经开发了许多策略来捕获多尺度上下文 [131]、[132]（请参阅第 4.1.3 节中的多尺度学习）。此外，注意力机制已被用来有效地提取用于对象检测的上下文信息[128]，[133]。 (ii)另一类方法涉及对上下文信息进行显式建模，例如语义级别或空间布局方面的场景到对象和对象到对象的关系。傅等人。 [134]提出了一种用于小物体检测的上下文推理方法，该方法利用图卷积网络（GCN）使用物体区域的语义特征和空间几何信息（即位置、大小和长宽比）来建模物体与物体之间的关系）。使用学习到的上下文关系，然后更新分类和回归的区域特征，从而提高检测小物体的性能。冷等人。 [135]提出对对象到对象的关系进行建模，并使用可靠的对象提案及其成对关系来帮助分类和定位模糊的对象提案。

区域提案。更高的输入图像分辨率可以大大增强深度网络的 SOD 性能。然而，使用高分辨率数据需要更多的计算能力。为了缓解这一瓶颈，一种方法是选择最有希望的区域并丢弃输入图像的其余部分。QueryDet 由 Yang 等人开发。 [136]首先粗略地定位小物体，然后参考高分辨率特征图以更好地调整边界框坐标。博斯克特等人。 [137]提出了 STDnet，它依赖于两个组件：区域上下文网络（RCN）和感兴趣区域（ROI）收集层（RCL）。由于仅处理特定区域，高分辨率特征图被保留在更深的层中，从而提高了 SOD 性能。此外，为了提高适应性，锚框的数量和大小都是通过[137]中的kmeans学习的。在[138]中，MdrlEcf 被提出作为一种利用深度强化学习（DRL）的方法，将新的奖励函数和有效的注意力网络添加到 CNN 中，用于具有高分辨率遥感图像的SOD 任务。基于 FastMask [139]，Wilms 等人。[140]提出了 AttentionMask，一种非常适合 SOD的与类无关的对象提议生成算法。 AttentionMask受生物学启发，包含特定比例的注意力图。

3.1.3 损失函数正则化

虽然大多数现有方法侧重于重新设计神经网络架构或利用一些先验信息来提高 SOD 性能，但很少有工作采用不同的损失函数或在经典损失函数中添加惩罚项来提高 SOD 性能。我们可以引用 RetinaNet [39]，它旨在通过将与网络置信度成比例的项乘以经典的交叉熵损失来关注最具挑战性的样本（例如，小物体）。

4 总结

我们对小物体检测文献的回顾发现了一些局限性，本节对此进行了总结。
• 然而，Transformer 模型最近极大地有益于计算机视觉和物体检测SOD领域尚未充分利用它们。对于基于视频的 SOD 来说，这一点尤其严重。
• 虽然已经对通用 SOD 任务进行了几项研究，但他们要么使用了小物体的不同定义，么错过了在专用于小物体的公开数据集上报告他们的实验，或者他们使用了具有相对较大物体的通用数据集的子集。以 MSCOCO 为例：（i）该数据集不适合研究小物体； (ii)小物体使用不同的定义（例如 32 32 或16 16); (iii) 使用小对象的一小部分，这可能会导致偏差并使基准测试变得困难。由于这些差异，比较不同的技术通常是困难且具有挑战性的。
• 与基于图像的 SOD 相比，基于视频的小物体检测(VSOD) 技术仍在不断发展，只有少数作品使用时间信息来检测物体
• 目前尚未对海事 SOD 文献进行任何适当的基准测试，并且研究很少使用相同的大规模数据集。对于 VSOD，速度和实时监控海上环境的能力至关重要。最近的研究忽视了这一点并且没有报告FPS，对于实时监测海洋环境至关重要。
• 大多数研究（主要在海事应用中）直接应用流行的模型（例如 YOLO），仅进行少量修改，导致给定 SOD应用的性能较差。
• 大物体检测技术的 mAP 通常较高。另一方面，SOD方法的精确度仍然较低，需要未来进一步研究。

5 未来发展方向

考虑到所审查工作的局限性，我们建议 SOD 的未来研究方向如下：
• 鉴于基于 Transformer 的深度学习方法应用于基于图像的通用小物体检测时取得的有希望的结果，我们相信该模型有潜力在海洋环境中的 VSOD 和 SOD 中取得优异的结果
• 为了公平的基准测试，研究人员应该报告他们在大型数据集上的性能结果，例如 Tsinghua-Tencent 100K、CURE-TSD 、USC-GRADSTDdb 、DOTA 、VisDrone2021for generic SOD 和 TinyPerson、ETRI-Maritime、MOBDrone、Seagull、SMD、 SeaDronesSees 用于海事 SOD。
• 目前的大多数研究都利用视频中的空间信息，并没有充分探索时间信息；然而，当视频质量较差或物体被遮挡时，空间和时间信息可以一起使用，以最大限度地减少误报和漏检小物体，这在海事应用中尤其重要。
• 先前的大多数研究都试图提高 SOD 方法的准确性，但这导致计算复杂性增加，这对于实时监测来说是不可取的。因此，有必要研究准确且轻量级的网络。
• 尽管多任务或联合学习管道在小目标识别的全局特征提取方面取得了有希望的结果，但该领域尚未得到深入研究，并且该领域仅发表了几篇论文
• SOD 文献中报道的大多数方法都基于标准 2D-CNN。因此，3D-CNN 可以作为扩展基于 2D-CNN 的视频方法的替代方案。此外，处理有限空间信息的图像中小物体的定义可以扩展到视频。在视频中，小物体可以被重新定义为时空信息有限的物体。这里，有限的时间信息是指小物体（空间小）仅出现在视频的几帧中。有了这个新定义，所有使用 2D-CNN 的 SOD 现有工具也可以应用于 3D-CNN，例如金字塔网络。
• 尽管大多数海洋物体都很小（因为相机到物体的距离很大），分析这两个领域的作品分类（即，通用与海事），一些想法仅应用于一个领域，而其他领域尚未利用它们。接下来，我们将研究这些想法这两个领域并讨论它们的潜力。
(i) 虽然超级分辨率提高了通用 SOD 性能，但尚未针对海事 SOD 进行研究。
(ii) 在海上 SOD 中，图像增强用于提高恶劣海上条件下的能见度。然而，它尚未被用于通用SOD。不过，恶劣的天气条件也可能会阻碍自动驾驶等应用。
(iii) 海陆分割是另一种广泛使用的海上SOD 技术，可减少误报数量。当有关物体位置的先验信息可用时，这种方法也可用于通用 SOD。例如，行人预计不会出现在天空中。
(iv) 情境学习的使用已成功提高通用 SOD 性能。然而，海洋环境不太适合这种方法，因为水是背景的主要组成部分。
(v) 尽管循环网络在时间序列和自然语言处理等顺序数据分析方面取得了成功，但对基于视频检测的循环网络性能的研究仍然有限。