作者丨GrokCV
来源丨GrokCV
编辑丨极市平台
arXiv 地址 :https://arxiv.org/abs/2409.19833
开源地址 :https://github.com/GrokCV/HazyDet
一句话概括:
本文介绍了 HazyDet,一个在恶劣天气条件下用于无人机目标检测的开源基准数据集,并提出了一个深度感知的检测器(DeCoDet),利用场景深度信息提升检测性能。
研究背景
在现代社会,无人机已经成为我们生活中不可或缺的一部分。它们被广泛应用于物流配送、农业监测、安防巡逻等多个领域。然而,无人机在恶劣天气条件下执行任务仍然面临着诸多挑战。
图 1. 恶劣天气下工作的无人机
恶劣天气,如浓雾、大雨、暴风雪等,不仅会影响无人机的飞行稳定性,还会对其所搭载的传感器造成严重干扰。在这样的环境中,无人机需要更加可靠的感知能力,以确保任务的顺利完成和飞行的安全性。研究和开发能够在恶劣天气下有效工作的无人机视角目标检测技术,不仅能提高无人机的工作效率,还能拓展其在极端环境中的应用范围,确保在各种天气条件下都能可靠地执行任务。
相关数据集的匮乏
图 2. 相关数据集
在计算机视觉领域,COCO 和 VOC 等数据集扮演了至关重要的角色,为目标检测和图像分割等任务提供了丰富的标注数据。近年来,针对无人机视角目标检测任务,研究者们也开发了多个数据集。例如,CARPK 数据集包括 1,448 张无人机拍摄的停车场图像,标注了 89,777 辆汽车。UAVDT 数据集提供了约 40,000 张图像,每张图像的分辨率约为 1080×540 像素,标注了城市环境中的汽车、公交车和卡车。VisDrone 是最广泛使用的数据集之一,包含 10,209 张图像,详细标注了十个物体类别,包括边界框、遮挡和截断比例。这些数据集的出现极大地推动了深度学习算法的发展,使得研究人员能够在标准化的环境中测试和比较不同的方法。
然而,这些数据集通常集中在清晰、理想的正常天气条件下。随着无人机在恶劣环境中的部署日益增多,对于相关场景的数据需求更加明显。针对大雨、浓雾、暴风雪等极端天气的无人机视角目标检测数据集相对缺乏,已成为一个亟待解决的问题。
现有方法
尽管通用目标检测领域取得了重要进展,但将这些方法直接应用于恶劣天气下的无人机目标检测往往未能达到预期效果,这主要是由于无人机视角和环境条件所致:
- 尺度变化:无人机图像由于视角和高度的变化,通常表现出显著的尺度变化,同时小物体的比例更高。
- 非均匀分布:与常规视角下目标集中于画面中心不同,无人机拍摄的图像中物体分布更为分散。
- 图像退化:在恶劣天气条件下,大气传输受损,导致能见度降低和图像颜色失真,影响图像质量,进而影响基于视觉的感知。
- 域间差距:天气引起的图像退化会影响特征识别,导致特征语义模糊,形成显著的域间差距。
为应对这些挑战,研究人员提出了一些针对性的设计:
- 多尺度特征融合 :通过特征金字塔和多分辨率架构捕捉不同尺度的物体,改善检测精度,缓解尺度变化的影响。
- 粗到细策略 :采用粗略检测器识别较大实例,再应用细粒度检测器定位较小目标,提高检测精度和效率。
- 图像恢复与检测结合 :将图像恢复与检测任务结合,学习从清晰和退化图像中提取域不变特征,增强对恶劣天气场景的理解。
尽管这些方法在某些方面取得了一定进展,但往往忽视了关键的辅助信息,例如场景深度。深度信息能够揭示物体与探测器之间的空间关系,从而帮助我们更好地理解场景中物体的布局和相对位置。此外,现有的检测流程通常表现出较为僵化和繁琐的设计,具体体现在多个方面:首先,许多检测流程需要进行多次前处理和后处理以及特种融合步骤,使得整个流程显得笨重且耗时;其次,结合图像恢复网络的方法往往受退化域数据的限制。此外,由于这检测和复原两种任务的优化目标存在差异,图像复原对检测任务的具体增益也存在不确定性。
HazyDet 数据集
图 4. HazyDet 中的样本示例
为了解决数据集的空白,我们推出了 HazyDet 数据集,重点关注雾这种普遍且会严重影响无人机感知的天气状况。HazyDet 包含了上万张精心挑选的无人机图像,并为大约 383,000 个不同类别的物体标注了高质量的边界框。据我们所知,这是第一个专门为不利天气场景下的无人机检测设计的大规模数据集。
HazyDet 包含真实和仿真两种类型的数据。对于真实数据,我们采集了大量的真实雾霾场景下的无人机图像并进行了标注。然而,获取大量恶劣天气下包含目标的无人机图像十分困难,而且标注这些质量较低的图像需要耗费大量的人力和时间成本。因此,我们尝试利用现有已标注数据构建仿真数据。通过大气散射模型(Atmospheric Scattering Model,ASM)和精心设计的仿真参数,我们生成了高质量的仿真数据。
DeCoDet
我们提出了一种新的检测框架 —— 深度调制检测器(DeCoDet),如图 6 所示。DeCoDet 通过利用深度信息,而非显式的图像恢复,来增强雾霾条件下的检测性能。该框架建立在两个观察之上:一是无人机图像中物体特征与深度之间的相关性,二是场景中雾浓度分布与深度的关系。
由于视角和高度的变化,无人机平台下的成像透视效应更加明显,远处物体的视觉尺寸显得更小,而近处物体则显得更大。此现象在常规视角和遥感视角中通常不明显。以往研究主要集中于利用深度数据检测伪装和显著目标,因为深度模态中的物体难以用颜色伪装 [11][12][13]。然而,现有研究尚未充分利用深度信息与目标检测的更多联系,例如深度与场景中目标尺度的关系及不同深度下的目标分布。我们认为这些知识对于检测是有益的。
另一方面,在仿真过程中我们发现,雾天图像中的传输图(transmission map)与像素深度之间存在简单的负指数函数关系,也就是说,距离较远区域的传输图衰减程度更强。以往的去雾研究中,很多工作已经注意到深度信息的作用并将其引入到网络中 [14][15],但我们认为深度信息的价值不仅限于低级视觉任务中的图像复原,它同样有助于网络在雾霾环境中进行更高阶的视觉感知,例如目标检测。
基于上述发现,我们在现有网络中融合深度信息,并利用学习到的深度线索动态调整检测行为,最终得到深度调制检测器(Depth-cue Conditional Detector,DeCoDet),以有效应对雾霾环境和无人机视角带来的挑战,从而显著提高检测性能。
实验
我们建立了一个全面的基准,以评估当前主流算法和 DeCoDet 在 HazyDet 数据集上的表现。首先,我们评估检测算法的性能;随后,我们评估最先进的去雾模型对检测效果的影响,相关结果如表 1、表 2 所示。
表 1. HazyDet 数据集上不同检测器的性能表现
表 2. HazyDet 上不同去雾模型的表现
致谢
我们感谢天津视觉计算与智能感知重点实验室(VCIP)提供的宝贵资源。特别感谢天津大学的朱鹏飞教授和 AISKYEYE 团队,他们对数据方面的重要支持对我们的研究工作至关重要。同时,我们对李翔辉、冯钰新及其他研究人员表示深切的感谢,他们在数据仿真和数据集构建方面提出了宝贵的意见。此外,我们也要感谢 Metric3D 对本文所呈现方法的贡献。
参考文献
[1]: Qi Zhao, Binghao Liu, Shuchang Lyu, Chunlei Wang, and Hong Zhang. TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer. Remote Sensing, 15(6):1687, March 2023.
[2]: Guanqiu Qi, Yuanchuan Zhang, Kunpeng Wang, Neal Mazur, Yang Liu, and Devanshi Malaviya. Small Object Detection Method Based on Adaptive Spatial Parallel Convolution and Fast Multi-Scale Fusion. Remote Sensing, 14(2):420, January 2022.
[3]: Yunzuo Zhang, Cunyu Wu, Tian Zhang, Yameng Liu, and Yuxin Zheng. Self-Attention Guidance and Multiscale Feature Fusion-Based UAV Image Object Detection. IEEE Geoscience and Remote Sensing Letters, 20:1–5, 2023.
[4]: Fan Yang, Heng Fan, Peng Chu, Erik Blasch, and Haibin Ling. Clustered Object Detection in Aerial Images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8311–8320, 2019.
[5]: Sutao Deng, Shuai Li, Ke Xie, Wenfeng Song, Xiao Liao, Aimin Hao, and Hong Qin. A Global-Local Self-Adaptive Network for Drone-View Object Detection. IEEE Transactions on Image Processing, 30:1556–1569, 2021.
[6]: Jingtao Xu, Ya-Li Li, and Shengjin Wang. AdaZoom: Towards Scale-Aware Large Scene Object Detection. IEEE Transactions on Multimedia, 25:4598–4609, 2023.
[7]: Yecheng Huang, Jiaxin Chen, and Di Huang. UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 1026–1033, 2022.
[8]: Shih-Chia Huang, Trung-Hieu Le, and Da-Wei Jaw. DSNet: Joint Semantic Learning for Object Detection in Inclement Weather Conditions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(6):1406–1420, 2020.
[9]: Wenyu Liu, Gaofeng Ren, Runsheng Yu, Shi Guo, Jianke Zhu, and Lei Zhang. Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 1792–1800, 2022.
[10]: Chengyang Li, Heng Zhou, Yang Liu, Caidong Yang, Yongqiang Xie, Zhongbo Li, and Liping Zhu. Detection-Friendly Dehazing: Object Detection in Real-World Hazy Scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(7):1–12, 2023.
[11]: Long Li, Junwei Han, Nian Liu, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, and Fahad Shahbaz Khan. Robust Perception and Precise Segmentation for Scribble-Supervised RGB-D Saliency Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[12]: Congyan Lang, Tam V. Nguyen, Harish Katti, Karthik Yadati, Mohan Kankanhalli, and Shuicheng Yan. Depth Matters: Influence of Depth Cues on Visual Saliency. In European Conference on Computer Vision (ECCV), pages 101–115. Springer, 2012.
[13]: Yunqiu Lv, Jing Zhang, Yuchao Dai, Aixuan Li, Nick Barnes, and Deng-Ping Fan. Towards Deeper Understanding of Camouflaged Object Detection. IEEE Transactions on Circuits and Systems for Video Technology, 2023.
[14]: Yang Yang, Chun-Le Guo, and Xiaojie Guo. Depth-Aware Unpaired Video Dehazing. IEEE Transactions on Image Processing, 33:2388–2403, 2024.
[15]: Y. Zhang, S. Zhou, and H. Li. Depth Information Assisted Collaborative Mutual Promotion Network for Single Image Dehazing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2846–2855, 2024. doi: 10.1109/CVPR52733.2024.00275. |