中文题目:LOPD:基于域适应的低照度场景遮挡行人检测模型
论文题目:LOPD: A Low-illumination Scene Occluded Pedestrian Detection Model Based on Domain Adaptation
录用期刊/会议:【International Joint Conference on Neural Networks 2025】 (CCF C类 会议)
作者列表:
1) 祝留宇 中国天天色天天(北京)人工智能学院 计算机科学与技术专业 硕 23
2) 王智广 中国天天色天天(北京)人工智能学院 计算机科学与技术系教师
3) 侯永胜 中国天天色天天(北京)人工智能学院 能源动力专业 博24
4) 刘志强 中国天天色天天(北京)人工智能学院 计算机科学与技术专业 硕 23
5) 李 珅 中国天天色天天(北京)人工智能学院 计算机技术专业 硕23
6) 李晓雪 中国天天色天天(北京)人工智能学院 计算机科学与技术专业 硕 23
文章简介:
近年来,在行人检测领域,相关的模型和方法不断被提出。但目前仍有两个问题尚未被很好地解决,这两个问题分别是低照度和遮挡。针对低照度遮挡复合场景下的行人检测问题,本文开展了一系列研究工作。
摘要:
在行人检测领域主要存在以下瓶颈:(1)行人检测领域的开源数据集缺少低照度遮挡复合场景的数据集;(2)低照度图片中存在高频噪声,这些高频噪声会降低模型检测的准确率;(3)通用行人检测方法的边界框损失函数在遮挡场景中定位不够准确;(4)传统NMS算法在遮挡场景中容易导致漏检。针对上述瓶颈问题,本文提出了一种基于域适应的低照度遮挡复合场景行人检测模型LOPD。
主要内容:
1.LOPD整体模型架构图
我们想在只利用有标签的正常照度遮挡行人数据集和无标签的低照度遮挡行人数据集的情况下去完成低照度遮挡场景下的行人检测任务。基于此我们设计了能够进行域适应的LOPD模型,LOPD的整体架构图如图1所示。
图1 LOPD的整体架构图
图片的中部是半监督域适应检测框架MT-YOLO。图片的左侧是输入,我们除了将源域(正常照度域)图片和目标域(低照度域)
图片作为输入外,为了缓解光照差异,我们还使用离线模型S2WAT去生成具有目标域风格的源域图片
和具有源域风格的目标域图片
,并将他们一起送入MT-YOLO中。图片的右侧是不同的损失函数。对于不同的输入使用不同的损失函数来支持半监督域适应。我们所提出的AR Loss被包含在Detection Loss中。此外,由于我们所提出的SD-NMS是后处理步骤因此并未在模型架构图中展示出来,它的详细论述将在第5节给出。
2.域适应蒸馏检测架构MT-YOLO
MT-YOLO是LOPD的核心部分,也是LOPD能够将正常照度域上学习到的知识迁移到低照度域的关键原因之一。MT-YOLO的半监督学习架构是Mean Teacher,同时我们采用两个完全相同的、添加了CLEF模块的YOLOv8作为Mean Teacher的教师模型和学生模型。MT-YOLO的模型架构如图1中部所示。
3.跨阶段低频增强滤波器CLEF
为了抑制低照度图片中的高频噪声同时融合不同阶段的特征信息,我们设计了CLEF模块。CLEF的具体结构如图2所示。
图2 CLEF模块详细结构图
4.吸引排斥损失函数AR Loss
AR Loss的目标是在训练过程中让拟合行人T的预测框尽可能地与行人T的GT框靠近(吸引),同时与周围行人的GT框远离(排斥)。AR Loss公式如式(1)所示。
在公式(1)中AR Loss由两部分组成,其中吸引部分包括两个损失函数:一个是CIOU Loss,另一个是DFL Loss;排斥部分只包括RepGT Loss(如公式(2)所示)。
5.SD-NMS
为了减少遮挡场景中漏检的错误情况发生。我们设计出了SD-NMS后处理算法。SD-NMS的具体细节信息如表1所示。
表1 SD-NMS后处理算法
实验结果及分析:
1、数据集
我们选取Citypersons中包含遮挡行人的图片以及在现实场景中收集的正常照度遮挡行人图片作为本研究所使用的正常照度遮挡行人数据集,记为。同时,我们将从互联网上和现实场景中采集的低照度遮挡行人图片作为为本研究所使用的低照度遮挡行人数据集,记为
。
此外,我们用和
训练了S2WAT模型,然后利用S2WAT去生成
和
。各种类型图片的具体数量如表2所示。
表2 不同类型的图片的数量及来源
2、对比实验
为了证明我们提出的方法的有效性,我们在上一小节构建的低照度数据集上进行了实验,并与其它行人检测模型进行了对比实验,实验结果如表3所示。实验表明我们的方法更适用于低照度遮挡场景中的行人检测。
表3不同检测模型之间的性能对比
结论:
本文提出了一种适用于低照度遮挡复合场景下的行人检测方法LOPD。在LOPD中,我们设计的半监督域自适应检测架构MT-YOLO使检测器能够利用无标签的低照度数据集;CLEF模块能够抑制低照度图像中的高频噪声;AR Loss损失函数和SD-NMS能够解决遮挡场景中行人定位不准确和漏检的问题。实验结果表明,我们的方法在低照度遮挡复合场景中能够获得更好的行人检测结果。
通讯作者简介:
王智广,教授。博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,北京市计算机教育研究会常务理事。长期从事计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。