中文题目:基于深度特征和类别置信度一致性的长尾声呐图像识别方法
论文题目:Deep Feature and Category Confidence Consistency Learning for Long-tailed Sonar Image Recognition
录用期刊:Knowledge-Based Systems(中科院大类一区、TOP期刊)
录用时间:2025.4.27
作者列表:
1)韩佳艺 中国天天色天天(北京)人工智能学院 控制科学与工程 博22级
2)刘建伟 中国天天色天天(北京)人工智能学院 自动化系 教师
3)吴芃麒 中国天天色天天(北京)人工智能学院 控制科学与工程 硕22级
4)刘芷含 中国天天色天天(北京)人工智能学院 控制科学与工程 硕23级
摘要:
本文提出一种基于深度特征和类别置信度一致性的长尾声呐图像识别方法。该方法在双分支解耦学习框架内集成了变尺度空间混合和全局特征混合增强策略,并提出了深度特征和类别置信度一致性正则化损失函数,以确保不同混合增强之间的一致性,从而有效提高模型对多层级特征表示的判别能力,而且提高了宏观预测趋势的平衡性。
背景与动机:
现实世界的声纳图像通常表现为长尾分布,其中大多数样本属于几个主要类别,而尾部类别则受到数据稀缺的影响。这种不平衡导致对头部类别的预测偏差,降低了对尾部类别的识别性能。另一方面,声纳图像的高噪声和细粒度特性需要更全面的特征提取,特别是边缘纹理等浅层细节。大多数现有方法侧重于样本级学习,忽略了宏观层面的类别关系,这限制了它们在特征空间中提高整体类别可分性的能力。
基于以往研究的局限性,我们提出了一种用于长尾声纳图像识别的深度特征和类别置信度一致性学习方法。从应用的角度来看,我们设计了一种高效的针对水下声纳识别的端到端识别框架,即使在严重的类不平衡和噪声下,也能表现出很强的鲁棒性和泛化性。从算法角度来看,我们在输入空间提出了变尺度空间和全局特征混合增强方法,在特征空间优化方面,引入了多层级深度特征一致性约束和基于置信度一致性的类别关系优化策略。该模型优化了声纳图像识别任务中的长尾分布问题,提高了对尾类的识别能力。在复杂的水下环境中,我们的方法减少了人工干预的需要,提高了智能声纳系统的稳定性和可靠性。
主要内容:
图1 深度特征一致性正则化损失示意图
为了增强样本多样性,并增强头部和尾部数据之间的信息交换,我们采用了两种图像增强技术:变尺度空间混合增强和全局特征混合增强。前者在空间域融合多尺度信息生成新图像,后者在像素级融合全局特征的混合增强。
为学习更具判别性和广义的特征表示,同时减少不相关特征的干扰,我们指导模型在不同抽象层次上从变尺度空间混合和全局特征混合增强样本中保持特征一致性。在低级特征中加强一致性提高了模型捕获细粒度空间细节的能力,而在高级特征中加强一致性有助于学习全局语义和抽象表示。第k层特征一致性正则化损失函数表示为:
在长尾分布问题中,来自神经网络不同层的多尺度信息在解决数据稀缺性和特征偏差方面起着至关重要的作用。为此,提出了一个深度特征一致性正则化损失:
深度特征一致性正则化损失函数通过约束单个样本在样本水平上优化特征表示。然而,长尾分布问题存在于宏观层面。分类频率和难度的不平衡进一步增加了置信度分配的不确定性。对于单个样本,我们将模型对给定类别的非标准化预测输出解释为其置信度度量。我们使用余弦相似度约束不同增强策略下对应类别的类别置信度赋值。类别置信度一致性正则化损失函数定义为:
双分支分类损失定义为:
总体损失为分类损失、深度特征一致性正则化损失和类别置信度一致性正则化损失的加权和:
实验结果与分析:
我们在四个长尾声呐数据集和两个基准个广泛使用的长尾数据集上评估了我们提出的模型的性能。部分实验结果如表所示,在各个数据集上,我们提出的模型展现了出色的竞争力:
表1 不同方法在MDWD、MDTD、NKSID和SILT-34数据集上Top-1精度、宏观F1分数和G-mean结果的比较
基线模型CE、解耦学习方法CE- DRS和我们提出的模型在SILT-34数据集上的CAM可视化结果如图2所示。
图2 类激活映射可视化图
结论:
本文提出了基于深度特征和类别置信度一致性学习的长尾声纳图像识别方法。受解耦学习和一致性学习的启发,我们的方法增强了特征表示的可判别性和泛化性,同时减轻了分类器对头部类别的偏见。在四个具有不同不平衡因素的长尾声纳数据集和两个基准数据集上进行的大量实验表明,性能得到了显著提高,特别是在有效识别尾类声纳图像方面。该方法有助于在现实场景中更准确地探测和分类水下目标,提高智能声纳系统的效率和可靠性。
作者简介:
刘建伟,教师,学者。发表学术研究论文280多篇。研究领域涉及在线学习(包括强化学习,赌博机算法,持续学习,长尾学习);图像视频显著性目标检测,解纠缠表示学习,光场和神经场模型,以及图像视频少样本变化检测;自然语言理解中的知识补全,图神经网络;不平衡数据处理;霍克斯点过程故障预测与诊断;非线性预测与控制。 是兵器装备工程学报第三届编辑委员会委员。历届中国控制会议(CCC)和中国控制与决策会议(CCDC)的程序委员会委员。担任过80多个国际会议的TPC。