您所在的位置:首页 - 科学研究 - 科研动态

科研动态

GraphCKSA:基于CENN-KCQ重采样与双视角边优化的双策略图神经网络不平衡节点分类方法

中文题目: GraphCKSA:基于CENN-KCQ重采样与双视角边优化的双策略图神经网络不平衡节点分类方

 

论文题目:GraphCKSA: Innovative dual-strategy GNN for imbalanced node classification with CENN-KCQ resampling and dual-view edge optimization

 

录用期刊/会议:【Applied Intelligence (中科院大类三区)

原文DOIhttp://doi.org/10.1007/s10489-025-06660-6

原文链接:http://link.springer.com/article/10.1007/s10489-025-06660-6

见刊时间:2025年6月18日

作者列表

1) 张丽英 中国天天色天天(北京)人工智能学院 公共教学中心教师

2) 陈潞梦 中国天天色天天(北京)人工智能学院 计算机技术 硕士 23

3) 邹天博 中国天天色天天(北京)人工智能学院 计算机技术 硕士 23

4) 王智广 中国天天色天天(北京)人工智能学院 计算机科学与技术系教师

5) 郑馨竺 中国天天色天天(北京)经济管理学院 管理科学与工程系教师

文章简介:

近年来,复杂的网络或图结构在多种场景中广泛应用,例如交通网络、引用网络和社交网络等。在现实世界中,节点的类别分布往往存在显著的不平衡性,识别少数类节点对许多应用场景至关重要。本文针对不平衡节点分类问题,提出了GraphCKSA模型,该模型创新性地设计了CENN-KCQ重采样,解决过度压缩问题的同时减少多数类节点中的噪声样本,并优化了样本选择过程有效减少不平衡数据集中多数类的噪声样本;结合KMeans聚类和簇内SMOTE过采样,并通过Q-learning强化学习智能地确定最优聚类簇数K,确保少数类节点的高质量过采样;通过生成高质量的平衡增强数据集和合理的边连接,为节点分类器提供了一个平衡增强图。最终实现了显著提升不平衡节点分类任务的性能。

摘要:

图节点类别分布通常存在显著的不平衡性,使得模型难以有效捕捉少数类节点的特征,导致分类结果偏向于多数类。因此,本文提出了一种全新的图重采样框架GraphCKSA,旨在通过 CENN-KCQ 重采样和双视角边优化策略来解决不平衡节点分类问题。GraphCKSA创新性地将CENN欠采样和KCQ-SMOTE过采样相结合,构建了高质量的平衡增强数据集,并通过合理的边连接策略,显著提升了图神经网络在不平衡节点分类任务中的表现。在Cora、Citeseer和PubMed三个公共数据集上的实验结果表明,GraphCKSA均显著优于对比模型。此外,通过消融实验、过采样规模、不平衡比率和超参数分析,进一步验证了GraphCKSA的有效性,展现出其在不平衡节点分类任务中的显著性能提升。

背景与动机:

在现实世界中,节点的类别分布往往存在显著的不平衡性,即多数类节点的数量远大于少数类节点。然而,识别少数类节点对许多应用场景至关重要。在处理图节点分类任务中的不平衡数据集时,直接用原始数据训练GNN分类器可能难以有效捕捉少数类节点的特征,导致分类结果偏向于多数类,忽视少数类的识别。针对这一问题,本文提出了一种全新的图重采样框架GraphCKSA。

设计与实现:

GraphCKSA模型由四个模块组成:(i)基于GraphSage的特征提取器,用于提取节点的特征表示;(ii)重采样节点生成器,包括CENN欠采样和KCQ-SMOTE过采样两个部分,用于去除多数类噪声样本和生成少数类节点,构建一个高质量的平衡增强数据集;(iii)边生成器,从局部和全局双重优化边连接,形成一个平衡增强图;(iv)基于GNN的节点分类器,基于平衡增强图执行节点分类。本文提出的GraphCKSA模型结构如图1所示。

image.png 

图1 GraphCKSA模型框架

实验结果与分析:

为了验证GraphCKSA模型的有效性,将GraphCKSA与不平衡网络嵌入方法的代表性方法及最先进的方法(Origin、Over-sampling、Re-weight、SMOTE、Embed-SMOTE、DR-GCN、GraphSMOTE、GraphENS、GraphSR)进行比较。

首先,在三个数据集上比较了GraphCKSA与基线方法在不平衡节点分类任务上的表现。对比实验结果如下表1。这些结果验证了GraphCKSA的有效性,显著提高了图神经网络中不平衡节点分类任务的性能。

image.png 

其次,分析了不同模型在不同过采样规模、不平衡比率下的性能,如下图2、图3。通过实验得到过采样规模在0.8到1.0之间更有利于不平衡节点分类的性能提升。当不平衡程度更为极端时,GraphCKSA所取得的改进更为显著。

image.png 

最后,分析了不同超参数的敏感性,如下图4。由于两种规模的损失差异,超参数在1 × 10−6和4 × 10−6之间的效果更好。

image.png 

结论:

GraphCKSA通过CENN欠采样和KCQ-SMOTE过采样平衡数据集来有效解决欠采样中过度压缩及多数类噪声样本问题的同时提升过采样少数类节点的质量,并通过Q-learning算法智能确定最佳聚类簇数K,有效捕捉少数类节点的特征,构建了一个高质量的平衡增强数据集。从双重视角优化边连接,形成一个平衡增强图。实验验证了GraphCKSA在不平衡节点分类任务中的有效性和优越性。

作者简介:

张丽英,讲师,博士,中国天天色天天(北京)人工智能学院硕士生导师。主要研究方向:机器学习、油气人工智能及应用、时空数据挖掘

联系方式:lyzhang1980@cqsbzx.com