基于图神经网络的异质社区发现算法研究
作者单位:重庆理工大学
学位级别:硕士
导师姓名:刘小洋
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 081104[工学-模式识别与智能系统] 08[工学] 070104[理学-应用数学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:社区发现 异质图 图神经网络 K近邻图 马尔科夫稳定性
摘 要:社区发现在社交网络分析中具有重要意义,它能够有效地揭示社会网络中的内部本质规律,其目的是将图中的节点划分为内部连接紧密的簇。大量真实的图或网络本质上是异质的,涉及到节点和边的多样性。图神经网络凭借其能够将异质图的丰富结构和高维语义信息嵌入到低维节点表示的优势,被广泛应用于社区发现任务中。然而,目前存在的模型方法存在一些局限性。一方面,一些方法忽略了结点的特征空间,无法充分利用结点的属性信息。另一方面,一些方法需要大量的领域知识来手动定义元路径,这限制了算法的通用性和可扩展性。此外,现有方法往往只能捕捉局部结构信息,无法有效处理异质图结构和多种类型节点之间的关系。为了解决这些问题,本文提出了一种基于图神经网络的异质社区发现算法,针对异质信息网络的特点进行了设计。基于此,本文的主要研究工作如下: (1)鉴于现有模型大多忽略节点特征空间,无法端到端的自适应学习不同元路径之间的影响程度,本文提出了一种融合K近邻图信息的异质图社区发现方法(KGNN_HCD)。首先,利用节点的特征向量生成相似度矩阵,构造K近邻图拓扑结构;其次,利用元路径转换层生成元路径信息矩阵,端到端的学习元路径,通过加入权重卷积为不同的元路径分配注意力分数;最后,利用图卷积网络学习到高质量节点表示,并对节点嵌入采用k-means进行社区结构发现,并在ACM、DBLP和IMDB三个异质数据集和CPGNN、GTN等多个社区发现方法进行了对比分析。实验结果表明:在NMI和ARI两个指标上,提出的KGNN_HCD方法在ACM数据集上提升了2.54%和2.56%、在DBLP数据集上提升了2.59%和1.47%、在IMDB数据集上提升了1.22%和1.67%,实验证明提出的KGNN_HCD方法具有合理性和有效性,且KGNN_HCD可应用在复杂网络分类和聚类任务中。 (2)针对传统的社区发现算法无法捕获全局结构信息,存在关注不平衡关系类型问题且高度依赖短期关系,提出了一种基于融合图神经网络与马尔科夫稳定性的异质社区发现方法(HCD_FGMS)。首先,利用结构聚类模块(SC_Module)得到初始的伪社区标签,并编码为社区标签转移矩阵;其次,利用异质图神经网络模块(HGNN_Module),综合考虑节点级别和元路径层级的信息,采用节点级与元路径级注意力机制,学习更具表现力的节点表示;最后,构建融合图神经网络模型相互增强SC_Module和HGNN_Module,生成最优的社区隶属权重矩阵,并通过最大化马尔科夫稳定性来生成最优的社区矩阵。在ACM、DBLP以及MAG等五个异质数据集和HAN、CPGNN等模型做了对比分析实验,实验结果表明:在五个数据集中,模型性能得到了提高,实验表明HCD_FGMS方法是合理、有效的。 综上所述,本文深入分析了异质社区发现的任务特性,构建了合理且有效的图神经网络模型,并在多个真实异质数据集上得到了验证。因此,本文得到的相关结论具有广泛的理论和应用价值。