基于异构图神经网络的社交媒体文本主题聚类
Topic Clustering for Social Media Texts with Heterogeneous Graph Neural Networks作者机构:电子科技大学公共管理学院成都611731
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2022年第6卷第10期
页 面:9-19页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 120502[管理学-情报学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:教育部人文社会科学基金一般项目(项目编号:20YJAZH027) 国家自然科学基金青年基金项目(项目编号:72004021)的研究成果之一
主 题:社交媒体 主题聚类 多元交互 异构信息网络 图神经网络
摘 要:【目的】针对社交媒体文本数据存在的语义稀疏及多元主体交互问题,探索有效的主题聚类方法。【方法】利用异构信息网络对社交媒体的用户和信息多元交互关系进行建模,使用词嵌入方法学习文本的向量表示作为初始输入特征,基于异构图神经网络实现信息的传播及融合,学习文本表示向量并利用无监督聚类算法进行主题聚类。【结果】在基准社交媒体数据集上,帖子和评论的聚类指标(NMI)分别达到0.8372和0.8689,优于传统的LDA主题模型或基于Word2Vec、Doc2Vec、GolVe等词或文本嵌入向量直接聚类的方法。【局限】由于数据的限制,模型并未对用户间社交关系及信息的多媒体内容进行建模。【结论】本文方法通过对社交媒体多元交互关系进行建模,能有效提高文本主题聚类的效果。