社交媒体讽刺检测方法研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:徐睿峰
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:讽刺检测 社交媒体 句法信息 跨模态语义关联图 图卷积神经网络
摘 要:人们在社交媒体中发布的带有鲜明情感倾向的内容往往会激起更多用户的传播和碰撞,进而影响到现实生活。因此,面向社交媒体的情感分析研究得到了广泛关注。但通用的情感分析方法往往无法处理讽刺这种特殊的情感表达方式,为此,识别文本中是否包含讽刺表达的讽刺检测研究吸引了众多的研究兴趣。现有的讽刺检测方法虽然取得了不错的性能,但仍存在明显不足。主要表现在文本讽刺检测方法往往对句法信息和情感信息的建模能力不足;图文多模态讽刺检测方法则对跨模态特征融合与模态间语义关联信息建模能力不足。为此,本文研究面向社交媒体的文本和多模态讽刺检测方法。主要内容包括: 针对现有文本讽刺检测方法对句法信息和情感信息的建模能力不足的问题,本文提出了一种基于情感依存图和图卷积神经网络的文本讽刺检测方法。该方法首先使用依存句法分析工具获取输入文本的句法结构信息,并将其转换为邻接图的形式。然后使用外部情感知识库来计算文本内词的情感得分,并通过计算词之间的情感得分差异构建邻接图形式的情感信息输入。通过将文本中的词语视为节点并将上述两种邻接图视为节点间的拓扑图,使用图卷积神经网络在模型学习阶段引入句法信息和情感信息,用于讽刺检测。在六个社交媒体公开数据集上进行的对比实验结果显示,该方法在Macro-F1值指标上较现有最优模型平均提高5.54%。此外,分析实验还验证了句法信息和情感信息对于文本讽刺检测任务的重要性。 针对现有图文多模态讽刺检测方法缺乏跨模态特征融合和跨模态语义关联信息建模能力的不足,本文提出了一种使用统一架构图文编码器并同时构建跨模态语义关联图的图文多模态讽刺检测方法。该方法在基于统一的Trans-former架构上分别构建了文本和图片编码器,而后引入外部知识图谱计算文本与图像模态间的语义相似度,并以邻接图的形式构建了跨模态语义关联图,以更好地建模跨模态语义关联信息并用于多模态讽刺检测。在基于社交媒体公开数据集上的对比实验中显示这一方面相比于目前最优方法,准确率提高了1.5%。分析实验还验证了统一架构的图文编码器和跨模态语义关联图对多模态讽刺检测的有效性。