基于内容的虚假新闻检测方法研究及实现
作者单位:北京交通大学
学位级别:硕士
导师姓名:沈波
授予年度:2022年
学科分类:050301[文学-新闻学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0503[文学-新闻传播学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:互联网自媒体的快速发展,使信息传播呈现出多样化的特点。相较于传统的广播、电视、报纸等形式,门户网站、社交平台等一系列新兴的信息发布平台,为人们获取信息带来了便利性,同时也导致虚假信息的传播变得更普遍和容易。如何有效识别虚假信息,成为一个值得研究的问题。随着以深度学习为主的自然语言处理技术的发展,虚假新闻检测这一问题取得了许多进展,一些虚假新闻判别模型展现出较好的性能。但同时,在模型的特征提取效率、泛化性等方面,还存在有待解决的问题。本文以新闻文本为对象,提出了一种基于风格的虚假新闻检测方法。该方法利用虚假新闻的风格特征对模型进行训练,以提高训练效率和模型的泛化能力。进而以此为基础,设计并实现了一个虚假新闻检测系统。论文的主要工作包括:1.提出了一种基于内容风格的虚假新闻检测方法。该方法通过剔除新闻文本中与事件内容相关的词语,获得仅包含新闻风格的特征文本。将特征文本通过语言模型向量化后,用于训练给出的神经网络模型,实现虚假新闻检测。多组对比实验的结果显示,提出的方法相比于全文训练方法,能够更好地捕捉虚假新闻与真实新闻间的风格差异,在训练效率、泛化能力和鲁棒性等方面,都有所提升。在不同比例的训练数据条件下,该方法相较于全文训练方法,泛化性准确率提升了2%~5%。2.设计并实现了一个虚假新闻检测系统。该系统可以从网站上爬取官方辟谣平台发布的虚假新闻内容,生成虚假新闻数据集,用于检验和模型训练。系统针对中文、英文社区虚假新闻形式不同的特点,提供了不同的处理方式。对以短文谣言、旧谣新传为主的中文社区,采用抽取并计算核心词文本相似度的方法,通过与虚假新闻数据集比对的方式进行判别;对于以中长篇新闻为主的英文社区内的虚假新闻,采用本文提出的基于风格的虚假新闻检测方法进行检测。图27幅,表20个,参考文献53篇。