基于深度学习的评论文本生成算法研究与实现
作者单位:北京邮电大学
学位级别:硕士
导师姓名:张熙
授予年度:2020年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:如今,越来越多的消费者开始在消费点评网站或电子商务平台上购买所需的产品或服务。此类在线平台包含了大量由购买了某些产品或服务的消费者撰写的评论,而这些评论会影响不熟悉该产品或服务的消费者的决策。在网络评论重要性的驱使下,恶意刷评事件层出不穷,造成的负面影响也愈发严重,这使得虚假评论成为了网络评价体系中面临的重要威胁之一。而随着文本生成技术的发展,评论生成算法逐渐取代了代价昂贵的人工撰写。了解虚假评论的产生机制有助于设计更有针对性的检测算法。不仅如此,在虚假评论检测任务中,大量的虚假评论数据也往往作为检测算法训练的基础。因此,如何生成具有迷惑性的虚假评论在虚假评论检测的过程中极具重要性。本文首先设计并实现了基于深度学习的评论文本生成算法,该算法同时使用Transformer模型和门控循环单元(GRU)模型,结合两者在处理文本序列上各自的优势与特点,可以生成相关性、流畅性与新颖性较高的评论文本,从而为虚假评论检测提供更优质的训练数据。其次,针对目前生成文本评价指标在衡量新颖度方面的不足,提出一种新颖度评价指标DMet,通过计算单词重叠度,序列内相似度惩罚和句子长度修正三方方面来测量生成文本的多样性和新颖性。最后,本文构建评论文本自动生成与检测系统,一方面可实现端到端的自动化评论文本生成,另一方面以此作为输入,构建对虚假评论的自动化检测系统。