咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于迁移与半监督域共生融合的虚假评论识别 收藏
基于迁移与半监督域共生融合的虚假评论识别

基于迁移与半监督域共生融合的虚假评论识别

作     者:乔娅利 

作者单位:中国矿业大学 

学位级别:硕士

导师姓名:孙晓燕

授予年度:2022年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:虚假评论识别 迁移学习 半监督学习 协同训练 特征提取 

摘      要:电商平台中用户发布的虚假评论常存在误导消费者购买倾向的消极影响,同时极可能增加评论文本的分析与信息提取难度,为更好对评论文本的用户生成内容进行知识获取,并为消费者提供更值得信赖的电商环境,虚假评论识别显得尤为重要。然而,当前针对虚假评论识别的研究主要集中于传统的有监督学习算法,这类方法需要足够充沛的标签数据进行支撑,由于现有电商平台缺少真实可靠的有标签虚假评论数据集,这使得基于传统有监督机器学习的虚假评论识别具有极大难度。鉴于此,本文提出了基于迁移与半监督域共生融合的虚假评论识别算法,具体研究内容如下:(1)基于迁移与半监督空间域共生融合的虚假评论识别算法:针对现有电商平台中虚假评论文本数据标签稀疏的问题,提出基于迁移与半监督空间域共生融合的虚假评论识别算法。首先,将多空间域的评论数据通过Doc2vec模型进行向量化处理;其次,考虑数据集的分布异构特性,采用KMM迁移学习策略获取多域虚假评论的文本共性特征,实现评论文本的跨域迁移;进而,对得到跨域迁移更新的待识别评论数据集利用协同半监督机制,实现对无标签评论文本的虚假真实性识别;最后,迁移学习与协同半监督共生融合,即利用不断更新的待识别评论样本集动态多次实现跨域异构评论数据集的迁移,完善协同半监督机制,与此同时进一步优化迁移策略,以逐步提高虚假评论文本的识别效果。所提方法应用于标签稀疏的亚马逊评论数据集和Yelp酒店评论数据集中,结果证明了其有效性。(2)基于迁移与半监督类域特征优化的虚假评论识别算法:研究(1)仅直接基于向量化的文本进行迁移,未针对评论文本的表达进行更好的特征优化和处理,导致所提算法在半监督机制上的双视图特征表达较单一。鉴于此,进一步提出基于迁移与半监督类域特征优化的虚假评论识别算法。首先,分别对多域评论文本进行针对虚假/真实类域的特征挖掘,得到浅层语义特征、深层语义特征、元数据特征以及情绪特征,并将其分作基础语义特征与增强特征两类;其次,将挖掘到的多种基础语义特征分别作为研究(1)所提算法内协同半监督阶段的视图特征,优化其性能;接着,将多种基础语义特征与增强特征进行优化融合,构建协同训练阶段的视图;最后,将所提方法应用于标签稀疏的亚马逊评论数据集和Yelp酒店评论数据集上,实验结果表明所提算法可有效挖掘评论文本中真实/虚假类域信息,进一步提高识别精度。该论文有图28幅,表22张,参考文献95篇。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分