融合LDA与Word2vector的垃圾邮件过滤方法研究
作者机构:浙江鹏信信息科技股份有限公司浙江鹏信310000 中国移动通信集团浙江有限公司中国移动310000
出 版 物:《网络安全技术与应用》 (Network Security Technology & Application)
年 卷 期:2017年第3期
页 面:73-75页
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
主 题:LDA主题模型 Word2vector 垃圾邮件 支持向量机
摘 要:在传统垃圾邮件过滤技术的基础上,提出一种融合LDA主题模型和Word2vector模型的文档向量,并将LDA主题模型得到的不同维度的文档——主题矩阵、Word2vector模型得到的词向量以及融合的文档向量作为支持向量机和逻辑回归的特征输入,通过8组对照实验的效果分析得到:融合的文档向量结合支持向量机模型的准确率最高,能够对垃圾邮件进行精准过滤,降低了垃圾邮件对个人以及社会的危害。