咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于LDA-TF-IDF和Word2vec文档表示 收藏

基于LDA-TF-IDF和Word2vec文档表示

Document Representation Based on LDA-TF-IDF and Word2Vec

作     者:彭俊利 王少泫 陆正球 李兴远 PENG Junli;WANG Shaoxuan;LU Zhengqiu;LI Xingyuan

作者机构:浙江纺织服装职业技术学院浙江宁波315211 

出 版 物:《浙江纺织服装职业技术学院学报》 (Journal of Zhejiang Fashion Institute of Technology)

年 卷 期:2023年第22卷第2期

页      面:91-96页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:浙江省访问工程师项目(编号:FG2021133) 浙江纺织服装职业技术学院科研课题(编号:2022-2B-013)(编号:2022-2B-005)(编号:2021-2B-008) 

主  题:LDA主题模型 TF-IDF word2vec 文档表示 

摘      要:针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量。通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分