咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Word2Vec对海关报关商品文本特征降维效果分析 收藏

Word2Vec对海关报关商品文本特征降维效果分析

Reducing Dimensions of Custom Declaration Texts with Word2Vec

作     者:龚丽娟 王昊 张紫玄 朱立平 Gong Lijuan;Wang Hao;Zhang Zixuan;Zhu Liping

作者机构:南京大学信息管理学院南京210023 江苏省数据工程与知识服务重点实验室南京210023 

出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)

年 卷 期:2020年第4卷第2期

页      面:89-100页

核心收录:

学科分类:0810[工学-信息与通信工程] 1205[管理学-图书情报与档案管理] 02[经济学] 0202[经济学-应用经济学] 020206[经济学-国际贸易学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:江苏省研究生科研与实践创新计划项目“大数据环境下海关商品归类风险分析和规避研究”(项目编号:SJCX18_0009) 横向课题“海关税收大数据分析咨询项目”的研究成果之一 

主  题:Word2Vec 支持向量机 自动归类 特征降维 

摘      要:【目的】对海关平台的高维报关商品特征实现有效降维,提高海关平台的工作效率。【方法】以国内某海关4个月的商品文本作为语料,从词语相似度与相关度两个微观层面评估生成词向量的质量,并结合SVM算法将传统0-1矩阵、频次降维、信息增益方法与Word2Vec词向量进行对比,以探究其对海关商品文本特征的降维效果。【结果】对于海关报关商品文本,Word2Vec词向量是一种较为理想的降维方法,且词向量维度为500时,分类效率最高,准确率为93.01%。【局限】主要针对数据量最多的5大类别进行研究,尚未对其他类别的分类效果进一步探讨。【结论】Word2Vec用于海关商品文本的降维效果较为理想,能够保证较高的准确率与数据的完整性,并显著降低特征维度。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分