基于改进SVM的中文专利文本分类比较研究
Comparative Study on Chinese Patent Text Classification Based on Improved SVM作者机构:安徽理工大学人工智能学院安徽淮南232000 安徽理工大学经济与管理学院安徽淮南232000 安徽理工大学数学与大数据学院安徽淮南232000
出 版 物:《武汉理工大学学报(信息与管理工程版)》 (Journal of Wuhan University of Technology:Information & Management Engineering)
年 卷 期:2023年第45卷第2期
页 面:292-298,303页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61873004) 国家级大学生创新创业训练计划项目(202210361115X)
主 题:LDA主题模型 均值Word2Vec 支持向量机 产学研 中文专利分类
摘 要:为深入挖掘中文专利文本特征,使专利类别划分更清晰、技术联系更紧密。首先,从专利信息平台爬取智能家居领域专利,构建智能家居专利信息语料库并进行分词与去停用词处理;其次,通过TF-IDF-LDA和均值Word2Vec两种自然语言处理算法,分别对语料库中的文本信息向量化并输出结果,绘制词云图展示筛选出的具有文档代表性的词语;最后,引入SVM进行文本分类并将两组平行实验的分类结果进行对比分析选出最优模型。通过样本上采样解决数据分布不均问题,进一步提升专利分类的准确率。结果表明:均值Word2Vec准确率为97.15%,而LDA准确率为86.91%,经过采样优化后的均值Word2Vec模型准确率为98.51%。为中文专利文本再分类提供新思路,有助于深入挖掘关键共现技术,促进国家产学研一体化发展。