咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向专利结构化与非结构化数据的核心专利识别模型研究 收藏
面向专利结构化与非结构化数据的核心专利识别模型研究

面向专利结构化与非结构化数据的核心专利识别模型研究

作     者:李宗泽 

作者单位:厦门理工学院 

学位级别:硕士

导师姓名:刘松先

授予年度:2022年

学科分类:12[管理学] 1205[管理学-图书情报与档案管理] 08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:核心专利 随机森林 特征选择 Word2vec TextCNN 

摘      要:随着技术发展越来越快,技术的创新难度与日俱增,想要在某领域实现快速高效的技术创新,首先要掌握该领域的核心和关键技术,而核心专利往往代表其所属技术领域的核心和关键技术,对某领域的核心专利进行识别有助于挖掘该领域的核心技术信息,是实现技术创新的关键,因此核心专利识别对于技术创新具有重要引导作用。现有的核心专利识别方法多采用结构化数据,多依赖于专家意见法,存在识别效率低、可信度不足和信息不全面等问题,为了能够更加准确快速地识别核心专利,本文提出了一种面向专利结构化与非结构化数据的核心专利识别模型。首先,针对结构化数据特征优选问题,本文提出了一种基于分层加权改进的随机森林算法,传统随机森林算法在进行特征重要性的计算过程中仅考虑对特征在结点处的Gini值变化量进行简单求和,会丢失特征的位置信息,为了弥补传统随机森林算法特征选择过程的不足,本文以分层加权的方式取代原有简单求和的方式,筛选出结构化数据的重要特征,并通过UCI标准数据集验证算法改进的有效性。其次,针对非结构化数据特征表示问题,通过词向量模型将非结构化数据以词向量的形式进行特征表示。最后,提出了一种基于门控—注意力机制改进TextCNN的核心专利识别模型,并通过数据融合方法将专利结构化数据与非结构化数据相结合,采用智慧芽专利数据库中的真实专利数据验证本文提出的核心专利识别模型的有效性。实验结果表明,在UCI标准数据集上,本文提出的基于分层加权改进的随机森林算法具有更好的稳定性和特征选择效果,证明了基于分层加权改进的随机森林算法在特征选择方面的有效性。在智慧芽专利数据库的真实专利数据上,本文提出的面向结构化与非结构化数据的核心专利识别模型具有更高的准确率和运行效率,证明了本文提出的核心专利识别模型的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分