咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于字符级卷积神经网络的专利文本语义检索 收藏
基于字符级卷积神经网络的专利文本语义检索

基于字符级卷积神经网络的专利文本语义检索

作     者:吴素雪 

作者单位:广东工业大学 

学位级别:硕士

导师姓名:戴青云;曹江中;谭志标

授予年度:2018年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:字符级卷积神经网络 word2vec 特征提取 语义检索 

摘      要:随着经济全球化的推进,科学技术在国家和企业的发展中越发举足轻重,而专利,作为科学技术的载体,其质量和数量已经成为衡量国家创新创造能力的重要标尺。专利是知识产权的重要组成部分,专利技术已经成为国家或企业间竞争的核心因素。如今专利申请数量与日俱增,面对海量专利信息,如何通过提取其中包含的科技信息,从而为国家和企业发展提供战略支持,是国内外研究的重点。为了能更高效找到目标专利信息,根据专利的技术内容差别而相应分配了不同的国际专利分类号(IPC)。但是现在的专利分类主要停留在机器进行专利分类,人工识别专利语义,一方面分类效率较低、分类结果没有一个统一的对照标准,另一方面人工语义识别耗费时间长、成本高。因此,研究专利文本语义自动检索具有重要的社会现实意义。本文的实验数据集选取自本课题组积累了多年的专利文本信息、广东省专利局和网上公开的专利数据,通过Jieba工具对专利文本数据进行分词,利用字符级卷积神经网络对专利文本数据进行卷积处理,提取数据的特征并分类,确定该待测文本所属的专利类别,再利用Word2vec对专利文本数据处理得到词向量集,进而得到类别句向量集,待测文本通过词向量集得到该待测文本句向量,将该待测文本句向量与该待测文本所属类别的句向量集进行相似度计算匹配,得到最相似的专利文本。主要工作如下:1、本文分析了专利文本语义检索算法的研究意义、国内外研究现状以及当前传统的专利文本语义检索算法存在的不足;2、研究了常用的几种文本语义分析算法,包括传统的基于统计的IF-IDF算法、潜在语义索引算法,以及基于卷积神经网络的基本算法。3、验证了基于字符级卷积神经网络模型对专利文本语义检索的有效性,分析了其中各项参数的选取方法,提出了将字符级卷积神经网络模型和word2vec结合,对专利文本语义进行检索。4、设计并实现了基于字符级卷积神经网络的专利文本语义检索。实验结果表明,本文提出的算法与现有的专利文本语义检索算法相比,能有效地提高检索准确度。

读者评论 与其他读者分享你的观点