融入术语与层级信息的专利关键短语抽取方法研究
Patent Keyphrase Extraction Based on Patent Term and Layer Information作者机构:南京工业大学信息管理与技术研究所南京210009 东南大学成贤学院电子与计算机工程学院南京210088
出 版 物:《数据分析与知识发现》 (Data Analysis and Knowledge Discovery)
年 卷 期:2023年第7卷第6期
页 面:99-112页
核心收录:
学科分类:050302[文学-传播学] 05[文学] 0503[文学-新闻传播学]
摘 要:【目的】针对图模型方法在专利关键短语抽取过程中偏向于选取长关键短语并忽略短语所在位置的问题,提出融入术语度与层级信息的专利关键短语抽取方法,提高专利关键短语抽取的准确性。【方法】基于传统的图模型方法,提出一种新的术语度指标,以衡量候选关键短语的术语信息;根据专利文献特征,将专利划分为若干层级,提出层级权重指标,以度量候选关键短语位置信息。【结果】融入术语信息,专利关键短语抽取方法F值相对提高7.615%(纳米)、11.515%(图像识别)、9.813%(芯片)和8.839%(液晶显示)。融入层级信息,专利关键短语抽取方法F值相对提高9.880%(纳米)、6.929%(图像识别)、6.099%(芯片)和5.576%(液晶显示)。【局限】基于词性规则的候选关键短语选取方法会产生较多的噪声。【结论】利用术语度与层次信息的专利关键短语抽取方法能够有效提高专利关键短语抽取的准确性。