基于多特征融合的关键短语提取方法研究
作者单位:山东师范大学
学位级别:硕士
导师姓名:刘方爱
授予年度:2024年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:无监督关键短语提取 S1@M 候选关键短语间关系 多特征融合
摘 要:随着信息技术的不断发展,大数据所呈现的庞大数据量和低价值密度特征日益显著,这一趋势导致了提取有效信息变得更加困难。关键短语提取技术可以从指定文本中抽取与文本内容高度相关的重要短语,以帮助读者迅速领会文本的主要内容。因此,关键短语提取已经成为一项重要的有效信息提取策略。目前,关键短语提取已经广泛应用于文本分类、文本搜索以及文本推荐中,并取得了良好的效果。 尽管近年来关键短语提取方法取得了重要进展,但仍存在一些不足之处。本文在前人研究基础上,对候选关键短语的全局信息、局部信息和属性信息,以及候选关键短语之间的语义关系等进行研究。本文的研究工作如下: (1)针对关键短语提取的准确性问题,提出了一种基于多种信息相互制约的关键短语提取模型(Multi-information Interconstrained Keyphrase Extraction,MICRank)。MICRank首先对候选关键短语的提取进行优化,减小了较长候选关键短语的噪音。其次,MICRank从全局信息、局部信息和属性信息三个角度综合评估候选关键短语的重要性,最后根据综合分数提取出最终的关键短语。六个基准数据集的实验结果表明,所提出的MICRank模型可以提高关键短语提取的准确性。 (2)针对关键短语提取的多样性问题,提出了一种基于候选关键短语间关系的关键短语提取优化方法(A Keyphrase Extraction Optimisation Method Based on Relationships between Candidate Keyphrases,PRP)。PRP被应用于现有无监督关键短语提取方法中,通过对其输出的原始分数进行优化,从而稳定提升关键短语提取的性能水平。首先选择排名最高的候选关键短语作为第一个关键短语输出,并利用奖励模块和惩罚模块计算当前提取出来的关键短语对剩余候选关键短语的影响分数,然后对剩余候选关键短语的重要性分数进行更新并降序排序,进而得到下一个关键短语,重复上述步骤,直到提取出满足数量要求的关键短语为止。在模型SIFRank和Position Rank上引入PRP优化方法进行了实验,实验结果证明了优化方法的应用能够提高关键短语提取的多样性。 (3)针对词形匹配评价指标的局限性,我们提出了一种基于语义匹配的关键短语评价指标S1@M。首先,利用Sentence-BERT模型对预测关键短语和真实关键短语进行词嵌入,然后在真实关键短语集合的嵌入向量中找到与各个预测关键短语的嵌入向量之间余弦距离最小的值,并将其与同义短语的语义相似度阈值进行比较。最终,根据比较结果来判断该预测结果的正确性。类似于评价指标F1@M,通过计算精确率和召回率得出S1@M。实验结果表明,S1@M缓解了F1@M无法考虑同义短语的局限性。 本文致力于优化关键短语提取的性能,提出了多种优化方案,在常用的数据集上的实验结果证明了模型的有效性,为关键短语的提取提供了新思路。同时,将关键短语评价指标从词形匹配扩展到语义匹配,弥补了F1@M无法考虑同义短语的缺陷。