咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >学术文本中的无监督关键词抽取研究:融合结构和语义信息 收藏
学术文本中的无监督关键词抽取研究:融合结构和语义信息

学术文本中的无监督关键词抽取研究:融合结构和语义信息

作     者:涂宇鸽 

作者单位:北京外国语大学 

学位级别:硕士

导师姓名:邹婷

授予年度:2023年

学科分类:0502[文学-外国语言文学] 050201[文学-英语语言文学] 05[文学] 

主      题:抽取 PageRank 句法分析 语义聚类 

摘      要:随着信息时代的到来,一股强大的“数据洪流正在席卷全球,包括学术领域。人们获取到的科学文献数量更庞大、涉及的研究领域也更广泛,使得文献的管理和利用变得越来越复杂。在这个背景下,关键词抽取技术的价值和需求逐渐凸显。关键词抽取是信息检索和自然语言处理领域的一个重要研究任务,旨在从大量文本数据中抽取出最重要、最具代表性的关键词。它能帮助研究者快速了解文档的主题和内容,促进文献的分类、搜索和推荐,并提供科研方向的参考。目前,关键词抽取技术分为有监督和无监督的方法。其中,无监督关键词抽取不需要大量人工标注的语料作为训练数据,因而具备适用范围广泛、不受样本偏差的影响、可扩展性强等优势。但其性能往往不及有监督方法,存在语法不全、词频依赖、内容空泛、语义重复等问题。针对这些问题,本文从关键词的术语性、分布性、信息性和多样性这四个本质特征出发,提出一种融合学术文本结构和语义信息的关键词抽取算法SSRank。结构上,该算法构建了一个精细的基于词性标注和依存分析的名词短语检测框架,来优化候选短语的形成,使关键词保留语法上的健全完整;然后,利用结合邻接信息和位置信息的PageRank算法来建模单词在原始文本上的共现关系,迭代计算单词的重要性得分;最后,参考齐普夫定律构建非线性长度公式来合并每个短语的成分词分数得到候选词组的重要性。语义上,SSRank使用语义距离来量化候选短语的多样性,将候选短语聚类到不同的语义团簇,使其涵盖更多的主题。作者具体构造了四种不同的距离度量方法,包括重叠距离、编辑距离、伪独热编码(POE)余弦距离及平均词向量距离,并使用HAC或K-Means算法进行聚类。最后,引入关键词串连的筛选方法,将团簇按照平均内部语义距离和外部中心距离的加权排序,从领先的聚类中选择最优的关键词集。为了证明SSRank在关键词抽取任务上的有效性,本文在五个不同规模、不同学科领域的数据集上进行了详细的对比实验,SSRank的表现均优于基准模型。结果证明了 SSRank关键成分的有效性:(1)名词短语检测方法优于现有框架,在多个数据集上达到接近或超过90%的准确率;(2)语义聚类能提高抽取关键词的多样性,使模型F-score值提升12.62%;(3)总体上,相较原始的TextRank,改良后的关键词抽取算法SSRank性能显著提升。为了进一步验证SSRank在大规模文本上的抽取速度和效果,使用包含4814篇摘要的ACL文集抽取25173条关键词,并使用术语共现图谱和关键词逐年趋势图展示,体现了 SSRank的应用价值。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分