学术文本中的无监督关键词抽取研究：融合结构和语义信息-南通市图书馆

文献详情 >学术文本中的无监督关键词抽取研究：融合结构和语义信息收藏

学术文本中的无监督关键词抽取研究：融合结构和语义信息

作者：涂宇鸽

作者单位：北京外国语大学

学位级别：硕士

导师姓名：邹婷

授予年度：2023年

学科分类：0502[文学-外国语言文学] 050201[文学-英语语言文学] 05[文学]

主题：抽取 PageRank 句法分析语义聚类

摘要：随着信息时代的到来,一股强大的“数据洪流正在席卷全球,包括学术领域。人们获取到的科学文献数量更庞大、涉及的研究领域也更广泛,使得文献的管理和利用变得越来越复杂。在这个背景下,关键词抽取技术的价值和需求逐渐凸显。关键词抽取是信息检索和自然语言处理领域的一个重要研究任务,旨在从大量文本数据中抽取出最重要、最具代表性的关键词。它能帮助研究者快速了解文档的主题和内容,促进文献的分类、搜索和推荐,并提供科研方向的参考。目前,关键词抽取技术分为有监督和无监督的方法。其中,无监督关键词抽取不需要大量人工标注的语料作为训练数据,因而具备适用范围广泛、不受样本偏差的影响、可扩展性强等优势。但其性能往往不及有监督方法,存在语法不全、词频依赖、内容空泛、语义重复等问题。针对这些问题,本文从关键词的术语性、分布性、信息性和多样性这四个本质特征出发,提出一种融合学术文本结构和语义信息的关键词抽取算法SSRank。结构上,该算法构建了一个精细的基于词性标注和依存分析的名词短语检测框架,来优化候选短语的形成,使关键词保留语法上的健全完整;然后,利用结合邻接信息和位置信息的PageRank算法来建模单词在原始文本上的共现关系,迭代计算单词的重要性得分;最后,参考齐普夫定律构建非线性长度公式来合并每个短语的成分词分数得到候选词组的重要性。语义上,SSRank使用语义距离来量化候选短语的多样性,将候选短语聚类到不同的语义团簇,使其涵盖更多的主题。作者具体构造了四种不同的距离度量方法,包括重叠距离、编辑距离、伪独热编码(POE)余弦距离及平均词向量距离,并使用HAC或K-Means算法进行聚类。最后,引入关键词串连的筛选方法,将团簇按照平均内部语义距离和外部中心距离的加权排序,从领先的聚类中选择最优的关键词集。为了证明SSRank在关键词抽取任务上的有效性,本文在五个不同规模、不同学科领域的数据集上进行了详细的对比实验,SSRank的表现均优于基准模型。结果证明了 SSRank关键成分的有效性:(1)名词短语检测方法优于现有框架,在多个数据集上达到接近或超过90%的准确率;(2)语义聚类能提高抽取关键词的多样性,使模型F-score值提升12.62%;(3)总体上,相较原始的TextRank,改良后的关键词抽取算法SSRank性能显著提升。为了进一步验证SSRank在大规模文本上的抽取速度和效果,使用包含4814篇摘要的ACL文集抽取25173条关键词,并使用术语共现图谱和关键词逐年趋势图展示,体现了 SSRank的应用价值。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

学术文本中的无监督关键词抽取研究：融合结构和语义信息

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

学术文本中的无监督关键词抽取研究：融合结构和语义信息

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：