基于大型赛事的网络文本命名实体识别研究及系统实现
作者单位:浙江工商大学
学位级别:硕士
导师姓名:彭秀东
授予年度:2023年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网的快速发展,人们的生活节奏不断加快,从海量的文本中快速地提取有价值的信息更符合当代智能化的生活方式。命名实体识别技术应运而生,该技术可以通过识别文本中特定的实体词,来快速的获得文本核心内容,满足了人们快速获取高质量信息的需求。如今越来越多的大型赛事借助智能化的手段,来获取关键信息为赛事的组织和推广工作提供科学的指导,本文以2022年杭州亚运会的网络文本作为主要研究对象,对其进行命名实体识别研究,主要研究过程及成果如下:一、制作与亚运会相关的特定数据集。由于目前并没有公开的亚运会相关数据集,因此本文通过网络爬虫技术对“今日头条“新浪微博等网络平台进行数据爬取,获得原始数据。将获得的原始数据进行预处理,再使用Han LP自动标注工具对数据进行标注,最后通过人工的方式对数据集进行查缺补漏,从而制作成完整的有关亚运会的特定数据集,以供后续模型训练。二、提高命名实体识别模型的识别效果。本文充分考虑亚运会文本数据集的特点,对命名实体识别任务中BERE-Bi LSTM-CRF经典模型进行改进,改进方面主要有两点:(1)使用MACBERT模型代替传统的BERT模型,该模型对BERT模型中的掩码语言模型预测任务进行了改进,缩小了BERT模型训练阶段和微调阶段之间的差异,提升了模型的性能;(2)使用注意力机制来解决Bi LSTM神经网络处理长序列时出现的前端语义稀疏问题,使模型可以更好的利用重点词忽略无关词,提高模型识别效果。最后搭建起MACBERT-Bi LSTM-ATT-CRF模型来完成实体识别任务,本文提出的改进模型相比于经典模型在准确率、F1值、召回率三项性能指标上均有提高。三、实现亚运会命名实体识别的系统。为了更方便的使用命名实体识别模型,本文利用Python编程语言开发一款基于Web的简化版系统,系统所实现的功能包括:数据采集、模型使用、数据可视化等功能,可以更加快速方便的获取亚运会的相关信息。针对亚运会文本领域搭建的实体识别模型,并以模型为基础实现具有数据采集、模型使用等功能的简化版系统,有助于发掘出2022年亚运会网络文本背后隐藏的信息,为以后大型赛事提供智能化解决方案。