基于BERT模型的新闻文本自动摘要研究-南通市图书馆

文献详情 >基于BERT模型的新闻文本自动摘要研究收藏

基于BERT模型的新闻文本自动摘要研究

作者：董文超

作者单位：大连交通大学

学位级别：硕士

导师姓名：陈鑫影

授予年度：2023年

学科分类：05[文学] 08[工学] 081203[工学-计算机应用技术] 0503[文学-新闻传播学] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：抽取式文本摘要预训练语言模型 DistilBERT BERTSUM

摘要：近年来,互联网技术的飞速发展为人们的日常生活带来了巨大的便利,但也不可避免地导致了信息的迅猛增长,如何在这种情况下快速、高效地获取所需的资讯变得尤为重要。自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文,算法包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等。本文通过深入探讨数据集和评估指标等相关知识,提出了轻量化的自动文本摘要模型,并预测了未来可能出现的挑战及发展趋势。任务可以分为抽取式和生成式两种方法:在抽取式摘要方法中,模型通过从源文本中选择有意义的句子来生成摘要;在生成式摘要方法中,模型通过对源文本进行编码,利用机器学习生成摘要。上述两种方法在文本摘要任务上,已进行了多种形式的研究并取得较为优异的结果,其中包括基于图、基于深度学习等方法。大规模预训练语言模型在自然语言处理任务中的使用变得越来越普遍,但面对算力不足、运算资源有限等问题,运行这些体量大的模型仍然具有挑战性。本文的主要创新点有3条:(1)针对传统的文本摘要模型参数多、运算耗时长等问题,本文基于改进BERTSUM模型,探索了BERT模型的蒸馏变体DistilBERT在CNN/DM数据集上所表现出的摘要性能,并由此提出了一种轻量化抽取式摘要模型——DistilSum。(2)针对模型轻量化的工作,本文依托知识迁移,使用教师-学生网络,提出了另一种轻量化抽取式摘要模型——MobileSum。此模型更适合应用于手机等低资源设备上,相较于DistilSum模型,它的模型参数更少,训练速度更快。(3)为了提升模型性能,本文在模型中改进并引入了结构化注意力,与模型的摘要判断层联合使用,为备选句子进行打分,最终帮助模型选择出最优top-n个句子作为文档摘要。经过实验对比分析,DistilSum模型保证了原模型99.9%的性能,同时缩减了约36%的训练参数,大幅减少了训练时间。MobileSum模型保证了原模型94%的性能,同时缩减了79%的模型参数,成功实现了模型的轻量化。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于BERT模型的新闻文本自动摘要研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于BERT模型的新闻文本自动摘要研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：