端到端会议纪要抽取与生成方法的研究
作者单位:东莞理工学院
学位级别:硕士
导师姓名:张剑
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:线上线下相融合的会议环境,汇聚了文字、语音和视频等丰富多样的信息形态。在这个信息高效传播的时代背景下,自动生成会议纪要的需求日益旺盛。探索如何从多元信息源中提炼关键内容,并将其以结构化的方式呈现,对于提升信息复盘的效率具有重要的现实意义。本文具体研究内容如下: 1.针对中文领域会议数据集匮乏问题,本文首先利用联合国大会会议记录,构建了一个适配端到端模型的纯文本会议纪要数据集UNGA。其次在该数据集以及公开数据集VCSUM的基础上,通过语音合成技术,构建了两个多模态中文会议纪要数据集UNGA-mul和VSCUM-mul。 2.针对会议纪要抽取任务,本文提出了端到端结构感知的会议纪要抽取方法。结构感知机制的动机来自段落中不同位置的句子具有不同的重要性,具体实现过程为引导模型获取结构特征,并利用联合学习同时优化摘要与段落分割结果。在UNGA数据集上,摘要抽取任务的ROUGE-1值为44.6%,文本分割任务的F1值为71.9%。 3.针对多模态会议纪要生成任务,本文提出了语音-文本双模态会议纪要生成方法。模型引入一个轻量级Transformer结构,实现跨模态的语义信息对齐,并微调大型语言模型实现通过指令提示输出会议纪要。在UNGA-mul数据集上的三个ROUGE指标分别达到了71.26%、58.21%、60.95%。 综上,本研究聚焦于端到端的会议纪要抽取与生成方法,实现了从会议记录中提取核心信息,并生成结构化的纪要文本。同时,考虑到会议形式的多样性,实现了基于大型语言模型完成跨模态自动生成高质量会议纪要的任务。