基于深度学习的中文医疗社区答案选择算法研究
作者单位:广东工业大学
学位级别:硕士
导师姓名:杨祖元
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近年来,国内的在线医疗社区愈来愈活跃,一方面是因为传统门诊存在医疗资源分配不均匀造成拥挤的问题以及病患存在距离和时间上的限制,另一方面是因为新冠疫情下网上问诊既能缓解医院线下接诊的压力、向患者提供专业的医疗服务,还可以减少新冠病毒的交叉感染。但现有的医疗问答更多是以人工回答的方式,因此开发一个自动医疗问答系统能够有效地减少医生的工作量和缓解医疗资源的不平衡。而答案选择作为问答系统的关键组成部分之一,对答案选择算法的研究工作决定了自动问答系统最终输出的答案质量。本文首先阐述中文医疗社区答案选择算法的研究背景及意义,从基于特征工程的传统算法、纯深度神经网络算法、基于注意力机制的深度神经网络算法这三个方面对答案选择任务的研究现状展开详细分析,指出现有的答案选择模型存在的问题,并提出相应的解决方案。本文的主要贡献为:(1)针对中文医疗问答数据包含大量的专业术语,如何处理和表示这些医疗术语,让模型能更充分利用到中文文本中丰富的语义信息的问题。本文提出一种面向中文文本的语义特征信息提取方法。该方法先使用了由Word2Vec预训练得到的字向量对问答文本进行表征,字向量包含一定的语义信息,并且减少未登录词的出现概率、降低内存消耗。接着使用双向门控循环单元分别对问题和答案的字表征向量进行上下文编码,对汉字周围的上下文进行建模。然后使用多尺度卷积神经网络分别提取问题和答案在不同尺度上的语义特征信息,通过多尺度的卷积核在文本上的窗口滑动,可以从字、词、短语等多个不同的尺度进行语义特征挖掘。通过对比实验和消融实验证明了在上述模块的作用下能够从中文文本中提取有用的语义信息用于答案选择任务,提高模型的性能表现。(2)针对特定领域下的中文医疗问答场景,即当答案池由同一个医疗主题(例如:癫痫)采样组成,现有模型在对问题和答案的处理上存在“过度池化的问题。本文提出的多尺度互注意力融合网络(MCFN)在互注意力融合模块中首先使用了互注意力机制对问题和答案之间的交互关系进行建模生成注意力信息,让模型可以同时重点关注问题和答案中有意义的文本内容。接着使用语义残差融合机制根据三种不同的对比操作对语义特征信息和注意力信息进行融合。在互注意力融合模块的作用下,MCFN在进行答案选择的时候,会根据问题和答案之间的交互信息去同时关注问题和答案文本中重要的文本信息,同时为了防止互注意力机制重点关注到与主题有关的文本内容,语义残差融合机制再次引入了之前提取的语义特征信息,使得模型可以关注到一些与主题无关但是比较重要的文本内容。通过对比实验和消融实验证明了互注意力融合模块使得MCFN可以很好地缓解“过度池化问题。(3)针对Word2Vec无法根据具体上下文对词向量进行调整的问题,本文提出一种基于互注意力融合机制的BERT答案选择算法(BERT-CF)。BERT-CF使用BERT实现动态调整词向量的功能,并利用BERT预训练得到的先验知识和较强的表征能力。而互注意力融合机制使得BERT-CF在特定领域的答案选择任务中可以关注到除了自身或者非主题相关的其他重要文本信息。通过对比实验说明了BERT-CF在答案选择任务中突出的性能表现。为了验证模型的有效性,本文除了使用公开的中文医疗问答数据集c Med QA v1.0和v2.0,还构建了特定领域下的中文医疗问答数据集(中文癫痫问答数据集)。由实验结果可知,本文提出的MCFN和BERT-CF在三个数据集上的性能表现都超过了基准方法,并且超过在公开的中文医疗问答数据集c Med QA v1.0和v2.0上性能表现最好的模型。