基于迁移学习和集成学习的医疗文本分类方法研究
作者单位:云南民族大学
学位级别:硕士
导师姓名:王新
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 081203[工学-计算机应用技术] 0835[工学-软件工程] 0811[工学-控制科学与工程] 10[医学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:ALBERT模型 迁移学习 集成学习 文本分类 中文健康问句
摘 要:中文健康问句作为一种特定形式的医疗文本,具有复杂的医学专业术语和大量的缩略词语等特点,以及自然语言普遍存在的同义词、反义词和一词多义等现象,在文本处理过程中,面临类别标签和层级关系复杂、有效标注数据样本较少、不同问句文本之间语义相似度高等问题,这使得针对该特定医学领域的文本分类任务更具挑战性。本文主要探索在特定目标领域中文小样本上的最佳学习模型,利用预训练语言模型通用和强大的泛化能力,基于ALBERT基准模型框架,提出了一种基于迁移学习和集成学习的医疗文本分类方法,并提供了两种变体模型:TLCM模型和TCLA模型,主要工作及创新点如下。(1)引入在通用领域表现较好的ALBERT预训练语言模型进行动态词向量表征,通过模型微调技术调整ALBERT模型的Embedding输入层结构、多层双向Transformer结构以及下游分类子任务的网络结构,其中,Embedding输入层采用迁移学习方法将健康问句描述文本以字级别进行输入进行字向量表示。(2)迁移ALBERT模型内部原始的多层双向Transformer结构,并将训练后的输出向量与CNN结构、Bi-LSTM结构以及Attention注意力机制等多个混合神经网络模块相结合进行监督式集成训练,分别提出了TLCM和TCLA模型两种框架进一步提取文本的局部信息特征和全局结构信息特征构造分类器。(3)在下游任务中,构建了一类多标签分类子任务,设计了两个具有完全连接结构的多层感知器构造文本多标签分类器,利用交叉熵机制和sigmoid激活函数对文本的上下文表示生成标签,实现中文健康问句描述文本的主题分类。实验结果表明,在中文健康问句的多标签分类任务上,本文提出的TLCM模型和TCLA模型在Precision、Recall、Micro_F1等各项评测指标中均达到了91%左右,具有良好的性能表现,能较好地解决传统文本分类算法对医疗文本语义理解不足、类别标签单一、分类精度较低的问题。相比传统word2vec静态词向量表示,预训练语言模型的引入使得算法性能得到显著提升,在医学文本信息挖掘领域展现出了较高的发展前景。