基于改进鲸鱼优化算法的苗医药命名实体识别模型研究
作者单位:吉首大学
学位级别:硕士
导师姓名:莫礼平
授予年度:2023年
学科分类:12[管理学] 08[工学] 1006[医学-中西医结合] 1005[医学-中医学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 100513[医学-民族医学(含:藏医学、蒙医学等)] 0811[工学-控制科学与工程] 100602[医学-中西医结合临床] 0812[工学-计算机科学与技术(可授工学、理学学位)] 10[医学]
主 题:苗医药 命名实体识别模型 鲸鱼优化算法 神经网络超参数搜索
摘 要:命名实体识别是自然语言处理领域的一项基本任务。命名实体识别模型的效果直接影响着机器翻译、问答系统以及推荐系统等自然语言处理具体应用。苗医药是我国优秀的民族医药文化遗产,其命名实体识别模型研究可以直接为苗医药信息的智能处理及应用等相关研究提供技术支撑,对于促进我国民族医药知识学的传承和创新发展有着重要的科学意义和实用价值。然而,至今苗医药命名实体识别相关研究鲜见报道。本文以《苗药学》和《湖北苗药》两本图书中记载的苗医药信息作为数据来源,结合鲸鱼优化算法这一新型的群智能优化算法的改进设计,深入研究苗医药命名实体识别模型的设计及优化方法,具体做了以下研究工作:(1)制作苗医药命名实体识别数据集。首先,对《苗药学》和《湖北苗药》两本图书扫描生成的可携带文件格式文件(Portable Document Format,PDF)进行文字识别和数据清洗。然后,对清洗后数据进行结构化表示,并确定苗医药命名实体的分类和各类实体的标注方式。最后,搭建Doccano平台,利用该平台完成苗医药命名实体的手工标注,生成供实验使用的苗医药命名实体识别数据集。(2)构建苗医药命名实体识别模型。首先,在对现有经典命名实体识别模型进行理论分析和对比实验的基础上,结合苗医药语料较为稀缺的实际情况,确定选用Transformers的双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)和条件随机场(Conditional Random Field,CRF)组合而成的BERT_CRF结构作为苗医药命名实体识别模型的基本结构。然后,以提高模型的抗噪性能为目标,在BERT中引入虚拟对抗训练(Virtual Adversarial Training,VAT),进而将VAT与BERT精简模型Ro BERTa-tiny3L312-clue相结合,据此构建基于BERT-CRF-VAT的苗医药命名实体识别模型。在苗医药命名实体识别数据集上,对基于BERT-CRF-VAT和基于BERT-CRF的苗医药命名实体识别模型进行性能对比测试实验的结果表明,前者在精确率、召回率和F值三个性能指标方面均呈现出优越性。(3)改进鲸鱼优化算法。针对基本鲸鱼优化算法收敛速度与计算精度方面,对鲸鱼优化算法进行改进设计,提出一种融合三种改进策略的自适应鲸鱼优化算法。该改进算法首先利用logistic混沌映射方法随机初始化种群,以增加种群多样性和个体分布均匀性;然后,通过对收敛因子进行非线性化处理和动态调整,来平衡算法的全局搜索与局部搜索性能;最后,通过分阶段设置自适应惯性权重来实现搜索步长的动态调整;与三种相关算法进行对比实验的结果表明,所提出的改进算法在收敛速度以及计算精度方面优于其它三种算法。(4)利用提出的改进鲸鱼优化算法对模型进行超参数优化。首先,在对模型重要的超参数进行分析的基础上,确定选择批训练规模Batch size、学习率learning rate和CRF层的学习率放大倍数CRF multiplier这三个超参数作为优化对象。其次,将待优化参数编码成鲸鱼优化算法中的个体(每个个体代表一种BERT-CRF-VAT结构)。然后,将模型的F值作为适应度函数值,据此计算每个个体的适应度。最后,根据改进的鲸鱼优化算法的三种捕猎方式更新个体,并在更新过程中基于当前迭代次数对算法的收敛因子和惯性权重两个参数进行自适应调整。在苗医药命名实体识别数据集上进行性能对比测试实验的结果表明,优化前后的模型对苗医药命名实体识别的精确率相当,但优化后的模型具有更快的收敛性,且得到的召回率和F值更优。