基于MLM的小样本学习方法的研究
作者单位:内蒙古农业大学
学位级别:硕士
导师姓名:李宏慧
授予年度:2022年
学科分类:08[工学] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近年来,在自然语言处理方面,深度学习技术已经有了长足的进步。但是,大多数的深度学习都是通过对大量的标记样本学习,完成对目标任务的模型构建。然而,在某些情况下,由于涉及数据隐私保护,获得足够的训练样本变得非常困难。除此之外,对海量样本的标记也非常费时费力。为了解决小样本情况下自然语言处理问题,学者提出了小样本学习方法。但是,其中大多数的小样本学习模型参数设定较多、模型复杂度大,对计算机的算力要求非常高。为此,本文提出了基于MLM(Masked Language Model)模型的小样本学习方法。在多个数据集上的仿真实验结果表明,该方法在小样本学习任务上优于经典的机器学习及深度学习方法。本文具体研究工作如下:(1)提出了小样本学习训练方法FPT-MLM(Few-shot Pattern Training based on MLM),完成了小样本自然语言处理任务。该方法每次选择一小部分token来掩盖,然后在同一个样本上反复训练,获得双向融合信息的训练模型后,再将测试集转换为填空概率问题,并适当添加前缀或者后缀,然后利用解码层进行解码,最终得到预测标签序列的概率,实现自然语言的识别、分类及分析。(2)将提出的FPT-MLM方法应用于专利文本实体识别。针对专利文本领域缺乏足够的标注数据以及少量样本情况下传统的实体识别方法准确性偏低等问题,选取压力传感器制备领域的少量专利摘要文本,采用BMEO标注的方式进行人工标注,建立了带标签的中文专利摘要实验语料库。利用本文提出的FPT-MLM方法,完成了特定专利领域实体识别任务,识别效果较机器学习方法和深度学习方法,其准确率和F值均表现优异。(3)将提出的FPT-MLM方法应用于小样本情感分析和短文本分类中,实验结果表明,该方法可以有效的减少模型复杂度并保持基准效率。