结合数据增强方法的藏文预训练语言模型
Tibetan Pre-training Language Model Combined with Data Enhancement Method作者机构:省部共建藏语智能信息处理及应用国家重点实验室青海西宁810008 青海省藏文信息处理工程技术研究中心青海西宁810008
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2024年第38卷第9期
页 面:66-72页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:青海省重点研发与转化计划项目(2022-GX-104) 青海师范大学青年科研基金(2024QER14) 藏语智能信息处理及应用国家重点实验室(2024-skl-006)
主 题:藏文预训练语言模型 文本数据增强方法 UniLM模型
摘 要:最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。