基于RoBERTa-wwm-ext与混淆集的中文文本校对模型
Chinese text proofreading model based on RoBERTa-wwm-ext and confusion set作者机构:湖北大学计算机与信息工程学院湖北武汉430062 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)湖北武汉430062
出 版 物:《湖北大学学报(自然科学版)》 (Journal of Hubei University:Natural Science)
年 卷 期:2023年第45卷第5期
页 面:712-718页
学科分类:07[理学] 070305[理学-高分子化学与物理] 0703[理学-化学]
主 题:自然语言处理 掩码语言模型 RoBERTa-wwm-ext 混淆集 transformer结构
摘 要:中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上,利用transformer结构中的encoder机制读取整段中文文本序列,然后通过softmax函数计算当前字符权重分布来判断该字符是否错误,并在纠错任务中引入混淆集,使用混淆集找到该错字对应的候选字符,最后结合掩码语言模型给出的修改建议,完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上,设计字粒度级别的中文文本校对实验,对比模型性能.实验结果表明,与当前主流的中文文本校对模型相比,该模型的中文文本校对效果表现更佳,文本校对的准确率、召回率、F1值均有所提升.