咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于RoBERTa-wwm-ext与混淆集的中文文本校对模型 收藏

基于RoBERTa-wwm-ext与混淆集的中文文本校对模型

Chinese text proofreading model based on RoBERTa-wwm-ext and confusion set

作     者:徐久珺 黄国栋 马传香 XU Jiujun;HUANG Guodong;MA Chuanxiang

作者机构:湖北大学计算机与信息工程学院湖北武汉430062 湖北省高校人文社科重点研究基地(绩效评价信息管理研究中心)湖北武汉430062 

出 版 物:《湖北大学学报(自然科学版)》 (Journal of Hubei University:Natural Science)

年 卷 期:2023年第45卷第5期

页      面:712-718页

学科分类:07[理学] 070305[理学-高分子化学与物理] 0703[理学-化学] 

基  金:国家自然科学基金(62102136)资助 

主  题:自然语言处理 掩码语言模型 RoBERTa-wwm-ext 混淆集 transformer结构 

摘      要:中文文本自动校对技术是自然语言处理领域中的主要任务之一.针对中文文本中字粒度级别的错误(音似、形似和义似替换错误),提出一种基于RoBERTa-wwm-ext与混淆集的中文文本校对模型.该模型在RoBERTa-wwm-ext结构的基础上,利用transformer结构中的encoder机制读取整段中文文本序列,然后通过softmax函数计算当前字符权重分布来判断该字符是否错误,并在纠错任务中引入混淆集,使用混淆集找到该错字对应的候选字符,最后结合掩码语言模型给出的修改建议,完成文本校对.在SIGHAN2014与SIGHAN2015中文拼写检查数据集上,设计字粒度级别的中文文本校对实验,对比模型性能.实验结果表明,与当前主流的中文文本校对模型相比,该模型的中文文本校对效果表现更佳,文本校对的准确率、召回率、F1值均有所提升.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分