咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向对外汉语教学的自动文本理解研究 收藏
面向对外汉语教学的自动文本理解研究

面向对外汉语教学的自动文本理解研究

作     者:闫英杰 

作者单位:郑州大学 

学位级别:硕士

导师姓名:昝红英;韩英杰

授予年度:2022年

学科分类:0501[文学-中国语言文学] 050103[文学-汉语言文字学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:对外汉语教学 语法偏误自动识别 RoBERTa模型 抽取式阅读理解 对抗训练 

摘      要:随着国家文化软实力的提升,以汉语作为第二语言的学习者越来越多,对外汉语教学相关的文本随之增加,通过自动文本理解可以减少对外汉语教学的文本处理工作。在听、说、读、写四项语言技能教学中,写和读是汉语第二语言学习者的难点,需要对文本更规范、更深层的理解。针对写作语法和篇章阅读两个教学难点,以自动检查语法和获取阅读理解答案及解析为应用目标,对语法偏误自动识别和抽取式阅读理解进行研究,主要完成的工作有:(1)基于RoBERTa的语法偏误自动识别。针对语法偏误自动识别任务中识别偏误难的问题,提出RoBERTa-BiLSTM-CRF模型。RoBERTa预训练模型进行词向量表示,BiLSTM模块进一步学习偏误语句中的语义特征,CRF层根据全局特征预测出最优的偏误标签序列。在识别语句是否存在语法偏误、识别偏误语句中偏误的类型和识别偏误语句中偏误的位置三个子任务中,该模型比基线模型BERT-CRF的F1值分别高1.88%、4.19%和4.65%。通过实验对比与分析,表明RoBERTa-BiLSTM-CRF模型自动识别语法偏误的有效性。(2)基于对抗训练的抽取式阅读理解。由于缺乏面向对外汉语教学的抽取式阅读理解数据集,从汉语水平考试(Hanyu Shuiping Kaoshi,HSK)的试题文本入手,结合试题特点,制定详细的标注规范,经过人工标注,构建了抽取式阅读理解数据集HSKReader,标注一致性达到了87.52%。HSKReader包含1379个(篇章,问题,答案)三元组数据,为面向对外汉语教学的抽取式阅读理解研究提供数据基础。针对抽取式阅读理解的篇章中存在干扰性答案的问题,提出基于RoBERTa对抗训练方法。通过快速梯度法和投影梯度下降两种对抗训练方法产生扰动,添加到词向量中生成对抗样本,调整RoBERTa模型的参数,预测答案在篇章中的起止位置。添加对抗训练方法后,RoBERTa模型在HSKReader、CMRC2018和PDu Readerchecklist数据集的EM和F1值分别提升了4.78%和4.51%、0.54%和0.76%、1.49%和0.42%。通过实验对比分析,表明对抗训练方法在抽取式阅读理解任务中的有效性。(3)对外汉语辅助学习平台的构建。以RoBERTa-BiLSTM-CRF模型和基于RoBERTa对抗训练方法为基础开发对外汉语辅助学习平台(Hanyu Writing and Reading,Han WR)。Han WR包括语法检查、阅读理解练习、易错词学习和扩展阅读模块,辅助汉语第二语言学习者学习写作和阅读,帮助汉语第二语言学习者提升汉语文本理解能力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分