中文开放域问答系统数据增广研究
Data Augmentation in Chinese Open-domain Question Answering作者机构:清华大学计算机科学与技术系北京100084 清华大学人工智能研究院北京100084 清华大学智能技术与系统国家重点实验室北京100084
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2022年第36卷第11期
页 面:121-130页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家重点研发计划项目(2020AAA0106500)
摘 要:开放域问答是自然语言处理中的重要任务之一。目前的开放域问答模型总是倾向于在问题和文章之间做浅层的文本匹配,经常在一些简单问题上出错。这些错误的原因部分是由于阅读理解数据集缺少一些真实场景下常见的模式。该文提出了几种能够提高开放域问答鲁棒性的数据增广方法,能有效减少这些常见模式的影响。此外,我们还构造并公开发布了一个新的开放域问答数据集,能够评估模型在真实场景下的实际效果。实验结果表明,该文提出的方法在实际场景下带来了性能提升。