面向建筑信息领域的自然语言问题生成方法
Natural Language Question Generation Method for the Field of Civil Engineering and Construction Information作者机构:西安理工大学计算机科学与工程学院 轨道交通工程信息化国家重点实验室(中铁一院) 腾讯计算机系统有限公司
出 版 物:《山西大学学报(自然科学版)》 (Journal of Shanxi University(Natural Science Edition))
年 卷 期:2021年第44卷第3期
页 面:428-437页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61602374) 国家重点研发计划项目(2018YFB1201500) 陕西省自然科学基金(2016JQ6041) 轨道交通工程信息国家重点实验室基金项目(SKLKZ19-05) 国家联合基金项目(U20B2050)
摘 要:将变换器模型(Transformer)和联合遮盖语言模型(Unified Language Model Pre-training for Natural Language Understanding and Generation,UniLM)结合构建了序列学习模型,获取土木建筑信息领域的句子级语义信息,自动解码生成对应的自然语言问题。该模型是一个序列到序列模型,将大量开放域和土木专业领域中语料的语法和句法规则迁移到土木建筑信息问答领域,结合该领域内的少量人工标注数据集获取语义信息。通过对Transformer中不同模块进行随机采样分层训练,优化后生成良好的领域目标问句。实验结果表明,文章模型不需要人为指定规则和设置复杂的自然语言处理管道,在机器评价和人工评价指标中都展现出更好的语义理解能力,最终生成高质量的土木建筑信息领域问题。