基于大语言模型的领域问题生成方法研究
作者单位:北京化工大学
学位级别:硕士
导师姓名:万静
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:领域问答系统利用领域知识库和专业图谱解决特定领域的复杂问题。但由于领域本体的差异性和复杂性,导致领域问答数据集的开发成本高昂且难以保证质量。尽管已有研究利用模板和神经网络进行领域问题生成,但这些方法在实践中仍面临以下挑战。首先,模板生成的问题形式过于单一、缺乏流畅性。其次,针对低资源的问题生成,问题质量难以控制。为了解决这些挑战,本文提出了基于大语言模型的中文领域问题生成方法,并应用于书画领域。通过对领域特定知识的深入挖掘和大语言模型的应用,实现了低成本的问答数据集构建,降低了数据获取和标注的成本,同时也提高了数据集的质量和可用性。其主要工作如下: (1)提出一种基于模板采样和大语言模型改写的领域问题生成方法。首先通过构建中国书画知识图谱作为知识来源。其次利用模板采样递归获得复杂的模板问题和逻辑形式。最后设计了结合问题改写指令和示例和提示大语言模型进行问题改写,消除问题的固定句法,获得自然流畅的自然语言问题。本文构建了中国书画领域问答数据集(CHPCQAD),并进行了问答模型测试和人工评测,从多角度验证了数据集的有效性和挑战性。 (2)提出一种基于对比上下文和思维链的增强问题生成方法。本文基于对比学习的思想,首先设计了包含正负样例的对比提示,引导多个大模型并行生成候选问题。其次,为了对候选问题进行筛选,设计了思维链提示大语言模型对候选问题进行打分评估,获得其中的高质量问题。数据增强实验表明,通过该方法进行数据增强的MBART准确率达到了75.81%,提高了2.85%。