咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于大语言模型的语料库查询自动生成方法 收藏

基于大语言模型的语料库查询自动生成方法

作     者:张成辉 罗景 涂新辉 陈雨霖 

作者机构:武汉科技大学计算机科学与技术学院 智能信息处理与实时工业系统湖北省重点实验室 华中师范大学计算机学院 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家语委重点项目(ZDI145-22) 湖北省高等学校哲学社会科学研究项目(23Y025) 

主  题:语料库查询语言 大语言模型 上下文学习 自然语言处理 提示工程 

摘      要:语料库查询语言(Corpus Query Language,CQL)是一种用于在语料库中进行检索和分析的查询语言,自然语言自动生成CQL指将用户以自然语言表达的查询需求自动转换为标准的CQL语句,从而大大降低了用户使用语料库的门槛。虽然大语言模型可以较好的完成自然语言生成任务,但是在CQL生成任务中效果还不是很理想。为此,提出一种基于大语言模型上下文学习的语料库查询自动生成方法T2CQL。首先,基于CQL的编写规则总结出一套简洁全面的Text-to-CQL语法知识,作为大语言模型实现Text-to-CQL的自动转换的基础,以弥补大语言模型在此领域知识储备的不足。然后,基于选定的嵌入模型,选取与当前自然语言查询最接近的前k个Text-CQL样本对,以帮助大语言模型理解语法知识并作为参照。最后, 采用生成结果校准策略来减轻大语言模型在生成CQL时的偏差,通过校准模型偏差以提升模型生成CQL的性能。实验使用多个大语言模型在包含1177条数据的测试集上进行测试。实验结果表明,T2CQL方法显著提升了大语言模型在完成Text-to-CQL自动转换任务时的性能,最优的EX达到了85.13%。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分