AIGC赋能中医古籍活化:Huang-Di大模型的构建
AIGC Empowering the Revitalization of Ancient Books on Traditional Chinese Medicine:Building the Huang-Di Large Language Model作者机构:南京大学信息管理学院 郑州大学人工智能学院
出 版 物:《图书馆论坛》 (Library Tribune)
年 卷 期:2024年第44卷第10期
页 面:103-112页
核心收录:
学科分类:050104[文学-中国古典文献学] 0501[文学-中国语言文学] 060202[历史学-历史文献学(含∶敦煌学、古文字学)] 1005[医学-中医学] 05[文学] 06[历史学] 0602[历史学-中国史] 100503[医学-中医医史文献] 10[医学]
摘 要:目前中医界已构建大量的古籍资源库,然而数字化研究仍以文献扫描整理、浏览检索等浅层知识服务的实现为主,生成式AI的发展为中医古籍数字化研究提供了新的机遇。文章在Ziya-LLaMA-13B-V1开源模型基础上,通过继续预训练、有监督微调、DPO优化的全流程训练步骤,构建中医古籍生成式对话大语言模型,最后通过自动评估和人工评估验证了其在中医古籍领域的优异性能。自动评估结果表明:训练损失函数成功收敛,各对话类目下BLEU、ROUGE指标值均偏低,侧面反映出该模型具备强大的领域创造力。人工评估结果显示:该模型在古籍知识问答方面性能显著优于现有的中医药垂直领域两类模型,较优于通义千问,部分类目如预防养生的回答能力与ChatGPT(gpt-4)相比略有不足。本研究突破中医古籍数字化固有的研究模式,实现了古籍资源的深度融合与利用,可满足古籍知识解答、中医问诊、养生保健等多元化的知识服务。