咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于生成式大语言模型的文献资源自动分类研究 收藏

基于生成式大语言模型的文献资源自动分类研究

作     者:罗鹏程 王继民 聂磊 

作者机构:北京大学图书馆 北京大学信息管理系 北京外国语大学区域与全球治理高等研究院 

出 版 物:《情报理论与实践》 (Information Studies:Theory & Application)

年 卷 期:2024年

核心收录:

学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 120502[管理学-情报学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家社会科学基金项目“面向多语种社会科学数据的线索发现方法研究”的成果 项目编号:22CTQ025 

主  题:大语言模型 自动分类 文献资源 层次分类 跨语言分类 

摘      要:[目的/意义]探索有效提高文献资源自动层次分类和跨语言分类效果的方法。[方法/过程]将文献资源分类视为分类号生成任务,利用图书馆编目数据构造训练集和测试集,基于ChatGLM 3、Llama 2等大语言模型在训练集上进行模型的高效微调,并在中英文测试集上分析模型的分类效果。[结果/结论]在不同的输出格式中,微调大语言模型使其直接输出分类号,可以获得最优的分类效果;随着训练样本数量的增加,微调后的大语言模型分类效果不断提升;基于22000个样本微调的大语言模型在中图法一级类目和完整分类号的准确率分别可达0.8848、0.5076,优于通用大语言模型;在中文文献上训练的大语言模型可以有效地分类英文文献,分类效果仅比中文文献略低;大语言模型生成的分类号中有少量不是有效的中图分类号。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分