基于ALBERT-Seq2Seq-Attention模型的数字化档案多标签分类
Multi-label Classification of Digital ArchivesBased on ALBERT-Seq2Seq-Attention Model作者机构:湖州师范学院信息工程学院浙江湖州313000
出 版 物:《湖州师范学院学报》 (Journal of Huzhou University)
年 卷 期:2024年第46卷第2期
页 面:65-72页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(62277016) 湖州师范学院研究生科研创新项目(2022KYCX45)
主 题:ALBERT Seq2Seq Attention 多标签分类 数字化档案
摘 要:针对现有的数字化档案多标签分类方法存在分类标签之间缺少关联性的问题,提出一种用于档案多标签分类的深层神经网络模型ALBERT-Seq2Seq-Attention.该模型通过ALBERT(A Little BERT)预训练语言模型内部多层双向的Transfomer结构获取进行文本特征向量的提取,并获得上下文语义信息;将预训练提取的文本特征作为Seq2Seq-Attention(Sequence to Sequence-Attention)模型的输入序列,构建标签字典以获取多标签间的关联关系.将分类模型在3种数据集上分别进行对比实验,结果表明:模型分类的效果F1值均超过90%.该模型不仅能提高档案文本的多标签分类效果,也能关注标签之间的相关关系.