依据《中国图书馆分类法》的英文图书分类探索
English Books Automatic Classification According to CLC作者机构:四川省水文水资源勘测中心成都610036 中共金堂县委党校成都610400
出 版 物:《北京大学学报(自然科学版)》 (Acta Scientiarum Naturalium Universitatis Pekinensis)
年 卷 期:2023年第59卷第1期
页 面:11-20页
核心收录:
学科分类:12[管理学] 1205[管理学-图书情报与档案管理] 0804[工学-仪器科学与技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:预训练语言模型 中国图书馆分类法 类目映射 汉语主题词表 文本增强
摘 要:针对带有中图分类号的英文图书数据量小以及类别不平衡的问题,将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合,旨在增强模型泛化能力。实验表明,综合后的策略能有效地提高模型在测试集的表现,正确率和宏F1值分别上升3.61和3.35个百分点,效果优于其他单一的文本增强方法。最后,通过BERT词向量可视化与词语信息熵计算,分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因。