基于配对排序损失的文本多标签学习算法
Multilabel Text Learning Algorithm Based on Pairwise Ranking Loss作者机构:上海理工大学光电信息与计算机工程学院上海200093
出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)
年 卷 期:2020年第41卷第10期
页 面:2045-2050页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61772342 61703278)资助
摘 要:文本多标签学习是一项重要的自然语言处理任务,是对信息进行有效管理的一项关键技术.该任务需同时考虑到对文本和多标签进行建模.基于此,论文首先利用预训练语言模型BERT对文本序列进行特征提取,然后采用配对排序损失作为模型训练的目标函数,以对多标签之间的排序关系进行建模.最后为得到更精准的预测结果,加入了辅助的标签阈值学习.考虑到基于铰链函数的排序损失存在训练困难的现象,为此论文采用了一种光滑的替代损失,并从理论上验证了其有效性.在真实文本数据集上的实验表明,本文提出的算法能提供更好的性能从多标签分类和排序两方面.