咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Transformer的长文本多标签分类算法研究 收藏
基于Transformer的长文本多标签分类算法研究

基于Transformer的长文本多标签分类算法研究

作     者:唐明杰 

作者单位:北京印刷学院 

学位级别:硕士

导师姓名:李业丽;蒋艳平

授予年度:2023年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:长文本 多标签 Transformer 文本分类 LDA 

摘      要:文本分类是自然语言处理领域(Natural Language Processing,NLP)中的重点研究方向,同时也是自然语言处理中的经典问题,文本分类的应用领域广阔,如情感分析、文本主题分类、用户意愿预测、邮件信息过滤、用户画像等。然而区别于传统的二分类与多分类问题,每个独立的文本内容往往对应多个分类标签,预测这些文本对应的类别从而成为多标签分类问题,涉及到在标签体系中选择多个正确的标签。同时在传统的文本的分类问题中,长文本面临截断切分、压缩处理的过程,在分类过程中往往会损失大部分的内容信息,而损失掉的信息常常会对超长文本的多标签分类任务提供内容上的支持。传统方法无法有效对超长文本进行多标签分类。因此,对长文本的多标签分类研究具有十分重要的应用价值。针对目前业界长文本分类领域中存在的问题,本文主要进行了以下两个方面的研究:(1)针对传统的基于CNN与RNN深度学习算法由于时序问题及空间置换问题导致的长文本多标签分类效率低下的现象,提出一种改进的适用于长文本处理的文本分类模型TRM-FLT。通过Segment文档分片处理,按特定长度切分长文本语句信息,联系Attention注意力机制中的注意滑窗机制,使用循环信息处理与相对位置编码机制对文本内容进行信息处理,输出文本分类结果。(2)联合LDA隐含狄利克雷算法,提出适用于超长文本多标签分类问题的TRM-LDA主题分类模型,结合改进的Multi-Head注意力机制,对文本特征进行细粒度的提取,对文本进行精准度更高的类别划分,从而实现对文档级长文本进行多标签分类的任务。最后通过对比实验表明,本文所提出的解决方案在长文本多标签分类领域,相较于传统使用截断、压缩方法的深度学习算法,在P值、R值、F1值上有明显的提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分