优化预训练模型的小语料中文文本分类方法
A Small-Corpus Chinese Text Classification Method for Optimizing Pre-trained Models作者机构:贵州财经大学信息学院贵阳550000
出 版 物:《现代计算机》 (Modern Computer)
年 卷 期:2022年第28卷第16期
页 面:1-8,15页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:教育部产学合作协同育人项目(BZX1902-20):基于Jupyter Notebook的用户信息行为分析整合实验教学设计
摘 要:针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。