咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >优化预训练模型的小语料中文文本分类方法 收藏

优化预训练模型的小语料中文文本分类方法

A Small-Corpus Chinese Text Classification Method for Optimizing Pre-trained Models

作     者:陈蓝 杨帆 曾桢 Chen Lan;Yang Fan;Zeng Zhen

作者机构:贵州财经大学信息学院贵阳550000 

出 版 物:《现代计算机》 (Modern Computer)

年 卷 期:2022年第28卷第16期

页      面:1-8,15页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:教育部产学合作协同育人项目(BZX1902-20):基于Jupyter Notebook的用户信息行为分析整合实验教学设计 

主  题:BERT GloVe 向量融合 小语料 短文本 

摘      要:针对GloVe、BERT模型生成的字向量在小语料库中表义不足的问题,提出融合向量预训练模型,对小语料中文短文本分类的精确度进行提升。本文以今日头条新闻公开数据集为实验对象,使用GloVe、BERT模型通过领域预训练,对GloVe与BERT生成的预训练字向量进行向量融合,实现语义增强,从而提升短文本分类效果。结果表明,当语料库中的数据量为500时,融合字向量的准确度相较于BERT字向量的准确度提升了5个百分点,相较于GloVe字向量的准确度提升了3个百分点。词义选取的维度待进一步加强。本文所提方法能够对小语料库的短文本数据实现精准分类,对后续文本挖掘工作具有重要意义。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分