基于模拟样本训练的支持向量机
Research on the Text Classification of Parallel SVM Based on the Simulated Samples作者机构:淮南联合大学计算机科学与技术系
出 版 物:《韶关学院学报》 (Journal of Shaoguan University)
年 卷 期:2019年第40卷第12期
页 面:13-17页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:安徽省教育厅自然科学重点项目(KJ2017A586)
摘 要:在基于内容学习的文本分类中,人工标注的训练样本存在着数量有限、获取困难以及由普通文本转换为向量形式的学习样本时间较长等问题.针对此情况提出一种基于有限人工标注样本特征空间和TF-IDF权重计算的样本模拟生成算法.该算法先通过特征抽取获得类别的特征空间,然后利用TF-IDF公式计算特征的权重,再通过随机算法生成模拟样本,并将其用于支持向量机的文本分类中.实验结果表明,利用该算法生成的模拟训练样本训练得到的分类器,具有良好的分类效果,能极大地减少训练样本的生成时间.