稀疏平衡变分自动编码器的文本特征提取
Text feature extraction based on sparse balanced variational autoencoder作者机构:北京信息科技大学信息管理学院北京100192
出 版 物:《国防科技大学学报》 (Journal of National University of Defense Technology)
年 卷 期:2022年第44卷第1期
页 面:169-178页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:北京市教育委员会社科计划一般项目(SM201911232003) 北京信息科技大学教学改革项目重点资助项目(2020JGZD03) 教育部人文社科规划基金资助项目(20YJAZH129)
摘 要:针对文本特征提取方面的高维数据特征区分度较低、基于规则的特征学习的自学习性能差、变分自动编码器存在过度剪枝等问题,提出稀疏平衡变分自动编码器(Sparse Balanced Variational AutoEncoder,SBVAE)的文本特征提取模型。为消除噪声干扰,提高文本特征提取模型的鲁棒性,在文本特征提取的输入层采用双向降噪处理机制。提出一种稀疏平衡性处理,结合KL(Kullback-Leibler)项权重的模拟退火算法以缓解KL散度引发的过度剪枝的影响,强制解码器更充分地利用潜变量。此模型提高了高维数据特征的区分度。从对比分析文本特征提取模型、稀疏性能、稀疏平衡处理对隐藏空间变分下界的影响等方面深入开展实验,验证了该模型具有较好的性能。该模型在复旦数据集和Reuters数据集上的最高准确率相较于主成分分析分别提升了12.36%、8.06%。