最大熵判别主题模型的高效学习算法
Efficient Learning Algorithm for Maximum Entropy Discrimination Topic Models作者机构:清华大学计算机科学与技术系
出 版 物:《模式识别与人工智能》 (Pattern Recognition and Artificial Intelligence)
年 卷 期:2019年第32卷第8期
页 面:736-745页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金重点国际合作项目(No.61620106010) 北京市自然科学基金重点专题项目(No.L172037)资助~~
主 题:有监督主题模型 坐标下降算法 吉布斯采样算法 拒绝采样算法
摘 要:现有的有监督主题模型训练算法的时间复杂度一般线性于主题数量,限制了其大规模应用.基于此种情况,文中提出最大熵判别潜在狄利克雷分配(MedLDA)有监督主题模型的高效学习算法.算法为坐标下降算法,训练分类器的迭代次数少于MedLDA已有的蒙特卡洛算法.算法还利用拒绝采样及高效的预处理技术,将训练的时间复杂度从线性于主题数量降至亚线性于主题数量.在多个文本数据集上的对比实验表明,相比原有的蒙特卡洛算法,文中算法在训练速度上有大幅提升.