基于概率主题模型的文档聚类
Document Clustering Based on Probabilistic Topic Model作者机构:浙江大学计算机科学与技术学院浙江杭州310027 杭州师范大学浙江杭州310012
出 版 物:《电子学报》 (Acta Electronica Sinica)
年 卷 期:2012年第40卷第11期
页 面:2346-2350页
核心收录:
学科分类:0808[工学-电气工程] 0809[工学-电子科学与技术(可授工学、理学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学青年基金(No.61103171 No.61103099) 浙江省公益性技术应用研究计划(No.2011C31048)
摘 要:为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.