咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于频繁项集的海量短文本聚类与主题抽取 收藏

基于频繁项集的海量短文本聚类与主题抽取

Mass of Short Texts Clustering and Topic Extraction Based on Frequent Itemsets

作     者:彭敏 黄佳佳 朱佳晖 黄济民 刘纪平 Peng Min;Huang Jiajia;Zhu Jiahui;Huang Jimin;Liu Jiping

作者机构:武汉大学计算机学院武汉430072 武汉大学深圳研究院广东深圳518057 软件工程国家重点实验室(武汉大学)武汉430072 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2015年第52卷第9期

页      面:1941-1953页

核心收录:

学科分类:0810[工学-信息与通信工程] 0808[工学-电气工程] 0839[工学-网络空间安全] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论] 

基  金:国家自然科学基金项目(61472291 61303115 61272110) 2013年深圳知识创新计划基础研究项目 

主  题:海量 短文本 频繁项集 聚类 主题抽取 

摘      要:社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分