咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进的ccLDA多数据源热点话题检测模型 收藏

基于改进的ccLDA多数据源热点话题检测模型

Multi-source Topic Detection Analysis Based on Improved ccLDA Model

作     者:陈兴蜀 马晨曦 王文贤 高悦 王海舟 CHEN Xingshu;MA Chenxi;WANG Wenxian;GAO Yue;WANG Haizhou

作者机构:四川大学网络空间安全学院四川成都610065 四川大学计算机学院四川成都610065 四川大学网络空间安全研究院四川成都610065 

出 版 物:《工程科学与技术》 (Advanced Engineering Sciences)

年 卷 期:2018年第50卷第2期

页      面:141-147页

核心收录:

学科分类:0810[工学-信息与通信工程] 08[工学] 081203[工学-计算机应用技术] 0805[工学-材料科学与工程(可授工学、理学学位)] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家科技支撑计划资助项目(2012BAH18B05) 国家自然科学基金资助项目(61272447) 四川省科技厅计划资助项目(16ZHSF0483) 

主  题:话题检测 话题模型 LDA 多数据源 IccLDA 

摘      要:目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分