基于吉布斯采样结果的主题文本网络构建方法
Topical Text Network Construction Method Based on Gibbs Sampling Results作者机构:中国民航大学计算机科学与技术学院天津300300
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2017年第34卷第6期
页 面:150-157页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61201414) 中央高校基本科研业务费专项资金(3122016D021)
主 题:主题模型 文本网络 吉布斯采样 潜在狄利克雷分布 航空安全报告
摘 要:挖掘文档集合中主题词的概率分布可对文档内容做概要性了解。进一步探寻给定主题下单词之间的连接关系不仅能丰富主题词的含义,而且能更细致地表现主题的层次和聚集关系。为此,针对带标签的文档集合,基于标注潜在狄利克雷分布(LDA)分析后的吉布斯采样结果,提出一种给定主题下2个单词共现的概率计算方法,并在此基础上构建主题文本网络。与逐点标注LDA(PL-LDA)模型相比,该方法不扩充原始文件,计算量小,耗时短。在航空安全报告数据集上的实验结果表明,对标记单词较多的主题,该方法能够较好地展示主题词的分布情况以及它们之间的复杂联系。