基于概念簇的多主题提取算法
Multi-topic extraction algorithm based on concept clusters作者机构:河海大学计算机与信息学院江苏南京211100 淮阴工学院计算机工程学院江苏淮安223003
出 版 物:《智能系统学报》 (CAAI Transactions on Intelligent Systems)
年 卷 期:2015年第10卷第2期
页 面:261-266页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学青年科学基金资助项目(11201168)
主 题:语义 稀疏 上下文背景 知识库 概念簇 多主题提取 K-means MEABCC
摘 要:现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到多个主题簇;在使用K-means算法进行概念聚类时,通过预设种子方法对其进行改进,以弥补传统K-means算法对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、召回率和F1值。