一种基于K—means算法的主题数据库规划方法
An Approach to Subject Database Planning Based on K-means作者机构:交通运输部公路科学研究院北京100088 大连海事大学信息科学技术学院辽宁大连116026
出 版 物:《信息工程期刊(中英文版)》 (Scientific Journal of Information Engineering)
年 卷 期:2015年第5卷第6期
页 面:173-176页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学]
基 金:受“面向ITS体系框架的交通运输数据资源规划研究”支持资助
摘 要:主题数据库规划一直是信息资源规划领域研究的重点,而实体聚合算法是影响主题数据库规划质量的关键。但是现有的计算实体聚合毖方法很容易陷入聚簇偏置,影响了规划质量。针对这一问题,作者首先计算实体对的亲和毖,然后将实体对的亲和关系看作网页之间的链接关系,使用PageRaxtk算法对实体对重要性排序,进而使用K—means算法迭代来聚合实体。实验结果表明本文提出的方法能够避免聚簇偏置,进而改善了主题数据库规划质量。