一种计算结构化文档相关度的方法
A Method of the Relatedness Computation for Structural Documents作者机构:山东大学计算机科学与技术学院济南250061 山东大学计算机科学与技术学院济南250061 山东大学计算机科学与技术学院济南250061
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2007年第44卷第Z2期
页 面:350-355页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:山东省自然科学基金重大项目(Z99G01) 国家"八六三"高技术研究发展计划基金项目(863-306-ZT06-01-4)
摘 要:讨论了如何精确计算结构化文档相关度的理论模型和算法.首先分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性.在计算过程中,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况做适当区分,最后给出文档相关度计算公式.实验证明,此方法能够很好地区分信息检索中的模糊或者相近的请求及文档.