Web查询分类方法的改进
作者单位:上海交通大学
学位级别:硕士
导师姓名:陆朝俊
授予年度:2011年
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
主 题:Web查询 分类 WordNet Wikipedia 显式语义分析
摘 要:伴随着互联网的逐渐普及,Web上各类搜索引擎得到迅猛的发展,可以说如今搜索引擎已经成为了人们生活中不可或缺的一个信息获取工具。人们通过搜索引擎来获取信息的过程是用户先向搜索引擎提交Web查询请求,然后搜索引擎根据该查询请求返回相关结果。这两个环节连接的纽带就是用户提交的Web查询请求,对于搜索引擎来讲,用户的信息需求是完全通过用户递交的查询请求来体现的,所以对Web查询进行准确分析就具有了很重要的意义。Web查询话题分类就是Web查询分析的一个重要方面,最近几年得到了越来越多的关注。如果能较好的判断用户的查询涉及话题的类别,搜索引擎就可以只向用户提供相关话题类别的网页信息,这样能更好的满足用户的信息需求。特别是有些搜索引擎实际上是通过在后台调用不同的垂直搜索引擎来提供搜索结果,如果能事先知道用户Web查询的话题类别的话,便可以很方便的调用相关的垂直搜索引擎来提供搜索结果。 Web查询虽然也可以归结为一种文本,但是却与传统文本有着很大的不同之处,比如Web查询通常都很短且具有歧义性,因此如果直接利用针对传统长文本的分类方法来对Web查询这类短文本分类的话,将很难取得理想的效果。虽然目前学术界针对Web查询自身的特点已经提出了一些相关的应对方法,但是仍然有很大的改进空间。在本文中,我们在回顾传统文本分类的相关概念以及目前学术界关于Web查询分类的相关工作的基础上,从如下两方面对Web查询分类方法进行了改进: (1)我们提出一种通过语义相似度计算,利用WordNet中的概念所带的注释对Web查询词进行扩展的方法,这样我们可以得到关于Web查询关键词的更加丰富的信息,然后再利用传统的文本分类方法对扩展后的Web查询进行话题分类。这种方法的优势是利用了外部的权威知识库扩充了原本较少的Web查询信息。 (2)通过显式语义分析方法将Web查询映射到Wikipedia概念空间中,然后在该概念空间中利用类似于传统文本分类的方法进行分类。由于Web查询通常所包含的词很少,所以这种方法避免了传统的词向量空间模型对词的过分依赖,而是充分挖掘Web查询有限的词语背后所代表的概念。 对于以上两方面的改进,我们都利用Web查询分类的标准测试集进行了细致的实验和分析。结果表明在绝大多数情况下,以上两方面的改进确实能较好地提高Web查询分类的效果。