咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >事务类搜索意图分类模型研究 收藏
事务类搜索意图分类模型研究

事务类搜索意图分类模型研究

作     者:段焕中 

作者单位:北京邮电大学 

学位级别:硕士

导师姓名:郑岩

授予年度:2012年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:搜索意图 事务类意图分类体系 意图特征获取 意图分类模型 

摘      要:本文主要是对事务类搜索意图分类模型进行了研究。所谓用户搜索意图,可以理解为用户通过搜索希望获取到的信息或资源,可以量化为用户希望得到的检索结果集。在搜索意图分类领域,目前还没有一个完全统一标准的分类体系。本文在Broder提出的意图分类体系基础上,参考了Rose和Levinson的意图分类体系,对事务类搜索意图进行了细分。将事务类意图细分为五个子类别,分别为下载、娱乐、交互、获取以及购物,并对这五个子类又细分为多个具体的用户搜索意图类别。本文重点研究内容是搜索意图分类特征获取以及模型构建。根据分类模型构建特征获取来源的不同,分为事先模型和事后模型。事先模型主要是从用户搜索Query本身获取特征进行建模,这些特征主要包括词汇(Unigram)特征、多元特征(Bigram和Trigram特征)、命名实体特征(NER)信息;事后模型是从搜索Query扩展资源来获取相关特征。扩展资源主要包括搜索引擎Web查询日志和搜索引擎抓取结果。其中,搜索引擎Web日志中可以提取URL地址片段、相关词汇特征和用户点击行为等;从搜索引擎抓取结果中可以获取特征主要包括页面标题(Title)以及页面文档中链接到其他页面的词汇或文本片段(Snippets)等。本文对上述所有特征及其组合分别进行了实验,实验结果表明,基于Query内容本身获取的特征对绝大部分搜索意图分类都是有效的;同时,从搜索Query扩展资源中获取的丰富特征对事务类搜索意图分类也起到了很大帮助和积极作用,并且它们组合特征的分类效果更加显著。另外,本文也对常用文本分类器作了相关介绍,并且选取最常用的三个分类器进行了实验效果对比。这三个分类器分别是决策树、K-近邻和支持向量机。结合选取的事务类搜索意图组合特征和意图类别分别进行实验,通过实验结果对比,发现各个分类器分类效果不尽相同,而支持向量机分类总体效果最佳。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分