社区问答系统中融入用户标签和用户行为的列表排序方法研究
作者单位:昆明理工大学
学位级别:硕士
导师姓名:苏磊
授予年度:2016年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:社区问答系统 用户特征 ListNet 排序学习 排序模型
摘 要:早期的搜索引擎,如百度、Google等为互联网用户提供了比较方便的信息获取方式,用户通过在搜索引擎中输入相关关键词可以很快得到自己想要的信息。但是随着互联网上信息的大爆炸以及生活节奏的加快,传统的搜索引擎已经不能很好地满足互联网用户快速获取目标知识的需求。然而,社区问答系统的出现弥补了搜索引擎的这种不足。社区问答系统开放性和交互性的特点将问题提问者和回答者紧密地联系在一起,可以满足用户更直接地快速地获取目标知识的需求。而在社区问答系统中答案排序是至关重要的,排序的准确性直接影响问答系统的质量和用户的体验。本文针对社区问答系统中的答案排序进行了如下几个方面的研究:(1)分析了社区问答系统中影响答案排序效果的特征。社区问答系统的特征包括用户标签和用户行为。社区问答系统中用户标签有问题回答者级别、问题回答者的擅长领域、问题回答者的被采纳率、问题回答者的被赞同数、问题回答者的经验值和问题回答者所关注的关键词等;用户行为有提问者的打分、游客的打分以及问题回答者经常回答的问题类别等。本文结合以上特征来对答案进行排序,后续实验表明融入用户标签和行为特征能有效提高答案排序的效果。(2)采用一种基于集成方法的半监督问句分类方法构建分类模型。为了将问题回答者的擅长领域和关注的关键词等特点有效地利用起来,必须对问句进行分类来匹配问题回答者的相关标签。该方法通过集成方法对分类器进行集成,再结合半监督学习方法用处理好的少量有标记问句特征和大量无标记问句特征来训练分类模型。然后用训练出的模型对新的问句进行分类,实验表明用基于集成的半监督分类方法可以有效提高问句分类准确率。(3)采用一种融入用户标签和用户行为特征的列表排序方法构建排序模型。首先对社区问答系统中用户标签和用户行为进行研究和分析,选取具有利用价值的用户标签和行为特征融合到答案特征空间中。选用神经网络作为模型,利用梯度下降法作为优化参数的ListNet作为排序方法,构建融入用户标签和用户行为特征的ListNet答案排序模型。最后用训练好的排序模型对已经经过处理的答案特征空间进行实验,对比实验结果表明融入用户标签和用户行为特征的ListNet答案排序方法能明显提高答案排序效果。(4)采用一种基于用户标签和用户行为优化的列表排序方法构建排序模型。分析研究社区问答系统中用户标签和用户行为,选取具有利用价值的用户标签和用户行为对ListNet排序模型进行优化。结合融入用户标签和用户行为的特征空间构建基于用户标签和用户行为优化的ListNet答案排序模型。最后用训练好的排序模型对已经经过处理的答案特征空间进行实验,对比实验结果表明基于用户标签和用户行为优化的ListNet答案排序方法能不同程度地提高答案排序的效果。