社区问答系统中问题分类及推荐机制的研究
作者单位:昆明理工大学
学位级别:硕士
导师姓名:苏磊
授予年度:2016年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:社区问答系统 标签传播 问题分类 用户模型 问题推荐机制
摘 要:社区问答(Yahoo! Answers、百度知道、新浪爱问等)是一种新型信息共享模式。在社区中用户不仅是提问者,也是回答者,问题则是用户之间的纽带。社区问答系统设置了层级类别,便于用户提出问题时自动或者手动标记问题的类别,以及用户选择自己感兴趣的类别回答问题。然而随着问题类别的扩增和细化,单纯依靠人工标记既费时又费力,所以大部分提问者没有标记问题的类别,如果仅仅利用少部分人工标记类别的问题,通过传统的分类方法自动给问题分类会导致分类准确率降低。再者,随着用户数和问答量的日益剧增,某用户前一秒提出的问题很可能在后一秒被其他用户提出的问题给淹没,导致问题被回答的效率大幅度降低。因此,本文围绕问题分类以及个性化推荐机制等关键问题开展研究,主要完成以下研究工作:(1)采用基于图的思想,提出了利用标签传播算法对问题进行分类。该方法首先利用图策略来建立问题分类的模型。在这个图模型中,各个节点表示各个有标签和未标签的问题样本,而节点与节点之间的边表示问题样本的相似度。然后,问题分类就转化成节点的标签通过传播概率传递到其他节点,循环传播直到标注概率收敛,问题分类完成。用“百度知道上爬取的数据进行分类实验,结果显示,在少量有标签的问题样本的情况下,采用标签传播算法的问题分类准确率有显著的提高。(2)在已知问题类别的基础上,构建用户模型。该用户模型首先考虑了用户的动态兴趣度,它是指用户在新问题被提出时对该问题类别的感兴趣程度,通过用户的历史回答记录计算回答该类别下每一个问题的时间权重,时间权重之和越大说明用户在最近时间段对该类别的问题越感兴趣。但由于用户回答问题的能力各不相同,兴趣度高的用户不一定给出的答案质量高,所以还要考虑用户的专长度。根据社区问答系统的采纳答案机制,构建带权重的用户链接关系图,将社区问答系统的个性化设置融入带权重的链接算法中,从而计算用户专长度。(3)提出一种基于用户模型的问题推荐方法。由于构建的用户模型反应了用户动态兴趣度和用户专长度,将两者的值相乘得到用户与新问题的匹配值,根据匹配值的高低构成用户推荐列表,从而完成对新问题的推荐。用“百度知道上爬取的数据进行推荐实验,结果显示,使用该推荐方法对新问题的推荐在精度值(P@N-Percent)上有显著的提高。