非事实类问题问答模型和特征的研究
作者单位:华东师范大学
学位级别:硕士
导师姓名:兰曼;吕岳
授予年度:2012年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:非事实类问题 问答模型 用户信息 在线问答社区 排序学习模型 逻辑回归模型
摘 要:研究非事实类问题的问答模型和特征是一个重要且富有挑战性的任务。现有的方法往往使用文本信息(即文本内容)和部分非文本信息(如网络日志等文本统计信息)作为特征,再结合一些传统的模型来模拟非事实类问题的问答。虽然其中取得一些进展,但所使用的特征往往难以抽取且经常被重复计算,而且传统的模型也不能将所有特征有效的融入计算,因此整体性能、效果还有待提高。另一方面,在对语篇关系和用户信息的研究过程中,我们发现它们也能帮助解决非事实类问题,然而现有的研究并没能有效地运用这些信息。 本文对现有的特征和模型提出了改进。首先,在现有特征中融入了用户信息特征和语篇关系特征,并针对现有特征的复杂性和冗余性,采用了逻辑回归模型对特征进行有效的分类和筛选,提出以高效特征组合代替所有特征的方法来提高特征效用。其次,还使用了排序学习模型模拟非事实类问题的问答,进而结合高效特征组合预测非事实类问答的最佳答案。 本文在数据集Yahoo! Answers Manner Question的实验结果表明,对于非事实类问题的确可以在几乎不影响排序系统性能的情况下,精简出高效特征以提升整体系统效能。同时,实验还揭示了用户信息相较于语篇信息能更好的帮助预测出最佳答案,并且成列排序学习模型比成对排序学习模型更适用于非事实类问题。