金融知识自动问答中的新词发现及答案排序方法
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:王晓龙
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着自动问答系统的深入研究和广泛应用,问答系统开始呈现领域化和专业化的趋势。与一般的开放型自动问答不同,限定领域内会出现许多不存在于分词器词库中的领域新词,这些新词的存在会使得当在限定领域中使用通用分词器对句子进行分词时,由于分词器原本词库的不完整而导致其被切分为多个部分,造成词语的不连贯,影响使用领域语料进行词向量的训练效果。指定领域问答在问题类型上,往往夹杂着结构化数据问题和自由文本类问题,但不同类型的问题其答案抽取方法却不尽相同。在候选答案抽取方面,以往的问答系统大多是基于句子中词向量在向量空间中的距离来进行候选答案的排序和检索,但是此方法仅考虑了词汇之间的相互关系,却忽略了每个词在句子中的权重以及由于词性差异而导致的计算偏差。针对以上领域内自动问答的难点,本文根据统计学以及结合卷积神经网络等机器学习算法,提出了一种适用于金融领域的新词发现与抽取方法,以及金融知识自动问答的候选答案排序方法。本文的主要研究内容包括:金融领域内新词的发现与提取。为了更好地计算用户问题与候选问答库中问答对的相关度,本文从统计学的角度出发,结合独立词概率和信息熵的使用,改进了一种能够从大规模领域语料中提取出新词的方法,该方法能够将提取新词的准确率提升至90%以上,并且在候选答案的排序实验中,通过加入该方法提取的领域新词到相关度计算模型中,能够将其MRR值提升0.03以上。候选答案的排序与抽取。本文提出了一种问题-问题相关度与问题-答案相关度相结合的方法进行候选答案的排序。前者是基于词向量在向量空间中计算问句相关度,后者是基于卷积神经网络模型计算问句与答案的相关度。本文在实验中证明了基于句子相对长度的余弦相似度计算效果最佳,且由TF-IDF抽取出的句子关键词及其词性权重也会对相关度计算产生较大影响。最终得出结论,将两种相关度的计算结果进行加权来衡量问题与候选答案间的相关度,能够得到在一定程度上提高候选答案的排序效果。金融知识问答库的构建及系统平台的搭建。本文对金融知识涉及的各类知识库进行了构建,并搭建了一款集日常交流问答、金融结构化数据和时序数据问答、金融知识自由问答、辅助客服为一体的问答系统,该问答系统在经过200条的测试样本分析后,Top1值达到了105以上,MRR(Mean reciprocal rank)值达到0.63。