金融知识自动问答中的新词发现及答案排序方法-南通市图书馆

文献详情 >金融知识自动问答中的新词发现及答案排序方法收藏

金融知识自动问答中的新词发现及答案排序方法

作者：张长

作者单位：哈尔滨工业大学

学位级别：硕士

导师姓名：王晓龙

授予年度：2017年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：金融自动问答新词发现答案排序卷积神经网络

摘要：随着自动问答系统的深入研究和广泛应用,问答系统开始呈现领域化和专业化的趋势。与一般的开放型自动问答不同,限定领域内会出现许多不存在于分词器词库中的领域新词,这些新词的存在会使得当在限定领域中使用通用分词器对句子进行分词时,由于分词器原本词库的不完整而导致其被切分为多个部分,造成词语的不连贯,影响使用领域语料进行词向量的训练效果。指定领域问答在问题类型上,往往夹杂着结构化数据问题和自由文本类问题,但不同类型的问题其答案抽取方法却不尽相同。在候选答案抽取方面,以往的问答系统大多是基于句子中词向量在向量空间中的距离来进行候选答案的排序和检索,但是此方法仅考虑了词汇之间的相互关系,却忽略了每个词在句子中的权重以及由于词性差异而导致的计算偏差。针对以上领域内自动问答的难点,本文根据统计学以及结合卷积神经网络等机器学习算法,提出了一种适用于金融领域的新词发现与抽取方法,以及金融知识自动问答的候选答案排序方法。本文的主要研究内容包括:金融领域内新词的发现与提取。为了更好地计算用户问题与候选问答库中问答对的相关度,本文从统计学的角度出发,结合独立词概率和信息熵的使用,改进了一种能够从大规模领域语料中提取出新词的方法,该方法能够将提取新词的准确率提升至90%以上,并且在候选答案的排序实验中,通过加入该方法提取的领域新词到相关度计算模型中,能够将其MRR值提升0.03以上。候选答案的排序与抽取。本文提出了一种问题-问题相关度与问题-答案相关度相结合的方法进行候选答案的排序。前者是基于词向量在向量空间中计算问句相关度,后者是基于卷积神经网络模型计算问句与答案的相关度。本文在实验中证明了基于句子相对长度的余弦相似度计算效果最佳,且由TF-IDF抽取出的句子关键词及其词性权重也会对相关度计算产生较大影响。最终得出结论,将两种相关度的计算结果进行加权来衡量问题与候选答案间的相关度,能够得到在一定程度上提高候选答案的排序效果。金融知识问答库的构建及系统平台的搭建。本文对金融知识涉及的各类知识库进行了构建,并搭建了一款集日常交流问答、金融结构化数据和时序数据问答、金融知识自由问答、辅助客服为一体的问答系统,该问答系统在经过200条的测试样本分析后,Top1值达到了105以上,MRR(Mean reciprocal rank)值达到0.63。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

金融知识自动问答中的新词发现及答案排序方法

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

金融知识自动问答中的新词发现及答案排序方法

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：