非独立同分布词语相关度计算方法研究-南通市图书馆

文献详情 >非独立同分布词语相关度计算方法研究收藏

非独立同分布词语相关度计算方法研究

作者：张玉腾

作者单位：齐鲁工业大学

学位级别：硕士

导师姓名：鹿文鹏

授予年度：2019年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：词语相关度非独立同分布概念表示文本分类问答系统

摘要：词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述三个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方法。本文充分挖掘概念描述和知识网络蕴含的多种概念耦合关系,包含概念描述中的显式概念共现耦合、知识网络中的显式概念超链接耦合以及两者之间的隐式概念耦合;提出了基于non-IID的概念表示方法,以捕获概念之间显式和隐式的耦合关系,充分利用概念之间的这些耦合关系,获得更加完善的概念语义表示;通过概念映射,将词语与概念语义表示关联起来,进而提升词语相关度计算的效果。在六种不同的真实数据集上,对比七种主流的词向量方法,基于非独立同分布学习的词语概念表示方法都有大幅度的提升,其平均结果至少比基线模型高出20.4%。实验结果表明,该方法能有效地表示概念的语义信息,能够提高词语相关度的计算性能。(2)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到文本分类任务中,提出了基于non-IID词语表示的文本分类方法。首先利用基于non-IID的概念表示方法设计文本特征构建模块,将文本转化为密集的向量表示,为文本提供更加丰富完善的语义表示;同时也使用传统的词表示算法为文本提供普通向量表示;然后将两种向量表示连接起来,作为文本的特征表示;最后使用LIBLINEAR模型训练分类器,获得最终的文本分类结果。实验结果表明,借助于non-IID词语概念表示方法,六种传统的文本分类模型,在20NewsGroup数据集上分类精度上均得到了有效提升,其中F值平均提高22.8%。(3)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到医疗自动问答任务中,提出了基于non-IID词语表示的医疗问答方法。首先利用基于non-IID的概念表示方法设计词嵌入模块,将问答对转化为密集的向量表示,为问题句和答案句提供更加丰富完善的语义表示;然后针对中文医疗问答任务的特点,设计六种编码器,使用编码器对问答对的向量表示进行编码,以捕获句子内部词语之间的依赖关系,生成问答对的高层语义表示;最后使用余弦相似度算法计算问答对高层语义表示的距离,获得问答对之间的相似性评分,将得分最高的答案作为模型选择的答案。实验结果表明,融入基于non-IID的词语概念表示后,医疗自动问答系统的性能能够得到有效改善,在cMedQA数据集上ACC@1的最高得分达到69.85%,优于传统方法的效果。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

非独立同分布词语相关度计算方法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

非独立同分布词语相关度计算方法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：