短文本语义相似度量的方法和应用研究-南通市图书馆

文献详情 >短文本语义相似度量的方法和应用研究收藏

短文本语义相似度量的方法和应用研究

作者：朱甜甜

作者单位：华东师范大学

学位级别：硕士

导师姓名：兰曼

授予年度：2014年

学科分类：08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：短文本语义相似跨层面文本相似相似特征机器学习回归算法

摘要：文本相似度量,就是衡量两个文本之间语义相似的程度,是自然语言处理(Natural Language Processing, NLP)中一个非常重要的任务,也是很多下游应用的基础。针对该研究工作,研究者们提出了多种类型的相似度量特征,并且验证了结合多类特征的方法优于只使用单类特征的方法。然而,目前研究者们使用的度量特征依然不够全面,因此,本论文的第一个目的是提出并结合更多样更齐全的度量特征,获得更完整的文本信息,从而在短文本相似度的计算上获得更加准确高效的结果。本文首先提出了一个针对句子层面的基于多样化特征融合的短文本相似度量模型。该模型融合了7类不同的文本相似特征,分别为词汇特征、基于知识库特征、基于语料库特征、句法特征、基于机器翻译特征、基于多层面文本特征以及其他特征,这也是目前最为齐全的特征集合,然后利用经典的机器学习回归算法训练模型。实验结果表明,融合更多样化的特征确实可以有效提升短文本语义相似度量模型的性能。以往的研究多在相同文本层面上(例如,文档对,句子对等)进行相似度量,而很少考虑不同层面(例如,段落-句子,句子-短语等)的语义相似度量。因此,本论文的第二个目的是借助于一个最新的跨层面语义相似度量数据集,将短文本语义度量工作从句子层面扩展到跨层面。本论文在四个跨层面上,即段落-句子层面、句子-短语层面、短语-词层面和词-概念层面,分别建立了不同的相似度量特征和模型。在相应数据集上的实验结果显示,模型在四个层面上的性能呈逐层递减的趋势,说明模型的性能与待比较文本携带的信息量呈正比。针对这个问题,本文在短语-词层面和词-概念层面提出了采用信息扩充的方式构建相似特征,实验结果证明这个信息扩充方法能有效帮助提升模型性能。最后,为了验证本文提出的多样化短文本相似度量模型的有效性,本论文在两个NLP任务即意译识别和文字蕴含上进行了相关的应用研究。实验结果显示,该模型能够较好的应用于意译识别任务,但是在文字蕴含上的结果虽然不够理想,但仍不失为一个较好的基准系统。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

短文本语义相似度量的方法和应用研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

短文本语义相似度量的方法和应用研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：