咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >短文本语义相似度量的方法和应用研究 收藏
短文本语义相似度量的方法和应用研究

短文本语义相似度量的方法和应用研究

作     者:朱甜甜 

作者单位:华东师范大学 

学位级别:硕士

导师姓名:兰曼

授予年度:2014年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:短文本语义相似 跨层面文本相似 相似特征 机器学习 回归算法 

摘      要:文本相似度量,就是衡量两个文本之间语义相似的程度,是自然语言处理(Natural Language Processing, NLP)中一个非常重要的任务,也是很多下游应用的基础。 针对该研究工作,研究者们提出了多种类型的相似度量特征,并且验证了结合多类特征的方法优于只使用单类特征的方法。然而,目前研究者们使用的度量特征依然不够全面,因此,本论文的第一个目的是提出并结合更多样更齐全的度量特征,获得更完整的文本信息,从而在短文本相似度的计算上获得更加准确高效的结果。 本文首先提出了一个针对句子层面的基于多样化特征融合的短文本相似度量模型。该模型融合了7类不同的文本相似特征,分别为词汇特征、基于知识库特征、基于语料库特征、句法特征、基于机器翻译特征、基于多层面文本特征以及其他特征,这也是目前最为齐全的特征集合,然后利用经典的机器学习回归算法训练模型。实验结果表明,融合更多样化的特征确实可以有效提升短文本语义相似度量模型的性能。 以往的研究多在相同文本层面上(例如,文档对,句子对等)进行相似度量,而很少考虑不同层面(例如,段落-句子,句子-短语等)的语义相似度量。因此,本论文的第二个目的是借助于一个最新的跨层面语义相似度量数据集,将短文本语义度量工作从句子层面扩展到跨层面。本论文在四个跨层面上,即段落-句子层面、句子-短语层面、短语-词层面和词-概念层面,分别建立了不同的相似度量特征和模型。在相应数据集上的实验结果显示,模型在四个层面上的性能呈逐层递减的趋势,说明模型的性能与待比较文本携带的信息量呈正比。针对这个问题,本文在短语-词层面和词-概念层面提出了采用信息扩充的方式构建相似特征,实验结果证明这个信息扩充方法能有效帮助提升模型性能。 最后,为了验证本文提出的多样化短文本相似度量模型的有效性,本论文在两个NLP任务即意译识别和文字蕴含上进行了相关的应用研究。实验结果显示,该模型能够较好的应用于意译识别任务,但是在文字蕴含上的结果虽然不够理想,但仍不失为一个较好的基准系统。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分