咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于WordNet的短文本语义相似性计算研究 收藏
基于WordNet的短文本语义相似性计算研究

基于WordNet的短文本语义相似性计算研究

作     者:张东娜 

作者单位:吉林大学 

学位级别:硕士

导师姓名:周春光

授予年度:2010年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:语义相似性 布朗词集 IC模式 WordNet IC-CW SS-CW ST-CW 

摘      要:句子或者是短文本的相似度在文本相关性判断,网页检索,信息检索以及文本挖掘方面起着越来越重要的角色。在相似性计算方面已有一些算法来自于对于长文本以及大文档的相似性计算。但是这些算法在计算效率上明显不足,对短文本的表达形式不完善,并且需要比较多的人工输入信息,较多的背景知识。 本文提出了一种新的计算短文本语义距离的算法,该算法不涉及通用的相似性算法,它是基于知识库WordNet,以及词法库The Brown Corpus的相似性算法。文中构建了一种新的基于WordNet和Corpus Statistics的IC(Information Content)计算模型IC-CW,考虑概念在WordNet中语义信息以及语料库中概念的频率信息。并针对目前已有的语义相似性计算方法均与领域相关的特点,设计了一种通用的概念之间的语义相似性计算方法:SS-CW。在SS-CW的基础上又提出了一种新的文本之间的语义相似性计算方法ST-CW,在R&B以及Miller数据集上进行了实验,实验结果验证了新的模型和算法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分