基于本体的食品投诉文档文本聚类研究
作者单位:东北师范大学
学位级别:硕士
导师姓名:杨喜权
授予年度:2011年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题,自动编辑多文档文摘,文本聚类受到了越来越多学者的关注。 文本聚类核心技术在于文本的表示方法,传统的解决办法是基于向量空间模型的表示方式。这种统计学上的表示方式不能很好表达文本的语义和语用信息,因此存在一定的弊端,如不能解决一词多义,同义词等问题,这也制约着文本聚类的质量。为了解决这些问题,我们引入了本体论技术。 本体论用来描述事物的本质,是人工智能领域新兴的知识表示技术。本体将人们公认的经验知识,按照一定的建模元语表达出来,它可以描述概念及描述概念间的相互关系。本体可以被看成一种交流手段让机器理解人类的知识并将其积极的利用起来去解决实际问题。 本文针对乳制品投诉文档构建乳制品本体,提出了一种基于本体的文本聚类算法,重点是解决对文本表示上的语义信息扩充问题,通过概念匹配找到文本文档中隐含的概念信息补充特征向量,进而提高聚类效果。并在无监督聚类基础上引入主题知识,利用Hownet相似度计算公式对比文档与危害主题词,进行对文档的聚类,将这种聚类框架应用在投诉文档集上,挖掘有用信息,追踪食品安全中存在隐患。实验结果证明,本文方法能够完成聚类,并取得良好的效果。该研究具有应用价值和广泛的应用前景。