基于语义的新闻信息处理系统设计和实现
作者单位:电子科技大学
学位级别:硕士
导师姓名:蔡洪斌;苏智慧
授予年度:2013年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:语义技术 信息抽取 本体 热点发现 关联分析 知识查询 知识推理 聚类
摘 要:当前,新闻信息处理主要还是采用自动采集和人工标引的方式。多数采用的是首先获取新闻标题和内容,然后进行人工方式的关键字或者是主题标签的方法。这种方法简单易行,能够对新闻信息进行按照关键字进行关联。有相当多的新闻信息处理系统采用这种传统的方法,在此过程中,需要实现新闻信息处理的自动采集、完成采集后的数据接入系统后再通过信息处理专家进行点选,在一定的主题词集合中选定相应能够描述该新闻报道的词汇。最后再通过信息汇集整理人员进行处理。这种方法可以有效的对新闻数据进行类型分类、因为有较为完善的主题词库进行支撑所以,准确率较高、易于理解。 本论文采用语义技术,通过合理的语义处理,实现自动化的新闻信息数据自动抽取和知识获取;将知识采用本体进行表示;将抽取的知识按本体模型进行存储;知识库选用Allegro Graph进行知识存储和知识检索。为实现系统中的热点发现,本论文采用了增量式聚类和语义知识库相结合的方式来实现。为了提供有效的新闻信息获取方式,改变现有的信息组织和展现方式,通过智能化处理、组织、查询、推送,以及热点话题分析、热点趋势分析、信息关联等深度挖掘加工处理,从纷繁复杂的海量文本信息资料中快速、准确地提取有用信息,才能为新闻信息处理人员或决策人员提供辅助决策的技术保障,提高信息处理的时效性,真正将信息优势转化为作商业优势和决策优势。 本论文研究的基于语义的智能信息处理技术是信息聚合、海量信息分析领域需要突破和解决的关键技术之一,为研发具有一定智能处理能力的信息处理软件提供了关键技术支撑。