咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Web新闻热点信息的自动发现及展示 收藏
Web新闻热点信息的自动发现及展示

Web新闻热点信息的自动发现及展示

作     者:唐远华 

作者单位:华南理工大学 

学位级别:硕士

导师姓名:王振宇;杨春晖

授予年度:2012年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:话题检测与跟踪 关键词自动抽取 文本聚类 PAT-Tree 

摘      要:随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的第四大媒体。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源,因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。 热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,本文的主要工作有: 1、新闻网页的分类抓取及预处理操作。本文利用各大网站的编辑者将网页按目录结构存放这一特点,设计了一个分类抓取的网络爬虫,并在抓取的过程中进行网页的正文抽取。然后对正文信息进行分词、特征抽取等预处理操作,为后面的热点信息的发现提供数据。 2、针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法。 3、热点信息的自动发现功能。首先分析了热点词语和热点话题的特点,采用中科院的分词工具ICTCLAS进行命名实体的抽取,结合PAT-Tree和互信息评估方法对非实体串进行抽取,最后进行热度评估,抽取出热点词语;使用Single-Pass二次聚类算法进行话题的检测与跟踪,首先对当天报道进行局部聚类,形成候选话题集,然后再与旧话题集进行归并聚类,形成最终的话题集,然后对这些话题进行热度排序,最终形成热点话题。 4、热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分