咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向金融领域BBS的话题发现和热度评价 收藏
面向金融领域BBS的话题发现和热度评价

面向金融领域BBS的话题发现和热度评价

作     者:王岩 

作者单位:哈尔滨工业大学 

学位级别:硕士

导师姓名:王晓龙;陈清财

授予年度:2010年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

主      题:金融BBS 信息提取 特征选择 文本聚类 热度评价 

摘      要:互联网的出现与发展,使信息资源从贫乏时代进入到极度丰富的时代。伴随着互联网的迅速发展,BBS早已成为人们发表言论,交流信息的重要场所。当今世界经济的飞速发展,人们开始热衷于股票、债券、基金等金融领域的投资,如何能及时准确地获得当前人们最关心,最热门的金融话题是每一个网民都十分关注的。 通过设计并实现面向金融领域BBS的热点发现和热度评价系统可以有效解决上述问题。本文在充分考虑了金融BBS的文本组织结构和文本的预处理方法的基础上,主要研究了面向金融BBS热点话题发现方法和热度评价方法。 本文的主要内容有: (1)对BBS数据进行抽取以及进行相关预处理:通过研究传统的信息抽取方法,结合金融BBS帖子页面的结构特性,提出了基于最大重复DOM树的BBS数据抽取方法。实验结果表明,该算法能够有效地提取金融BBS帖子的有效信息。 (2)提出一种针对金融BBS文本特性的特征选择方法。考虑到金融BBS既有BBS文本的特征又有金融词汇主题相关性的特征,提出了BTF*IDF算法以满足对金融BBS的特征选择。实验结果表明,相对于传统的特征提取方法,本文的方法能够更好的完成特征选择的任务。 (3)提出一种基于时间演化理论的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题演化的生命周期。实验结果表明,该算法能够有效地优化话题发现的结果集,提高话题发现的质量。 (4)采用基于用户关注度和话题时效性的热度评价算法。通过在热度评分算法中融入了用户关注度、话题时效性的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。 基于以上研究成果,本文设计了金融BBS话题发现和热度评价系统,能够有效地为广大网民提供最新、最热的金融BBS热点话题,使网民可以在浩瀚的网络信息中快速掌握民众所关心的金融类BBS热点话题。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分