海洋环境气候新闻大数据挖掘和空间聚类模型研究
Research on Big Data Mining and Spatial Clustering Model for Marine Environmental Climate News作者机构:国家海洋信息中心天津300171
出 版 物:《微型电脑应用》 (Microcomputer Applications)
年 卷 期:2024年第40卷第9期
页 面:147-150页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:GDELT数据库 AC自动机 LDA 空间聚类 OPTICS
摘 要:以GDELT(global database of event,language,tone)数据库为例,讨论使用数据源路径爬取相关新闻文档。利用改进的AC自动机进行多模关键词匹配完成初步的数据清洗;对过滤好的文档数据进行主题数量评估,再利用LDA模型对其进行主题分类和关键词提取。根据分类结果,对海洋环境与气候主题新闻数据及相关指标建立空间聚类模型,最终形成一个对海量文档数据进行抓取、清洗、主题挖掘、空间聚类及可视化呈现的分析模型。