基于社交媒体文本的灾情信息识别方法比较研究
Comparative study on disaster information recognition methods based on social media text作者机构:首都师范大学资源环境与旅游学院北京100048 资源环境与地理信息系统北京市重点实验室北京100048
出 版 物:《自然灾害学报》 (Journal of Natural Disasters)
年 卷 期:2022年第31卷第1期
页 面:179-187页
核心收录:
学科分类:083002[工学-环境工程] 0830[工学-环境科学与工程(可授工学、理学、农学学位)] 08[工学]
基 金:国家重点研发计划项目(2018YFC1508902) 国家重点研发计划项目(2017YFC0506501)
主 题:社交媒体 数据挖掘 灾情文本 主题识别 机器学习 精度评价
摘 要:挖掘社交媒体发布的信息,逐渐成为了一种获取所需数据的重要途径,数据挖掘采用的一种重要方法就是机器学习。基于此,本研究以4起自然灾害事件的相关微博文本数据集为实验语料开展实验,比较基于朴素贝叶斯、随机森林和多元逻辑回归算法建立的3种模型的主题识别效果。结果表明,多元逻辑回归模型对相关微博灾情文本数据的主题识别效果相对较好,各精度评价指标值高达91%;从各主题的识别结果来看,主题类别为情感支持和提醒建议的文本被正确识别的3种评价指标值均达到了90%以上。还分析了导致模型错分主题的原因,包括内因(参数设置、数据集切分比例等)和外因(样本量、人工标注等)。将该多元逻辑回归模型应用于社交媒体灾情文本主题初步识别,可以为后续工作提供优化,进而为相关部门采取应急措施提供参考。