基于深度学习的公共危机事件识别方法研究
作者单位:齐鲁工业大学
学位级别:硕士
导师姓名:王新刚
授予年度:2024年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 081104[工学-模式识别与智能系统] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:多模态融合 公共危机事件 混合融合 社会媒体 Transformer
摘 要:作为一种突发性、灾难性的事件,公共危机事件对社会及人们的生活构成了严重威胁。这类事件通常不可预测,涵盖了事故灾难、自然灾害、社会动乱以及公共卫生危机等方面。在过去的数十年里,随着社交媒体的蓬勃发展,海量数据应运而生,这些数据在灾害评估和管理中发挥着至关重要的作用。在灾害发生的关键时刻,人们纷纷通过微博、小红书等平台发布推文,这些推文不仅包含了大量的文本信息,还附有丰富的图像内容,用以分享实时信息和寻求帮助。这些推文中包含了关于灾害损失、受灾人群和紧急求助等重要信息,对于应急响应具有显著价值。研究表明,有效筛选和利用这些信息对于人道主义组织评估灾情和规划救援行动至关重要。 尽管公共危机事件的识别方法已经取得了一定的进展,但仍存在一些问题。一方面,已有研究尝试使用多模态数据进行公共危机事件的识别和分析,但这些研究往往忽略了多模态数据之间的异质性差异。另一方面,现有方法所提取的特征通常局限于特定类型的公共危机事件,这导致了泛化能力的不足,使其难以有效应对新出现的公共危机事件的识别和分类挑战。 鉴于此,本文针对以上问题对公共危机事件识别方法进行了研究。 首先,针对现有公共危机事件识别方法对多模态数据异质性差异的忽视,本文提出了一种基于多模态Cycle-GAN的公共危机事件识别方法(MMC-GAN)。该方法使用了一种新的特征提取方式,创新性的将Res Net152模型采用纵向和横向相结合的方式来提取图像特征。该方法使用Bert模型提取文本特征,使用Cycle-GAN模型将来自不同模态的特征映射到同一数据域中。最终使用混合融合策略,分别对不同数据域中的特征矩阵与决策结果进行早期融合与晚期融合,得到最终的分类决策结果。在Crisis MMD数据集上的验证结果表明,MMC-GAN的模型性能明显优于基线算法和其他相关研究。 其次,现有方法所提取的特征局限于特定类型的公共危机事件,这导致了其泛化能力的不足。本文提出了一种基于多模态推文识别的视觉和语言双Transformer融合方法(VLDT),以提高对公共危机事件的识别和分类能力。VLDT方法由五个关键模块构成:图像特征提取、文本特征提取、多模态融合、推文检测以及推文分类。在图像特征提取方面,本文设计了S-CBAM-VGG模型;而在文本特征提取方面,本文采用了ALBERT模型。多模态融合模块利用双层Transformer特征互动融合网络(DTFIF-Net)实现了视觉和文本特征的深度融合。推文检测模块基于多模态特征,负责识别与灾害相关的推文。推文分类模块负责捕获灾难不变性特征并对灾难事件进行分类。在Crisis MMD数据集上的实验结果表明,本文提出的VLDT明显优于基线方法以及其他相关研究。此外,VLDT模型展现了卓越的泛化能力,能够有效识别和分类新出现的公共危机事件,这得益于其对可转移的灾难不变性特征的精准捕捉。 综上,本文提出的基于多模态Cycle-GAN的公共危机事件识别方法和基于多模态推文识别的视觉和语言双Transformer融合方法,解决了传统的公共危机事件识别方法的局限性问题。通过一系列对比实验和消融实验,证实了这两种方法的有效性和优越性。