基于双模态特征融合的鱼类视频目标分割研究与应用
作者单位:大连海洋大学
学位级别:硕士
导师姓名:于红;刘圣聪
授予年度:2024年
学科分类:08[工学] 0828[工学-农业工程] 080203[工学-机械设计及理论] 082801[工学-农业机械化工程] 0802[工学-机械工程]
主 题:水下视频处理 鱼类分割 渔业资源调查 计算机视觉 运动光流
摘 要:渔业资源调查是实现海洋渔业可持续的重要环节,可以获取鱼类的大小、形状等重要生长状况数据,为鱼类饲养、捕捞和保护提供参考。然而复杂水下场景中的低光照、水质混浊、伪装等导致鱼类目标视觉特征不显著,监测效果受限。针对上述问题,对水下鱼类的外观数据和运动数据深入研究,重点开展基于外观运动双模态特征融合的鱼类视频目标分割研究与应用。具体研究内容及创新点如下:(1)多源信息引导的水下视频鱼类目标分割研究(MSGNet)。针对水下视频中亮度衰减、水质混浊等导致鱼类分割准确度较低、鲁棒性差的问题,考虑到运动包含更丰富的细节信息,设计了多源信息引导水下视频鱼类分割的方法。首先,提出了一个基于标签转换和覆盖的运动信息预处理方案;其次,设计基于非局部的多重互注意力引导模块M-CAGM,促进水下视频鱼类外观特征和运动特征的双向增强;最后,在解码器阶段引入可学习的互斥门控对不同类别的特征进行筛选,选择性融合水下视频鱼类的外观特征以及运动特征,提升了模型的鲁棒性。为了验证所提模型的有效性,使用公开数据集DeepFish和Seagrass进行联合训练与评估。实验结果表明,所提模型在联合数据集上的类别平均准确度和平均交并比分别达到了91.89%和88.91%,与先进的水下分割模型和视频分割模型相比,具有显著的提升。(2)光流自适应的水下鲁棒视频鱼类目标分割研究(RUSNet)。针对MSGNet模型对运动光流依赖性强,导致分割结果易受到低质量运动信息的干扰的问题,提出了对输入光流信息自适应筛选融合的水下鲁棒鱼类目标分割方法。首先,设计了一个全局光流质量评估模块,用来评估以及校正光流信息;其次,在解码器中分别从空间、通道、边缘三个维度对特征逐级引导并恢复;最后,在测试阶段提出了一种多输出选择性融合方法,计算不同模态信息的置信度,进行融合输出。结果表明,在水下公开视频数据集DeepFish和Seagrass上,RUSNet在类别平均准确度和平均交并比分别达到了92.61%和90.12%,较SOTA模型MSGNet相比,分别提升了0.72%和1.21%。鲁棒性实验结果也表明,所提出的方法在复杂水下场景分割中具有较高的准确性和鲁棒性,可为后续的渔业资源调查提供关键信息。(3)水下鱼类分割系统的设计与实现。为了方便对提出的算法进行应用,设计了一个水下鱼类分割系统,能够自动定位并分割出输入水下数据中的鱼类目标,并对结果进行实时展示。首先是光流预处理配置模块,为满足不同场景下的使用需求,光流可以自行选择对比度,模型以及权重,提高了系统的泛用性;其次,光流预处理结束后,用户可以自行选择分割算法,并配置模型和权重参数,简化了用户操作,提升了效率;最后,通过在主页面对光流估计和分割结果进行实时显示,突出输入视频中的鱼类目标,并对运行环境和运行结果的相关信息进行展示,提升用户体验。