基于语义分割的文本检测
作者单位:南昌大学
学位级别:硕士
导师姓名:闵卫东;韩清
授予年度:2023年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:语义分割 自然场景 文本检测 注意力融合 多尺度特征融合
摘 要:在文本检测领域中,其特点是文本大小、纵横比变化巨大和文本可以是任意方向。由于像素级预测的可扩展性,基于分割的方法可以适应各种形状文本,成为文本检测的主流。然而,文本检测仍存在以下两个问题,问题一,自然场景中的图像通常具有复杂化背景,这对文本检测造成极大的干扰且在对小尺度文本检测时易发生漏检情况。问题二,自然场景中的文本多样化,其形式有水平、倾斜、直线和曲线等尺度变化大的文本,因此在检测这种多尺度文本时会出现检测不完整的情况。针对问题一,本文提出了一种基于混合注意力与特征增强的文本检测模型(Hybrid Attention Fusion and Feature Enhancement Network,HAF-FEN)。通过分析现有方法的优劣势,提出混合注意力融合模块和自适应特征增强模块,从而减少背景噪声对文本的干扰和提升对小尺度文本的检测能力。混合注意力融合局部细节和全局文本信息的方式,来降低背景噪声对检测的干扰和提升对文本的关注度。自适应特征增强模块进行自适应的学习,掌握不同空间位置特征信息的重要性,并对特征进行动态的聚合,从而提升模型对小尺度文本的检测能力。此外,在损失函数上使用多损失函数结合的方式,来解决训练中正负样本不均衡问题。针对问题二,本文设计了一种基于金字塔特征增强的多尺度文本检测网络(Pyramid Feature Enhancement for Multi-Scale Network,PFE-MSN)。首先在主干网络中使用可变形卷积扩张感受野范围,并提出一种多次结合的特征金字塔结构。该结构融合不同特征整体和局部的语义信息,提升网络对多尺度特征上下文信息的关注程度。另外还提出多尺度通道特征融合模块,在通道维度上使用全局和局部的融合思想进行自适应的学习和理解,针对文本区域赋予不同的权重比例,这样进一步提升网络对多尺度文本的鲁棒性。本文对上述模型通过使用公共数据集进行相关实验,数据和可视化检测图表明,本文提出的HAF-FEN和PFE-MSN网络模型在两种数据集上都达到了较为优秀的效果,证实了本文所提两种方法的有效性。