咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于多边形特征池化与融合的复杂文本检测 收藏

基于多边形特征池化与融合的复杂文本检测

Complex text region detection based on polygon feature pooling and the transformer

作     者:张相南 高新波 田春娜 ZHANG Xiangnan;GAO Xinbo;TIAN Chunna

作者机构:西安电子科技大学电子工程学院陕西西安710071 重庆邮电大学计算机科学与技术学院图像认知重庆市重点实验室重庆400065 

出 版 物:《西安电子科技大学学报》 (Journal of Xidian University)

年 卷 期:2024年第51卷第3期

页      面:113-123页

核心收录:

学科分类:0710[理学-生物学] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0836[工学-生物工程] 0701[理学-数学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(62173265 62036007) 

主  题:文本检测 双阶段方法 多边形 特征池化 Transformer 

摘      要:文本检测在图像理解中发挥着重要的作用。基于深度学习的文本检测是当前的主流算法,包括单阶段方法和双阶段方法两类,而且后者的检测精度往往高于前者。双阶段的检测方法通常包含感兴趣区域特征池化操作,为进一步的检测和识别任务提供特定维度的局部区域特征。然而对于弯曲文本等复杂文本区域来说,现有的基于矩形感兴趣区域的池化方法不再适用,而基于点特征替代区域特征的方法又损失了空间信息。针对该问题,提出了一种基于多边形特征池化和Transformer的复杂文本区域检测方法。首先,将复杂文本区域检测中感兴趣区域进行多边形特征池化,将池化操作的区域形状从矩形拓展到多边形并且不需要借助其他形状进行拟合,即可将多边形区域对应的特征池化为固定维度的特征序列,避免了拟合过程中出现误差。进而,将池化后的特征视为具有空间关系的序列,然后利用Transformer融合视觉特征之间的上下文关系,降低训练难度,提升检测精确度。在包含弯曲文本等复杂文本情况的ICDAR2015、MLT、Total Text和CTW1500数据集上的测试实验结果表明,提出的双阶段检测算法能更好地提取感兴趣区域特征,并取得了比现有方法更好的检测结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分