咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向复杂版面文档图像的高精度文字检测 收藏
面向复杂版面文档图像的高精度文字检测

面向复杂版面文档图像的高精度文字检测

作     者:伍思航 

作者单位:华南理工大学 

学位级别:硕士

导师姓名:金连文

授予年度:2022年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:深度学习 文字检测 高精度 

摘      要:在如今信息化的大数据时代,人们利用计算机视觉技术来获取文档中的信息,从而对文档进行数字化的处理、存储、组织与分析。文字检测通常是文档数字化的首要步骤,也是后续文本识别、编辑和检索等任务的重要基础。本文详细介绍了文字检测和相关目标检测领域的发展历程和主流算法,深入分析现有方法在复杂版面文档图像上文字检测的局限性。虽然大多主流算法在自然场景文本检测上已经达到较好的性能,但在段落多栏布局,以及文本密集排布、双列夹注、极端尺度和旋转倾斜等复杂版面的文档上,检测不准确且容易漏检文本。本文围绕复杂版面文档图像的文字检测展开深入的分析与研究,并结合前沿主流的方法,致力于提高检测算法的精确度。本文的主要研究工作和创新如下:(1)针对古籍文档图像的单字检测中,在较高的交并比(Intersection over Union,Io U)阈值下精度不足的问题,本文提出了一种新颖的基于强化学习(Reinforcement Learning,RL)的古籍文档高精度文字检测方法。本文将文字检测边界框的精调建模为离散的马尔科夫决策过程,并通过RL模型进行逐步微调,使得文字区域更加紧密。本文通过结合文本独有的特点,设计了基于RL的文字检测框架,包括全卷积主干网络和奖励函数等。实验表明本文方法可有效改善多种检测方法在高Io U阈值下的检测精度。(2)针对多种复杂版面文档图像的文字检测,本文提出一种基于集合预测(Set Prediction)的文档高精度文字检测新方法。本文通过设置少量可学习的查询向量(Query),并结合文本独有的特点构造基于自注意力机制的编码器(Transformer)以及共享多层感知器等改进,实现多方向文本行的检测和分割。此外,本文方法采用级联的结构迭代优化检测结果,在文本行尺度变化大、密集和倾斜等情况下保持较高的检测精度。实验表明,本文方法在多种复杂版面文档以及自然场景等多个数据集都取得较好的性能。同时,本文对比分析多种主流检测算法,可以给相关领域研究人员和工程人员提供一些参考。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分