场景图片的文字定位算法研究
作者单位:武汉邮电科学研究院
学位级别:硕士
导师姓名:彭艳兵
授予年度:2017年
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
主 题:场景文字定位 笔画宽度变换 局部二值模式 支持向量机
摘 要:场景文字定位是对自然场景图片中的文本区域进行定位的过程,是场景文字识别问题的一个分支,对于提取自然图片中的文本信息具有重要意义,被广泛应用在模式识别、机器视觉等研究领域。由于互联网的飞速发展,场景文字定位对于正确理解海量图片信息,构建基于内容的图片检索系统也十分重要。然而,自然图片背景复杂、文本多样,且容易受到光照、阴影、分辨率较低等因素的影响,使得场景文字定位问题面临诸多挑战。本文通过学习研究大量国内外文献,针对场景文字定位提出一种纹理与连通域结合的方法。首先利用最稳定极值区域对图像进行处理,并运用先验规则筛选过滤明显不符合文字规律的区域;同时,将图像进行笔画宽度变换,根据笔画宽度转换图去除部分非文字区域。将两种方法筛选余下的区域合并,得到候选的字符连通域。然后,本文将候选字符连通域缩放为统一尺寸,利用滑动窗口对其提取方向梯度直方图特征和局部二值模式,构成纹理特征向量,输入到经过训练的支持向量机中,对候选连通域进行判定。将分类器判为非文字的连通域去掉,只保留被判为文字的连通域。最后,本文根据字符区域的宽、高、面积和颜色等规则,将剩余的字符连通域进行扩张合并,融合构建成文本行,得到文本行的定位矩形框,即为本文算法输出。本文依据ICDAR的评价标准对算法进行测评,测评数据集为ICDAR2011与2015的场景文字定位样本库。并且与其他算法在相同数据集上的测评结果进行对比,分析本文算法的优劣。实验结果证明:本文算法能定位出场景图片中的文字,并且召回率较高。