文档图像的检索与文字检测研究
作者单位:哈尔滨工业大学
学位级别:硕士
导师姓名:范晓鹏
授予年度:2017年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:互联网与多媒体技术的技术发展催生了对海量多媒体数据进行高效管理的需求,而文档图像作为承载着大量文字信息的特殊数据形式,在成规模数据集中的检索需求也推动了四十余年来多种检索算法的高速发展。本文以文档图像检索系统的实现为核心,针对图像的预处理、文字检测、特征提取与检索进行了探索。本文基于实现的考虑,预处理采用像素级的直接操作去除噪声,突出前景信息,在特征选择上则比较了图像处理领域应用最为广泛的SIFT(Scale-invariant feature transform)、HOG(Histogram of Oriented Gradient)、LBP(Local Binary Patterns)特征在文字检测、图像检索上的实际效果,重点围绕文档图像的文字检测与基于内容的检索系统进行扩展研究,提出了基于RPN(Region Proposal Network)、LSTM(Long Short-Term Memory)相结合的深度网络用于检测文字,实现并上线运行了一套文档图像检索系统。主要内容简述如下:文字检测。近年来文字检测领域较为出色的MSER(Maximally Stable Extremal Regions)、SWT(Stroke Width Transform)、ER Filter(Extremal Regions Filter)等算法在查全率、边界准确性、鲁棒性难以做到有效平衡,本文在深度学习检测算法的基础上,利用LSTM提取文字区域的上下文信息,保留彼此之间的序列性特点,并根据RPN锚点框在尺度与宽高比上的定制优化以及垂直高度上的偏移,优化了目标检测算法对于小尺度文字区域的不足,减少了文字的误定位以及低对比度文字区域的遗漏。文档图像的检索系统。本文在LLAH(Locally Likely Arrangement Hashing)方法的基础上,利用对特征点的位置优化与数量的合理增加,改善了原算法中无效特征值过多的问题,通过对标题区域提取LBP特征,在不增加额外计算资源的基础上,以之对LLAH系统的检索结果进行筛选;本文另外提取了图像中文本行的HOG特征,结合LSH(Locality-Sensitive Hashing)进行哈希检索实验,在小规模数据集上的效率与准确度均满足了现有需求。