基于CRNN改进的中文街景文本识别技术
Improved Chinese Street View Text Recognition Technology based on CRNN作者机构:成都信息工程大学通信工程学院四川成都610225
出 版 物:《成都信息工程大学学报》 (Journal of Chengdu University of Information Technology)
年 卷 期:2025年第40卷第1期
页 面:1-6页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:现实场景中存在图像扭曲、背景复杂、弯曲倾斜等不规则文字形状,提取其中的文字信息可提高图像的语义信息和帮助分析上下文,从而更好地理解场景图像。针对场景文本的复杂问题,提出基于CRNN(卷积循环神经网络)改进的端到端场景文本识别技术。在卷积网络层提取特征,基于GoogLeNet改进的inception结构,加人多分支卷积层对多尺度特征的融合,其次融入注意力机制,在通道维度和空间维度加强特征联系,使局部特征拥有全局性。在循环网络层采用Bi-LSTM(双向长短期记忆网络)加强字符之间的上下文联系进行序列预测,最后将预测序列传人CTC(时序分类层)进行转录后序列输出。在ITT5K数据集和百度中文街景数据集上的实验结果表明,该方法分别获得了95.3%和91.1%的准确率,证明其可靠性。