咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于动态排列自回归的场景文本识别网络 收藏

基于动态排列自回归的场景文本识别网络

作     者:王嘉宝 陈宏辉 陈平平 WANG Jiabao;CHEN Honghui;CHEN Pingping

作者机构:福州大学物理与信息工程学院福建福州350108 

出 版 物:《信息技术与信息化》 (Information Technology and Informatization)

年 卷 期:2024年第5期

页      面:5-9页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081104[工学-模式识别与智能系统] 080203[工学-机械设计及理论] 0802[工学-机械工程] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金面上项目“基于物理层网络编码的随机多址接入技术研究”(61871132) 

主  题:深度学习 场景文本识别 动态排列语言模型 自回归 

摘      要:随着计算机视觉广泛渗透到生产和生活中的各个领域,场景文本识别面临着愈发复杂的考验。纯视觉的场景文本识别模型侧重于构建有效的视觉特征提取网络,而缺乏对文本语义的理解,因此在处理遮挡或模糊文本图像时常遇到瓶颈。针对该问题,提出了一种利用语义信息辅助识别任务的场景文本识别算法。首先通过Transformer视觉编码器ViT提取特征,其次利用双分支结构的特征交互模块增强视觉特征,接着联合动态排列语言模型实现自回归解码。所提出的算法充分利用视觉特征和语义特征,有效地减少了遮挡等复杂文本的识别难度,实现了对场景文本的鲁棒性识别。实验结果表明,所提出的算法在6个基准数据集上实现了96.65%的平均识别精度,展现了显著的竞争力。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分