咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于深度学习的历史档案数字化方法研究与实现 收藏
基于深度学习的历史档案数字化方法研究与实现

基于深度学习的历史档案数字化方法研究与实现

作     者:邵锦威 

作者单位:南昌大学 

学位级别:硕士

导师姓名:陈炼;张远来

授予年度:2024年

学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 120503[管理学-档案学] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:文档数字化 文字检测 文字识别 模型轻量化 

摘      要:随着数字化技术的进一步发展,对数字化的要求越来越深入到我们生活的方方面面。为了加强对历史文档数据的利用,如何将历史文档从纸质信息转化为数字信息是必须要解决的问题,可以通过OCR技术解决。OCR技术主要包括了文字检测以及文字识别两个方面,随着深度学习等技术的发展,基于深度学习的OCR技术也获得了长足的进步,但是在面对具体的历史档案数字化问题时,还是存在着模型复杂,难以适配移动端设备以及特征提取能力不强,准确率不够等问题。为了解决这些问题,本文对已有的文字检测模型以及文字识别模型进行改进,并将其落地为移动端的应用。研究的内容和取得的成果如下: (1)针对传统的基于分割的文字检测DB模型结构复杂且不够轻量化,以及特征提取能力不足的问题,进行了必要的改进。为了提升训练效率,本文将骨干网络由原来的结构更换为轻量化的MobileNetV3模型。考虑到MobileNetV3的SE注意力模块仅关注通道维度,忽略了空间维度,故将其替换为能够同时关注通道和空间维度的CBAM注意力模块,以提升模型的识别和分类准确度。此外,针对FPN特征增强模块的传统结构不足,引入了自下而上的特征融合路径PAFPN,并用张量连接替代了原有的捷径连接,为模型带来了更丰富的信息。 (2)针对传统的文字识别模型CRNN网络结构复杂以及特征提取能力不够的问题,在CNN层使用更为轻量的模型Shuffle Net模型,并在ShuffleNet模型中引入ECA注意力机制进一步提升特征提取能力。针对RNN层的轻量化问题,通过引入参数更少,复杂程度更低的Bi-GRU来解决,且可以取得与BiLSTM相似的性能。通过这些改进,使得模型在更轻量化的同时拥有了更强的特征提取能力。 (3)基于改进的文字检测模型以及改进的文字识别模型,开发了一款历史文档识别的APP,用户可以通过本系统方便的上传文档图片或者对文档进行即时拍照,APP能对文档图片的文字信息进行识别操作,同时用户可将文字信息方便的选择使用,大大提高了文档数字化的工作效率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分