基于多尺度特征融合的Swin Transformer满文识别研究
The Swin Transformer-based Manchu character recognition model with multi-scale feature fusion作者机构:吉林师范大学数学与计算机学院吉林四平136000
出 版 物:《吉林师范大学学报(自然科学版)》 (Journal of Jilin Normal University:Natural Science Edition)
年 卷 期:2025年第46卷第1期
页 面:103-110页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
基 金:吉林省教育厅科学研究项目(JJKH20240573KJ)
主 题:满文识别 Swin Transformer 深度学习 多尺度特征融合
摘 要:针对满文字符识别领域中非标准形态变体和一音多形等固有挑战,提出了一种基于Swin Transformer架构的多尺度特征融合模型(Multi-scale feature fusion based Swin Transformer,MR-SwinT).该模型通过引入多分辨率并行输入机制,实现了字符的细粒度局部特征与宏观语境信息的协同捕获.模型的核心优势在于充分利用了Swin Transformer的层级式窗口自注意力机制,该机制为大尺度特征建模提供了卓越的表达能力.此外,本文设计的SMTBlocks模块通过自适应加权调整策略,能有效实现多分辨率特征的动态融合,显著增强了模型对复杂字符的区分能力与泛化性能.实验结果表明MR-SwinT模型整词识别准确率为96.59%,单字符识别准确率为99.46%.