朝汉混排古籍的文字切分方法
Characters Segmentation Method of Historical Documents Mixed in Korean and Chinese作者机构:延边大学计算机科学与技术学科智能信息处理研究室吉林延吉133002
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2020年第56卷第11期
页 面:135-141页
学科分类:1305[艺术学-设计学(可授艺术学、工学学位)] 13[艺术学] 081104[工学-模式识别与智能系统] 08[工学] 0804[工学-仪器科学与技术] 081101[工学-控制理论与控制工程] 0811[工学-控制科学与工程]
基 金:吉林省教育厅“十三五”科学技术项目(No.JJKH20191126KJ) 延边大学世界一流学科建设培育项目(No.18YLPY14)
摘 要:为解决朝鲜语古籍数字化中朝汉文种混排字符切分困难的问题,提出一种朝鲜语古籍图像的文字切分算法。针对古籍列与列之间存在不连续间隔线、倾斜或者粘连等问题,提出一种基于连通域投影的列切分方法。利用连通域的删除、合并、拆分等操作对文字进行切分。使用一种多步切分法完成了具有文字大小不一,横向、纵向混合排版特点图像的字符切分工作。对于粘连字,采用改进的滴水算法进行有效切分。实验结果表明所提出的算法能够很好地完成朝、汉文种混排,文字大小不一,排版情况复杂的朝鲜语古籍图像的文字切分工作。该算法的列切分准确率为97.69%,字切分准确率为87.79%。