“长尾分布”的古文字分类算法研究-南通市图书馆

文献详情 >“长尾分布”的古文字分类算法研究收藏

“长尾分布”的古文字分类算法研究

作者：何家源

作者单位：华东师范大学

学位级别：硕士

导师姓名：陈优广

授予年度：2022年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

主题：长尾分布卷积神经网络两阶段训练迁移学习自监督学习双分支网络

摘要：本文主要研究甲骨文、商周金文、春秋楚简和魏晋南北朝石刻字的智能识别。它们历史悠久,与现代汉语差别较大,有较高的识读门槛,使用人工智能方法进行识别有较大意义。文字使用时有常用字和偏僻字的区别,对应到本文的数据集来说,即存在分布不平衡的情况,某些常用的字可能有上千张样本,某些偏僻字可能只有几十张样本。如果直接将原始数据放入神经网络中进行训练必然会导致模型产生较大的偏置,模型会学到很多样本数量多的文字的特征,导致在样本数量少的文字上识别效果较差。因此本文主要工作为在古文字数据分布失衡的现状下,提高模型在样本较少的类别上的识别精度,具体工作如下:1.从改进训练方式的角度出发,探究了两阶段训练法（Two-phase Train,TPT）算法的有效性。将训练过程分为两个阶段,首先是平衡学习阶段,然后进入原始分布学习阶段。实验表明TPT算法具有一定提升效果。2.借鉴迁移学习的思路,提出了基于“头部信息的特征迁移算法（Feature Transfer Based on Head Classes,FTBHC）。本文数据集均为古汉字,同一种数据集内虽然部分字的样本数量差别较大,但是形态上具有相似性,因此考虑将头部类（样本数量较多的类别）的特征迁移给尾部类（样本数量较少的类别）使用,提出FTBHC算法,数据表明FTBHC算法效果优于TPT算法。3.顺着FTBHC的思路,又提出了基于Shike＿Set的特征迁移（Feature Transfer Based on Shike＿Set,FTBS）算法。四种汉字虽然属于不同时期,但是存在演化的关系,彼此之间又具有相似性,而石刻字数据集（Shike＿Set）有最丰富的样本信息,将其作为特征迁移的基础是最佳选择,数据表明FTBS算法效果优于FTBHC。4.不借助其他数据集进行特征迁移的情况下,在自监督学习的框架下使用效果较好的不平衡分类算法,提出了基于自监督预训练的双分支网络算法（BBNSSP）。自监督预训练（Self-supervised pre-training,SSP）算法对于提升不平衡分类问题有不错效果,双分支网络（Bilateral-Branch Network）算法就是为解决“长尾分类问题量身定做的,实验数据表明将两者结合可以取得媲美FTBS算法的效果。本文进行了多组实验来证明前面提出的算法的有效性,虽然算法的效果有差别,但是适用场景不同,因此需要针对不同的场景选择最合适的算法。虽然本文研究内容主要针对古文字领域,但是研究思路可以推广到现实世界中其他具有“长尾分布的数据分类。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

“长尾分布”的古文字分类算法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

“长尾分布”的古文字分类算法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：