咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >图像识别领域长尾分布数据的多trick混合研究与应用 收藏
图像识别领域长尾分布数据的多trick混合研究与应用

图像识别领域长尾分布数据的多trick混合研究与应用

作     者:闫禹博 

作者单位:吉林大学 

学位级别:硕士

导师姓名:徐昊

授予年度:2023年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

主      题:图像识别 长尾分布 表情识别 两阶段训练 类激活映射 

摘      要:在传统的图像识别任务中,训练数据的分布往往经历了人工均衡,所有类别的样本数量之间无明显差异。一个均衡的数据集固然大大降低了对算法鲁棒性的要求,也保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间的数据平衡将带来指数增长的采集成本。如果不引入这些采集成本,仅依靠在自然界中随机采集的数据,势必会带来相应的问题:某些类别的数据占大多数,而某些类别的数据却少之又少,这就是我们说的“长尾问题。如果忽略长尾问题,我们的分类器将会偏向头部类,进而造成性能的损失,而在表情识别领域,长尾问题也极为常见,一些表情在大多数数据集中都是较少的,这些表情包括害怕(fear)、厌恶(disgusting)等,因此解决长尾问题的方法亟需被提出并应用在表情识别领域上。长尾问题的解决方法有很多,本文将它们归为两类,一类是trick,而另一类则是相对来说比较复杂的方法——它们往往需要对网络模型进行更改,或是直接提出一种新的神经网络。后者固然在某些场景下达成了优秀的结果,但前者以其简单、易于实现的特点和能够快速移植的易用性成为了本文重点关注的研究对象。单独的trick有着容易实现、性价比高的优点,而有时将某些trick进行组合,还能够进一步得到更好的效果,基于这点,本文将着重研究最佳的trick组合方式,使性能达到最佳的同时还可以保证其扩展性,具体可以分为以下几个方面:1.本文考虑了解决长尾问题的主流trick,如:重采样、重加权、数据mixup等等,每种trick都包括了多种实现方法,并使用这些方法在公开数据集CIFAR上做对比实验,比较各个方法的基础效果,并得出一些实验结论:在长尾倾斜严重的情况下,单独重采样方法的效果不如mixup;重采样和重加权的各个实现方式中,并没有一个适合所有情况数据集的最佳解;不一定所有trick都能提升baseline的效果;配合重采样或重加权的两阶段训练方法比单一trick的效果要好等等。基于上述结论,本文比较了各个trick之间的组合模式,如:重采样搭配重加权,重采样搭配数据增强等等,进行实验并对各个实验结果进行详细分析。此外,本研究不仅致力于探索最佳的搭配方式,还探讨了多个trick共同使用时起到的是消极还是积极的作用,从结果中进一步探讨其对模型的影响,并为本文提出新的数据增强方法提供了理论支撑:重采样与数据增强的组合方式效果最佳,其余的组合方式则乏善可陈,甚至会起到负面效果。2.本文提出了一种新的数据增强实现,即基于CAM的Cut Mix方法,并基于1中的理论让其与重采样、两阶段训练相配合,达成了各个单独trick和组合tricks中的最佳效果,与类平衡采样搭配时在CIFAR50-LT-IF50数据集上达到了18.55的错误率,CIFAR50-LT-IF100上达到了22.90的错误率。在后续,本文为CAM-Cut Mix方法引入主动学习的方法,在生成数据过程中计算其熵值并保留熵较高的数据,目的是不断提高生成数据的信息量;探究了该方法“CAM-entropyCut Mix的可行性,但实验结果表明其效果不佳,top1-error高于单独的CAMCut Mix方法,这证明过于追求高质量信息削弱了模型的鲁棒性。基于上述实验,本文总结出数据增强过程中不止要关注生成图片的特征完整,同时要保证数据要足够多样性这一经验。3.用1、2步的方法结合,应用在表情识别领域中,以Efficient Face作为基线模型,使用本文的方法后模型的准确率提升了1%,并超过了其它经典表情识别方法。证明了本文方法的有效性、可用性和可推广性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分