基于视觉通路目标识别算法的研究
作者单位:合肥工业大学
学位级别:硕士
导师姓名:张旭东
授予年度:2011年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:基于大脑皮层的目标识别是当前计算机视觉领域研究的热点,其主要思想是利用各种神经元放电实验,建立数字图像的处理模型。目标识别和计算机视觉的目的都在于研究并体现具有与人类视觉认知水平相当的能力,因此从人类视觉认知系统出发研究图像处理具有重要的理论意义和应用前景。论文对于如何用机器算法完成视觉感知任务展开研究,建立了包括视网膜、膝状体、大脑腹侧皮层的完整视觉通路的目标识别算法。 论文主要工作如下: (1)介绍卷积神经网络模型。基于隐层中简单细胞和复杂细胞神经生物学机理与算法作用,分析模型整体构建的思路,总结隐层中学习规则的优越性。 (2)分析稀疏编码算法。解释目标函数的建立和学习规则中的迭代算法,利用Gabor滤波器和稀疏编码提取特征,说明稀疏编码的应用。 (3)探讨HMAX模型。从模型创建的角度说明其每层的生理学意义与建模算法。将原先4层模型结构归结成2层算法操作:Coding和Pooling层。在Pooling层对比平均汇聚算法和原先的最大汇聚算法,实验表明最大汇聚算法在分类精度方面有较好的表现。 (4)建立了符合完整视觉通路的算法结构。利用卷积神经网络,建立4层训练框架,每层分为两步:Coding阶段和Pooling阶段。在Coding阶段中,选取稀疏编码中的梯度下降算法设计一种非线性滤波器,模拟视觉信息从视网膜到视皮层V1区的处理过程;在Pooling阶段中,提出采用HMAX模型的最大汇聚算法,模拟视皮层V2区到V4区的视觉信息处理过程。实验结果表明该算法能够有效减小算法复杂度和提高分类精度。