基于NAS架构搜索的美感模型研究
作者单位:华南理工大学
学位级别:硕士
导师姓名:张平健
授予年度:2020年
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
主 题:图像美感 架构搜索 自加权损失函数 注意力机制 自适应输入
摘 要:随着5G时代来临,流量和网速逐渐不是瓶颈。人们每天都通过电脑,手机不断接触大量的图片与视频。当前,电商、旅游、社交软件等每日都新增海量的图片及视频数据。如何在这海量数据中快速精准推荐漂亮的、吸引人的图片或视频封面,将极大决定相应的流量和收益。面临越来越庞大的数据,人工筛选已力不从心,让计算机去完成繁杂的图片筛选成为首选。由此,可计算美学被推上潮头并成为学者和公司聚焦的热点。可计算美学,即通过计算机学习人类的审美习惯,最终代替人类去给图片打分。一开始的大部分研究都是模拟人类审美习惯,通过捕捉人工设计的特征例如光照、亮度、色彩等作为依据,利用SVM等分类器来打分。随着深度学习的发展,研究者发现人工设计的特征并不全面,而卷积网络能捕捉到很多人类没有发现的特征。至此,卷积神经网络成为可计算美学主流的特征提取方法。然而,目前移动端的计算能力还不足以支撑大型的卷积网络,所以卷积神经网络也在发展着,出现了Inception等小参数网络。随着NAS架构搜索的兴起,让机器代替人工专家自动去发现合适的神经网络成为新的热潮。本文第一次结合了架构搜索技术与可计算美学,将NAS架构搜索引入到美感模型,通过改进的渐进式可微搜索策略,在AVA美感数据集上搜索得到了一个新的简单高效的美感模型Aesthetic Net。此外,当前大多数美学模型是以预测出一个平均分为最终的输出,通过阈值来对图像进行好与不好的二分类,本文的做法是通过输出评分的分布,来模拟多人评分的机制。在得到的Aesthetic Net基础上,本文结合美学相关理论分析与计算机视觉相关技术,提出了一些有效的改进措施。针对卷积网络参数量大的问题,在搜索上使用了深度可分离卷积模块;在观察到预测结果的分布与实际分布之间的差异,提出了自加权机制来计算损失函数;为更进一步模拟人眼的聚焦过程,引入了双维度的Attention注意力机制;考虑到图片完整性对视觉美学的影响,为克服卷积网络本身固定输入大小的弊端,使用了自适应池化来保障输入图片的原始比例,同时使用空洞卷积来扩大网络的感受野,以便在学习的时候能获取到更多的整体信息。最后,本文设计多组对比实验,分别验证了通过NAS架构搜索技术得到的美感模型Aesthetic Net的有效性以及提出的改进策略的有效性。