在城镇化快速发展过程中,人口流动愈加频繁,由于公共空间有限,大量人口的涌入引发的社会公共安全问题日益突出。特别是在公共场所,有可能引发严重的踩踏事故,危害人民群众的生命财产安全。因此,如何有效地预测场景中的人群数量已经成为了最近计算机视觉领域的热点研究问题。随着深度学习和计算机视觉的快速发展,许多密集人群数量自动估计(人群计数)算法陆续被提出。由于密集场景下给每个人头标注包围盒是费时费力的,因此大多数数据集仅仅提供人头点的标注。主流人群计数方法利用归一化的二维高斯核对标注点进行平滑处理,从而生成密度图标签,然后利用卷积神经网络回归每张图片的人群密度图,最终的预测人数为所回归密度图的积分值。这种基于回归密度图的方式在稀疏场景下取得了出色的计数效果,但在密集场景中,由于严重的遮挡、极端的尺度变化以及复杂的背景干扰,此类方法的计数往往表现不佳,且难以实现人群定位。为了解决上述问题,本文针对性地给出了解决方案并做了大量实验证明其有效性,具体内容包括:1.本文分析了密度图在稀疏区域和密集区域上特征值的数值分布差异,发现密集区域中数值的分布存在严重的长尾分布问题。2.为了缩小密集区域和稀疏区域的数值分布差异,缓解密集区域中数值的长尾分布问题。本文提出了一个自动学习尺度缩放模块(Learn to Scale,简称为L2S),它能自动为每个密集区域学习一个缩放因子,从而将所有不同的密集区域缩放到一个相似且适当的密集程度。本文将L2S应用于基于回归密度图的计数范式称之为Auto Scale。3.为了解决密度图中难以准确定位人头的问题,本文提出了一种针对人群定位任务的标签,称之为距离类别图,其中局部最小值区域中心就对应于人头中心。本文将L2S应用于基于定位的计数范式称之为AutoScale*。
暂无评论