面向嵌入式平台多视图立体视觉深度感知
Multi-view Stereo Depth Perception for Embedded Platform作者机构:南京理工大学机械工程学院南京210094 中国科学院苏州纳米技术与纳米仿生研究所苏州215123 中国科学院多功能材料与轻巧系统重点实验室苏州215123
出 版 物:《计算机系统应用》 (Computer Systems & Applications)
年 卷 期:2023年第32卷第5期
页 面:105-111页
学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]
摘 要:针对目前基于神经网络的多视图立体视觉(multi-view stereo,MVS)深度估计算法存在参数量大、内存消耗严重,难以满足当下低算力嵌入式平台的需求.提出基于MVS2D极线注意力机制与MobileNetV3-Small的MVS深度感知网络(Mobile-MVS2D).该网络采用编码器-解码器的结构,使用MobileNetV3-Small网络进行编码特征提取,对源图像与参考图像之间不同特征层的尺度信息耦合采用极线注意力机制,解码阶段引入SE-Net与跳跃连接扩展解码特征细节,提升预测精度.实验结果表明,提出的模型在ScanNet数据集中在深度图的评价指标中展现较高的精度.在与视觉SLAM结合下可以展现出较准确的三维重建效果,具有较好的鲁棒性.在Jeston Xavier NX上推理精度为Float16尺寸为640×480的图片组,仅需0.17 s,GPU消耗仅需1 GB,能够满足低算力嵌入式平台的需求.