咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >视觉基础模型研究现状与发展趋势 收藏

视觉基础模型研究现状与发展趋势

Research status and development trends of vision foundation models

作     者:张燚钧 张润清 周华健 齐骥 余肇飞 黄铁军 Zhang Yijun;Zhang Runqing;Zhou Huajian;Qi Ji;Yu Zhaofei;Huang Tiejun

作者机构:中移(苏州)软件技术有限公司平台产品部苏州215000 北京大学计算机学院北京100190 

出 版 物:《中国图象图形学报》 (Journal of Image and Graphics)

年 卷 期:2025年第30卷第1期

页      面:1-24页

核心收录:

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(62088102) 

主  题:基础模型 计算机视觉(CV) 预训练模型 自监督学习 多任务学习 

摘      要:在计算机视觉领域,尽管传统的深度学习视觉模型在特定任务上表现出色,但它们对大量标注数据的高度依赖及在新场景下性能泛化的局限性,大大增加了使用成本并限制了模型的应用范围。近年来,以Transformer为核心的新型模型结构,特别是在自监督学习领域的应用,为解决这些挑战提供了新的解决方案。这些模型通常通过大规模数据预训练,在处理复杂视觉场景中展现出强大的泛化能力,其被广泛称为视觉基础模型。本文深入探讨了视觉基础模型的研究现状与未来发展趋势,并重点关注该领域的关键技术进展及其对未来计算机视觉的潜在影响。首先回顾和梳理了视觉基础模型的背景与发展历程,然后介绍了在这一发展历程中出现的关键模型基础结构,介绍并分析了构建视觉基础模型所采用的各类预训练任务的设计思路,并根据其特性对现有的视觉基础模型进行分类。同时,对不同类型视觉基础模型中的代表性工作进行了介绍,并整理了目前可用于视觉基础模型预训练的数据集。最后,对视觉基础模型的研究现状进行总结和思考,提出了目前存在的一些挑战,并展望未来可能的研究方向。

读者评论 与其他读者分享你的观点