咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >多模态场景下AIGC的应用综述 收藏

多模态场景下AIGC的应用综述

作     者:岳颀 张晨康 

作者机构:西安邮电大学自动化学院 

出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)

年 卷 期:2025年第01期

页      面:79-96页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:生成式人工智能(AIGC) 多模态 大语言模型 

摘      要:虽然生成式人工智能(AIGC)已经能够在单一模态应用领域取得优异成果,可以利用人工智能技术生成文字、图像、视频等内容,但单一模态的特征表示很难完整包含某个现象的完整信息。为了提高模型的学习性能和生成能力,学者们提出将多模态信息应用在AIGC中。AIGC能够对输入的多模态信息进行融合,获取更丰富的上下文信息,帮助模型更好地理解和生成内容。深入探讨了AIGC处理多模态问题的基本架构、工作原理和挑战,并对近年来与多模态信息结合的AIGC模型进行了分类和归纳。总结了AIGC在多模态图像生成、视频生成、三维形状生成等方面的应用、挑战和发展方向。在图像生成方面,讨论了生成对抗网络(GAN)模型、扩散模型等技术的应用和局限性。在视频生成方面,分析了基于扩散模型的视频生成技术,并探讨了音视频联合生成的方法。在三维形状生成方面,探讨了扩散模型和神经网络指导下的三维形状生成方法。最后提出了AIGC面临的挑战与未来潜在的研究方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分