咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >分层特征编解码驱动的视觉引导立体声生成方法 收藏

分层特征编解码驱动的视觉引导立体声生成方法

Visually Guided Binaural Audio Generation Method Based on Hierarchical Feature Encoding and Decoding

作     者:王睿琦 程皓楠 叶龙 WANG Rui-Qi;CHENG Hao-Nan;YE Long

作者机构:媒介音视频教育部重点实验室(中国传媒大学)北京100024 媒体融合与传播国家重点实验室(中国传媒大学)北京100024 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2024年第35卷第5期

页      面:2165-2175页

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(61971383,62201524) 国家重点研发计划(2021YFF0900504) 

主  题:立体声 视觉引导的声音生成 分层特征编解码 多模态学习 跳跃连接 

摘      要:视觉引导的立体声生成是多模态学习中具有广泛应用价值的重要任务之一,其目标是在给定视觉模态信息及单声道音频模态信息的情况下,生成符合视听一致性的立体声音频.针对现有视觉引导的立体声生成方法因编码阶段视听信息利用率不足、解码阶段忽视浅层特征导致的立体声生成效果不理想的问题,提出一种基于分层特征编解码的视觉引导的立体声生成方法,有效提升立体声生成的质量.其中,为了有效地缩小阻碍视听觉模态数据间关联融合的异构鸿沟,提出一种视听觉特征分层编码融合的编码器结构,提高视听模态数据在编码阶段的综合利用效率;为了实现解码过程中浅层结构特征信息的有效利用,构建一种由深到浅不同深度特征层间跳跃连接的解码器结构,实现了对视听觉模态信息的浅层细节特征与深度特征的充分利用.得益于对视听觉信息的高效利用以及对深层浅层结构特征的分层结合,所提方法可有效处理复杂视觉场景中的立体声合成,相较于现有方法,所提方法生成效果在真实感等方面性能提升超过6%.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分