合成监督增强的自动音频字幕框架
作者机构:哈尔滨工程大学计算机科学与技术学院 悉尼科技大学 萨里大学视觉语音与信号处理中心 天地一体化信息技术国家重点实验室
出 版 物:《声学学报》 (Acta Acustica)
年 卷 期:2024年第6期
页 面:1315-1323页
核心收录:
学科分类:0810[工学-信息与通信工程] 12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 081002[工学-信号与信息处理] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:多模态学习 文本–音频表示 自动音频字幕 文本到音频生成
摘 要:基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音频生成模型生成音频信号,有效扩充音频–文本数据对,并通过学习合成音频–文本数据对中的对应关系,增强音频文本跨模态表示能力。实验表明,所提SynthAC框架通过利用图像字幕中的高质量文本语料库,显著提升了音频字幕模型性能,该框架为应对音频–文本数据稀缺挑战提供了有效的解决方案。此外,该框架可适用于各种主流方法,在不改变音频字幕模型结构的情况下显著提升音频字幕性能。