咨询与建议

限定检索结果

文献类型

  • 1 篇 期刊文献

馆藏范围

  • 1 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 1 篇 工学
    • 1 篇 信息与通信工程
    • 1 篇 控制科学与工程
    • 1 篇 计算机科学与技术...
    • 1 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 1 篇 多模态学习
  • 1 篇 自动音频字幕
  • 1 篇 文本到音频生成
  • 1 篇 文本–音频表示

机构

  • 1 篇 悉尼科技大学
  • 1 篇 哈尔滨工程大学
  • 1 篇 萨里大学
  • 1 篇 天地一体化信息技...

作者

  • 1 篇 关键
  • 1 篇 贺广均
  • 1 篇 张可佳
  • 1 篇 王文武
  • 1 篇 肖飞扬
  • 1 篇 朱乔茜
  • 1 篇 刘濠赫
  • 1 篇 刘徐博

语言

  • 1 篇 中文
检索条件"主题词=自动音频字幕"
1 条 记 录,以下是1-10 订阅
排序:
合成监督增强的自动音频字幕框架
收藏 引用
声学学报 2024年 第6期 1315-1323页
作者: 肖飞扬 朱乔茜 关键 刘徐博 刘濠赫 张可佳 贺广均 王文武 哈尔滨工程大学计算机科学与技术学院 悉尼科技大学 萨里大学视觉语音与信号处理中心 天地一体化信息技术国家重点实验室
基于数据驱动的自动音频字幕方法受限于音频–文本数据对的数量和质量,导致其跨模态表示能力不足,制约了整体性能。为此,提出了一种合成监督增强的自动音频字幕框架(SynthAC),该框架利用广泛可用的高质量图像字幕文本语料及文本到音... 详细信息
来源: 同方期刊数据库 同方期刊数据库 评论