咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >视频问答技术研究进展 收藏

视频问答技术研究进展

Research Progress of Video Question Answering Technologies

作     者:包翠竹 丁凯 董建峰 杨勋 谢满德 王勋 Bao Cuizhu;Ding Kai;Dong Jianfeng;Yang Xun;Xie Mande;Wang Xun

作者机构:浙江工商大学计算机科学与技术学院杭州310018 浙江工商大学信息与电子工程学院杭州310018 浙江省电子商务与物流信息技术研究重点实验室(浙江工商大学)杭州310018 中国科学技术大学信息科学技术学院合肥230026 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2024年第61卷第3期

页      面:639-673页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金项目(61972352,61902347,61976188,62272435,U22A2094) 浙江省重点研发计划项目(2021C03150) 浙江省省属高校基本科研业务费专项 

主  题:视频问答 注意力 记忆网络 循环神经网络 图网络模型 预训练模型 

摘      要:视频问答(video question answering,VideoQA)根据视频内容自动回答自然语言问题,是视觉语言领域较为新兴的一个研究方向,近年来引起了广泛关注.VideoQA问题的解决对于人机交互、智慧教育、智能交通、场景分析以及视频检索等各个领域都有着重大意义.VideoQA是一项具有挑战性的任务,因为它需要模型同时理解视频与文本内容来生成问题的答案.首先,分析了VideoQA与图像问答(image question answering,ImageQA)的区别,总结了当下VideoQA相对于ImageQA所面临的4个挑战;然后,围绕着这些挑战对目前现有VideoQA模型进行了细致的分类,并重点介绍了模型的实现及不同模型之间的关联;接着详细介绍了在VideoQA中常用的基准数据集及目前主流算法在部分数据集上的性能,并进行了对比与分析;最后,讨论了该领域未来面临的挑战和研究趋势,为未来进一步研究提供一些思路.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分