咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于大语言模型的PTCR外部知识型视觉问答框架 收藏

基于大语言模型的PTCR外部知识型视觉问答框架

PTCR:Knowledge-Based Visual Question Answering Framework Based on Large Language Model

作     者:薛迪 李欣 刘明帅 XUE Di;LI Xin;LIU Mingshuai

作者机构:中国人民公安大学信息网络安全学院北京100038 安全防范技术与风险评估公安部重点实验室北京100026 

出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)

年 卷 期:2024年第18卷第11期

页      面:2912-2924页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划(2022YFC3301101) 

主  题:视觉问答 提示工程 大语言模型 跨模态 

摘      要:针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述,解决了以往图像标题覆盖不全面的问题;通过LLM自主生成思维链,并在推理过程中提供相似问题的思考过程,提高了模型的推理能力;在推理过程引入选项重排技术消除LLM的选择位置偏见,通过多数投票的方式降低了推理的随机性误差。实验结果表明,经PTCR框架增强的CogVLM模型,其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时,与Prophet相比,PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明,所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分