基于大语言模型的PTCR外部知识型视觉问答框架
PTCR:Knowledge-Based Visual Question Answering Framework Based on Large Language Model作者机构:中国人民公安大学信息网络安全学院北京100038 安全防范技术与风险评估公安部重点实验室北京100026
出 版 物:《计算机科学与探索》 (Journal of Frontiers of Computer Science and Technology)
年 卷 期:2024年第18卷第11期
页 面:2912-2924页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:针对外部知识型视觉问答(VQA)模型输入信息不足、推理性能差的问题,构建了一种基于大语言模型(LLM)的PTCR外部知识型VQA框架。该框架由答案候选生成、针对性图像描述、自主式思维链构建、提示LLM推理四部分构成。PTCR框架使用LLM指导多模态大模型生成针对性的图像描述,解决了以往图像标题覆盖不全面的问题;通过LLM自主生成思维链,并在推理过程中提供相似问题的思考过程,提高了模型的推理能力;在推理过程引入选项重排技术消除LLM的选择位置偏见,通过多数投票的方式降低了推理的随机性误差。实验结果表明,经PTCR框架增强的CogVLM模型,其准确率在OK-VQA、A-OKVQA数据集上分别提升了16.7个百分点、13.3个百分点。同时,与Prophet相比,PTCR框架在OK-VQA、A-OKVQA数据集上准确率分别提升了3.4个百分点、5.0个百分点。消融实验的结果证明,所使用的针对性图像描述、自主式思维链等方法对准确率均有提升效果。可见PTCR框架在改进外部知识型VQA任务性能方面有所提升。