咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本的行人图像检索的多样化数据扩充方法 收藏

基于文本的行人图像检索的多样化数据扩充方法

作     者:王靖尧 曹敏 

作者机构:苏州大学计算机科学与技术学院 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2024年

学科分类:08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程] 

基  金:国家自然科学青年基金(62002252) 

主  题:多样化行人数据扩充 成分句法分析模型 大语言模型 条件图像生成模型 多模态大模型 

摘      要:近年来,基于文本的行人图像检索技术在安防和刑侦等领域发挥着越来越重要的作用。然而,现有数据集中行人图像较少且描述行人的文本较为单调,导致模型无法基于单调的行人文本数据和少量的行人图像数据充分学习到足够的行人特征和信息,限制了基于文本的行人图像检索技术的进一步发展。为了解决这一问题,提出一种多样化行人文本图像对数据生成与筛选的扩充框架。具体地,在数据生成阶段,首先,使用成分句法分析模型和大语言模型结合的方式生成行人文本描述;然后,使用条件图像生成模型,根据生成的行人文本描述产生相应的行人图像;在依据行人文本筛选图像阶段,利用PickScore评分函数计算生成的行人图像与行人文本描述之间的相似度分数,根据计算的相似度分数的结果,粗粒度地筛掉相似度分数较小的行人图像,只保留相似度分数较高的行人图像与行人文本描述;在行人文本-图像数据过滤阶段,利用图文多模态大模型计算行人图像与行人文本描述的匹配概率,将概率低于阈值的行人图像-文本对筛掉,做细粒度的数据过滤;最后,将剩余的高质量行人图像-文本对作为正样本对添加到现有数据集中。在多个公开的基于文本的行人图像检索数据集上进行实验,实验结果证明,应用这种方法对这些数据集进行扩充后,在不同的检索基准模型上,Rank-k和MAP等指标均有较高程度的提高,证明了这种方法的有效性。此外,探讨了姿态控制与风格控制对扩充结果的影响,为后续更深入的研究提供了一种思路。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分