文献详情 >基于文本的行人图像检索的多样化数据扩充方法收藏

基于文本的行人图像检索的多样化数据扩充方法

作者：王靖尧曹敏

作者机构：苏州大学计算机科学与技术学院

出版物：《计算机工程》 (Computer Engineering)

年卷期：2024年

学科分类：08[工学] 080203[工学-机械设计及理论] 0802[工学-机械工程]

基　　金：国家自然科学青年基金(62002252)

主　　题：多样化行人数据扩充成分句法分析模型大语言模型条件图像生成模型多模态大模型

摘要：近年来，基于文本的行人图像检索技术在安防和刑侦等领域发挥着越来越重要的作用。然而，现有数据集中行人图像较少且描述行人的文本较为单调，导致模型无法基于单调的行人文本数据和少量的行人图像数据充分学习到足够的行人特征和信息，限制了基于文本的行人图像检索技术的进一步发展。为了解决这一问题，提出一种多样化行人文本图像对数据生成与筛选的扩充框架。具体地，在数据生成阶段，首先，使用成分句法分析模型和大语言模型结合的方式生成行人文本描述；然后，使用条件图像生成模型，根据生成的行人文本描述产生相应的行人图像；在依据行人文本筛选图像阶段，利用PickScore评分函数计算生成的行人图像与行人文本描述之间的相似度分数，根据计算的相似度分数的结果，粗粒度地筛掉相似度分数较小的行人图像，只保留相似度分数较高的行人图像与行人文本描述；在行人文本-图像数据过滤阶段，利用图文多模态大模型计算行人图像与行人文本描述的匹配概率，将概率低于阈值的行人图像-文本对筛掉，做细粒度的数据过滤；最后，将剩余的高质量行人图像-文本对作为正样本对添加到现有数据集中。在多个公开的基于文本的行人图像检索数据集上进行实验，实验结果证明，应用这种方法对这些数据集进行扩充后，在不同的检索基准模型上，Rank-k和MAP等指标均有较高程度的提高，证明了这种方法的有效性。此外，探讨了姿态控制与风格控制对扩充结果的影响，为后续更深入的研究提供了一种思路。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方期刊数据库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本的行人图像检索的多样化数据扩充方法

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于文本的行人图像检索的多样化数据扩充方法

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：