咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >预训练驱动的多模态边界感知视觉Transformer 收藏

预训练驱动的多模态边界感知视觉Transformer

Pre-training-driven Multimodal Boundary-aware Vision Transformer

作     者:石泽男 陈海鹏 张冬 申铉京 SHI Ze-Nan;CHEN Hai-Peng;ZHANG Dong;SHEN Xuan-Jing

作者机构:吉林大学计算机科学与技术学院吉林长春130012 符号计算与知识工程教育部重点实验室(吉林大学)吉林长春130012 香港科技大学计算机科学与工程系中国香港999077 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2023年第34卷第5期

页      面:2051-2067页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划(2018YFB0804202,2018YFB0804203) 国家自然科学基金(U19A2057,61876070) 吉林大学2021年度“学科交叉融合创新”青年学者自由探索类项目(JLUXKJC2021QZ01) 

主  题:模型预训练 多模态 视觉Transformer 边界感知 图像篡改检测 

摘      要:卷积神经网络(convolutional neural network,CNN)在图像篡改检测任务中不断取得性能突破,但在面向真实场景下篡改手段未知的情况时,现有方法仍然无法有效地捕获输入图像的长远依赖关系以缓解识别偏差问题,从而影响检测精度.此外,由于标注困难,图像篡改检测任务通常缺乏精准的像素级图像标注信息.针对以上问题,提出一种预训练驱动的多模态边界感知视觉Transformer.首先,为捕获在RGB域中不可见的细微伪造痕迹,引入图像的频域模态并将其与RGB空间域结合作为多模态嵌入形式.其次利用ImageNet对主干网络的编码器进行训练以缓解当前训练样本不足的问题.然后,Transformer模块被整合到该编码器的尾部,以达到同时捕获低级空间细节信息和全局上下文的目的,从而提升模型的整体表征能力.最后,为有效地缓解因伪造区域边界模糊导致的定位难问题,构建边界感知模块,其可以通过Scharr卷积层获得的噪声分布以更多地关注噪声信息而不是语义内容,并利用边界残差块锐化边界信息,从而提升模型的边界分割性能.大量实验结果表明,所提方法在识别精度上优于现有的图像篡改检测方法,并对不同的篡改手段具有较好的泛化性和鲁棒性.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分