有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
机器之心专栏
机器之心编辑部
来自之江实验室和浙江大学的研究者提出了一种再注意机制 , 旨在更有效地捕捉目标级别的语义信息 , 抑制背景干扰 , 实现更准确的目标定位能力 。
弱监督定位任务(Weaklysupervisedobjectlocalization,WSOL)仅利用图像级别的类别标签 , 就能实现目标级别的定位功能 , 因为其细粒度注释的最小化需求大大压缩了人工成本 , 于近年获得大量关注 。
由于缺乏目标级别标签的约束 , 仅利用图像标签进行分类训练 , 弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域 , 难以涵盖整个物体区域 。 弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关?Transformer类网络结构的长程依赖特性对弱监督定位有何影响?作者通过可视化分析CAM方法、纯transformer网络的长程特征依赖关系 , 发现transformer网络中的长程依赖有利于克服局部聚焦缺陷 , 却容易受到背景干扰 。
下图1展示了不同方法的可视化定位结果 , 可以看出CAM方法存在明显局部聚焦的问题;Transformer的长程依赖容易产生背景误定位的现象;融合Transformer长程依赖和CAM(参照TS-CAM论文方法)的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题 , 但是问题依旧存在 。

文章图片
图1:不同方法的可视化结果比对
基于此 , 来自之江实验室和浙江大学的研究者提出一种再注意机制 , 即TRT(tokenrefinementtransformer) , 旨在更有效地捕捉目标级别的语义信息 , 抑制背景干扰 , 实现更准确的目标定位能力 。

文章图片
论文链接:https://arxiv.org/pdf/2208.01838.pdf
Github链接:https://github.com/su-hui-zz/ReAttentionTransformer
方法介绍

文章图片
图2:核心方法框架图
上图2展示了TRT方法的整体框架图 , TRT由TPSM(TokenPriorityScoringModule)和CAM(ClassActivationMap)两个分支构成 。 其中TPSM分支主要由TokenPreliminaryAttention、TokenSelection和TokenRe-Attention三部分组成 。 TokenPreliminaryAttention表示利用transformer网络不同层的classtoken和patchtoken之间的长程依赖关系构建初步注意力图;TokenSelection指构建自适应阈值策略 , 筛选出初步注意力图中与classtoken关联性更高的patchtoken;TokenRe-Attention指对筛选的patchtoken执行再注意操作 。
训练阶段 , 针对CAM分支和TPSM分支输出的分类概率

文章图片
和

文章图片
, 与类别标签构建交叉熵损失函数 , 实现分类训练 , 如下公式(2)所示 。

文章图片
测试阶段 , 将CAM分支输出的特征

文章图片
与TPSM分支输出的特征

文章图片
点乘 , 生成最终的注意力图M 。

文章图片
token优先级评分模块
token初步注意力
第l个transformer层的自注意矩阵公式如下式(4)所示 , 其中

文章图片
- 本文转自:央视网以“聚焦‘双碳’目标|华为侯金龙:能源流与信息流融合,共建绿色低碳城市
- 芬兰富腾有效的保障能源
- 中国青年|中国生物多样性保护目标执行情况好于全球平均水平
- 确实很无奈|微信视频号如何下载,三种亲测有效的微信视频下载方式
- epsilon|马云,已经全面退出中国,他的目标现在是世界
- 图片流动效果怎么做?两个简单有效的方法教会大家怎么做
- 苹果|苹果的数据保护服务:目标客户是斯诺登?
- pdf怎么转换成word免费软件有效果
- 有效|中医药对奥密克戎毒株很有效
- 纳米|日本芯片行业或将再次崛起甚至重回巅峰,2纳米的目标很实际
