有效捕捉目标级别语义信息，之江实验室＆浙大提出再注意机制TRT

机器之心专栏
机器之心编辑部
来自之江实验室和浙江大学的研究者提出了一种再注意机制，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。
弱监督定位任务（Weaklysupervisedobjectlocalization,WSOL）仅利用图像级别的类别标签，就能实现目标级别的定位功能，因为其细粒度注释的最小化需求大大压缩了人工成本，于近年获得大量关注。
由于缺乏目标级别标签的约束，仅利用图像标签进行分类训练，弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域，难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关？Transformer类网络结构的长程依赖特性对弱监督定位有何影响？作者通过可视化分析CAM方法、纯transformer网络的长程特征依赖关系，发现transformer网络中的长程依赖有利于克服局部聚焦缺陷，却容易受到背景干扰。
下图1展示了不同方法的可视化定位结果，可以看出CAM方法存在明显局部聚焦的问题；Transformer的长程依赖容易产生背景误定位的现象；融合Transformer长程依赖和CAM（参照TS-CAM论文方法）的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题，但是问题依旧存在。

文章图片
图1：不同方法的可视化结果比对
基于此，来自之江实验室和浙江大学的研究者提出一种再注意机制，即TRT(tokenrefinementtransformer) ，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

文章图片
论文链接：https://arxiv.org/pdf/2208.01838.pdf
Github链接：https://github.com/su-hui-zz/ReAttentionTransformer
方法介绍

文章图片
图2：核心方法框架图
上图2展示了TRT方法的整体框架图， TRT由TPSM（TokenPriorityScoringModule）和CAM(ClassActivationMap)两个分支构成。其中TPSM分支主要由TokenPreliminaryAttention、TokenSelection和TokenRe-Attention三部分组成。 TokenPreliminaryAttention表示利用transformer网络不同层的classtoken和patchtoken之间的长程依赖关系构建初步注意力图；TokenSelection指构建自适应阈值策略，筛选出初步注意力图中与classtoken关联性更高的patchtoken；TokenRe-Attention指对筛选的patchtoken执行再注意操作。
训练阶段，针对CAM分支和TPSM分支输出的分类概率

文章图片
和

文章图片
，与类别标签构建交叉熵损失函数，实现分类训练，如下公式（2）所示。

文章图片
测试阶段，将CAM分支输出的特征

文章图片
与TPSM分支输出的特征

文章图片
点乘，生成最终的注意力图M 。

文章图片
token优先级评分模块
token初步注意力
第l个transformer层的自注意矩阵公式如下式（4）所示，其中

文章图片