有效捕捉目标级别语义信息，之江实验室＆浙大提出再注意机制TRT( 二 )

的第一行为classtoken的注意力向量，展示了classtoken和所有patchtoken之间的关联关系。将所有层transformer层classtoken的注意力向量进行均值融合，得到初步注意力结果m 。

文章图片
token挑选策略
利用累积分布采样方法构建自适应阈值，具体操作为：对初步注意力结果m进行排序并构建积分图，针对积分图结果确定固定阈值，则针对m生成了自适应阈值。
操作原理如下式（5）所示，其中F为m的累积分布函数，严格单调转换

文章图片
为其逆函数。

文章图片
基于阈值生成二值图

文章图片
， b中值为1的位置表示被筛选的patchtoken的位置。
token再注意
利用二值图b构建挑选矩阵B ，并基于矩阵B构建掩码自注意力操作。对图2中visualtransformerblocks输出的特征

文章图片
中patchtoken部分

文章图片
执行掩码自注意力操作，对操作结果进行全连接和掩码softmax操作，生成重要性权重λ 。
在训练阶段，利用重要性权重λ对

文章图片
进行加权融合，将

文章图片
与融合结果送入最后一个transformer层。利用最后一个transformer层输出的classtoken生成分类概率

文章图片
。
在测试阶段，从初步注意力结果m中获取未被筛选的patchtoken权重信息，从重要性权重λ中获取被筛选的patchtoken权重信息，由此生成

文章图片
，如式（10）所示， m'为

文章图片
的向量形式。

文章图片
结果

文章图片
表1：在CUB-200-2011数据集上的定位准确率比较

文章图片
表2：在CUB-200-2011数据集上的MaxBoxAccV2结果比较

文章图片
表3：在ILSVRC数据集上的定位准确率比较

文章图片
图3:ILSVRC上目标显著性区域以及定位对比

文章图片
【有效捕捉目标级别语义信息，之江实验室＆浙大提出再注意机制TRT】图4:在CUB-200-2011数据集上的目标显著性区域以及定位结果