一眼识别这是什么鸟,比人类还厉害的“我们来找茬”十级选手诞生

话说 , 你能看出上面这三只鹦鹉有什么不一样吗?脸盲如我 , 要使出玩“我们来找茬”的十级能力 。
AWSL , 鹦鹉鹦鹉 , 傻傻分不清楚 。
结果 , AI一顿操作猛如虎 , 进行了判断:左边的是桃面牡丹鹦鹉 , 右边的是国家保护动物费氏牡丹鹦鹉 , 二者区别仅在于喙的颜色以及白色眼圈 。
小鸟并不孤单 , 猫猫狗狗和花花草草也在被“找茬” 。
最近 , 浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展 , 利用RAMS-Trans相关技术先后在公开数据集CUB(鸟类识别)、StandfordDogs(狗类识别)、iNaturalist(动植物识别)的识别上准确率达到91.3%、68.5%、92.4%的行业最优效果 , 研究成果被多媒体国际顶会ACMMM2021收录 。
一眼识别这是什么鸟,比人类还厉害的“我们来找茬”十级选手诞生
文章图片

文章图片

▍怎么“找茬”
细粒度图像识别是计算机视觉领域的一个经典问题 , 属于图像分类任务的细分支任务 , 难点主要在于类别之间的差异较细微 , 难以区分 。举几个看起来简单实际并不简单的例子:
一眼识别这是什么鸟,比人类还厉害的“我们来找茬”十级选手诞生
文章图片

文章图片

以上都是松鸦 , 搞起区别对待并不容易 , 最右那只松鸦因为颜色完全不同暂且可以退出比赛行列 , 左边两只“小朋友”就要考验AI对图片细节的把控 , 俗称“考眼力”了 。
AI的“眼力”可不同于人类的“眼力”
在细粒度图像识别领域 , 区域注意力的定位和放大是一个重要因素 , 基于卷积神经网络(CNN)的方法对此进行了大量探索 。然而 , CNN的感受野有限 , 且缺乏全局依赖关系的建模能力 。最近视觉Transformer(ViT)在计算机视觉领域取得了非常多的研究进展 。研究者认为 , 与CNN相比 , 图像序列化是一种全新的方式 。
浙江大学和阿里安全的研究者起初引入ViT中的自注意力机制 , 提取图像中的长距离依赖关系 。然而 , ViT的感受野大小相对固定 , 对图像中的每个patch的关注程度没有产生区分 , 对细粒度图像识别带来了性能的局限 。
【一眼识别这是什么鸟,比人类还厉害的“我们来找茬”十级选手诞生】也就是说 , 这种方法并不能让AI找准“重点” 。
为了学习局部判别性的区域注意力 , 研究者使用注意力权重的强度来衡量对应于原始图像的patch重要性 , 提出了多尺度循环注意力的Transformer(RAMS-Trans) , 它利用Transformer的自注意力机制 , 以多尺度的方式循环地学习判别性区域注意力 。
“我们方法的核心是动态patch建议模块(DPPM)引导区域放大 , 以完成多尺度图像patch块的集成 。DPPM从全局图像开始 , 迭代放大区域注意力 , 以每个尺度上产生的注意力权重的强度为指标 , 从全局到局部生成新的patch块 。”阿里安全图灵实验室算法专家炫谦介绍 。
一眼识别这是什么鸟,比人类还厉害的“我们来找茬”十级选手诞生
文章图片

文章图片

具体来说 , 研究者首先提取ViT每层的自注意力机制 , 并且进行归一化 , 然后采取累乘的方式对自注意力整合 。
然后 , 研究者得到了整合后的自注意力均值分布矩阵 , 由于细粒度图像识别任务的关键因素在于局部注意力 , 往往存在于图像的局部区域 , 如鸟的尾部、喙和蛙类的头部等 , 因此研究者通过设定阈值的方式来“过滤”不需要的部位 , 增强对局部判别性区域的识别能力 。
最后 , 研究者通过插值算法将选定的patch块放大到原图像的尺寸 , 通过共享参数的模型 , 重新进行训练 , 整体结构对应于文章所提的多尺度循环机制 。

推荐阅读