一眼识别这是什么鸟，比人类还厉害的“我们来找茬”十级选手诞生话说

话说，你能看出上面这三只鹦鹉有什么不一样吗？脸盲如我，要使出玩“我们来找茬”的十级能力。
AWSL ，鹦鹉鹦鹉，傻傻分不清楚。
结果， AI一顿操作猛如虎，进行了判断：左边的是桃面牡丹鹦鹉，右边的是国家保护动物费氏牡丹鹦鹉，二者区别仅在于喙的颜色以及白色眼圈。
小鸟并不孤单，猫猫狗狗和花花草草也在被“找茬” 。
最近，浙江大学和阿里安全在AI细粒度图像识别技术上取得了新进展，利用RAMS-Trans相关技术先后在公开数据集CUB（鸟类识别）、StandfordDogs（狗类识别）、iNaturalist（动植物识别）的识别上准确率达到91.3%、68.5%、92.4%的行业最优效果，研究成果被多媒体国际顶会ACMMM2021收录。

文章图片

文章图片

▍怎么“找茬”
细粒度图像识别是计算机视觉领域的一个经典问题，属于图像分类任务的细分支任务，难点主要在于类别之间的差异较细微，难以区分。举几个看起来简单实际并不简单的例子：

文章图片

文章图片

以上都是松鸦，搞起区别对待并不容易，最右那只松鸦因为颜色完全不同暂且可以退出比赛行列，左边两只“小朋友”就要考验AI对图片细节的把控，俗称“考眼力”了。
AI的“眼力”可不同于人类的“眼力”
在细粒度图像识别领域，区域注意力的定位和放大是一个重要因素，基于卷积神经网络（CNN）的方法对此进行了大量探索。然而， CNN的感受野有限，且缺乏全局依赖关系的建模能力。最近视觉Transformer（ViT）在计算机视觉领域取得了非常多的研究进展。研究者认为，与CNN相比，图像序列化是一种全新的方式。
浙江大学和阿里安全的研究者起初引入ViT中的自注意力机制，提取图像中的长距离依赖关系。然而， ViT的感受野大小相对固定，对图像中的每个patch的关注程度没有产生区分，对细粒度图像识别带来了性能的局限。
【一眼识别这是什么鸟，比人类还厉害的“我们来找茬”十级选手诞生】也就是说，这种方法并不能让AI找准“重点” 。
为了学习局部判别性的区域注意力，研究者使用注意力权重的强度来衡量对应于原始图像的patch重要性，提出了多尺度循环注意力的Transformer（RAMS-Trans），它利用Transformer的自注意力机制，以多尺度的方式循环地学习判别性区域注意力。
“我们方法的核心是动态patch建议模块（DPPM）引导区域放大，以完成多尺度图像patch块的集成。DPPM从全局图像开始，迭代放大区域注意力，以每个尺度上产生的注意力权重的强度为指标，从全局到局部生成新的patch块。”阿里安全图灵实验室算法专家炫谦介绍。

文章图片

文章图片

具体来说，研究者首先提取ViT每层的自注意力机制，并且进行归一化，然后采取累乘的方式对自注意力整合。
然后，研究者得到了整合后的自注意力均值分布矩阵，由于细粒度图像识别任务的关键因素在于局部注意力，往往存在于图像的局部区域，如鸟的尾部、喙和蛙类的头部等，因此研究者通过设定阈值的方式来“过滤”不需要的部位，增强对局部判别性区域的识别能力。
最后，研究者通过插值算法将选定的patch块放大到原图像的尺寸，通过共享参数的模型，重新进行训练，整体结构对应于文章所提的多尺度循环机制。

一眼识别这是什么鸟，比人类还厉害的“我们来找茬”十级选手诞生

推荐阅读

两江新区人才安家补助申请指南两江人才公寓申请条件

织围巾需要多久? 织围巾大概需要多久

自画像怎么画自画像怎么画女生马尾

黑色衣服掉浮毛怎么能洗干净

买房银行贷款流水不够怎么办买房贷款流水不够解决方法

岳阳居住登记怎么办理？岳阳市户籍管理中心

鸡的特征描写鸡的特征

肾衰竭尿酸高怎么调理

动态图片文件格式有哪些动态图片格式有哪些

抖音上面的喜欢怎么全部删除抖音中的喜欢怎么全部删除

买来的新鲜艾草怎么保存新鲜艾草怎么保存

杭州社保换工作怎么处理 2024杭州职工社保变更流程一览

银行卡被骗转账如何能追回钱被骗银行卡转账怎样能追回钱

春景禾明是什么意思春禾明景还是春和景明?

智谷大街288号邮编

苹果显示edge怎么解决

12加12加十是不是=12啊

如何办理高速ETC卡如何办理高速ETC

没有劳动合同被辞退了怎么办

四足的鼎又叫什么四足鼎是什么意思