新研究推动了多模式学习的最新发展

与大多数AI系统不同,人类在上下文中一起理解文本,视频,音频和图像的含义 。例如,给定文本和图像,当它们分开看时似乎是无害的(例如,“看有多少人爱你”和一张荒芜的沙漠图片),人们就会认识到,这些元素在配对或配对时具有潜在的有害含义 。并列 。
尽管能够进行这些多模式推断的系统仍然遥不可及,但是已经取得了进步 。过去一年中的新研究推动了多模式学习的最新发展,特别是在视觉问题解答(VQA)子领域,这是一种计算机视觉任务,其中向系统提供有关图像和图像的基于文本的问题 。必须推断答案 。事实证明,多模式学习可以承载互补的信息或趋势,只有当它们全部包含在学习过程中时,这些信息或趋势才会变得明显 。这为从字幕到将漫画书翻译成不同语言的应用程序带来了希望 。
在多模式系统中,计算机视觉和自然语言处理模型在数据集上一起训练,以学习组合的嵌入空间,或由代表图像,文本和其他媒体的特定特征的变量占据的空间 。如果将不同的单词与相似的图像配对,则这些单词很可能用来描述相同的事物或对象,而如果某些单词出现在不同的图像旁边,则表示这些图像表示相同的对象 。那么,多模式系统应该有可能从文本描述中预测诸如图像对象之类的东西,并且大量的学术文献已经证明是这种情况 。
仅存在一个问题:众所周知,多峰系统会吸收数据集中的偏差 。VQA等任务中涉及的问题和概念的多样性,以及缺乏高质量的数据,通常会使模型无法学习到“推理”,从而导致他们依靠数据集统计信息做出有根据的猜测 。
关键见解可能在于Orange实验室和里昂国家应用科学研究院的科学家开发的基准测试 。他们声称测量VQA模型准确性的标准度量标准具有误导性,因此提供了替代方法GQA-OOD,它可以评估无法推理得出的问题的表现 。在一项涉及7个VQA模型和3种减少偏见的技术的研究中,研究人员发现这些模型未能解决涉及频率不高的概念的问题,这表明该领域需要开展工作 。
【新研究推动了多模式学习的最新发展】该解决方案可能涉及更大,更全面的培训数据集 。巴黎écoleNormaleSupérieure的工程师,巴黎Inria巴黎以及捷克的信息学,机器人技术和控制论研究所的工程师发表的一篇论文提出了一个VQA数据集,该数据集是由数百万个旁白的视频创建的 。研究人员称,该数据集由转录视频中自动生成的问题和答案对组成,消除了手动注释的需要,同时可以在流行的基准上实现出色的性能 。(大多数机器学习模型学会根据自动或手工标记的数据做出预测 。)
责任编辑:lq
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}
新研究推动了多模式学习的最新发展
文章插图

    推荐阅读