机器之心栏目
创作者:李光耀、卫雅珂、田亚鹏、徐辰良、文继荣、胡迪
人民大学高瓴人工智能学院 GeWu 试验室明确提出了一种动态性视音场景下的室内空间 - 时钟频率问答实体模型,让 AI 能像人一样收看和倾听乐器演奏,并对已知的视音问题作出跨模态时光逻辑推理。毕业论文已被 CVPR2022 接受并当选 Oral Presentation。
你了解 AI 可以自身赏析演奏会吗?并且 AI 可以了解弹奏场景中每一个传统乐器的弹奏情况,这会不会很奇妙?对人们来讲,赏析优美的演奏会是一件很享用的事儿,但针对设备而言,如何把优美的旋律和慷慨激昂的弹奏界面鸾凤和鸣来提高赏析感受却颇有挑戰。
近期,人民大学高瓴人工智能学院 GeWu 试验室就对于这一问题提到了一种新的架构,让 AI 能像人一样收看和倾听乐器演奏,并对已知的视音问题作出跨模态时光逻辑推理。
现阶段这一成效已被 CVPR2022 接受并当选 Oral Presentation,有关数据集和编码早已开源系统。
毕业论文详细地址:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf新项目详细地址:https://gewu-lab.github.io/MUSIC-AVQA/下面让我们一起来讲一下这一有趣的工作!
1. 前言
我们在日常生活中被视觉效果和响声信息内容所包围着,这二种信息内容的融合运用提升了大家对场景的感受和逻辑思维能力。想像一下,在我们置身在一场演奏会里时,与此同时收看乐器演奏姿势和聆听音乐的节奏可以有效地帮大家享有表演。受此启迪,怎么让设备融合多模态信息内容,尤其是视觉效果和声响等当然模态,以实现与人们非常的场景认知和逻辑思维能力,是一个有意思且有價值的课题研究。因而,该科学研究致力于视听问答(Audio-Visual Question Answering, AVQA)每日任务,致力于回应相关不一样视觉效果目标、响声以及在短视频中的关联性的问题。显而易见,务必对视听场景开展全方位的多模态了解和空间逻辑推理才可以作出准确的回应。
近些年,科学研究员工在响声目标认知、声频场景剖析、视听场景分析和信息表述等领域获得了明显进度。虽然这种办法能将视觉效果目标与响声关系,但他们中的大部分在繁杂视听场景下的跨模态推理能力依然比较有限。比较之下,人们可以灵活运用多模态场景中的前后文內容和時间信息内容来处理繁杂的场景逻辑推理每日任务,如视听问答任务等。目前的视觉效果问答(VQA)和响声问答(AQA)方式等通常只关心单一模态,进而不可以有效的在实际的视音场景中开展比较复杂的逻辑推理每日任务。
如下图所示的单簧管双向奏场景,当回应 “哪个单簧管先发音?” 的问题时,必须在视听场景中先精准定位考虑声的单簧管,并在时钟频率层面上主要对焦于哪个单簧管先发出声响。要恰当回应这个问题,实质上要合理地对视听场景了解和空间逻辑推理。
图 1 AVQA 每日任务问题样例展现
针对上边这一事例,若大家仅考虑到根据视觉效果模态的 VQA 实体模型则难以对问题中涵盖的响声信息内容完成解决,反过来,若大家只考虑到根据响声模态的 AQA 实体模型,一样无法对问题中涵盖的室内空间位置信息开展解决。可是,我们可以见到与此同时应用听觉系统和视觉效果信息内容可以比较容易的对场景开展了解并恰当的回应以上问题。
2. 数据集
为了更好地更快的探寻视听场景了解和空间逻辑推理的问题,该科学研究搭建了一个致力于问答每日任务的大量的视听数据集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我们知道高品质的数据集针对视音问答每日任务的分析具备非常大的使用价值,因而,充分考虑乐器演奏是一个非常典型的视音多模态场景,并由丰富多彩的视听成份以及互动构成,特别适合用以探寻视听场景了解和逻辑推理每日任务。因而该分析从 YouTube 上搜集了很多客户发布的乐器演奏短视频,搭建数据集中的短视频包含了独奏、重奏的合凑等多种多样弹奏方式。从总体上,该科学研究一共选择了 22 种不一样的传统乐器(如吉它、电子琴、二胡、锁呐等),设计方案了九种问题模版并包含了响声、视觉效果和视音三种不一样的模态场景种类。
表 1 MUCIS-AVQA 数据集与别的 QA 数据集多维度比照
如表 1 所显示,该科学研究发表的 MUSIC-AVQA 数据集具备下列优点:1)MUSIC-AVQA 数据集包含很多的响声问题、视觉效果问题和视听问题的问答对,比别的问答类数据集更全方位丰富多彩。针对大部分问答每日任务数据集(ActivityNet-QA, TVQA 等)而言,仅包括了视觉效果问题,无法探寻视听有关的科学研究。尽管目前的 AVQA 数据集(AVSD, Pano-AVQA 等)也保证了视听问答对,但他们更致力于相对性简洁的问题(Existential 或 Location),只必须室内空间逻辑推理就可以作出回应。2)MUSIC-AVQA 数据集由包括丰富多彩视听成份的乐器演奏场景构成,有利于能够更好地科学研究视听互动场景了解和逻辑推理,并可以在一定水平上防止场景中的噪音问题。大部分公布问答类数据集(ActivityNet-QA, AVSD 等)中的响声信息内容通常与其说视觉效果目标不配对,会发生明显的噪音(如音乐背景),这导致他们无法探寻不一样模态中间的关系。除此之外,TVQA 数据集尽管包括视觉效果和响声模态,但其声音是由人们讲话声构成的,在其问答对搭建全过程中也只运用了相对的字慕信息内容,并非真正意义上的视音关系场景。
最后数据集包括了 9,288 个短视频并包括了 22 种传统乐器,其总时间超出 150 钟头。而且以众包平台的方式产生了 45,867 个问答对,均值每一个短视频约 5 个问答对,这种问答对包含了不一样模态下的 9 类问题种类及其 33 个不一样的问题模版。丰富多彩而多种多样繁杂的数据集对 AVQA 每日任务的分析具备非常大的意义和实际意义。
图 2 MUSIC-AVQA 数据集多维度数据分析
3. 实体模型方式
为了更好地彻底解决以上 AVQA 每日任务,该科学研究各自从空间和时序认知的视角考虑,明确提出了一种动态性视音场景下的室内空间 - 时钟频率问答实体模型(如下图所示)。
最先,响声以及视觉效果源的部位体现了视听模态中间的室内空间关系,这有利于将繁杂的场景溶解为详细的视听关系。因而该科学研究指出了一个根据注意力机制的声源定位的室内空间控制模块来仿真模拟这类跨模态的关系。次之,因为视听场景随時间变化规律,因而捕获和突显与问题息息相关的重要时间格式尤为重要。因而,该科学研究指出了应用问题特点做为查看的時间基本控制模块来对焦重要時间精彩片段,以合理地编号问题认知声频和视觉系统的置入。最终,结合以上室内空间认知和時间认知的视听特点,获得问答的协同表明,以预测分析短视频关系问题的回答。图 3 动态性视音场景的室内空间 - 时钟频率问答实体模型
4. 试验結果
如表 2 所显示,引进 Audio 和 Visual 模态信息内容都有利于实体模型功能的提高。除此之外,能显然见到当融合响声和视觉效果模态时,AV Q 实体模型的性能提升 A Q 和 V Q 实体模型要好很多,这表明多感官认知有利于提高问答每日任务的特性。大家也可以见到视音室内空间关系控制模块和时钟频率关系控制模块都可以很显著的提高实体模型的特性,进而能够更好地对场景开展了解。
表 2 不一样模态消溶试验表
表 3 展现了一些近期的 QA 方式在 MUSIC-AVQA 数据集上的結果。结果最先表明全部的 AVQA 方式都需要好于 VQA、AQA 和 VideoQA 方式,这表明多模态认知可以有利于 AVQA 每日任务。次之该研究室用方式在大部分视听问题上获得了十分大的发展,尤其是针对必须空间和时序逻辑推理的视听问题更加显著(如 Temporal 和 Localization 等)。
表 3 与别的 QA 类方法比照
为了更好地进一步表明所提实体模型的高效性和可实证性,该科学研究完成了一些数据可视化展现。在其中热力地图表明声源处的部位,供热图下方的报表表明时钟频率上的专注力成绩。从数据可视化結果可以显著看得出所提的模式在多模态视听场景中具备非常好的掌握和推理能力。
图 4 数据可视化結果
5. 总概
总的来说,文中探寻了怎样回应相关不一样视觉效果目标、响声以及在短视频中的关联性的问题,进而对动态性复杂性的视音场景开展粗粒度了解和逻辑推理。创作者精英团队搭建了一个包括 45,867 个不一样视听模态和多种多样问题种类问答对的规模性 MUSIC-AVQA 数据集,及其明确提出了一个简易有效的视音时钟频率 - 室内空间实体模型来非常好的处理 AVQA 问题。该科学研究坚信明确提出的 MUSIC-AVQA 数据集可以变成评定视听场景粗粒度了解和空间逻辑推理的标准服务平台,与此同时也觉得此项工作是探寻视听逻辑推理的开场之作,为该行业开辟了一个较好的开始,并借此机会期待可以鼓励越来越多的学者同大家一道去探寻这一行业。
精英团队关键来源于人 AI 学校
该项科学研究由人民大学高瓴人工智能学院核心,与英国罗彻斯特大学协作进行,通讯作者为 GeWu 试验室胡迪终身教授,具体内容由 GeWu 试验室博士研究生李光耀承担。
GeWu 试验室现阶段主要的研究内容主要包含多模态场景了解、多模态学习培训体制和跨模态互动与转化成等,近期大半年试验室同学们已发布数篇高品质文章内容,如 TPAMI(人工智能技术行业影响因子查询最大的刊物,IF=17.861)和数篇 CVPR(均为 Oral)。
PS:科学研究工作人员发觉常见的多模态实体模型存有欠提升的单模态表现,这也是由一些场景中另一种核心模态造成的。因此她们制定了 OGM-GE 方式,根据监管不一样模态对个人目标的奉献差别来源于满足地调配每一种模态的提升,进而改善了这类提升上的不平衡。这篇工作中也被 CVPR2022 接受为 Oral Presentation,主要内容将在后面公布中讲解。
除此之外,GeWu 试验室十分热烈欢迎对以上研究内容有兴趣的同学们添加(本、硕、博和浏览学员),敬请进一步查询试验室招生宣传 (https://zhuanlan.zhihu.com/p/496452639)。