Omnimattes 介绍:应用分层次神经系统3D渲染转化成遮罩的新方式
图像和视频编写实际操作通常取决于精确的遮罩——界定市场前景和环境中间分离出来的图像。尽管近期的机器视觉技术性可以为当然图像和视频转化成优质的遮罩,容许现实世界的运用,例如转化成生成景深、编写和生成图像或从图像中删掉环境,但缺乏一个基本上一部分:行为主体很有可能造成的多种情景效果,如黑影、反射面或浓烟,通常会被忽略。
在CVPR 2021 上发布的“ Omnimatte:关系目标以及在视频中的效果”中,大家叙述了一种新的遮罩转化成方式,该方法运用分层次神经系统3D渲染将视频分为称之为omn?imattes 的层,在其中不但包含主题,还包括全部在情景中与他们有关的效果。典型性的最现代化的切分实体模型为情景中的行为主体(例如人和狗)获取蒙板,而这里明确提出的方式 可以防护和获取与主题有关的别的关键点,例如投影在路面。
与切分蒙板不一样的是,omnimattes 可以捕获一部分全透明的温和效果,例如反射面、溅出或车胎浓烟。与传统式遮罩一样,Omnimattes 是RGBA 图像,可以应用普遍可以用的图像或视频编辑工具开展解决,而且可以在应用传统式遮罩的任何地方应用,例如,将文字插进烟迹下边的视频中。
视频的分层次溶解
为了更好地转化成全能型图,大家将键入视频分为一组层:一个层用以每一个挪动的目标,一个额外层用以静止不动的环境目标。在下面的实例中,一层用以角色,一层用以狗,一层用于环境。当应用传统式的alpha 混和合拼在一起时,这种层会重现键入视频。
除开重现视频以外,溶解还需要在每一层捕获恰当的效果。例如,假如人的影子发生在狗的涂层中,合拼后的涂层依然会再现键入的视频,可是在人和狗中间插进附加的原素会造成显著的不正确。考验取决于寻找一个溶解,在其中每一个主题的层仅捕获该主题的效果,进而造成真实的全能型。
大家的解决办法是运用大家以前开发设计的分层次神经系统3D渲染方式来练习卷积神经网络(CNN),以将主要的切分子网掩码和声音分贝图像投射到一个高清图。因为其构造,CNN 当然趋向于学习培训图像效果中间的关联性,而且效果中间的关联性越强,CNN 就越非常容易学习培训。例如,在上面的视频中,人与其说影子及其狗与其说影子中间的室内空间关联在她们从右往左边走动时维持类似。在关联中间的转变更高(因而,关联性较差)的人与狗的影子,或是狗与人的影子. CNN 最先学习培训更强的关联性,进而造成恰当的溶解。
下边详尽展现了omnimatte系统软件。在预备处理中,客户挑选主题并为每一个主题特定一个层。应用现有的切分互联网(例如MaskRCNN)获取每一个目标的切分子网掩码,并应用规范照相机平稳专用工具寻找相对性于环境的照相机转换。随机噪声图像在环境参照帧中界定,并应用照相机转换开展取样以转化成每帧噪音图像。噪声图像给予任意但随時间不断追踪环境的图像特点,为 CNN 给予当然键入以学习培训复建背景色。
3D渲染 CNN 将切分子网掩码和每帧噪音图像做为键入,并转化成 RGB 五颜六色图像和 alpha 投射,他们捕获每一层的清晰度。这种导出应用传统式的 alpha 混和开展合拼以转化成导出帧。CNN 重新开始??练习,根据搜索子网掩码中未捕获的效果(例如,黑影、反射面或浓烟)并将其与给出的市场前景层密切相关来复建键入帧,并保证行为主体的 alpha 大概包含切分子网掩码。为了更好地保证市场前景层只捕获前景原素而沒有固定不动环境,还对市场前景 alpha 运用了稀少损害。
为每一个视频练习一个新的3D渲染互联网。因为互联网只必须复建单独键入视频,因而除开分离出来每一个主题的效果以外,它还可以捕获精细结构和迅速健身运动,如下所示所显示。在徒步实例中,omnimatte 包含投在公园长椅吕板上的黑影。在羽毛球实例中,捕获了细微的黑影乃至羽毛球。在篮球实例中,足球运动员和球的黑影被溶解为适度的层(当足球运动员的脚被球遮挡的时候会发生轻度的不正确)。
这一基本上实体模型早已运作优良,但可以根据应用附加的缓冲区域(如光流或纹路座标)提升 CNN 的键入来改善結果。
应用软件
一旦转化成了omnimattes,怎么使用他们?如上所显示,我们可以删掉目标,只需从组成中删掉他们的涂层就可以。大家也可以利用在生成中反复目标的涂层来拷贝目标。在下面的事例中,视频被“进行”成全景图片,马被多次拷贝以造成频闪的相片效果。一定要注意,马投在路面和阻碍物上的黑影被恰当捕获。
一个更细微但作用更强有力的运用是重按时主题。時间的控制在电影中被普遍应用,但通常必须为每一个主题和可控的拍照自然环境独立拍照。溶解为omnimattes 使日常视频的再次按时效果变成很有可能,只需应用后处理工艺,只需单独变更每一层的播放视频速度就可以。因为Omnimattes 是规范的RGBA 图像,因而可以采用传统式的视频制作软件来实现这类再次按时编写。
下边的视频被转化成三层,每一个孩子一层。小朋友们最开始的、不关联的弹跳根据简易地调节她们的涂层的播放视频速度来两端对齐,为水里的溅出和反射面造成真实的再次按时。
关键的是要充分考虑一切解决图像的前沿技术都应当负责地开发设计和运用,因为它很有可能被乱用来造成虚报或虚假性信息内容。大家的技术水平是依据人们的AI 标准开发设计的,只容许重新排序视频中早已出现的內容,但即使是简洁的重新排序也会显着更改视频的效果,如这种实例所显示。科学研究工作人员应当意识到这种风险性。
将来的工作中
有很多激动人心的方位可以提升omnimattes 的品质。在好用方面上,该系统软件现在仅适用可以模型为全景图片的环境,在其中照相机的部位是确定的。当照相机部位挪动时,全景图实体模型没法精确捕获全部环境,而且一些环境原素很有可能会混乱市场前景涂层(有时候在图中中由此可见)。解决彻底通用性的照相机健身运动,例如越过屋子或走在街上,必须 3D 环境实体模型。在存有挪动物品和效果的情形下复建 3D 情景依然是一项严峻的科学研究考验,但近期获得了令人振奋的进度。
在概念层次上,CNNs 学习培训关联性的工作能力是强有力的,但依然有一些秘密,而且并不一直造成预估的层溶解。尽管大家的系统软件容许在全自动結果有缺憾时开展手动式编写,但更强的解决办法是充足掌握 CNN 学习培训图像关联性的工作能力和局限。除开层溶解以外,这类了解很有可能会造成改善去噪、修补和很多别的视频编写应用软件。