新智元报导
编写:LRS
【新智元前言】视频语言表达数据集的经营规模又刷新纪录了!来源于MSRA的8位中国人协同公布有史以来较大的视频语言表达数据集HD-VILA-100M,也是第一个高像素规模性数据集!原文中还提到一个训练模型,根据这一数据信息训练的模型特性立即提高53.6%!
回忆两年前在网上信息内容绝大多数或是静态数据的,例如照片、小说集。
但伴随着各种视频网址和短视频的盛行,客户在移动互联网上访问视频的总数近些年明显提升,而且视频写作的品质、屏幕分辨率和內容多元性也愈来愈高!
把度假旅游、体育文化、歌曲等日常日常生活拍成视频共享早已变为了转型期,而且通常还会继续加上一段文字。
因此AI研究也是略逊一筹,进到文字 视频的多模态时期,例如视频检索,视频强烈推荐,视频编写都必须这类多模态模型的工作能力!
殊不知,目前的视频语言表达了解模型(video-language understanding models)的进步具体非常大水平上是遭到了数据集的规模化和覆盖面积的限定。
初期的数据集如MSR-VTT、DiDeMo、EPIC-KITCHENS全是由人们手工制作标明的视频和文字叙述构成,因为引进了人力标明,因此数据集的结构成本费也是大幅度升高,造成这种数据集的经营规模也没法做的非常大。
除此之外这种数据集中只包括了一些说明性的句子,那麼数据集的复杂和多元性也得到了非常大限定,间接性危害了后面开发设计模型的广泛特性。
也是有一些研究工作人员立即应用通过语音识别技术(ASR)后的视频一起开展训练,因为省掉了人力标明视频文字的全过程,数据集的经营规模获得了大大的提高。一个最有象征性的事例便是HowTo100M数据集,包括了上百万级的视频文字语料。
尽管数据集的经营规模是上来了,但品质却出来了。
全自动标明的视频数据信息无论是在品质上,或是词义多元性上面和真正情景中的视频存有着非常大差别。
为了更好地更好的了解视频和处理上边提及的信息问题,来源于微软公司亚洲地区研究院MSRA 的8位中国人近期一同发布了一篇毕业论文,关键研究了协同视频和语言表达(joint video and language)的预训练并指出了一个新的数据集HD-VILA-100M(High-resolution and Diversified VIdeo and LAnguage)。
数据集中的视频类型(video category)覆盖面积十分普遍,对后面的运用如文字到视频的查找(text-to-video retrieval)和视频问答(video QA)情景十分有效。
这一数据集具备三个关键的特性:
1. 经营规模尤其大
数据集中包括了来源于300万只视频中的1亿次视频文字对,视频时间累计做到了37万只钟头,比之前提及的HowTo100M的视频時间还需要长2.8倍,均值语句长短也比HowTo100M长8倍。
前边提及ASR转化成的视频字慕广泛品质不高,而且沒有标点。为了更好地摆脱这个问题,研究工作人员应用GitHub的一个专用工具puntuator2将字慕切分为好几个详细的语句,随后根据动态性時间整齐(Dynamic Time Warping)应用Youtube内置的字慕时间格式对视频精彩片段和语句开展两端对齐。
解决后,HD-VILA-100M数据集中视频精彩片段的均值时间为13.4秒,每一个语句均值包括32.5个词。
2. 屏幕分辨率尤其高
数据集中的全部视频屏幕分辨率全是720p,而现阶段主要的视频文字数据集的屏幕分辨率仅有240p和360p。
3. 多元性尤其高
数据集包含了YouTube上的15个最受欢迎的视频类型,例如体育文化、歌曲、车辆等。而且研究工作人员还对每个类型下的视频总数开展了均衡。
高、低分辨率全都要的模型
拥有数据信息之后就需要逐渐开展训练了!
但因为运行内存、计算水平等多种多样实际要素上的限定,之前的作业要不选用简洁的根据视频帧的端到端的伺服电机来开展视觉编码和多模态结合,要不应用一些训练好的时光(spatio-temporal)伺服电机来一步步完成对视觉编码和多模态信息内容的结合。
几乎沒有研究工作中在端到端视频语言表达预训练模型中对时光视频开展协同编号(joint spatio-temporal video representation)。
这创新点并不是送货上门来了吗?
研究工作人员明确提出了一个新的模型,模型的键入是混和图象编码序列(hybrid image sequence),序列中包括小量高像素(HR)视频帧和很多的低分辨率(LR)的视频帧来开展多视频学习培训的每日任务(multiple video learning task)。
那样的模型设计方案可以完成高像素时光视频表现的端到端训练,而且在模型设计方案中解决了2个关键的问题:
1. 什么HR和LR的视频帧应当被提炼出去?
研究工作人员最先任意从一个视频精彩片段(video clip)中任意取样一些HR视频帧来保证最后学习培训到的视频特点具备充分的可扩展性。
LR视频帧从HR视频帧的周边帧中均值取样提取获得,也确保了正中间的HR视频帧包括了和LR类似的空间数据,这一实际操作针对时钟频率特点的学习培训也是十分重要。
2. 怎样从混和图象编码序列初中到时光特点?
研究工作人员对HR和LR视频帧各自编号,而且应用一个hybrid Transformer将把编号后的HR特点和LR特征投射到同一个embedding室内空间。这类设计方案方法也可以保证视频中的时光信息内容可以以一种可学习培训的方法与此同时遮盖HR和LR视频帧。
研究工作人员对video-text retrieval每日任务开展了试验,能够看见原文中明确提出的HD-VILA模型在MSR-VTT数据集内以巨大的优点超过了过去在HowTo100M数据集上训练的模型。
在zero-shot的设定下,HD-VILA乃至比VideoCLIP的R@1的特性好38.5%(10.4->14.4),也表明了模型学习培训到的视频表现具备充分的泛化能力,而且调整后的模型早已超过了任何的基准线模型。
在影片数据集LSMDC中,模型相对性别的基准线模型乃至获得了更高的特性盈利(53.6%)。因为影片与HowTo100M里的视频设计风格可以看得出显著不一样,因此在HowTo100M上预训练的模型难以融入影片行业。而且因为LSMDC中的视频数据信息屏幕分辨率广泛较高,而HD-VILA相对性别的模型解决高像素视频的作用也更强,因此性能增加也更高。
在DiDeMo和ActicityNet数据集上的试验中,HD-VILA也得到了更快的特性。这两个数据集的主要特点便是经营规模更高、视频类型更丰富,每一个视频的时间段也更长,在这样的情况下,模型必须更快的时钟频率逻辑思维能力才可以招回恰当的結果,也合乎HD-VILA的训练总体目标。
在text-to-visual转化成试验中,研究工作人员比照的模型为StyleCLIP和TediGAN,这两个模型全是运用跨多形式的预训练来进行语言表达正确引导的图象转化成每日任务,而且图象转化成品质在业内也是备受五星好评。视觉效果转化成結果的品质一定水平上还可以体现跨多形式embedding的品质。
在text-guided manipulation每日任务的第一个事例中,尽管三个模型都取得成功将秀发越来越更为波浪卷发,但HD-VILA是唯一一个遵循文字的规定给角色涂上唇膏的模型。
在图象超分辨率(super-resolution)每日任务中, HD-VILA和SR3, pSp模型与此同时从16×16的超低分辨率中转化成1024×1024的图象,因为键入图片的屏幕分辨率尤其低,因此每日任务也是非常有趣味性。
试验結果中能够看见,SR3和pSp仅运用视觉效果信息内容并不可以复建高品质的面部,而HD-VILA可以在预训练模型的大力支持下,依靠文字叙述可以精确地复建唇膏、长直发等面部特点。
文章内容的创作者郭百宁博士研究生现为微软公司亚洲地区研究院政法委副书记医生,承担图像处理行业的研究工作中。于1999年加盟代理微软中国研究院(即微软公司亚洲地区研究院其前身)。先前他是美国英特尔公司美国硅谷总公司研究院的杰出研究员,有着美国康奈尔大学硕士和博士学士学位,北大学士学位证书。
郭百宁博士研究生的研究兴趣爱好包含计算机图形学、电子计算机交互、当然操作界面及其统计学习。他在纹路投射模型、实时渲染及其几何图形模型等行业获得的研究成效尤其突显。
参考文献:
https://arxiv.org/abs/2111.10337