数字化时代与人工智能时代,多模态理论是谁提出的

智东西(微信公众号:zhidxcom)

创作者 | 心缘

编写 | 漠影

写在前面:元宇宙、虚似数字人定义受欢迎的2021,高品质练习数据資源正变成开疆辟土的AI公司们开启更强智能化的重要然料,根据会话国内唯一A股发售数据服务提供商海天瑞声,大家尝试讨论掩藏于这一场新起技术的浪潮背后的根基人物角色,怎样应用技术处理智能化系统更新流程中的关键困扰。

2022年,再不关心虚似数字人,你也就过时啦!

在刚过去的一年,AI虚拟主播、虚似学员、虚似职工轮流入岗,变成元宇宙与人工智能技术两大行业最受欢迎的技术跑道之一。

▲万科地产第一位智能化职工崔筱盼得到万科总部最佳新人奖

有一些虚似数字人早已主要表现得灵气十足,不但音标发音规范当然、人体姿势顺畅,就连眨眼睛頻率、嘴型与响声的配对等关键点都栩栩如生。

这种风靡大街小巷的独特有机体,根据愈来愈多元化的品牌形象订制、舒服的互动感受,慢慢转化为具有更贴近真实人类智力和感情的新式角色定位。

而「多模态技术」,恰好是摆脱单一感观的窠臼,让AI虚拟人物愈来愈像人们的杀手锏。

一、破圈而成,“极致”虚拟人离不了的多模态

数据,是将真实的世界与虚幻世界联接的公路桥梁。

在现实世界中,数据纯天然以「多模态」的方式存有,人们根据灵活运用视觉效果、听觉系统、触感、味觉等多种多样感观,来触碰和了解万千世界。

为了更好地探寻完成通用型人工智能技术(AGI)的途径,人工智能技术(AI)从单多形式迈向多模态已经是必然趋势。

之前,Siri等智能语音助手仅有音效沒有脸,检索只有借助输入文字,设备不明白相片的深层次含意。

现如今,依靠多模态技术,AI完成了图象、短视频、声频、词义文字等多层次資源的结合相辅相成,不但管理决策更为精确,仍在个人行为和智力上更贴近人们。

新冠肺炎疫情亦催化反应了多模态技术的落地式过程。在个人隐私安全性维护高度重视水平日益加强的发展趋势下,多模态生物识别技术凭着更好的准确度和安全系数,正替代根据指纹识别、面部等单一生物特征的身份核查方式。

而藏于多种多样高科技的AI虚拟主播,也是根据多模态技术的迅速演变,变成认知智能化迈进认知能力智能化环节的主要探寻。

他们的精美容貌、顺畅表述、幽美体形,离不了肢体语言跟踪、语音识别技术、语音合成、自然语言处理、动作捕捉等丰富多彩技术的支撑点。

▲虚似数字人技术构架(来源于:《2020年虚似数字人发展趋势市场研究报告》)

在其中,AI手语网络主播要处理的技术难题特别是在繁杂。为了更好地照看到听力障碍人员的要求,它必须具有即时将汉语、英语等视频语音“翻译工作”成连贯性手语的工作能力。

但手语有一套与众不同的英语的语法管理体系,假如来一段中央电视台压韵狂人朱广权的搞笑段子“强冷空气十分强,但他强任他强,清风拂山岗,他横任他横,秋衣保身心健康”,那么就极其磨练AI手语网络主播的掌握和翻译工作水平了。

要保证即时精准演试手语,AI网络主播先要将视频语音转换成文本,再将健听人员的文字词序转换成手语词序,最终根据手语数据集开展手语生成,将同样的信息内容以视觉效果的方式传送给听力障碍人员。

在这里全过程中,得到合乎要求的练习数据变成了极具趣味性的问题之一。

这是由于,做为一种视觉效果语言表达,手语语言远比视频语音语言表达多形式繁杂,既包括手形、手臂部位等手控信息内容,又包括神情、口动、体形等非手控信息内容。

假如从2D短视频来收集手语健身运动全过程中的数据,则难以避免会碰到姿势被挡住、面部五官各地区区别不显著、室内空间深层信息内容缺少等问题。

▲中央电视台冬季奥运会AI手语网络主播

综合性来看,根据专用设备收集的3D多模态数据,早已变成提升特殊竖直情景AI虚似数字人的智能化系统水准中,不可多得的解决方法之一。

怎样获得高质量的多模态练习数据库?AI基本数据服务提供商的价值逐渐日益突显。

二、高品质优化算法“秘密武器”:高品质数据身后的技术试练

数据、优化算法、算率被并称之为「AI三要素」,数据品质的多少,通常决策AI优化算法实体模型的特性限制

伴随着AI运用慢慢普及化,坐落于基础设施建设层的AI数据服务业正发展趋势地顺风顺水。依据著名市研组织IDC汇报,到2025年,我国AI数据采标消费市场经营规模预估将增加到123.4亿人民币。

▲2020-2025年我国AI基本数据消费市场经营规模预测分析(来源于:IDC我国)

但假如你觉得AI基本数据服务项目是个纯人研讨会,那你就过小瞧这一领域的技术成分了。

尤其是多模态技术暴发至今,相对应的对多模态数据要求的提高,逐渐曝露了“做坊”数据采标精英团队“茫茫人海”战略的薄弱点,全部数据销售市场正方向达到顾客长尾关键词要求演变,对服务提供商技术特性的规定一再加仓。

怎样制订与优化算法配对的数据计划方案?怎样同歩收集不一样多形式的数据?如何处理遗失的数据?怎样确保不一样多形式数据的精确两端对齐?这种都极其磨练AI数据服务提供商的技术工作能力。

以评为中国工信部新一代人工智能技术产业链自主创新重点项目揭榜优异企业、我国专精特新“孵化器”公司、我国关键软件行业的海天瑞声为例子,这个公司在我国AI基本数据采标消费市场中排行前端,也是A股唯一的AI数据服务项目上市企业,其多模态练习数据解决方法近期得到了智东西2021年度AI生产效率成果奖。

依据其IPO文档,AI数据服务项目的关键技术可划分为三个层级:练习数据生产制造(包含设计方案、收集、生产加工、质量检测),服务平台专用工具(一体化数据解决服务平台)及其基础研究(语音识别技术、语音合成、机器视觉、练习数据集设计方案技术等)。

在其中,在练习数据生产制造层,多语多模态练习数据设计方案技术、收集及标明技术是高品质练习数据的生产制造基本

最先在设计,为了更好地达到AI优化算法的要求,AI数据服务提供商需深层次了解顾客优化算法和应用领域,设计方案与之最佳配对的多模态练习数据构造,并制订科学合理的原材料数据收集计划方案。

根据设计多机器设备收集计划方案,便于与此同时获得人传出的视频语音、短视频界面、细致嘴唇姿势等不一样多形式的信息内容,有利于顾客配对本身优化算法实体模型架构,完成视觉效果、听觉系统等结合的多层次互动。整个过程十分磨练AI数据服务提供商的技术贮备和工程项目工作能力。

次之,在具体的收集阶段中,数据耗损是在所难免,且导致耗损的缘故迥然不同,而有工作经验的AI数据服务提供商能用技术迅速找到打法。

大家再次以AI手语生成网络主播为例子,收集手语数据会使用配有感应器的胶手套,这种胶手套因为并不是专为手语而设计方案,因而在收集环节中不可避免发生数据遗失的问题,一个姿势很可能要做几百帧的数据修补,用时费力。

发觉这一问题后,海天瑞声技术研发部门快速运行解决计划方案,经历大半个月产品研发出一款与硬件配置收集机器设备相对应的全自动导出来、恢复工具,巨大提高了数据的处置高效率。

修补好数据,还需要解决「细致两端对齐」的考验。

在虚似数字人、智能座舱等情景中,愈来愈多运用逐渐将语音识别技术和机器视觉融合,以提升了解人们目的的准确度。

像那样要用好几个监控摄像头、感应器等机器设备来收集数据的运用,又产生新的疑难问题——如何把不一样机器设备纪录的影象、响声等数据,完成同歩标明两端对齐?

▲不一样安全通道视频录制的视频语音数据不两端对齐状况实例

规模性标明数据原本便是AI实体模型进一步提升特性的短板,而多模态数据不但标明劳动量是单多形式的多倍,还需要处理多机器设备收集数据同歩难的问题,这会进一步提升后面数据生产加工难度系数。

对于此事,海天瑞声的处理构思是自研多路采集软件和数据同歩技术,多路采集软件适用4路乃至大量视频语音数据与此同时入录、全自动两端对齐融合,数据同歩技术可完成多路收集原材料数据的全自动两端对齐,并保证多影音文件起止点全自动两端对齐偏差低于1ms,稳步提升练习数据生产率和品质。

依靠数据同歩技术,唇型姿势与响声的两端对齐能准确到ms级,这也是可以防止虚似数字人讲话时音画不同步、不一样嘴型等难堪局势身后的主要要素之一。

三、为更强智能化运输然料,多模态数据强悍兴起

哪一个AI运用不愿完成更多的准确度、更当然暖心的互动工作能力呢?在更强智能化要求的带动下,根据多模态数据的AI优化算法实体模型日渐变成流行。

▲微软公司多模态预训练模型「女娲」可依据文字內容转化成相对应短视频

例如公安机关、金融业等情景的真实身份评定,电子商务情景下的智能客服系统互动,将来无人驾驶场景设计的舱里舱外互动这些,数据准确度越高,有利于抵挡越大的安全隐患。而多模态生物识别技术不但有利于维护网络信息安全,还能解决单一多形式没法合理辨别的佩戴口罩、手指头磨茧、整容整形等特殊情况。

▲单一生物识别技术技术的特性(来源于:零壹中国智库、东方财富证券研究室)

能够看见,现如今AI竖直应用领域展现泛娱乐化特点,对多模态数据的要求更为繁杂和长尾关键词化。

这种新业务场景要求的转变,更加磨练AI数据服务提供商解决繁杂交叉式业务场景数据的综合能力。

因而AI数据服务提供商务必具有与顾客优化算法精英团队平行面沟通交流的技术贮备,了解顾客期待用数据处理什么问题、设计方案什么结构的实体模型,才可以用最低成本,得出高效率高品质的数据集解决方法,确保顾客优化算法获得尽量好的落地式实际效果。

在那样的发展趋势下,海天瑞声等头顶部知名品牌数据服务提供商的区位优势将被进一步变大。

从海天瑞声的IPO文档能够看见,这个企业早已累积了近百个已有专利权的练习数据商品、服务项目微软公司、阿里、腾讯官方、百度搜索、三星、巨量引擎、amazon、讯飞科技、商汤科技、中科院、北京清华大学等超出500家世界各国顾客,并拥有信息安全认证资格证书ISO/IEC 27701及质量体系认证资格证书ISO/IEC 27001。

▲2018-2020年海天瑞声前五大顾客状况(依据IPO文件整理)

过去三年,海天瑞声的前五大客户呈现高复购率,足见其产品的高粘性。

无论是知名科技公司的背书,还是经年累月沉淀的多语种语言学家团队资源和稳定合作的供应商、客户等上下游资源,都使得兼具技术壁垒与业务经验的品牌数据服务商,更易成为确保多模态数据高效高质交付的首选。

结语:多模态终将主导智能产业未来

AI算法要想高质量,多模态数据得跟得上。

过去一年,应用场景的创新和机器学习算法的流行继续带动训练数据需求爆发式增长。

在多模态大模型、虚拟数字人等热门技术方向的驱动下,持续探索更强智能的AI应用,对高质量多模态训练数据资产的需求愈发迫切。

当前多模态技术仍处于起步阶段,多维度信息的转化和融合尚不成熟,在真实场景下的泛化能力较为受限,距离实现人类级别的多模态感知能力还有较长的路要走。

这需要研发多模态AI应用的企业或研究机构与AI基础数据服务商长期磨合,摸索出更加符合人类认知习惯的前沿多模态技术,帮助AI全面理解真实世界,最终更好地服务于未来的人类社会。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

 Theme By 优美尚品

每日搜寻全球各个角落的热点新闻,锁定小童说事网,多一点惊喜与感动!