ai视觉识别技术应用，从图像走向AI视觉识别-热闻精选-小童说事

文 | 小明；编写 | 石亚琼

开始之前，黄铁军专家教授先讲述了自己十多年前的一个小故事。

2011年，她在斯坦福学校电机工程系图像工程项目核心Bernd Girod专家教授精英团队做访问教授。第一天，Girod专家教授和他一起中午吃完饭在校园边溜达边深入探讨。在谈到斯坦福大学数据中心创立思科公司时，恰好来到山上的一栋小院，能够看见屋子里也有不少音乐设备。

这时候，Girod忽然慢下来询问他：你了解斯坦福学校科技创新转化最成功的例子是啥？黄铁军告知36氪，他在当时脑子里浮现是指Google等为代表一大批美国硅谷顶级公司。

Girod专家教授对他说，其实最成功的例子就是这个小院内歌曲武器装备所使用的音频合成技术性，这也是斯坦福学校专家教授发明。接着他们被用于电子钢琴各种各样声频的底层技术中，例如雅马哈等公司的产品都用这样的技术性来仿真模拟多种多样逼真响声。

这说明每架电子琴的制做都需要有该方法专利许可，与此同时则意味着持续不断的盈利会流入创新者。

黄铁军提到，高科技企业假如欠缺关键技术，就难得持续发展；如果没有原创设计创造发明，也难以变成伟大的企业。因而，一直以来，追求完美原始创新、寻觅最本质的物品，就是他科学合理研究中的第一导向性。

黄铁军在1988年步入大学，10年里依次修读了计算机技术专业学士、工控自动化专硕和系统识别与智能控制系统专业博士学位。从研究生期内参与863新项目手写印刷体中国汉字鉴别逐渐，如今他已经在视觉信息资源管理方位探寻了30年。

期内，他相继在视频编码方式、视觉现状分析、快速成像原理等三方面完成了创新突破，终结了海外向在我国视频领域索要巨额专利年费历史的，开创以什么什么现状分析与缩小为核心的视觉大数据处理技术管理体系，及其快速单脉冲视觉技术性新体系。

最近，在第一届专精特新企业技术革新大会暨专家自主创新创业论坛前夜，36氪数据时氪专访了成都智源人工智能技术研究院医生、北大计算机学院专家教授黄铁军，聊了聊时下人工智能发展趋势，包含他对于AI视觉研究的探索、以及对于科技创新转化的认知。

01 减法，寻觅第一性原始创新

早就在1985年，黄铁军刚上高中，就赶上来“计算机要从娃娃抓起”的车风，追随教导主任霍振祥老师学习Basic语言。他回想到，校园内微型机课堂中第一次接触到苹果笔记本，甚是激动，由于发展迅速，霍老师将自己在大学期间的电子计算机教材内容都给他通过自学，他对于油印课本的流程表至今记忆犹新。

黄铁军告知36氪，真正开始研究是在大学里毕业那一年，他后来硕士导师研究手写字体中国汉字鉴别。那时候老师申请成功863方案课题研究，必须新鲜血液，由于他在当时成绩优良，却被免考进到研究组读硕士。以后，医生期内研究虚拟现实技术，通常是根据双眼立体式视觉的场景建模，算得上电子计算机视觉较为早期一拨人。

黄铁军追忆到，2002年在我国DVD产业链遭受巨额专利年费，自身博士研究生刚出来，便帮助高文专家教授机构创立数据音视频编码解码标准规范调研组，组织开展了迄今20年视频编码方式突出重围和超过之途。

2013年欧洲地区人类的大脑方案运行，全世界刮起神经科学与类脑研究风潮，北京合理布局“神经科学与类脑计算”重大专项专家团，黄铁军被任命为召集人，潜心灵长类动物视网膜神经编号原理研究，给出了单脉冲视觉编号新基本原理，研发了比人们视觉和电视电影速度更快万倍的快速照相机和视觉系统软件。

每一个足印正好都踩到了时代发展的连接点上。

黄铁军提到，2011年在斯坦福学校访问期间，他听完吴恩达、余凯的学术共享，那时深度神经网络才刚刚热起来。大转折在2012年，Hinton精英团队把Imagenet视觉检验鉴别任务性能增加了10% ，接着两年，电子计算机视觉研究发生了改变，传统式方式被打倒，即将迎来基于深度学习的AI视觉研究。

一方面大家都顺着这一条重要变革之路继续向前，另一方面黄铁军依然保存自已的学会思考——是否拥有深度神经网络，视觉真的就成功了吗？

凡俗所以为的成功与专家学者们觉得这件事情是不是彻底解决了，仍然是两码事。黄铁军表明，那时大部分人的自主创新基本都决定做加减法，例如提升神经元网络主要参数总数，刷数据集，努力尝试新网络架构这些，结果显示愈来愈繁杂。

他偏重于减法，寻觅第一性原理，返回最本质的根源自主创新上。

黄铁军告知36氪，科学研究成功的并不是一味开展优化算法特性好坏得比较，相较于“毕业论文等身”，他更在乎原创性原始的成效，与此同时期待都可以找到够大市场需求，促进产业链社会转型。机会到，技术驱动很容易引发社会认知转变，百度搜索引擎就是最典型的一个事例。

目前，人工智能技术持续与产业情景融合。关于未来新一代人工智能技术方案迈向，他提到有三条，第一是通过大数据和人工智能算法达到的人工智能应用线路；第二是由增强学习，在虚拟器持续练习得出来的具身智能化线路；第三是由仿真模拟生物中枢神经系统和生物智能化，从而实现智能生命技术方案。

在其中，生物神经科学的细致仿真模拟，是启迪新一代人工智能关键线路。

最近，许多人精英团队对纤毛虫302个神经细胞细致模型，练习出由高精密中枢神经系统掌控的、和环境实时交互的智能机器纤毛虫，能像真正纤毛虫一样网络嗅探并控制身体肠蠕动到有兴趣的总体目标，从源头上自主创新逐渐走向了智能生命。

02 AI视觉的突破根源，从仿脑到追光逐电

AI视觉时下的突破根源有哪些？黄铁军告知36氪，着力点有两种。

一个是生物根源。强悍的视觉解决操作系统是生物天然水平，电子计算机视觉的研究根源还是生物。鉴于此，清晰了解生物视觉的原理是第一个要探索问题。

另一个是物理学根源。大家能看见物件，是由于照射到物件里的光的反射进观测者的眼睛中，以后根据神经细胞传送，让大脑觉察到了物品自身。从物理设备角度观察，视觉是对光线信号的功率捕捉、生产加工和处理。因而，回应物理世界、数据信号、及其照相机收集的图像视频三者之间的关系是当前要寻觅的另一个关键难题。

黄铁军提到，将以上2个视觉基本原理研究清晰，那样任何问题可能也就迎刃而解了。

在生物视觉方面，要清楚全部视觉全面的体制，首先构建对每一个体细胞单元了解。黄铁军提到，人的双眼里边大概有六七十种神经元细胞，每一种体细胞及相互间的联接都需要研究清晰。

例如数据信号进到视锥、视杆细胞后，细胞是怎样把数据信号变为电子信号的？神经网络结构是怎样连接的、每一个连上信号是怎样往下传送？最终必须把整个系统软件根据电子计算机重蹈覆辙出去。从2014年起，她们精英团队就开始研究了，目前已做到了极致一部分视觉细胞细致模型。

黄铁军再次填补到，视表皮层约为大脑皮质五分之一，如果能够清晰诠释了从数据信号进到双眼逐渐一直到最后进行识别数据信号生产过程，便可以这么说将生物视觉弄明白了。它的精英团队期待再换五年多的时间把灵长类动物眼底黄斑弄清楚，他相信，在全球范围内科技人员努力下，预估还可以在2035年上下解决这个问题。

此外，黄铁军也自信提到，他的队伍早已克服了物理学根源方面的研究难题。

谈物理学根源可以从光说起。电子光学算不上黄铁军专家教授团队课程范畴，但是得讨论照相机是怎样收集与表述数据信号的。假如研究电子计算机视觉只是从图像视频数据逐渐，也就没有寻觅到第一性原理。

光具备起伏特点，还有颗粒特点，即所谓波粒二象性。的光不确定性主要表现在每一个光量子自身，他们振频不一样、动能不一样，最终体现在光谱仪里的遍布也就不同。

照相机是由捕捉快速冲击性来的光量子流，把他转为一幅图像或视频。黄铁军表明，光量子在运作碰撞相机传感器的物理过程中，核心是把高速运行的物理世界变为每秒钟几十HZ的低速全过程。不难想象，当光量子打进飞机螺旋桨的风扇叶片上，随后反跳撞上了镜头背后的感光元件，产生一张图片。

这里边会引发一些问题，一方面飞机螺旋桨风扇叶片高速运转是真真切切地悄然发生，另一方面传统相机以几十HZ的平均速度是完全不能记录下来全过程。

黄铁军告知36氪，尽管数字相机现阶段能做到，可是成本相对高、结构复杂的特征依然难以普及化运用。这其中的技术性问题在于，即便照相机可以每秒钟导出3万幅图像，其背后的优化算法、储存水平、计算系统也无法并行处理，现阶段硬件配置成本费昂贵，这个是第一个要解决问题。

视觉信息内容表述一直以来都选用图像与视频，没什么人思索有没有什么更好的办法。产生的具体原因，能够上溯到创造发明相机的时代，实质是一种化学方法逻辑性。黄铁军提到，现阶段大家表述信息内容的形式只停留在胶片时代，包含数码照相机也是一样，例如开启快速门，曝出数ms产生一幅图像。

在其中认知误区取决于光从来就不是“整齐有序排着队”，它是一个自然发生的随机过程，照相机根据曝出获得图像的形式，较大损失就是将丰富多样的动态过程变为单一的静态数据图像，科技人员再换优化算法根据较为不一样图像的差异来可能运动时，实属消耗，但这就是现阶段电子计算机视觉主流的方法，黄铁军表述到。

怎么能够成本低实时监控动态过程引起了它的深度思考。

时下，黄铁军专家教授精英团队研究的课题研究之一就是把光整个的运动时记下来。非正常情况是把一个光量子转为一个比特，基本元器件没法做到，就搜集一组光量子（比如1000个）变为1个比特犬，那样光照强度时比特流会聚集，光弱的时候就会相对性稀少，要想知道某时时刻刻光照强度怎样，能用2个比特犬或两个单脉冲中间的时间去测算，这便更好地刻画了的光物理过程。

换句话说，有别于传统相机，根据“视觉雷达探测”模型的单脉冲相机的每一个清晰度单独，无需要在一定时时刻刻一起显像，自主纪录光源转变，将光信号转换成0和1构成数字的比特流，全部清晰度的比特流依照室内空间排列所组成的流列阵，精确刻画了感应器窗口收集到的一段时间内光源变动的物理过程

它的精英团队选用完善的CMOS半导体材料和处理芯片，完成了快速持续显像，还有机会慢慢取代贵且大一点的数字相机甚至全部监控摄像头，重构包含表明、编号、检验、追踪、鉴别等在内的全部视觉信息资源管理管理体系。

舍弃传统式图像视频表述，返回表述光物理流程的源头，这便是称为加减法。鉴于此，在单脉冲视觉的时代里并没有图像，光变为单脉冲流，图像视频等仅仅物质之一，单脉冲流还能够立即脉冲信号神经元网络，完成快速设备视觉。

03 科技成果转化，并没有稀里糊涂成功的

视觉表述全过程无需图像，所以用单脉冲流，这些基本原理的明确提出让人们真真正正离去胶片时代，进行数码照相机没完成的数字化革命。

拥有原理实体模型，黄铁军在2016 年1月申请发明专利，2019年我国专利授权，接着国外、日本、韩、欧洲地区等国家发明专利也均受权；2017年精英团队制定了第一块处理芯片，可以拍照出高速的一个过程，特性明显；2021年进到科技创新转化，建立了企业——单脉冲视觉。

根据官网介绍，这是一种全新的脉冲视觉智能技术，颠覆了视频概念；通过脉冲相机，将光信号转换成0和1组成的数字比特流，所有像素的比特流按照空间排布组成的流阵列，准确刻画了传感器视窗采集到的一段时间内光线变化的物理过程，能够“追光逐电，见所未见”。