在近日的特斯拉AI Day新品发布会,Dojo这一特斯拉自身订制超级计算服务平台,它的存在是重新开始搭建,用以自动驾驶视频信息进行短视频练习。关键2个目地:其一要比市面上云计算技术比较便宜;其二要比市面上云计算技术更优秀——从某种程度上,特斯拉和Jeff Bezos 是不对付的,因此特斯拉希望是与亚马逊平台 AWS 一概而论,应用线上提供服务的,能用更低的钱、更有效地练习模型。
特斯拉已经有都是基于 NVIDIA GPU 大型高性能计算机,一个新的 Dojo 订制电子计算机,是在规划方面做合理的创新。
▲图1. Dojo的测算实际效果
Dojo Exapod规格型号:1.1EFLOP、1.3 TB SRAM 和 13 TB 高带宽 DRAM。
从产品之时,硬件配置方面会为深入的神经网络训练做考虑到,从处理芯片到发电机组再从主机房的传输带宽都是非常拓展,将Occupancy网络用于Dojo系统当中,完成了AI硬件配置与AIapp的更好配对,最终在降低延迟和性能损害中取得效果十分令人震惊。
▲图2. 特斯拉的ExaPOD设计效果图
Dojo高性能计算机系统软件未来的发展路线地图如下所示:
▲图3. Dojo的总体Roadmap
Part 1
开关电源和带宽设计方案
1)开关电源提供
在研发一部分,好计算控制模块必须十分特制电源电路,在这儿电压调节控制模块能够传输1000A电流,具备极高相对密度,运用双层竖直电池管理原材料衔接。这样的设计具有较高的性能、密度高的(0.86A/mm2)、繁杂集成化,未来的目标是降低54%的CTE,提高3倍性能。在这儿提升功率是提升系统性能的关键和根基,有意思的是特斯拉在24个月之间设计升级了14个版本号。
在这样一个电源电路中,综合考虑了电容器、数字时钟和振动特性。
●软接线端子联接电容器来降低震动
●MEMS数字时钟能够有10倍较低的Q-Factor
●下一步提升开关频率
▲图4. 配套电源芯片
▲图5. Training Tile的构造
2)可扩展性的软件
系统软件结合,包括了输出功率、结构与排热三部分,这一最少模块System Tray参数:75mm相对高度、54 PFLOPS(BF16/CFP8)、13.4 TB/S(对分带宽)、100 KW Power
Standard Interface Processor主要参数:32GB(高带宽动态性随机存储器储存器)、900 TB/S(TTP带宽)、50 GB/S(以太网接口带宽)、32GB/S(第四代PCI带宽)
High Interface Processor主要参数:640GB(高带宽动态性随机存储器储存器)、1TB/S(以太网接口带宽)、18 TB/S(Aggregate Bandwidth To Tiles)
▲图6. System Tray
▲图7. Dojo Host 插口
相匹配32GB高传输频宽存放、每秒钟900TB材料传输量,及其每秒钟可相匹配50GB材料传输量网络传输频宽的Dojo插口Cpu
▲图8. Dojo的插口Cpu
如图是Dojo的项目进度表。
▲图9. Dojo 的时间进度
Part 2
Dojo的系统软件
Dojo系统建立目标:处理难以产生体量的管束模型。
▲图10. app的优化目标
单一的网络加速器到精子活动率和时向安全通道、优化器、好几个网络加速器上运作好几个团本的操作流程。更高激话多度模型想运作精子活动率安全通道的时候会碰到适宜单独网络加速器的大批量尺寸通常低于大批量标准面问题;好几个网络加速器上设定同歩大批量标准方式。
密度高的集成化就是为了加快模型计算管束和延迟时间管束一部分;Dojo网格图的一个片段能够被切分出去运作模型(只需分块够大);统一的低延迟里的粗粒度同歩原语加快跨集成化边界的并行性;Tensors是以RAM的方式存放Chardon,并且在每层实行时立即拷贝;偏微分拷贝的另一个数据信息传输与测算重合,编译器也可以重算层。
▲图11. 互联网模型
编译器以模型相结合的方法投射,通讯环节从连接点测算当地均值和相对标准偏差逐渐;融洽后再次并行处理。从编译器中获取通讯树;真正硬件配置的时间节点,正中间辐射源下降的值由硬件加速器;这种操作在25个Dojo编译器上只需5分秒,一样操作在24个GPU上要150分秒。其实是对GPU的一个数量级的改善。
▲图12. 的对比结论
Dojo是为了解决更多的繁杂模型而创建的,现阶段2个GPU群集的应用方式,
●全自动标明互联网(用以形成路面的真相线下模型)
●市场占有率互联网(高算数抗压强度大型模型)
检测结果:多模光纤系统软件中对GPU和Dojo所进行的精确测量表明已经能够超过一切100个应用现阶段硬件配置运转的老一代PRMS的性能;A100的货运量翻了一番;关键性的编译器提升做到M100的3倍以上的性能。
目前看来,一个Dojo能够替代6个GPU小盒子里的ML电子计算机,而成本费比一个GPU小盒子还低,现阶段一个多月时间锻炼的互联网如今只需不上一个星期
▲图13. Dojo的特点比照
总结:这些数据感觉都为了给全世界的技术工程师的,都是得出了不少的技术性发展的趋势,有一些像之前对外开放专利的方式,为了能进一步招幕年轻技术工程师精心准备的。