微软公司和Nvidia协作科学研究语言模型,公布了现在最高的单个Transformer语言模型MT-NLG(Turing Natural Language Generation Model),具备5,300亿个主要参数,做为Turing NLG 17B和Megatron-LM的后继者,MT-NLG的范围是现阶段这类较大 模型的3倍,能在进行预测分析、阅读和理解、常识推理、自然语言逻辑推理和词意消歧等自然语言每日任务,给予很高的精确性。
近些年自然语言解决行业,归功于Transformer语言模型的规模性计算、大资料集,和高档的训练优化算法,促使语言模型可以具备很多主要参数,开展更丰富、细腻的言语了解,因而语言模型也可以更合理地做为零样版或者少样版学习培训器,运用在更普遍的自然语言每日任务中。
如今训练大中型语言模型,仍具备很大的趣味性,科学研究工作人员表述,就算是最高的GPU运行内存,也无法学会放下那么大批量的主要参数,并且如果不对优化算法、手机软件和硬件配置局部变量开展提升,太长的计算時间可能促使训练模型越来越脱离实际。
微软公司和Nvidia紧密配合,运用GPU和分布式系统学习app局部变量,完成极高高效率模型训练,而且应用数十亿的动态口令,搭建高质量自然语言训练词库,合作开发训练配备,以提升高效率和可靠性。
模型训练应用根据NvidiaDGX SuperPOD的Selene高性能计算机,以混和精密度训练进行,该高性能计算机配用560台DGX A100网络服务器,这种网络服务器应用HDR InfiniBand以全胖树拓扑结构联接,每台DGX A100有着8颗A100 80GB Tensor Core GPU,中间以NVLink和NVSwitch互相连接。
科学研究工作人员表述,仅有这类可以在数千个GPU间完成平行面性的构架,才可以在有效的時间,训练具备数十亿个技术参数的模型。但就目前的平行面对策,包含材料、工作中管道和张量切片,或是没法用以训练这类模型。
因而科研工作人员融合Megatron-LM和PyTorch深度神经网络提升库函数DeepSpeed,建立了高效率且可拓展的3D平行面系统软件,将材料、工作中管道和根据张量切片的平行线性融合在一起,来摆脱训练大中型语言模型所面临的艰难。
Megatron-LM的张量切片可以拓展连接点内的模型,并借由DeepSpeed工作中管道的平行线性,来跨连接点拓展模型。就5,300亿个技术参数的MT-NLG而言,每一个模型团本需跨过280个A100 GPU,具备8路张量切片和跨连接点的35路工作中管道并行性,而且根据DeepSpeed的材料平行面性,拓展模型至数千个GPU。
MT-NLG在各种类型的自然语言每日任务,都到达了当前最好的結果,以少样版预测分析而言,较为或者找寻两语句间的关联,一般 是对语言模型较具备趣味性的每日任务,可是MT-NLG可以应用更小的动态口令训练,换句话说,更大型的的模型训练速率更快。
除开一般自然语言每日任务都早已难不住MT-NLG,MT-NLG还具备基础的数学运算工作能力,科学研究工作人员提及,尽管离真真正正具备算数工作能力也有一段距离,但该模型呈现了超出记忆力算术的工作能力。
此外,科学研究工作人员仍在HANS资料集检测MT-NLG,借由向模型给予包括简易语法结构的语句做为难题,而且提醒模型给与回答,以往那样的测试用例,就算构造非常简易,可是自然语言逻辑推理模型仍会针对这类键入觉得苦手,可是MT-NLG在不用调整的情形下,就能主要表现优良。