史上最大人工智能模型，增强人类潜力的ai模型

边策发自凹非寺量子位报道|公众号QbitAI

超大型AI机型的培训成本太高了，不能hold吗？就连市值1万亿美元的公司也开始寻求合作。

本周，NVIDIA与微软共同宣布

5300亿参数

的

“百万富翁图灵”

( Megatron-Turing )成为迄今为止世界上最大的AI单体机型。

仅仅半个月前，国内的浪潮被发表了

200亿参数

的

中文

AI巨型机型

源1.0。

不到一个月前，最大英文和中文AI单机机型的记录分别被刷新。

值得注意的是

虽然技术发展得如此迅速，但“百万图灵”和“信源1.0”没有达到指数预期。

2023年以后，NLP模型参数几乎

每年一位数

速度在加快。

近年来，NLP模型参数呈指数上升(图片来自微软) ) )。

GPT-3问世后，虽然出现了Switch Transformer等万亿参数混合模型，但单体模型的增长速度明显放缓。

无论是国外的“威龙-图灵”，还是国内的“信源1.0”，其规模都与GPT-3相差无几。即使“百万图灵”和“信源1.0”分别使用了最强大的硬件集群。

单体模式发展遇到瓶颈了吗？

超大规模模型的三种模型要回答这个问题，首先要整理近年来出现的超大规模NLP模型。

在模型的开发者看来，超大规模NLP模型的研究开发随着时间的推移正在形成三种模型。

一.以研究机构为主导

无论是开发ELMo的Allen研究所，还是开发GPT-2的OpenAI，都并不是以(当时还没有引入微软投资的)利润为目标。

而且，这一阶段的超大型NLP模型都是开源的，得到了开源社区的各种再现和改进。

ELMo有40多个非正式实现，GPT-2也被国内开发者引入并用于中文处理。

二.科技企业巨头主导

随着模型的增长，在培训过程中硬件优化变得尤为重要。

从2023年下半年开始，各家开始分别开发大规模的并行训练、模型扩展技术，期待开发更大的NLP模型。 NVIDIAmegatron-lm、Googlet5、微软Turing-NLG相继问世。

今年国内科技公司也开始了同样的研究，中文AI模型“源1.0”是国内硬件公司的一次突破——

达成了中文领域最大的NLP模型，刷新了参数最多的大模型记录。

“源1.0”不仅拥有全球最大的5TB中文高质量数据集，在总计算量和培训效率优化方面也是前所未有的。

三.大型和研究机构或大型之间合作

拥有技术的OpenAI因为无法承受高额成本，引入了微软10亿美元的投资。依靠庞大的硬件和数据集资源，1750亿参数的GPT-3于去年问世。

不过，今年的万亿参数机型GPT-4并未如期出现，反而是微软与NVIDIA合作，推出了“威震天-图灵”。

我们再次着眼于国内。

在“威龙-图灵”发布之前，国内外出现了许多超大型AI单机机型，国内有阿里达摩院PLUG、“信源1.0”等。

NVIDIA、微软、谷歌、华为、wave等公司的加入，一方面为AI研究提供了大量的计算能力支持，另一方面也是因为它们在大规模并行计算方面有丰富的经验。

随着AI模型参数的日益增加，达到千亿量级，训练模式的可行性将面临两大挑战：

1、即使是功能最强大的GPU，也无法再将模型参数适配到单卡显卡内存中

2、超大规模计算会使训练时间变得不现实，除非特别注意算法、软件、硬件堆栈的优化。

现有的三种并行策略在计算效率上存在妥协，鱼和熊掌难以兼得。

NVIDIA和微软合并就是为了这个原因，同样面对这个问题，浪潮在“信源1.0”中也运用了尖端的技术路径解决了训练效率问题。

从“源1.0”的arXiv论文中，可以窥见这种提高计算效率的方法。

在对信源的大规模分布式训练中，浪潮采用了张量并行、流水线并行、数据并行的三维并行策略。

与“源1.0”类似，“百万富翁-图灵”在张量并行策略中，模型的层次被划分在节点内的设备之间。

流水线将模型的层序列并行划分在多个节点之间，以解决存储空间不足的问题。

另外，还有将全球批量的规模按流水线进行分组分割的数据并列战略。

三家公司运用各自的技术，将最先进的GPU与前沿的分布式学习软件堆栈相融合，实现了前所未有的训练效率，最终分别构建了英语领域和汉语领域最大的AI单机模型。

训练超大规模自然语言模型的成本上升，技术上陷入僵局，研究机构和科技巨头合作发展，形成了三种探索模式并行的局面。

既然中英AI模式互为胜负训练成本高、技术统一，为什么各公司不选择自己的研究、寻求合作？

从GPT-3也许可以看出。

去年发布的GPT-3不仅不是开源的，连API也有限提供。由于得到了微软的投资，今后GPT-3将由微软独占知识产权，其他企业和个人都想使用完整的功能，实在令人痛心。

培训成本高得惊人，存在道德问题，为了保证行业领先地位，微软害怕转让技术。其他科技公司也不能把自己的命运交给微软，只能独自开发。

特别是对中国用户来说，上述一批超大型号未经中文数据集训练，无法在中文上下文中使用。

中文训练也比英语难。英语由单词构成，具有天然的分词属性。

在中文里，像“南京市长江大桥”一样，句子需要先进行分词处理。

南京市|长江|大桥，南京|市长|江大桥

，错误的分词会让AI产生歧义。

与英语中使用空格作为分隔符相比，中文分词缺乏统一标准。同一词汇在不同语境、不同句子中的语义可能不同，加上各种网络新词汇偏差、中英混合词汇等情况，建立优秀的汉语语言模型需要付出更多的努力。

所以，国内公司更积极地研究中文模式也不难理解。

即使难度很大，国内企业也曾在数据集和培训效率等方面处于世界领先地位。

浪潮论文称，“源1.0”硬件使用2128块GPU，浪潮共采集到850TB数据，最终经过清洗获得了5TB高质量的中文数据集。

其文字数据体积多于《威震天-图灵》( 835GB )，且中文信息熵大于英文，信息量其实更多。

在培训效率方面，“信源1.0”培训历时16天，“图灵震天”历时1个多月。前者的数据量是后者的3倍多，虽然花费时间，但只有后者的一半——

也可以看出集中于中文，关注效率并努力。

大模式随处可见，发展进入百花齐放不相容阶段，给我们带来新的思考。既然AI的巨大模式不是“闭门造车”，那么如何走向合作呢？

或许正是多方合作，才是未来表面上的“威震天-图灵”( Megatron-Turing NLG )首次由两家科技巨头联手推出超大型AI机型。

其背后，不仅双方组成了“超豪华”的硬件阵容，算法也有融合。强强联手成为超大型AI模式落地的新方式，

海外巨头开了先例，国内公司的现状如何？其实有个组织迈出了合作的第一步。

如同浪潮的“源头1.0”，与当初的“威震天”一样，也是由硬件制造商主导开发的超大规模自然语言模型。

浪潮实际上在9月28日的发布会上表示，他们邀请了国内学者和数家科技公司共同探讨了未来“信源1.0”合作的可能性。

在产业界，浪潮早就提出了“元脑计划”的生态联盟，“信源1.0”未来将向元脑生态社区内的所有开发者开放API，所有参与生态的AI技术公司都将利用“信源1.0”进行二次开发，哦

国内超大规模自然语言模式合作的时代已经开始。

共同开发巨大的模型会带来什么？李飞飞等著名学者已经给出了答案。当数据规模和参数规模增大到一定程度时，量最终可以产生质的变化，GPT-3是先例。

现在大的模式越来越多，未来的关键是如何纵横捭阖，建立开放的合作机制，让所有技术公司群策群力。

而AI的巨大模式在这种生态系统下会带来怎样的变化，在“信源1.0”等多种模式开放后应该很快就能看到。

参考链接： [1] https://arxiv.org/ABS/2110.04725

[2] https://www.Microsoft.com/en-us/research/blog/turing-NLG-a-17-billion-parameter-language-model

[3] https://MP.weixin.QQ.com/s/0 se3rv3mddzbqwavftse 8q

结束了

量子比特QbitAI 头条号合同

关注我们，第一时间了解尖端技术动态

{{userData.name}}已认证

史上最大人工智能模型，增强人类潜力的ai模型

2023年的蒋媛媛：如何让超宇宙跑出加速度？

全国节能宣传周宣传活动总结，全国节能宣传周2021宣传片

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#