以造出生避世界上最年夜加快器芯片CS-2 Wafer Scale Engine著名的公司Cerebras颁布发表,他们已经经在操纵“巨芯”入行人工智能训练上走出了首要的一步,训练出了单芯片上全地球的人最年夜的NLP(天然语言处置)AI模子。
该模子具备20亿个参数,基于CS-2芯片入行训练。
这块全地球的人最年夜的加快器芯片采纳7nm制程工艺,由一整块方形的晶圆刻蚀而成。
它的年夜小数百倍于主流芯片,具备15KW的功率,集成为了2.6万亿个7nm晶体管,封装了850000个内核以及40GB内存。
图1 CS-2 Wafer Scale Engine芯片
单芯片训练AI年夜模子新记载
NLP模子的开发是人工智能中的一个首要领域。操纵NLP模子,人工智能可以“理解”文字寄义,并入行响应的动作。OpenAI的DALL.E模子就是一个典范的NLP模子。这个模子可以将使用者的输进的文字信息转化为图片输出。
好比当使用者输进“牛油果外形的扶手椅”后,AI就会主动天生若干涉这句话对于应的图象。
图:AI接管信息后天生的“牛油果外形扶手椅”图片
不止于此,该模子还可以或许使AI理解物种、几何、汗青期间等繁杂的常识。
但要实现这一切其实不容易,NLP模子的传统开发具备极高的算力本钱以及技能门坎。
现实上,若是只讨论数字,Cerebras开发的这一模子20亿的参数目在同业的陪衬下,显患上有些平淡无奇。
前面提到的DALL.E模子具备120亿个参数,而今朝最年夜的模子是DeepMind于往年年末推出的Gopher,具备2800亿个参数。
但除了往惊人的数字外,Cerebras开发的NLP另有一个庞大的突破:它下降了NLP模子的开举事度。
「巨芯」若何打败GPU?
依照传统流程,开发NLP模子必要开发者将庞大的NLP模子切分若干个功能部门,并将他们的事情负载扩散到成百上千个图形处置单位上。
数以千百计的图形处置单位对于厂商来讲象征着庞大的本钱。
技能上的坚苦也一样使厂商们疾苦不胜。
切分模子是一个定制的问题,每一个神经网络、每一个GPU的规格、和将他们毗连(或者互联)在一块儿的网络都是唯一无二的,而且不克不及跨体系移植。
厂商必需在第一次训练前将这些身分通通斟酌清晰。
这项事情极为繁杂,有时辰乃至必要几个月的时间才干完成。
Cerebras暗示,这是NLP模子训练中“最疾苦的方面之一”,只有少少数公司拥有开发NLP所需要的资本以及专业常识。对于于人工智能行业中的其他公司而言,NLP的训练则太昂贵、太耗时且没法使用。
但若单个芯片就可以支撑20亿个参数的模子,就象征着不必要使用海量的GPU扩散训练模子的事情量。这可觉得厂商节流数千个GPU的训练本钱以及相干的硬件、扩大要求,同时这也使厂商没必要履历切分模子并将其事情负载分配给数千个GPU的疾苦。
Cerebras也并未仅仅执拗于数字,评价一个模子的黑白,参数的数目其实不是独一尺度。
比起但愿出生于“巨芯”上的模子“尽力”,Cerebras更但愿的是模子“聪慧”。
之以是Cerebras可以或许在参数目上取患上爆炸式增加,是由于操纵了权重流技能。这项技能可以将计较以及内存的占用量解耦,并容许将内存扩大到足以存储AI事情负载中增长的任何数目的参数。
因为这项突破,设置模子的时间从几个月削减到了几分钟,而且开发者在GPT-J以及GPT-Neo等型号之间“只需几回按键”就能够完成切换。这让NLP的开发变患上加倍非常简单。
这使患上NLP领域泛起了新的变革。
正如Intersect360 Research 首席研究官 Dan Olds 对于Cerebras取患上成绩的评价:“Cerebras 可以或许以具备本钱效益、易于走访的方法将年夜型语言模子带给年夜众,这为人工智能斥地了一个激动听心的新期间。”