- 2024/2/22 11:21:52
- 类型:原创
- 来源:电脑报
- 报纸编辑:吴新
- 作者:
01
横空出世的LPU芯片
芯片推理速度较英伟达GPU提高10倍、成本只有其1/10;运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度——短短几天,一家名为Groq的初创公司在AI圈爆火。
相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。
不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。
冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。
LPU最突出的特点就是快。
根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。
第三方机构artificialanalysis.ai给出的测评结果也显示,Groq的吞吐量速度称得上是“遥遥领先”。
为了证明自家芯片的能力,Groq还在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前两个已开放使用。
LPU旨在克服两个大模型瓶颈:计算密度和内存带宽。据Groq介绍,在 LLM 方面,LPU较GPU/CPU拥有更强大的算力,从而减少了每个单词的计算时间,可以更快地生成文本序列。此外,由于消除了外部内存瓶颈,LPU推理引擎在大模型上的性能比GPU高出几个数量级。
据悉,Groq芯片完全抛开了英伟达GPU颇为倚仗的HBM与CoWoS封装,其采用14nm制程,搭载230MB SRAM,内存带宽达到80TB/s。算力方面,其整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。
02
LPU芯片为何这么快
值得注意的是,“快”是Groq芯片主打的优点,也是其使用的SRAM最突出的强项之一。
SRAM是目前读写最快的存储设备之一,但其价格昂贵,因此仅在要求苛刻的地方使用,譬如CPU一级缓冲、二级缓冲。
SRAM即静态随机存取存储器,对应的DRAM为动态随机存取存储器,区别在于数据存储方式、集成度、访问速度、刷新需求以及成本和应用不同。SRAM的优点是访问速度快,但是占用面积、功耗和成本大,目前仅作为IP内核的方式集成在CPU和GPU等芯片内部。
随机存取存储器(RAM)是存储器中最为人熟知的一种。之所以RAM被称为“随机存储”,是因为可以直接访问任一个存储单元,只要知道该单元所在记忆行X和记忆列Y的地址即可定位。
与RAM形成鲜明对比的是顺序存取存储器(SAM)。SAM中的数据存储单元按照线性顺序排列,因而只能依顺序访问(类似于盒式录音带)。如果当前位置不能找到所需数据,就必须依次查找下一个存储单元,直至找到所需数据为止。SAM非常适合作缓冲存储器之用,一般情况下,缓存中数据的存储顺序与调用顺序相同(显卡中的缓存就是个很好的例子)。而RAM则能以任意的顺序存取数据。
SRAM的S是Static的缩写,全称是静态随机存取存储器。而DRAM的D是Dynamic的缩写,全称是动态随机存取存储器。
据Groq披露,一张LPU配备一块SRAM,内存是230MB。支持运行一个AI模型,要配置约256张LPU,这需要4个满载的服务器机架。一张LPU卡销售超过2万美元。
可是,同样的AI模型采用GPU运行,只需要1个H200,相当于1/4个服务器机架密度。
简单计算,256*2万美元=512万美元。H200还没有公价,英伟达官网显示,一张H100价格不超过4万美元。即便是按照H200价格翻倍计算,那显而易见,采用SRAM可比采用GPU贵多了,增加几十倍以上成本。
Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。
能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。
Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。
他此前对媒体表示,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。
对此,有存储界人士表示,为了提升10倍的速度,增加大几十倍成本,该路径短期内不具备大规模使用的可能性,也就不可能颠覆GPU了。而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。
03
和谷歌剪不断的关系
Groq读音与马斯克的聊天机器人Grok极为接近,成立时间却远远早于后者。其成立于2016年,定位为一家人工智能解决方案公司。
在Groq的创始团队中,有8人来自仅有10人的谷歌早期TPU核心设计团队。例如,Groq创始人兼CEO Jonathan Ross设计并实现了TPU原始芯片的核心元件,TPU的研发工作中有20%都由他完成,之后他又加入Google X快速评估团队,为谷歌母公司Alphabet设计并孵化了新Bets。
虽然团队脱胎于谷歌TPU,但Groq既没有选择TPU这条路,也没有看中GPU、CPU等路线。Groq选择了一个全新的系统路线——LPU(Language Processing Unit,语言处理单元)。
“我们(做的)不是大模型,”Groq表示,“我们的LPU推理引擎是一种新型端到端处理单元系统,可为AI大模型等计算密集型应用提供最快的推理速度。”
从这里不难看出,“速度”是Groq的产品强调的特点,而“推理”是其主打的细分领域,当然,具体性能如何恐怕还得具体落地了才能知道。
更多关于 电脑报官网 的文章 |
Copyright © 2006-2021 电脑报官方网站 版权所有 渝ICP备10009040号-1