英伟达被“偷家”？全新LPU芯片传闻比GPU快十倍

正文

2024/2/22 11:21:52
类型：原创
来源：电脑报
报纸编辑：吴新
作者：

【电脑报在线】天下武功，唯快不破。

横空出世的LPU芯片

芯片推理速度较英伟达GPU提高10倍、成本只有其1/10；运行的大模型生成速度接近每秒500 tokens，碾压ChatGPT-3.5大约40 tokens/秒的速度——短短几天，一家名为Groq的初创公司在AI圈爆火。

相比其他AI聊天机器人，Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试，Groq每秒生成速度接近500 tok/s，碾压GPT-4的40 tok/s。

不过，需要强调的是，Groq并没有研发新模型，它只是一个模型启动器，主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠绝大模型圈子的响应速度，来自驱动模型的硬件——Groq并未使用英伟达的GPU，而是自研了新型AI芯片——LPU（Language Processing Units）。

LPU最突出的特点就是快。

根据2024年一月的测试结果，由Groq LPU驱动Meta Llama 2模型，推理性能遥遥领先，是顶级云计算供应商的18倍。

第三方机构artificialanalysis.ai给出的测评结果也显示，Groq的吞吐量速度称得上是“遥遥领先”。

为了证明自家芯片的能力，Groq还在官网发布了免费的大模型服务，包括三个开源大模型，Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K，目前前两个已开放使用。

LPU旨在克服两个大模型瓶颈：计算密度和内存带宽。据Groq介绍，在 LLM 方面，LPU较GPU/CPU拥有更强大的算力，从而减少了每个单词的计算时间，可以更快地生成文本序列。此外，由于消除了外部内存瓶颈，LPU推理引擎在大模型上的性能比GPU高出几个数量级。

据悉，Groq芯片完全抛开了英伟达GPU颇为倚仗的HBM与CoWoS封装，其采用14nm制程，搭载230MB SRAM，内存带宽达到80TB/s。算力方面，其整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。

LPU芯片为何这么快

值得注意的是，“快”是Groq芯片主打的优点，也是其使用的SRAM最突出的强项之一。

SRAM是目前读写最快的存储设备之一，但其价格昂贵，因此仅在要求苛刻的地方使用，譬如CPU一级缓冲、二级缓冲。

SRAM即静态随机存取存储器，对应的DRAM为动态随机存取存储器，区别在于数据存储方式、集成度、访问速度、刷新需求以及成本和应用不同。SRAM的优点是访问速度快，但是占用面积、功耗和成本大，目前仅作为IP内核的方式集成在CPU和GPU等芯片内部。

随机存取存储器（RAM）是存储器中最为人熟知的一种。之所以RAM被称为“随机存储”，是因为可以直接访问任一个存储单元，只要知道该单元所在记忆行X和记忆列Y的地址即可定位。

与RAM形成鲜明对比的是顺序存取存储器（SAM）。SAM中的数据存储单元按照线性顺序排列，因而只能依顺序访问（类似于盒式录音带）。如果当前位置不能找到所需数据，就必须依次查找下一个存储单元，直至找到所需数据为止。SAM非常适合作缓冲存储器之用，一般情况下，缓存中数据的存储顺序与调用顺序相同（显卡中的缓存就是个很好的例子）。而RAM则能以任意的顺序存取数据。

SRAM的S是Static的缩写，全称是静态随机存取存储器。而DRAM的D是Dynamic的缩写，全称是动态随机存取存储器。

据Groq披露，一张LPU配备一块SRAM，内存是230MB。支持运行一个AI模型，要配置约256张LPU，这需要4个满载的服务器机架。一张LPU卡销售超过2万美元。

可是，同样的AI模型采用GPU运行，只需要1个H200，相当于1/4个服务器机架密度。

简单计算，256*2万美元=512万美元。H200还没有公价，英伟达官网显示，一张H100价格不超过4万美元。即便是按照H200价格翻倍计算，那显而易见，采用SRAM可比采用GPU贵多了，增加几十倍以上成本。

Groq官方的介绍还显示，创新的芯片架构可以把多个张量流处理器（Tensor Streaming Processor，简称TSP）连接在一起，而不会出现GPU集群中的传统瓶颈，因此具有极高的可扩展性，简化了大规模AI模型的硬件要求。

能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足，LPU每瓦特可以提供更多的算力。

Groq创始人兼首席执行官Jonathan Ross在采访中，时时不忘给英伟达上眼药。

他此前对媒体表示，在大模型推理场景，Groq LPU芯片的速度比英伟达GPU快10倍，但价格和耗电量都仅为后者的十分之一。

对此，有存储界人士表示，为了提升10倍的速度，增加大几十倍成本，该路径短期内不具备大规模使用的可能性，也就不可能颠覆GPU了。而且，更关键的是，LPU目前仅用于推理，要训练大模型，仍然需要购买英伟达GPU。

和谷歌剪不断的关系

Groq读音与马斯克的聊天机器人Grok极为接近，成立时间却远远早于后者。其成立于2016年，定位为一家人工智能解决方案公司。

在Groq的创始团队中，有8人来自仅有10人的谷歌早期TPU核心设计团队。例如，Groq创始人兼CEO Jonathan Ross设计并实现了TPU原始芯片的核心元件，TPU的研发工作中有20%都由他完成，之后他又加入Google X快速评估团队，为谷歌母公司Alphabet设计并孵化了新Bets。

虽然团队脱胎于谷歌TPU，但Groq既没有选择TPU这条路，也没有看中GPU、CPU等路线。Groq选择了一个全新的系统路线——LPU（Language Processing Unit，语言处理单元）。

“我们（做的）不是大模型，”Groq表示，“我们的LPU推理引擎是一种新型端到端处理单元系统，可为AI大模型等计算密集型应用提供最快的推理速度。”

从这里不难看出，“速度”是Groq的产品强调的特点，而“推理”是其主打的细分领域，当然，具体性能如何恐怕还得具体落地了才能知道。

编辑｜张毅

审核｜吴新

本文出自2024-02-19出版的《电脑报》2024年第7期 A.新闻周刊
(网站编辑：ChengJY)

读者活动

48小时点击排行

编辑推荐

英伟达被“偷家”？全新LPU芯片传闻比GPU快十倍

论坛热帖