当前位置:首页 > 新闻资讯 > IT业界 > 新闻
英伟达被“偷家”?全新LPU芯片传闻比GPU快十倍
  • 2024/2/22 11:21:52
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:吴新
  • 作者:
【电脑报在线】天下武功,唯快不破。

01

横空出世的LPU芯片

芯片推理速度较英伟达GPU提高10倍、成本只有其1/10;运行的大模型生成速度接近每秒500 tokens,碾压ChatGPT-3.5大约40 tokens/秒的速度——短短几天,一家名为Groq的初创公司在AI圈爆火。

相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。

不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。

LPU最突出的特点就是快。

根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。

第三方机构artificialanalysis.ai给出的测评结果也显示,Groq的吞吐量速度称得上是“遥遥领先”。

为了证明自家芯片的能力,Groq还在官网发布了免费的大模型服务,包括三个开源大模型,Mixtral 8×7B-32K、Llama2-70B-4K和Mistral 7B - 8K,目前前两个已开放使用。

LPU旨在克服两个大模型瓶颈:计算密度和内存带宽。据Groq介绍,在 LLM 方面,LPU较GPU/CPU拥有更强大的算力,从而减少了每个单词的计算时间,可以更快地生成文本序列。此外,由于消除了外部内存瓶颈,LPU推理引擎在大模型上的性能比GPU高出几个数量级。

据悉,Groq芯片完全抛开了英伟达GPU颇为倚仗的HBM与CoWoS封装,其采用14nm制程,搭载230MB SRAM,内存带宽达到80TB/s。算力方面,其整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

02

LPU芯片为何这么快

值得注意的是,“快”是Groq芯片主打的优点,也是其使用的SRAM最突出的强项之一。

SRAM是目前读写最快的存储设备之一,但其价格昂贵,因此仅在要求苛刻的地方使用,譬如CPU一级缓冲、二级缓冲。

SRAM即静态随机存取存储器,对应的DRAM为动态随机存取存储器,区别在于数据存储方式、集成度、访问速度、刷新需求以及成本和应用不同。SRAM的优点是访问速度快,但是占用面积、功耗和成本大,目前仅作为IP内核的方式集成在CPU和GPU等芯片内部。

随机存取存储器(RAM)是存储器中最为人熟知的一种。之所以RAM被称为“随机存储”,是因为可以直接访问任一个存储单元,只要知道该单元所在记忆行X和记忆列Y的地址即可定位。

与RAM形成鲜明对比的是顺序存取存储器(SAM)。SAM中的数据存储单元按照线性顺序排列,因而只能依顺序访问(类似于盒式录音带)。如果当前位置不能找到所需数据,就必须依次查找下一个存储单元,直至找到所需数据为止。SAM非常适合作缓冲存储器之用,一般情况下,缓存中数据的存储顺序与调用顺序相同(显卡中的缓存就是个很好的例子)。而RAM则能以任意的顺序存取数据。

SRAM的S是Static的缩写,全称是静态随机存取存储器。而DRAM的D是Dynamic的缩写,全称是动态随机存取存储器。

据Groq披露,一张LPU配备一块SRAM,内存是230MB。支持运行一个AI模型,要配置约256张LPU,这需要4个满载的服务器机架。一张LPU卡销售超过2万美元。

可是,同样的AI模型采用GPU运行,只需要1个H200,相当于1/4个服务器机架密度。

简单计算,256*2万美元=512万美元。H200还没有公价,英伟达官网显示,一张H100价格不超过4万美元。即便是按照H200价格翻倍计算,那显而易见,采用SRAM可比采用GPU贵多了,增加几十倍以上成本。

Groq官方的介绍还显示,创新的芯片架构可以把多个张量流处理器(Tensor Streaming Processor,简称TSP)连接在一起,而不会出现GPU集群中的传统瓶颈,因此具有极高的可扩展性,简化了大规模AI模型的硬件要求。

能效也是LPU的另一个亮点。通过减少管理多个线程的开销和避免内核的利用率不足,LPU每瓦特可以提供更多的算力。

Groq创始人兼首席执行官Jonathan Ross在采访中,时时不忘给英伟达上眼药。

他此前对媒体表示,在大模型推理场景,Groq LPU芯片的速度比英伟达GPU快10倍,但价格和耗电量都仅为后者的十分之一。

对此,有存储界人士表示,为了提升10倍的速度,增加大几十倍成本,该路径短期内不具备大规模使用的可能性,也就不可能颠覆GPU了。而且,更关键的是,LPU目前仅用于推理,要训练大模型,仍然需要购买英伟达GPU。

03

和谷歌剪不断的关系

Groq读音与马斯克的聊天机器人Grok极为接近,成立时间却远远早于后者。其成立于2016年,定位为一家人工智能解决方案公司。

在Groq的创始团队中,有8人来自仅有10人的谷歌早期TPU核心设计团队。例如,Groq创始人兼CEO Jonathan Ross设计并实现了TPU原始芯片的核心元件,TPU的研发工作中有20%都由他完成,之后他又加入Google X快速评估团队,为谷歌母公司Alphabet设计并孵化了新Bets。

虽然团队脱胎于谷歌TPU,但Groq既没有选择TPU这条路,也没有看中GPU、CPU等路线。Groq选择了一个全新的系统路线——LPU(Language Processing Unit,语言处理单元)。

“我们(做的)不是大模型,”Groq表示,“我们的LPU推理引擎是一种新型端到端处理单元系统,可为AI大模型等计算密集型应用提供最快的推理速度。”

从这里不难看出,“速度”是Groq的产品强调的特点,而“推理”是其主打的细分领域,当然,具体性能如何恐怕还得具体落地了才能知道。

编辑|张毅
审核|吴新
本文出自2024-02-19出版的《电脑报》2024年第7期 A.新闻周刊
(网站编辑:ChengJY)