您的位置:首页 > 互联网

每秒500token的“网红”芯片Groq让人惊叹,但人们开始担心它的可用性

发布时间:2024-02-21 15:54:29  来源:互联网     背景:

声明:本文来自于微信公众号硅星人Pro(ID:Si-Planet),作者:苗正,授权转载发布。

这两天国内外人工智能圈子都在热议Groq:这个硅谷公司的产品基于自研芯片可以做到在大模型推理时每秒处理将近500个token。

蔚来融资70亿

500个token什么概念,大概就是一句话的响应时间只需要不到2秒,如此这般的文字生成速度,甚至比翻译软件还快。当我们习惯了看GPT们慢悠悠的吐出答案时,第一次使用它看到那大模型生成的答案突突突的往外喷,或是更短的答案瞬间生成就像打开一个网页一样的快的时候,确实会惊的呆住一下。

目前它的官网(groq.com)提供免费的试用,没有用过的可以感受一下。你也可以在Poe上免费体验Groq:https://poe.com/Mixtral-8x7b-Groq 。

它一时间被冠以game changer的地位,被人们形容为即将干翻英伟达的存在。

全球要闻:美股三大股指再创新高

如何实现的?

在对Groq的讨论里有人把它叫做大模型,有人叫它芯片,它自己叫自己LPU。这些眼花缭乱的形容让人很好奇,它到底是个啥,这么逆天的速度又是如何实现的?

根据Groq此前发布的论文,它的核心技术其实是一个名叫TSP的微架构设计,全称叫做张量流处理器,Tensor Streaming Processor,TSP。一句话概括这个微架构,TSP通过独特的功能切片设计、确定性执行以及软件定义的方法来实现高性能和高效率的张量计算。

所谓微架构,指的是计算机处理器内部的设计和实现细节,微架构决定了处理器如何执行指令集架构(ISA)定义的指令。由微架构组成的产品才叫做处理器。(Groq成立于好几年前,直到大模型出来的今天它才想出了LPU,语言处理器单元这么个名字。)

那这个独特的“功能切片”又是怎么回事呢?

其实TSP的核心思想是将传统的多核处理器组织结构进行功能切片重组,并围绕张量计算这一抽象概念构建。TSP的内存单元与向量和矩阵深度学习功能单元是交织在一起的,充分利用深度学习操作的数据局部性。基于此,TSP的优势就变成了发掘机器学习负载中固有的各种并行性,包括指令级并行、内存并发、数据并行和模型并行,并通过消除硬件中的所有反应式元素来确保确定性执行。

那光有微架构肯定不行,你要把这个微架构做成服务器能用的产品才行。于是Groq就想到了把TSP变成专用集成电路,也就是ASIC。ASIC的特点在于特定的应用或算法进行了高度优化,以实现最佳性能、最低功耗和最小面积等目标。由于它们专门用于执行一种或一组相关任务,因此在完成这些任务时往往比非定制化的芯片更高效。

Groq公司设计的第一款TSP ASIC实现了超过每平方毫米硅片1万亿次操作/秒的计算密度,在900MHz的标称时钟频率下,这款25×29mm的14nm芯片运行时表现卓越。在ResNet50图像分类任务上,TSP能够在批次大小为1的情况下达到每秒处理20.4K张图片的速度,相较于现代GPU和其他加速器,性能提升了4倍。而Groq也因此确定了最终的产品形态——LPU(语言处理器单元)。

TSP的关键创新在于其将传统二维核网格组织形式重新划分为按功能切分的瓦片布局,其中每个瓦片专门执行特定功能,并在垂直方向上堆叠形成“切片”。TSP使用流处理模型进行张量计算,空间上根据函数排列计算元件以利用张量流动过程中的数据流局部性优势。

估计你读到这里就会发现“好像缺了点啥”。

无论是英伟达的H200也好,还是谷歌的TPU也好,他们运行大模型的方法绝对不是仅靠一张卡来实现的。而TSP也是如此,每个TSP提供220MB的本地存储,并且当TSP数量增加时,它们共同贡献的全球内存容量也随之扩大,物理上分散但逻辑上共享的SRAM芯片内存在整个系统中构成了分布式全局内存。

那么为了将这些个TSP组织在一起,Groq又设计了一个Dragonfly网络。这个网络采用多级层次化结构,其核心思想是将整个系统分割成多个子组,并通过几个层次的路由器连接这些子组。这种设计可以提供高的带宽容量,特别是对于跨节点间的全局通信,确保了在整个系统规模扩大时,每个TSP仍能保持相当水平的带宽接入。Dragonfly网络致力于减少网络直径,即从任意一个端点到另一个端点所需经过的最小跳数。较小的网络直径意味着更低的通信延迟,这对于要求实时响应和紧密同步的机器学习任务至关重要。

如果你想更简单粗暴的理解它,有人用了一个比喻,就是在一个交通复杂的城市里,LPU收集了所有人早上上班的方向,然后用软件来决定红绿灯,关掉了一条路上所有的交通灯让所有同一方向的车子在这条路上只管往前开。那当然快多了。

可用性如何?

我们也抱着好奇心尝试了一下,。我向Groq和ChatGPT提了同一个问题,关于奥威尔一部著名小说里的一个具体意向的涵义。

对比可以看到,Groq的回答比较简单,无法挖掘书中所代表的更深的复杂的意味。而ChatGPT可以回答出更深层次的宿命意味的解读,而且有意思的是,作为慕名而来体验极速出文的我发现,Groq的回答其实耗时一共21.5秒。并不快。同样的问题给Chat GPT3.5,哪怕是用中文问,只需要不到10秒就能得到答案。

google自动翻译工具最新官方

然后我又找了个问题问他,我说《黑暗之心》里面的刚果河之旅又象征了怎样的隐喻?

这回确实生成的非常快了,只花费了2秒钟就给出了答案!

但答案方面,乍一看是那么回事,但是了解这本小说的人仔细看完会发现,Groq这回可能依然没答到点子上,跟上个问题给人的感觉差不多。所以,看来有些问题快是真的快,可是大部分给的回复都不太准确。而且我后来又试了试,我发现Groq在绝大多数情况下都能保证非常快速地给出结果,偶尔依然会“卡壳”,10秒,甚至20秒才能给出结果。

为什么会这样?

快速是Groq的优化带来的,而质量确实和调用的模型相关,但也与Groq的优化有关。

快速来自上面提到的TSP的优化,除此之外,Groq上面的模型也是他们自己微调过的,它并没有公开微调过程,所以对于模型本身的看法来源于我的推测:它上面可以选用的所有的模型后面都有“小尾巴”,比如Llama270B-4K啊、Mixtral8x7B-32k啊。这个小尾巴是内容长度(Content Length)的意思,这个指标用来衡量模型生成的文本的长度,以便评估其生成内容的丰富程度或详细程度,这个数字越大输出的内容就越复杂。看起来Groq应该是没有在输出结果上进行微调,而是对模型处理过程进行微调,缩短了模型推理的时间限制,减少了它充分进行推理的时间,这样再配合TSP本身固有的加速,形成了最后的结果。

在社交媒体上,也有很多人在被这闪电般的速度震撼后,开始发现它生成的质量似乎总是不合乎人意。

从技术和性能上来看,Groq目前还不能撼动英伟达的地位。原因很简单,英伟达的GPU产品是通用的,而Groq的产品形态是ASIC,它不是通用产品,而是一个定制产品。简单点来说,任何一个人工智能算法都可以使用英伟达的H200,但只有Mixtral和Llama2才能使用Groq的LPU。大模型公司想要使用Groq的产品,还需要先确定需求和指定规格,再进行功能验证,最后生产出来的产品才能使用。

这还带来了实际使用中的价格问题。

索尼音乐娱乐

Lepton AI的贾扬清也做了一个详细的计算,发现如果运行三年的话,Groq 的硬件采购成本是1144万美元,运营成本是76.2万美元或更高。8卡 H100的硬件采购成本是30万美元,运营成本是7.2万美元或略低。

事实上Groq背后的概念也不新鲜了。2015年到2019年期间,随着人工智能这个概念被炒起来,诞生了很多“加速卡”公司,他们在PCIe插槽上制作类似GPU的产品,给当时的人工智能算法提供定制的物理加速服务,性质跟Groq差不太多。虽然有不少那样的公司在当时沸沸扬扬,然而才过了几年的工夫,你又能回想起几个这样的公司呢?希望这一次Groq的惊艳也不是一时的。


返回网站首页

本文评论
育碧买了dlc哪里下载「育碧宣布关闭多款老游戏在线服务:DLC买过了也不能装」
随着电子游戏数字化的浪潮愈发势不可挡,不少玩家开始担心:当某一天开发商放弃维护服务器时,这些游戏会怎么样?”现在,育碧或许用自己的行为,为这个问题做出了解答。华为mate10降价...
日期:10-03
Redmi Note 13系列两款配色曝光 素皮 曲面屏_红米note3什么屏
Redmi红米手机于9月14日正式宣布,其Note 13系列将于9月21日晚7点发布。然而,由于同一时间华为也宣布了新品发布会,因此许多人可能不知道Note 13系列已经定档。目前,官方已经公布...
日期:09-16
百度文心一言正式全面开放
通信世界网消息(CWW)据百度消息,8月31日,文心一言率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”(https://yiyan.baidu.com)体验。据悉...
日期:08-31
强者愈强,海信连续4年入选BrandZ中国全球化品牌10强(brandz全球化品牌50强)
  7月16日,Google联合WPP和Kantar推出了“2020年BrandZ中国全球化品牌50强”,海信连续4年位列榜单TOP10。该调研发现,在全球化方面头部品牌力成长最快且波动最小,榜单前10强...
日期:07-14
2023 IDC中国生态峰会在京开幕 AI点亮星空_2021生态峰会
通信世界网消息(CWW)IDC预计,到2027年,全球AI解决方案支出增长将超5,000亿美元,大多数企业的技术投资将向人工智能实施和人工智能增强产品/服务应用大幅转移。同时,未来大模型将带...
日期:11-10
智能语音飞跃!谷歌助手集成生成式AI技术,几个月内将向公众推出
10月5日消息,在美国时间周三的Made By Google活动上,谷歌推出了其移动智能助手Google Assistant的新版本,名为Google Assistant with Bard。这个新版本是Google Assistant和聊...
日期:10-05
网易LOFTER再回应头像生成器争议:确有侵权赔偿原作者1万「lofter头像挂件在哪」
今日,网易LOFTER再次发布其头像生成器”引发的争议说明,称功能测试仅为满足用户个性化头像需求,并无其他目的,更无盈利目的。官方表示,此功能的训练数据集来自于开源数据,未使用LO...
日期:03-07
受益于生成式人工智能浪潮-美光科技第三财季财报超预期_美光科技大涨
北京时间 6 月 29 日早间消息,据报道,当地时间周三,美国存储芯片巨头美光科技公布了第三财季财报,其业绩超出了华尔街分析师预期,主要的利好来自两方面:生成式人工智能浪潮推升了...
日期:09-22
加粉手册:全域加粉的6个洞察「加精准粉的方法」
声明:本文来自于微信公众号 见实(ID:jianshishijie),作者:阿爽,授权转载发布。加粉对于品牌来说是需要持续做的事情,只有这样才能保证私域流量池的活跃和持久。但当下对于大多数品牌...
日期:10-08
占总员工6% 美国流媒体公司Roku再次宣布裁员200人_美国流媒体排名
北京时间3月31日早间消息,美国流媒体公司Roku宣布裁员200人,约占总员工6%。去年11月,Roku已裁减员工约200人。gtx1650是英伟达显卡吗Roku新闻发言人表示:“为继续将开支聚焦于战...
日期:10-04
华为最新公开的任正非近日接受「"任正非调侃!华为新机上市,他只说了两个字,引起热议!」
任正非:华为新机型再次登顶,信心十足华为的创立者兼 CEO任正非,在华为的新手机上市销售之后,他的演讲中,只有一句话:“再战!”这简单却有力的一句话,既显示出任正非对自己的强大信...
日期:09-08
小米pro14是oled屏幕吗「官方揭秘小米14 Pro自研龙晶玻璃」
10月29日,小米手机官方发布文章介绍了龙晶玻璃的制造流程。据文称,龙晶玻璃具有出色的抗跌落性能和耐刮性能,比iPhone的超瓷晶玻璃和华为昆仑玻璃更坚硬。苹果cpu领先安卓多少...
日期:10-30
可令 AI 自我判断输出内容正确性,谷歌公布模型训练框架 ASPIRE
IT之家 1 月 23 日消息,谷歌日前发布新闻稿,介绍了一款专为大语言模型设计的 ASPIRE 训练框架,该框架号称可以增强 AI 模型的选择性预测能力。手机处理器高通710谷歌提到,当下大...
日期:01-23
如何在抖音做一档音乐旅行节目_如何在抖音做一档音乐旅行节目视频
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:王诗怡,授权转载发布。尽管已经去过好几次丽江古城,但「跟着」张信哲逛那个叫忠义市场的菜场,看唐汉霄拿着柿子、茄子...
日期:02-09
中国电信:小米手机Wi-Fi性能 全价位第一「小米移动 电信」
本周中国电信官方发布了《中国电信终端洞察报告(2022年第二期)》。电信对5G手机、手机AI芯片、Wi-Fi 6路由器等产品进行了全方位的详细评测。5G手机中的Wi-Fi性能测试小米包揽...
日期:01-16
未成年寒暑假可以玩游戏吗「未成年人寒假仅有14小时可玩游戏 青少年应合理规划假期」
中关村在线消息:1月9日,腾讯游戏官方发布了“2023年寒假暨春节假期前后未成年人游戏限玩日历”,从1月9日至2月5日这段时间内未成年人共可游玩14小时的游戏,未成年人可在1月13-15...
日期:01-09
大模型热潮奔涌 算力网络何去何从?_模型算法原理介绍
通信世界网消息(CWW)从2019年起,中国信息通信业就开始积极倡导“算力网络”这一新兴的技术理念;2022年,国家发展改革委等启动“东数西算”工程,为算力网络发展送来了政策“东风”;2...
日期:01-23
分析师:iPhone 12 有望为苹果带来新一轮超级更新周期(苹果这次更新怎么样12.31)
  6月18日消息,据国外媒体报道,在2017年iPhone诞生十周年,业界普遍预计苹果为iPhone诞生十周年而特别推出、有重大升级的iPhone X,带来了一轮iPhone超级更新周期。   在iP...
日期:07-14
移动应用安全_移动APP永远绕不过“安全”这个槛!
  手机刷起来   淘宝逛起来   快递收起来   外卖吃起来   ……   要说现代人出门需要拿什么?   十个人里就有十个人的回答是——手机   这话没毛病吧!  ...
日期:08-08
airpods pro乱跳「突发!AirPods Pro 2出现“音频漂移”严重问题」
中关村在线消息:10月13日,据相关爆料,最近有用户表示自己的AirPods Pro 2出现了音频同步问题,具体问题表现为,音频无法与视频内容同步的情况。有不少用户猜测可能是开启了空间音...
日期:10-25