您的位置:首页 > 互联网

推理性能超H100十倍!21岁华裔小哥哈佛辍学开发AI加速芯片Sohu,2人公司估值3400万刀

发布时间:2023-12-19 23:59:30  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最近,两位哈佛辍学生共同创立的AI芯片公司,估值已达3400万美元,并计划明年交付一款名为Sohu的AI推理加速芯片——其LLM推理性能达到H100的10倍,而单价吞吐量更是高达140倍。

像Pika一样的神级创业故事又要再次上演了?

两位哈佛退学的年轻人,想要制造一款专用于大语言模型加速的AI加速器芯片,将于2024年第三季度交付,推理性能达H100的10倍。

在今年6月份,两位创始人Gavin Uberti和Chris Zhu创立了Etched.ai,获得了包括Ebay前CEO Devin Wenig在内一众风投机构的536万美元的种子轮投资。

公司估值更是高达3400万美元!

根据公司官网上放出的数据,这款芯片将在硬件层面上集成Transformer构架,将推理速度相比于英伟达H100提升了8-10倍!

他们将第一款LLM加速芯片命名为Sohu,号称可以在毫秒级别的时间里处理数千个单词。

芯片还支持通过树搜索更好地编码,能够并行比较数百个响应。

小米汽车无线充电桩

还支持多重推测解码(Multicast speculative decoding),可以实时生成新的内容。

根据官方公布的具体细节,这款芯片只有一个核心,但是配备了144GB的HBM3e显存:

- 完全开源的软件栈,可扩展至100T参数型号

- 支持波束搜索(Beam search)和MCTS解码

- 支持MoE和Transformer的各种变体

两个哈佛辍学本科生挑战芯片行业最顶尖业务

两人原本计划从哈佛休学一年,在一家芯片公司找到了一份负责ApacheTVM开源编译器和微内核的工作。

但在工作中,他们发现Arm的指令集中的一些低效设计使得他们的工作效率很差。

当他们思考如何系统性地解决这个问题时,发现可以利用这个思路来设计一款针对当下爆火的AI加速芯片。

在创始人之一的Uberti看来,通用设计无法获得他们正在研发的专有加速芯片所能带来的那种性能提升:

必须在单一架构上下大力气,让芯片处理AI任务,目标太大了,必须要针对更具体的任务来设计芯片......我们认为英伟达最终会这么做。

在他们两人看来,这个市场机会太大了,一定不能错过。

如果你回顾四年前的GPT-2,与Meta最近的 Llama模型相比,只有两个区别——大小和激活函数。训练方式存在差异,但这对于推理来说并不重要。

Transformer的基本组件是固定的,虽然存在细微差别,但他们并不担心短期之内就会出现新的构架代替Transformer。

所以他们决定做一个Transformer构架的专用集成电路(ASIC),在未来和英伟达等一系列芯片巨头在大模型推理市场中竞争。

他们认为,Etched.ai推出的第一款芯片,相比于H100,单位价格内将获得140倍的吞吐量性能!

二到底是什么样的背景,能让两个本科还没有毕业的学生,敢于挑战芯片业目前最炙手可热的赛道呢?

创始人兼公司CEO Gavin Uberti自从2020进入哈佛之后,就一直在校外兼职,在2022年底,成立了Etched.ai。

能地震预警的手机

windows10版本即将

在进入大学之前,他参与了美国最著名的青少年科技创新大赛FIRST Tech Challenge,团队获得了Top10奖项。团队开发的自动驾驶软件排在600个参赛团队第二名。

另一位创始人Chris Zhu,也是在哈佛就读时就在校外疯狂实习,甚至还没有从哈佛毕业,就已经成为兼职教员。

AMD MI300X决战NVIDIA H100

而英伟达和AMD这边,最近打得更是热火朝天,甚至连官方都直接下场写博客硬刚。

就在前段时间,AMD高调发布了自家最强的AI芯片MI300X。

PPT显示,由8块MI300X组成的服务器在大模型推理方面的表现,要比同样规模的H100速度最高提升1.6倍之多。

对于AMD来说,这种直接对标,实属罕见。

对此,英伟达很快就发表了一篇博客文章,驳斥AMD的评测不客观。

英伟达表示,如果H100GPU使用了优化过的软件进行正确的基准测试,它的性能将大大超过MI300X。

作为回应,英伟达展示了采用TensorRT-LLM优化设置后,两款GPU在Llama270B上的比较结果。

文章地址:https://developer.nvidia.com/blog/achieving-top-inference-performance-with-the-nvidia-h100-tensor-core-gpu-and-nvidia-tensorrt-llm/

可以看到,当批处理大小设置为1时,H100的性能达到了MI300X的2倍。

甚至,当采用与AMD相同的2.5秒延迟时,H100的性能可以达到MI300X的14倍之多。

英伟达表示,AMD采用的替代软件不支持Hopper的Transformer Engine,并且忽略了TensorRT-LLM中的关键优化功能。而这些都可以在GitHub上免费获取。

AMD毫不示弱

见状,AMD也发文表示,既然要用优化,那就大家都用。

而即便是在这种情况下,MI300X的性能依然比H100强了30%。

文章地址:https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304

具体来说:

1. 在同样采用vLLM FP16的设置时,相比于发布会上展示的1.4倍性能,AMD最新的优化已经让这一优势扩大到了2.1倍。

2. 与使用TensorRT-LLM优化的H100相比,使用vLLM的MI300X实现了1.3倍的延迟改善。

3. 相比于采用低精度FP8和TensorRT-LLM的H100,使用vLLM和高精度FP16的MI300X在绝对延迟方面,表现更好。

AMD指出,英伟达在H100上进行基准测试时使用的是自家专有的技术TensorRT-LLM,而非更广泛使用的vLLM。

此外,在延迟方面,英伟达只关注吞吐量的性能,却忽视了实际工作中的延迟问题。

最后,AMD表示,之所以选择使用FP16,是因为它非常流行,而且目前vLLM还不支持FP8。

GPU大战进入白热化

在人工智能加速器领域,一些公司拥有针对特定工作负载的专门架构。

开放厨房抽油烟机选择

数据中心的专用架构主要集中在DLRM(深度学习推荐模型),因为GPU很难加速这类任务。

Meta最近宣布已经构建了自己的DLRM推理芯片,并且已经得到广泛部署。

而对于Transformer构架的加速,英伟达是通过在H100GPU中部署Transformer Engine的软件功能来实现的。

Transformer Engine使得LLM推理无需进一步量化即可进行,大大加速了GPU推理LLM的效果。

而Etched.ai要做的就是更近一步,在硬件层面完成这个设计,从而使得LLM的推理速度和能效都更上一层楼。

而投资人之所以愿意给两位本科辍学生投入如此之大的一笔钱,更重要的是迄今为止,所有人都认为现在LLM推理的成本过高,其中一定有创新的空间。

除了这样的明星初创公司以外,传统巨头对于大模型推理市场同样抱有很高的期待。

苏妈在各种场合不断表示,未来大模型推理市场的规模将远远大于模型训练市场。所以AMD也一直在强调自己的产品已经对这个市场做好了充分地准备。

从英伟达和AMD首次公开对比自家产品的性能这件事来看,GPU领域的竞争显然正在加剧。

目前,英伟达除了要面对AMD的挑战之外,还需要考虑英特尔和Cerebras取得的快速进展。

就在12月14日,首席执行官Pat Gelsinger展示了英特尔最新的AI芯片——采用5nm工艺制程,性能提升了1.5倍的Gaudi3。

相比于上一代Gaudi2,Gaudi3的BFloat16性能提升了4倍,计算能力提升2倍,显存容量提升50%达到144GB,并且采用的是HBM3或HBM3e。

同样,英伟达也计划在明年初推出GH200超级芯片。

鉴于竞争如此激烈,AMD可能会被诸如微软、Meta和甲骨文这些已经宣布将其技术集成到数据中心的公司,视为备选方案。

Gelsinger预测,到2027年,GPU市场规模将达到惊人的4000亿美元,这无疑为激烈的竞争提供了广阔的舞台。

Cerebras Systems的CEO Andrew Feldman更是毫不遮掩自己的野心:我们正在努力超越英伟达,到明年,我们将构建高达36exaflops的AI算力。

参考资料:

https://www.etched.ai/

https://analyticsindiamag.com/gpu-battle-nvidia-vs-amd/

https://www.eetimes.com/harvard-dropouts-raise-5-million-for-llm-accelerator/


返回网站首页

本文评论
挡不住中国芯片,美国又要对底层架构下手?_美国对中国芯片松手
最近,多位美国政客打着“国家安全”的旗号,向拜登政府施压对RISC-V进行管制。RISC-V,是什么?对中国芯片产业发展有什么影响?小伙改装电脑大家都知道,计算机运行需要程序,程序是由一...
日期:10-13
国庆假期喜茶部分门店销量增幅近300% 个别门店增幅达到500%「喜茶门店销售额」
10月8日消息,喜茶2022年国庆假期消费数据显示,和节前相比,国庆假期喜茶部分门店销量增幅近300%,个别门店甚至增幅达到了500%。喜茶GO微信小程序也显示,在国庆假期内,包括北上广深...
日期:10-15
格力删除孟羽童视频  孟羽童称靠别人永远不如靠自己
5月10日 消息:5月9日,孟羽童在社交媒体阐述了她的人生信条:“靠别人永远不如靠自己。”然而,近日有消息称,她所在的直播间“明珠羽童精选”已经更名为“格力明珠精选”,而直播间...
日期:05-10
抖客和抖音什么关系「抖音抖客成功的核心。」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。这个国庆假期里发现许多朋友都没闲着,朋友圈出现了人都在许多推广各种...
日期:10-10
2020算法工程师年薪「6月AI人才需求回升-算法工程师平均年薪超过百万 脉脉高聘」
【】7月14日消息,根据脉脉高聘的数据显示,2023年春招期间是AI创业高峰,人才需求急速上涨。2月,AIGC新发岗位量增幅达到75.6%。3月AI人才需求持续上升,环比增幅上涨12.56%。随着春...
日期:09-21
facebook的视频_Facebook成为媒体第二大网络视频推荐来源
  北京时间2月18日上午消息,美国网络视频平台Brightcove与美国网络视频分析和广告平台TubeMogul联合发布的报告显示,2010年第四季度,Facebook延续了上一季度的趋势,继续位列...
日期:07-26
途鸽科技发布《2018出境游大数据报告》: 百度共享WiFi翻译机开启智慧旅游新境界
  3月29日,全球旅游场景的AIoT解决方案和大数据平台——途鸽科技发布了《2018出境游大数据报告》,报告基于旅游行业统计数据,结合途鸽大数据平台海量数据以及旗下智能硬件...
日期:02-16
无畏契约dpi怎么设置 dpi设置步骤介绍_无畏契约vgc
如果你想在无畏契约游戏中发挥出你的最佳水平,那么你需要一个合适的鼠标灵敏度,这样你才能享受流畅和舒适的游戏过程,那么如何调整鼠标dpi呢,下面就来介绍一下具体的操作步骤。...
日期:07-12
小米驾车场景能做什么「有助于提高驾驶安全性 小米新获得一项汽车相关专利」
小米汽车科技有限公司申请的“车辆”专利近日获授权。iphone 12销量火爆摘要显示,该实用新型公开了一种车辆,包括车身、显示装置以及前挡风透光件。车身设有驾驶空间,车身包括...
日期:10-02
没事找事?美商务部长:华为Mate 60 Pro让我“不爽”
华为Mate 60 Pro 科技讯 北京时间9月20日,美国商务部部长雷蒙多周二出席了众议院举行的听证会,回应了华为新推出的Mate 60 Pro手机。她表示,华为在她上月访华期间推出新手机,这...
日期:09-20
国美电器收购了哪家公司「国美电器被申请破产重整」
2月8日 消息:企查查APP显示,国美电器有限公司新增4条破产重整信息,申请人包括:长春苏泊尔炊具销售有限责任公司、辽宁苏泊尔炊电销售有限公司、哈尔滨苏泊尔炊具销售有限责任...
日期:02-08
全国迁徙详情百度地图迁徙大数据「百度地图:国庆全国人口迁徙规模日均值较节前增长约56%」
10 月 11 日消息,百度地图日前发布 2022 国庆假期总结大数据。数据显示, 2022 年国庆假期期间,全国人口迁徙规模峰值较节前上涨约1. 4 倍;全国高速拥堵里程峰值出现在 10 月 1...
日期:10-27
刘作虎晒一加12真机:用标准版超越友商Pro旗舰_oneplus刘作虎
快科技12月4日消息,今晚一加召开了12周年围炉夜话活动,刘作虎亲自现身跟大家互动。值得注意的是,刘作虎还在台上掏出了一加12真机,晒出了这款将在明天发布的旗舰,并表示自己非常...
日期:12-05
15万级纯电SUV卷王!广汽埃安Aion Y Plus上市:13.98万起_广汽新能源suv埃安y真实续航
9月27日,AION Y Plus正式上市,共推出510km、610km两个续航版本共计6款车型,补贴后的官方指导价为13.98万元-17.98万元,10月即开始交付。作为15万级纯电SUV的首个10W+,AION Y产品...
日期:09-28
TrendForce:苹果 iPhone 15 Ultra 将不会由富士康独家组装
12月29日消息:据研究机构TrendForce称,苹果已经邀请立讯精密在明年与富士康一起组装iPhone15Pro Max。目前还不清楚立讯精密将完成多大比例的订单,此举将有助于减少苹果供应链...
日期:12-29
全球首颗!我国芯片领域取得重大突破_中国芯片实现大突破
近日,清华大学集成电路学院教授吴华强、副教授高滨团队基于存算一体计算范式,研制出全球首颗全系统集成的、支持高效片上学习(机器学习能在硬件端直接完成)的忆阻器存算一体芯片...
日期:10-11
周鸿祎超爱看电影:建顶级私人电影院 200个4TB硬盘存蓝光原片
快科技11月29日消息,在与俞敏洪的直播对话中,周鸿祎谈到了自己的爱好。周鸿祎提到,自己很喜欢看电影。一个4T的硬盘差不多能拷100部蓝光原片,我有差不多200个这样的硬盘,还有很多...
日期:11-30
50岁华人女子应聘空姐被3家航司录取:曾当过模特_航空公司女飞行员
12月5日消息,微博话题50岁华人女子应聘空姐被3家航司录取”上了热搜榜。据上游新闻报道,胡胡(网名)今年50岁,在常人的概念里,这已是知天命的年纪,但她却不这样认为。她面临失业,能够...
日期:12-06
618空调市场销额起飞,消费者更加注重性价比「618空调销售数据」
奥维云网(AVC)推总数据显示,2023年618期间空调全渠道零售量1195万台,同比增长35.9%,销额411亿元,同比增长38.0%。近日消息,奥维云网发布了今年618期间空调市场的总结,其表示本次618...
日期:06-26
MasterGo 领跑设计协同时代,成为美团核心设计效能工具
近日,美团设计委员会在北京综合指挥中心举办了“美团设计效能工具发布会”,面向公司所有产研设团队发布了包括 MasterGo 在内的多款设计效能工具和能力,所有团队可试用、使用和...
日期:05-10