您的位置:首页 > 互联网

英伟达 v100「H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型」

发布时间:2023-09-11 12:24:21  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子 润,授权转载发布。

【新智元导读】H100让模型推理性能最高跃升8倍!英伟达最新开源软件TensorRT-LLM,将彻底改变LLM推理现状。

「GPU贫民」即将告别困境!

刚刚,英伟达发布了一款开源软件TensorRT-LLM,能够加速H100上大型语言模型的推理。

那么,具体能提升多少倍?

在添加了TensorRT-LLM及其一系列优化功能后(包括In-Flight批处理),模型总吞吐量提升8倍。

使用和不使用TensorRT-LLM的GPT-J-6B A100与H100的比较

另外,就拿Llama2来说,相较于单独使用A100,TensorRT-LLM可以将推理性能提高4.6倍。

使用和不使用TensorRT-LLM的Llama270B、A100与H100的比较

网友表示,超强H100,再结合上TensorRT-LLM,无疑将彻底改变大型语言模型推理现状!

TensorRT-LLM:大模型推理加速神器

当前,由于大模型有着巨大的参数规模,使得「部署和推理」难度和成本一直居高不下。

而英伟达开发的TensorRT-LLM,旨在通过GPU来显著提高LLM吞吐量,并降低成本。

具体来说,TensorRT-LLM将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理以及多 GPU/多节点通信,封装在一个简单的开源Python API中。

英伟达对FasterTransformer进行了进一步的增强,使其成为一个产品化的解决方案。

可见,TensorRT-LLM提供了一个易用、开源和模块化的Python应用编程接口。

码农们不需要深入的C++或CUDA专业知识,能够部署、运行、调试各种大语言模型,还能获得顶尖性能表现,以及快速定制化的功能。

根据英伟达官方博客,TensorRT-LLM通过四种方式优化了Nvidia GPU上的LLM推理性能。

京东plus会员级别

首先,为当前10+大模型,引入TensorRT-LLM,让开发者们能够立即运行。

其次,TensorRT-LLM作为一个开源软件库,允许LLM在多个GPU和多个GPU服务器上同时进行推理。

这些服务器分别通过,英伟达的NVLink和InfiniBand互连连接。

第三,就是「In-flight批处理」,这是一种全新的调度技术,允许不同模型任务独立于其他任务进入GPU和退出GPU。

最后,TensorRT-LLM经过优化,可以利用H100Transformer Engine来降低模型推理时的内存占用和延迟。

接下来,具体看看TensorRT-LLM如何提升模型性能。

支持丰富LLM生态

TensorRT-LLM对开源模型生态提供了非常好的支持。

规模最大、最先进的语言模型,例如Meta推出的Llama2-70B,需要多个GPU协同工作才能实时提供响应。

此前,如果要实现LLM推理的最佳性能,开发人员必须重写AI模型,并将其手动拆分为多个片段,并在GPU之间协调执行。

TensorRT-LLM使用张量并行技术(tensor parallelism),将权重矩阵分配到各个设备上,从而简化了这一过程,可以实现大规模高效推理。

每个模型可以在通过NVLink连接的多个GPU和多个服务器上并行运行,无需开发人员干预或模型更改。

随着新模型和模型架构的推出,开发人员可以使用TensorRT-LLM中开源的最新NVIDIA AI内核(Kernal)来优化模型。

老黄精准刀法图片

支持的内核融合(Kernal Fusion),包括最前沿的FlashAttention实现和用于GPT模型执行的上下文和生成阶段的掩码多头注意力等。

此外,TensorRT-LLM还包括了目前流行的许多大语言模型的完全优化、可立即运行的版本。

其中包括Meta Llama2、OpenAI GPT-2和GPT-3、Falcon、Mosaic MPT、BLOOM等10多个模型,所有这些模型都可以使用简单易用的TensorRT-LLM Python API来调用。

这些功能可帮助开发人员更快、更准确地搭建定制化的大语言模型,以满足各行各业的不同需求。

In-flight批处理

现如今大型语言模型的用途极其广泛。

一个模型可以同时用于多种看起来完全不同的任务——从聊天机器人中的简单问答响应,到文档摘要或长代码块的生成,工作负载是高度动态的,输出大小需要满足不同数量级任务的需求。

英伟达开源驱动

英伟达p102

任务的多样性可能会导致难以有效地批处理请求和进行高效并行执行,可能会导致某些请求比其他请求更早完成。

为了管理这些动态负载,TensorRT-LLM包含一种称为「In-flight批处理」的优化调度技术。

它的核心原理是,大语言模型的整个文本生成过程可以分解为模型上的多次执行迭代。

通过in flight批处理,TensorRT-LLM运行时会立即从批处理中释放出已完成的序列,而不是等待整个批处理完成后再继续处理下一组请求。

在执行新请求时,上一批还未完成的其他请求仍在处理中。

In-flight批处理和额外的内核级优化可提高GPU使用率,可以使得H100上的LLM实际请求基准的吞吐量至少增加一倍。

使用FP8的 H100Transformer引擎

TensorRT-LLM还提供了一个名为H100Transformer Engine的功能,能有效降低大模型推理时的内存消耗和延迟。

因为LLM包含数十亿个模型权重和激活函数,通常用FP16或BF16值进行训练和表示,每个值占用16位内存。

然而,在推理时,大多数模型可以使用量化(Quantization)技术以较低精度有效表示,例如8位甚至4位整数(INT8或 INT4)。

量化(Quantization)是在不牺牲准确性的情况下降低模型权重和激活精度的过程。使用较低的精度意味着每个参数较小,并且模型在GPU内存中占用的空间较小。

这使得能够使用相同的硬件对更大的模型进行推理,同时在执行过程中花费更少的时间在内存操作上。

通过H100Transformer Engine技术,配合TensorRT-LLM的H100GPU使户能够轻松地将模型权重转换为新的FP8格式,并能自动编译模型以利用优化后的FP8内核。

而且这个过程不需要任何的代码!H100引入的FP8数据格式使开发人员能够量化他们的模型并从大幅度减少内存消耗,而且不会降低模型的准确性。

与INT8或INT4等其他数据格式相比,FP8量化保留了更高的精度,同时实现了最快的性能并,而且实现起来最为方便。

如何获取TensorRT-LLM

TensorRT-LLM虽然还没有正式发布,但是用户现在已经可以进行抢先体验了。

申请链接如下:

https://developer.nvidia.com/tensorrt-llm-early-access/join

小米13最新消息

英伟达也说会将TensorRT-LLM很快集成到NVIDIA NeMo框架中。

这个框架是英伟达前不久刚刚推出的AI Enterprise的一部分,为企业客户提供了一个安全、稳定、可管理性极强的企业级AI软件平台。

开发人员和研究人员可以通过英伟达NGC上的NeMo框架或GitHub上的项目访问TensorRT-LLM。

但是需要注意的是,用户必须注册英伟达开发者计划才能申请抢先体验版本。

网友热议

Reddit上的网友对TensorRT-LLM的推出展开了激烈的讨论。

难以想象专门针对LLM对硬件做出优化之后,效果将会有多大的提升。

但也有网友认为,这个东西的意义就是帮助老黄卖更多的H100。

不过有网友也不是很认同,他觉得Tensor RT对于本地部署SD的用户也是有帮助的,所以只要有RTX GPU,以后应该都有可能在类似产品上获益。

而从更加宏观的角度,也许对于LLM来说,也会出现一系列的专门针对硬件级别的优化,甚至未来会出现专门针对LLM设计的硬件来提升LLM的性能,这种情况其实已经在很多流行的应用中出现过了,LLM也不会例外。

英伟达k1开发板

参考资料:

https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

东京奥运会5g


返回网站首页

本文评论
小米集团:今日回购280万股,共耗资约2443.6万港元「小米集团回购了多少股票」
  讯 10月11日晚间消息,小米集团在发布港交所公告称,于10月11日回购280万股,回购价格为8.71-8.75港元,共耗资约2443.6万港元。苹果手机在大陆销量区块链通往数字资产化之路...
日期:10-11
比亚迪总经理赵长江「比亚迪赵长江:腾势 D9 前期设计、研发方面已花费 20 亿元左右」
IT之家 8 月 25 日消息,8 月 23 日,腾势 D9 正式上市,新车提供DM-i 超级混动和纯电 2 个版本 7 款车型,售价区间为 32.98 万元-45.98 万元。百度联盟赚钱在新车上市前,腾势销售事...
日期:09-05
苹果新款MacBook Pro 14/16英寸将在今年Q4量产_MacBook Pro (15 英寸,2018)
IT之家 8 月 23 日消息,据分析师郭明錤称,苹果下一代 MacBook Pro 14 英寸和 16 英寸机型将于 2022 年第四季度进入量产阶段。郭明錤在推文中表示,鉴于台积电的指导表明,3nm 芯...
日期:09-14
苹果 iOS 15.6.1 正式版发布_苹果发布iOS 15正式版
IT之家 8月18日消息,苹果今日向iPhone和iPad用户推送了iOS 15.6.1 / iPadOS 15.6.1更新(内部版本号:19G82),本次更新距离上次发布隔了28天。mate50 卫星三星一年延长保修服务官方...
日期:09-17
互联网“雷锋们”的收费路线 免费软件或到尽头
  对不起,这一次不是免费的。3月23日,冯华君以这句话开头,写了一篇博客。过去五年,无论他开发的麦金塔系统开发出中文输入法Fun Input Toy(FIT),还是iOS(即iPhone、iPad的中文...
日期:07-27
网易有道CEO周枫:硬件是“全村人”的希望_有道创始人周枫
记者/陈振芳   “我们只有科技可以依靠。“双减”之后,有道转型非常明确——就是科技。学习硬件、教育信息化产品,素质教育都要依靠科技。”   8月9日,网易有道(NYSE:DAO,下称...
日期:08-11
AMD第一季营收与净利双双下滑「amd历年营收」
AMD第一季营收与净利双双下滑,营收为5美元。3530亿美元,同比下降9%,净亏损1.39亿美元,去年同期净利润为7.86亿美元。三星猎户座芯片采用自研架构腾讯start云游戏有什么游戏软银...
日期:05-04
最聪明的冰箱长啥样?海信AI交互冰箱率先突破食材动态识别技术_智能冰箱百科
  最聪明的冰箱长啥样?你能想象吗,家中小孩子偷吃零食、冰淇凌,冰箱还会监测报警。5月20日,第五届世界智能大会上,海信正式发布AI交互冰箱,业内首次突破食材动态感知技术,实现...
日期:08-05
苹果反讥微软称Windows不适宜作商标
  苹果今日对微软反对它注册App Store商标的行为作出回应,反讥微软的Windows也不适宜用作商标。苹果希望将“App Store”注册为它自己的应用商店App Store独有的注册商标,...
日期:07-26
Apple watchOS 10将引入高安全级别的锁定模式「applewatch安全锁解除」
苹果推出的iOS 16 / iPad OS 16和macOS Ventura操作系统中的“锁定模式”在即将发布的iOS 17和watchOS 10系统中得到了延续。三星windows8笔记本realme v5天玑720小米11售后...
日期:06-20
爱奇艺原创自制综艺《青春有你2》定档  3月12日起每周四、周六双播出
  3月5日,由爱奇艺出品,鱼子酱和微博联合出品,鱼子酱和爱奇艺小怪兽工作室共同制作的蒙牛真果粒花果轻乳《青春有你2》正式宣布定档,节目将于3月12日起每周四、周六晚8点在爱...
日期:06-25
第四范式「式说」大模型入选北京市首批7家模型伙伴「第四范式 平台」
近日,北京市经信局联合市科委中关村管委会、市发改委共同启动“北京市通用人工智能产业创新伙伴计划”,以推进大模型的研发和应用,第四范式「式说」大模型成为第一批模型伙伴。...
日期:05-20
微软公布次世代Xbox:支持光追 性能是X1X四倍_Xbox 光追
  在Xbox E3 2019发布会上,微软正式公布了次世代Xbox,代号未Project Scarlett,定于2020年圣诞假期时发售。根据微软介绍,次世代Xbox性能是Xbox One X的4倍,最高支持8K分辨率/1...
日期:10-12
伍佰演唱会麦克风都不拿了 这次直接化身合唱团指挥_伍佰ktv
9月2日,上海的夜空被一场别开生面的演唱会所点燃,这场演唱会由台湾著名摇滚歌手伍佰举办。他以一种前所未有的方式,带给了粉丝们一场视听盛宴。这场演唱会以自助形式进行,独特的...
日期:09-05
Win10能以镜像屏方式直接操控安卓手机了_windows10手机镜像
  对于把手机镜像投射到电脑上这个点子,你感觉如何?   据外媒报道,微软已经开始为Windows 10测试这一特性,需要配合“Your Phone(你的手机)”APP使用。   不过,目前支持...
日期:12-21
视频里高大上的水上乐园,到了才知这么“水”!园方:网络达人乱整,律师:涉虚假宣传
炎炎夏日,耍水成为不少人的必选娱乐项目。但近日,成都市民王女士在成都一家“水上乐园”的耍水经历却让她不大开心,因为现实的景象与网络上的推广差距甚大,“明明视频里那么‘高...
日期:07-07
芒果超媒主要业务「芒果超媒:芒果TV已与小鹏汽车等车企展开会员领域相关合作」
  证券时报e公司讯,芒果超媒(300413)在互动平台表示,芒果TV已与小鹏汽车等车企展开会员领域相关合作,共同探索车载屏视频娱乐服务。广泛携手智能汽车平台是芒果TV会员权益服...
日期:10-15
苹果火速发布iOS 16:解决BUG 建议iPhone抓紧升级「ios16更新了什么」
今天凌晨,苹果突然发布了全新的iOS 16系统,此次快速的发布共修复了14个系统漏洞,提升设备的安全性。天猫消费者保障服务如果您不更新升级,这些漏洞将会被黑客利用。他们可以通过...
日期:05-19
加速数字经济发展 注入信创新动能_要发展数字经济加快推进依靠信息技术创新驱动
  近日,全国多地数字经济发展的新目标纷纷亮相,数字经济作为热点备受社会各界关注。北京市计划2025年基本形成国际科技创新中心,建设成为全球数字经济标杆城市;深圳市将推进...
日期:01-15
马云走后的阿里巴巴「马云回国,阿里改制」
作者|一橙 出品|网易科技《态℃》栏目 在日本吃寿司,跑西班牙坐游艇,去泰国看泰拳,在澳大利亚串亲戚,无限神隐的马云,终于回国了。巧合的是第二天,阿里巴巴就大变天了。今日...
日期:03-29