您的位置:首页 > 智能设备

nvidia gpu架构变迁史_3分钟看完NVIDIA GPU架构及演进

发布时间:2023-11-28 03:58:59  来源:互联网     背景:

近期随着 AI 市场的爆发式增长,作为 AI 背后技术的核心之一 GPU(图形处理器)的价格也水涨船高。GPU 在人工智能中发挥着巨大的重要,特别是在计算和数据处理方面。目前生产 GPU 主流厂商其实并不多,主要就是 NVIDIA、AMD、Intel、高通等厂家。本文将主要聊聊 NVIDIA GPU 的核心架构及架构演进。

深入了解GPU架构

在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此 NVIDIA 显卡的芯就用 GPU 来称呼,是专门设计用于处理图形渲染的处理器,主要负责将图像数据转换为可以在屏幕上显示的图像。

曝华为Mate50 5G手机壳

与 CPU 不同,GPU 具有数千个较小的内核(内核数量取决于型号和应用),因此 GPU 架构针对并行处理进行了优化。GPU 可以同时处理多个任务,并且在处理图形和数学工作负载时速度更快。GPU 架构是赋予 GPU 功能和独特能力的一切,主要组成包括:

  • CUDA 核心:GPU 架构中的主要计算单元,能够处理各种数学和逻辑运算。

  • 内存系统:包括 L1、L2 高速缓存和共享内存等,用于存储数据和指令,以减少 GPU 访问主存的延迟。

  • 高速缓存和缓存行:用于提高 GPU 的内存访问效率。

  • TPC/SM:CUDA 核心的分组结构,一个 TPC 包含两个 SM,每个 SM 都有自己的 CUDA 核心和内存。

  • Tensor Core( 2017 年 Volta 架构引入):Tensor张量核心,用于执行张量计算,支持并行执行FP32与INT32运算。

  • RT Core(2018 年 Turing 架构引入 ):光线追踪核心,负责处理光线追踪加速。

此外,NVIDIA GPU 架构还包括内存控制器、高速缓存控制器、CUDA 编译器和驱动程序等其他组件,这些组件与SM 和其他核心组件协同工作,可以实现高效的并行计算和内存访问,提高 GPU 的性能和能效。下面我们来详细了解一下这些 GPU 架构每一部分的作用及功能。

Streaming Multiprocessor(SM)


从上图中可以看出 GPU 主要有许许多多的 SM 组成,SM 全称为 Streaming Multiprocessor 流式多处理器,是 NVIDIA GPU 架构中的重要组成部分,也是 GPU 的基本计算单元。每个 SM 由多个 CUDA 核心、纹理单元、Tensor Core、流控制器和存储器等辅助单元组成,可以同时执行多个计算任务,并具有高度的灵活性和性能。

最先支持 CUDA 的 GPU —— G80 或 GeForce 8800 GTX,包含 8 个 TPC,每一个 TPC 中有两个 SM,一共有 16 个 SM。接下来支持 CUDA 的 GPU 是 GT200 或 GeForceGTX 280,它增加了 TPC 中的 SM 数量,包含 10 个 TPC 并且每个 TPC 含有 3 个 SM,总共是 30 个 SM。每一代 GPU 架构所支持的 SM 核心数量都不相同,如在 2020 年 Ampere 架构的完整 GA102 核心中,总共有 92 个 SM,每个 SM 包含 128 个 CUDA 核心、4 个 Tensor 核心和 1 个RT 核心。

nvidia gpu架构变迁史

CUDA Core

华为mate40 4999在哪买

看完 SM 的介绍,接下来我们看看构成 SM 最重要的组成部分 CUDA Core。

CUDA 全称为统一计算设备架构 (Compute Unified Device Architecture) ,是一个并行计算平台,同时也是一个应用程序编程接口 (API)。它是由 NVIDIA 专门设计,目的在于让软件开发人员能够更好地控制他们可以使用的物理资源。使用 C 或 C++ 编码的计算机程序员对资源分配有很大的控制权。CUDA 系统极大地促进了 OpenACC 和 OpenCL 等框架的普及和使用。CUDA 核心也是并行处理器,允许不同处理器同时处理数据。这与双核或四核 CPU 类似,只不过 GPU 有数千个 CUDA 核心。区别在于 CPU 更像是一个管理员,负责控制整个计算机,而 GPU 适合做具体的工作。

并行计算

CUDA 的巨大优势是任务并行化,允许通过扩展在 C 和 C++ 中并行工作,处理不同重要性级别的任务和数据。这些并行化任务可以使用各种高级语言来执行,例如 C 语言、C++以及 Python,或者简单地使用包含 OpenACC 指令的开放标准。

CUDA 是目前最常用的任务加速平台,并且技术的发展已经取得了巨大的进步。CUDA 技术是使用最广泛、最重要的技术之一。

山东能源商登涛

nvidiagpu几款架构

应用范围

CUDA 应用范围包括加密哈希、物理引擎、游戏开发等相关项目,在科学行业,在测量、测绘、天气预报和其他等相关项目得到了很大改善和简化。目前,数以千计的研究人员可以在学术和制药领域从事分子动力学研究,这简化了药理学的开发和研究,从而在治疗癌症、阿尔茨海默病和其他当今无法治愈的疾病等复杂疾病方面在更短的时间内取得进展。

CUDA 还可以对有风险的金融操作进行预测,将效率加快至少十八倍或更多。其他例子包括 Tesla GPU 在云计算和其他需要强大工作能力的计算系统中广受好评。CUDA 还允许自动驾驶车辆简单高效地运行,能够进行其他系统无法完成的实时计算。这种计算敏捷性使车辆能够在很短的时间内做出重要决策,避开障碍物,顺利行驶或避免事故。

Tensor Core

随着 GPU 开始用于人工智能和机器学习工作,NVIDIA 从 2017 年开始在其数据中心 GPU 的 Volta 架构中引入了 Tensor Core。 但是直到 NVIDIA Turing 架构的推出(RTX 20 系列 GPU)这些核心才出现在消费类 GPU 中。

CUDA 核心足以满足计算工作负载,但 Tensor Core 的速度明显更快。CUDA 核心每个时间周期只能执行一项操作,但 Tensor 核心可以处理多项操作,从而带来令人难以置信的性能提升。从根本意义上来说,Tensor Core 所做的就是提高矩阵乘法的速度。

计算速度的提升确实是以准确性为代价的,从这点上来说 CUDA 核心的准确度要高得多。但是在训练机器学习模型时,Tensor Core 在计算速度和总体成本方面要有效得多,此时准确性的损失常常被忽略。

较之 CUDA Core 专门处理图形工作负载,Tensor Core 更擅长处理数字工作负载。在它们同时工作的过程中,在某些场景下可以互换。

RT Core

2018 年 NVIDIA 发布了新一代的旗舰显卡 RTX 2080,搭载了全新的 Turing(图灵)架构。 全新的架构也同时添加了名为 RT Core 的计算单元,相当于在 Volta 上增加的 Tensor Core,都是为了特殊应用架构而设计的计算单元。 该计算单元的目的是为了让 GPU 拥有实时光线追踪的能力,一种可以让画面更换新的渲染演算法。

光线追踪(Ray Tracing)的原理是从用户端为起点,寻找光线反射和折射的路径并算出用户会看到的物体颜色及亮度。然而,由于使大量光线在空间中反射决策,且空间中实际的状况未知,每一张图所需的计算量极其巨大,无法即时计算出结果,因此游戏产业尚未大量采用该技术。在发布的 RTX 2080 显卡中,NVIDIA 正式将 RT Core 加入绘图卡,让实时光学渲染法(Rendering)不再是说说而已。


GPU架构演进


在了解完 GPU 架构组成部分后,我们来看看 NVIDIA GPU 架构的演进。自 NVIDIA 成立之初,其 GPU 架构历经多次变革。从 G80、GT200 系列,到 Fermi、Kepler、Pascal 和 Volta 架构等,以及近期的 Ampere 和 Hopper 架构。值得一提的是架构命名方式从 Tesla 架构开始每一代以科学家命名,每一代都有其独特的设计和特点,简单介绍下其中几个架构。

  1. G80 架构:英伟达第一个 GPU 架构,采用了 MIMD(多指令流多数据流)标量架构,拥有 128 个 SP(流处理器),核心频率范围从 250MHz 到 600MHz,搭配 DDR3 显存。该架构是当时最强大的 GPU 之一,但是功耗较高。

  2. Fermi 架构:英伟达第一个采用 GPU-Direct 技术的 GPU 架构,它拥有 32 个 SM(流多处理器)和 16 个 PolyMorph Engine 阵列,每个 SM 都拥有 1 个 PolyMorph Engine 和 64 个 CUDA 核心。该架构采用了 4 颗芯片的模块化设计,拥有 32 个光栅化处理单元和 16 个纹理单元,搭配 GDDR5 显存。

  3. Volta 架构:采用了全新的设计理念和技术,拥有 256 个 SM 和 32 个 PolyMorph Engine 阵列,每个 SM 都拥有 64 个 CUDA 核心。该架构采用了全新的 Tensor 张量核心、ResNet 和 InceptionV3 加速模块等技术,搭配 GDDR6X 显存。

  4. Turing 架构:代表产品为 GeForce RTX 20 系列。该架构首次引入了光线追踪(Ray Tracing)和深度学习超级采样(DLSS),为游戏和设计领域带来了革命性的视觉效果和性能提升。此外,图灵架构还优化了着色器性能,以提高渲染效率和能效比。Turing SM 设计采用全新架构,每个 TPC(Texture and Compute Cluster,纹理和计算集群)均包含两个 SM,每个 SM 共有 64 个 FP 32 核心和 64 个 INT32 核心。也就是说,每个 SM 都包含 128 个核心。这些核心可以并行执行 FP32 与 INT32 运算。每个 Turing SM 还拥有 8 个混合精度 Turing Tensor 核心和 1 个 RT(Ray Tracing,光线追踪)核心。

  5. Ampere 架构:代表产品为 GeForce RTX 30 系列。该架构继续优化并行计算能力,并引入了更先进的 GDDR6X 内存技术,大幅提高了内存带宽和性能。相比 Turing 架构,Ampere 架构中的 SM 在 Turing 基础上增加了一倍的 FP32 运算单元,这使得每个 SM 的 FP32 运算单元数量提高了一倍,同时吞吐量也就变为了一倍。此外,安培架构还改进了着色器性能和张量核(Tensor Cores),进一步加速深度学习和人工智能任务的处理速度。

经过几十年的探索和发展,NVIDIA 的 GPU 架构以其层次化的内存设计、多线程技术、优化内存层次结构、混合精度计算技术和自动功耗优化技术,实现了高效、可扩展、灵活和能效比这几个关键目标。从最初的 GeForce 系列到最新的 Hopper 架构,NVIDIA 不断引领着 GPU 架构的发展,提供了强大的性能和创新的技术,从而在图形处理和人工智能等领域取得了显著的成功。


返回网站首页

本文评论
小米苹果磁吸充电宝_小米磁吸无线充电宝今日开售,199 元,支持苹果 iPhone 14/13/12 系列
  9 月 16 日消息,随着苹果 iPhone 14 系列发售日的到来,各大第三方厂商推出的大批配件也都纷纷上市了。  上周,小米推出了一款磁吸无线充电宝,把磁吸充电宝和立式无线充结...
日期:09-17
英伟达 RTX 30 系列公版显卡在官方商店下架「英伟达rtx 30系显卡直播」
IT之家 3 月 10 日消息,据 VideoCardz 消息,英伟达美国和多个欧盟国家的官方网站已经都没有 RTX 30 系公版显卡的库存,这可能意味着 RTX 30 公版型号已经停产停售,让位于最新的...
日期:03-11
无刘海水滴的全面屏手机_三面无边框加持水滴全面屏:骁龙845新旗舰明日发布
  9月4日消息,有网友在努比亚社区放出了努比亚旗舰Z18的宣传海报,有关该机的外观设计再无悬念。  如图所示,努比亚Z18延续了无边框的家族式设计语言,官方暗示努比亚Z18的无...
日期:07-23
骁龙780g和天玑1200跑分_荣耀70 Pro Geekbench跑分曝光:搭载天玑8000 性能媲美骁龙888
  据官方此前宣布,荣耀新一代数字系列旗舰——荣耀70系列将于5月30日19:30正式发布,龚俊将担任该系列机型的全球代言人。随着发布时间的日益临近,外界关于该机的爆料也更加密...
日期:07-16
红魔游戏手机 7 氘锋透明版亮相:支持 135W 快充,行业首发 165W 氮化镓充电器
  2 月 10 日消息,红魔游戏手机 7 系列官宣将于 2 月 17 日发布,今日官方公布了氘锋透明版的外观。  从图中可以看到,该机采用了居中方块排列三摄,两边采用了透明样式。官方...
日期:04-03
酷冷至尊功能「酷冷至尊推出Synk X沉浸式触觉反馈座椅 将声波转化为振动」
IT之家 10 月 5 日消息,据 TechPowerUp 消息,酷冷至尊推出了 Synk X—— 一款跨平台的沉浸式触觉座椅,可将沉浸式体验提升到一个新的水平。据官方介绍,Cooler Master Synk X 为...
日期:10-12
面对必应聊天的步步紧逼,谷歌已开始邀请Pixel 用户测试 Bard「googlepixel语音控制」
IT之家 3 月 21 日消息,面对基于 GPT-4 的必应聊天(Bing Chat)的步步紧逼,谷歌在要求员工加大测试力度之外,已经于近日邀请部分 Pixel 用户测试 Bard。windows10光标定位图源:谷歌...
日期:03-24
华为p60发布时间「媲美安卓iOS的新鸿蒙加持!华为Mate/P60曝光:用高通最强芯、仍支持4G」
  其实对于华为来说,Mate 50今年的强势表现,已经让他们重拾信心,所以明年手机产品线必然会更加精彩。oppofindx潜望式  据悉,三方数据显示,今年三季度,华为手机销售回暖,出货量...
日期:12-30
谷歌地图自定义_谷歌地图添加“鸟瞰”功能 能使用地图俯瞰代表性建筑
7月27日消息,谷歌今天宣布它将在谷歌地图的近100个地标中,添加“逼真的航拍视图”。据悉,这项更新类似苹果地图此前推出的功能,让你能使用地图,俯瞰巴塞罗那、伦敦、纽约、旧金山...
日期:07-31
韩国开发出新系统,可为30米外的手机进行红外无线充电
  随着手机、耳机和智能手表等设备推出无线充电功能,用户对这些电子设备进行充电越来越便捷。但受限于无线充电的距离,无线充电功能并没有完全发挥出其作用。华硕ZenFone 6...
日期:09-02
缅北「AMD、NVIDIA齐发新品 显卡厂商的好日子来了:加速去库存」
前几天AMD的RX 7900系列显卡已经上市,尽管陷入了与RTX 4080、RTX 4090性能对比的争议中,但是并没有妨碍产品热销,毕竟7999元起的RX 7900 XTX还是能打一些的,比RTX 4090便宜不少...
日期:12-20
五款新机遭曝光,并有2023年的机型,先别急着换机「2022年二三季度还有哪些新机发布」
来源:中关村在线严禁虚拟货币挖矿项目OPPOwatch ecg虽然现在的手机市场中有非常多的新机,但是对大多数用户来说,还是选择等待自身期待的新机,有可能是千元手机,也有可能是明年的...
日期:09-15
苹果承认抄袭国产手机?库克:iPhone很多技术灵感来自中国「库克承认苹果手机的设计」
作为智能手机开拓者,苹果曾经引领行业向前发展,堪称名副其实的“标杆”。可随着国产手机崛起,苹果技术创新显得十分乏力,其中不少功能都有“抄袭”国产嫌疑,苹果高管似乎也不想隐...
日期:02-08
iPhone14全系破发黄牛一天亏几万!高端看华为?Mate50这加价太猛「iphone14 pro max爆料值得买吗」
昨天iPhone 14正式发售,而黄牛也表现的很踊跃,其中暗紫色的iPhone14 Pro Max最为抢手,512G版本的要加价2800元出手。看着很热闹,不过iPhone 14系列目前已经出现了破发,14系列破发...
日期:09-20
美国电信运营商AT&T意外放出三星Galaxy S23 产品页面「美国电信运营商中国业务」
IT之家 1 月 31 日消息,根据国外科技媒体 CNET 报道,美国电信运营商 AT&T 位于亚特兰大布鲁克海文(Brookhaven)的一家门店意外放出 Galaxy S23 标准版的产品页面。该页面已经于...
日期:02-07
可直接“掰弯”?联想确发可折叠手机 采用柔性屏_纵向折叠屏手机
  (原标题:官方已确认!联想可折叠手机曝光:屏幕可弯曲,10月正式亮相)孙燕姿的线上演唱会 多长时间  最近几年,各大手机厂商都纷纷在储备折叠手机的专利。现在,现有的手机形态...
日期:07-24
华为watch 3 pro 最新评测_独立导航功能现身 华为WATCH 3 Pro new新固件分批推送更新
来源:中关村在线macbookpro处理器选择据消息显示,华为为WATCH 3 Pro new发布了3.0.0.339固件更新,独立导航功能终于来了。根据更新日志,在新版本中,只需在手表应用市场下载Petal...
日期:09-14
智能学习机如何系统升级「学习机频“翻车”,智能硬件如何守住教育本分?」
“双减”后,智能硬件成为教培机构转型的热门赛道,学习灯、学习平板、翻译笔层出不穷,热闹背后,问题同样层出不穷。七月以来,学习机不止一次被曝出问题。前有云南某中学的“平板定...
日期:09-25
如何让主流平板电脑存储容量达到128GB?_平板电脑128G够用吗
  北京时间11月7日消息,《华尔街日报》科技专栏作家沃尔特·莫斯伯格(Walt Mossberg)周二以问答形式,解释了如何给各类平板电脑增加内部存储容量的问题。此外,对于如何将老式...
日期:07-25
苹果手机广告媒介策略「年底前投放 苹果计划发布新广告位」
来源:中关村在线平板电脑比手机乐乐茶喜茶奈雪根据苹果公司周二发出的邀请函,该公司邀请开发者参加一场鼓励他们购买广告的在线会议,计划最早在今年假日季发布新的App Store广...
日期:09-16