风口浪尖行稳致远 - 英伟达等企业如何顺应高性能计算大模型浪潮

关键词：PLM；NLP；Transformer；ChatGPT；BERT；RNN；CNN；自注意力机制；多头注意力机制；Decoder Only ；Encoder Only；讯飞星火；百度文心一言；商汤商量；智谱AI-ChatGLM；昆仑万维天工；阿里通义千问；澜舟科技Mchat； 360 智脑；H100；H800；A100；A800；MI200；MI250；LaMA；OpenAI；GQA；RMSNorm；SFT；RTX 4090；A6000；AIGC；CHATGLM；LLVM；LLMs；GLM；AGI；HPC；GPU；CPU；CPU+GPU；英伟达；Nvidia；英特尔；AMD；高性能计算；高性能服务器；蓝海大脑；多元异构算力；大模型训练；通用人工智能；GPU服务器；GPU集群；大模型训练GPU集群；大语言模型；深度学习；机器学习；计算机视觉；生成式AI；ML；DLC；图像分割；预训练语言模型；AI服务器；GH200;L40S；HBM3e；Grace Hopper；gracehopper

摘要：近年来，预训练语言模型(PLM)的出现为AI语言技术发展提供了新的思路。PLM通过在大规模语料上预训练Transformer模型，在各类自然语言处理任务上展现出强大的语言理解和生成能力。

当然，要实现语言AI的产业化应用，还面临一定难题。一方面，目前大规模模型仍需消耗大量算力进行训练，这增加了应用门槛。另一方面，从算法层面来说，PLM的表示学习和特征工程还需进一步优化，才能真正达到人类语言水平。业内企业正在积极应对这些挑战。

以英伟达为例，其正调整产品策略，在保持GPU性能领先的同时，也开始布局AI芯片等产业。国内初创公司如浪潮、联想、华为、蓝海大脑等，则致力于研发大模型训练平台，以降低训练成本。可以看出，提升算力支持和算法创新正在成为当前语言AI发展的两个重要方向。各方共同努力将有助于突破技术瓶颈，加速PLM模型在复杂环境中的应用，推动语言AI技术实现从实验室到实际场景的飞跃。

特征工程算法测评

Transformer算法是自然语言处理领域中的一项重要技术，相较于循环神经网络和卷积神经网络，采用自注意力机制可以更好地处理模型长距离依赖问题，并通过并行计算提高效率。其核心思路是首先将输入映射到高维空间表示，然后通过多层自注意力网络学习表示之间的关系，实现信息的传递和变换，最后再解码回输出。该结构避免了循环神经网络中的顺序计算限制，也没有卷积神经网络对序列长度的限制。借助这种强大的表征学习能力，Transformer模型在机器翻译、文本生成等任务上取得突破性进展。

一、Transformer 工作流程

Transformer算法的工作流程可以概括为：获取输入序列——对输入序列添加位置编码，以表示其在序列中的位置信息——将编码后的输入序列输入到Transformer模型中——Transformer模型内部通过多头注意力机制学习输入序列的表示——经过多层Transformer块的处理，得到输出序列。

Transformer是一个序列到序列的结构，通过自注意力来学习输入序列的特征表示，然后生成对应的输出序列。相较于RNN和CNN，能更好地建模长序列的语义信息。输入的位置编码为模型提供序列顺序的信息。多头注意力允许同时关注不同位置的内容。最终，Transformer可完成诸如翻译、文本生成等从输入序列到输出序列的任务。

Transformer 框架

Transformer模型主要包含编码器和解码器两个组件。编码器负责分析输入序列；解码器负责生成输出序列。可根据实际需要进行灵活组合，构建适用于不同NLP任务的Transformer模型。ChatGPT和BERT就是编码器解码器用法的代表案例。

Transformer 编码器、解码器结构

Transformer模型中的编码器-解码器堆叠结构指将多个编码器块和解码器块按顺序叠加在一起，形成一个多层的结构。具体来说，就是输入序列经过第一个编码器块处理后，输出作为第二个编码器块的输入，以此类推。编码器最后输出的表示向量作为第一个解码器块的输入，然后依次通过每个解码器块。这种堆叠结构增强了模型学习输入输出序列的特征表示能力。下层编码器聚焦局部特征，上层编码器聚焦全局特征。类似的下层解码器关注细节，上层解码器关注全局结构。

Encoders- Decoders 堆叠

Encoder 编码器由两个主要组件组成：自注意力机制（Self-Attention）和前馈神经网络（Feed-Forward Neural Network）。自注意力机制是 Encoder 编码器的核心部分，将在下文中进行详细介绍。前馈神经网络由两个全连接层和一个激活函数组成，能够对输入序列的表示进行映射和变换，以捕捉更丰富的特征和语义信息。

Transformer编码器(Encoder)由自注意力机制和前馈全连接网络两个核心模块组成。自注意力机制通过计算序列中不同位置之间的相关性，为模型提供输入序列的全局信息。前馈全连接网络提供一个非线性转换，使模型能够建模更复杂的特征表示。编码器通过这两个模块的结合，实现对输入序列语义信息的深层特征学习和表达。自注意力机制是编码器的核心，前馈全连接网络进行特征映射和增强，二者相互配合，构成Transformer编码器的基本框架。

Encoder 内部结构

自注意力机制是Transformer模型的核心组成部分，广泛用于编码器和解码器中。主要作用是建模输入序列不同位置之间的关联关系，得到与整体上下文相关的表示。其工作流程可以概括为：计算查询向量Q键向量K和值向量V（来自输入序列的线性变换）——通过点积计算查询向量和键向量之间的相关性，得到注意力权重——根据权重对值向量进行加权求和，得到自注意力输出——通过注意力权重分配不同及位置不同程度的关注，获得整体上下文表示。自注意力通过学习输入序列内部的依赖关系，为模型提供序列的全局信息。

Query， key， Value 矩阵运算

实际上，在自注意力机制中，需要通过机器学习来获取的参数是 W_Q、W_K 和 W_V 这三个矩阵。在实践中，注意力机制模块可以在计算得到 O 矩阵后，对 O 矩阵进行线性变换，因此会额外增加一个 W_O 矩阵需要进行学习。

Transformer 算法流程图

人工智能大模型体验报告

大型AI模型的发展正推动产业智能化升级。过去针对不同场景需要重复开发AI模型，效率较低。大型通用模型的出现改变了这一局面，使同一个模型可服务多场景，加速产业向全链路智能化方向发展。《生成式人工智能服务管理暂行办法》为大模型的发展指明方向，国家将致力于促进创新与安全并重。

在各方共同努力下，中国大模型的产业生态已初步形成。未来企业可根据定位发挥优势，头部企业可继续自主研发，解决方案企业可通过垂直细分积累特色。头部企业还应当充分开放共享，帮助推广大型模型，发挥技术的社会价值。

大模型与行业的融合也将发挥关键作用，在诸如金融、工业、医疗等领域已展现出巨大应用潜力。持续探索行业解决方案是大模型企业的重要方向。新一代AI有望成为企业的竞争优势。各方携手合作，推动大型模型落地应用，将促进人工智能产业进步。

一、大模型成为AI大规模落地拐点

中国大模型发展势头强劲，获得持续关注和资本追捧。天眼查数据显示， 2023 年上半年直接与“大模型”相关的融资事件超过 20 起，热点地区以北京、上海、杭州为主，反映出北京在人工智能领域的领先地位。越来越多企业和学术机构开始关注大模型的应用落地和商业化。主要进展集中在：

研究层面：中国在理论、方法、软硬件等方面形成体系化的大模型研发能力，学界和产业界共同推动，健全了理论框架。

应用层面：大模型开始渗透各行各业，并实现商业化应用。超过半数大模型已开源。

可以看出，在资本的推动下中国大模型技术在研究和应用方面都获得长足发展，产业化进程正在加速推进。这为中国在人工智能领域的领先地位奠定了基础。

1、大模型进程过半，如何让AI真正走进千家万户成关注重点

人工智能发展的重点正在从追求模型规模向提升实用性和可持续性转变。要实现AI大规模应用，还需要在多方面进行优化：

1）降低训练成本。主要通过算法优化、分布式训练、模型压缩等方式来减少计算资源消耗。

2）提高易用性。采用友好的用户交互方式，提供简单的开发工具，加强用户教育和运营支持，降低使用门槛。

3）增强安全性。提高数据质量，增强模型鲁棒性，建立持续监控机制及时发现和修复问题。

4）保护隐私。对用户数据加密和脱敏，实施访问控制和认证机制，开展安全审计防止数据泄露。

总之，要促进人类从AI获益，需要让技术更实用、易用、可解释和可控。只有当科技发展以人为本、造福社会，才能赢得广泛认可。

2、未来已来，大模型概念红利逐渐消失，回归到实际应用

为推动大模型技术实现从实验室到实际应用的飞跃，需要在以下几个方面着力：

1）加强算力基础设施建设，实现集中高效的算力供给

2）融合跨领域知识和多模态数据，建立综合性知识体系，实现技术和数据的深度融合

3）提升模型的安全性和可解释性，建立安全可靠的大模型应用

4）将大模型应用于实体经济，探索商业化路径

5）发展在线学习和增量学习技术，提高模型的自主学习和适应能力

只有系统性推进大模型技术的产业化进程持续强化基础研究，才能加速人工智能走向深度融入经济社会发展的日常应用，真正造福人类。

二、大模型厂商整体测评

通过对比Benchmark结果可以得出以下结论：在基础能力方面，AI算法模型受人类编程思维影响，利用人类的智慧和知识进行开发，因此与人类在某些方面的能力相当。在政策的积极引导下，AI在善良性和语言能力上表现出色，逐渐接近人类专家的水平。然而，大模型的安全可解释性需要持续投入，以避免不受控制的现象出现。

尽管AI在某些方面能够达到或超过人类的水平，但整体上人类在智商方面仍然具有明显优势。人类通过善用工具和解决问题的能力以及通过互联网等渠道获取各方面的信息并进行总结、积累和归纳，形成个人知识体系，展现了智商的高水平。

在情商方面，AI与人类之间的差距最为明显。目前尚未观察到AI具备情绪感知能力的明显迹象。相比之下，人类在情绪理解和处理方面通常具有更强的优势和更灵活的能力。人类的情感智慧是人类智能的重要组成部分，涉及到高级认知和社交能力，而AI需要进一步发展感知智能。

在工具效率提升方面，AI对人类提供有力的支持，处理速度远远超过人类。然而，在某些复杂和具有创新性的任务中，人类的智慧和想象力仍然无法替代。

1、基础能力指数及测评

大型AI模型具备多个基础能力，其中最重要的是语言能力。语言是人类智慧的体现，也是人工智能系统需要理解和模仿的重要领域。大型AI模型通过学习和训练，能够理解和生成自然语言文本，并在多语言翻译和多语言对话方面展现出强大的能力。

除了语言能力，大型AI模型还具备AI向善能力。AI向善指的是人工智能系统在运行过程中，能够遵循道德和伦理原则保护人类的利益和安全。此外，大型AI模型还具备跨模态和多轮对话的能力。跨模态能力指的是在不同模态之间进行转换和迁移，例如将图像转换为文字描述或将语音转换为文字，这些能力有助于大型AI模型在自动驾驶、智能家居等领域的应用中更好地理解和处理不同模态的信息。多轮对话能力则使大型AI模型能够在多个对话回合中保持连续性和逻辑性，从而完成更复杂的任务和问题解答。

2、智商指数及述评

评估大模型的智能水平可以从三个方面进行考察：常识知识、逻辑能力和专业知识。

1）常识知识

指大模型对于世界、社会和文化等基本信息的认知能力。具备常识知识，大模型能够更好地理解人类的语言和行为，并在各种情境下做出正确的推理和决策。

2）逻辑能力

逻辑能力是大模型不可或缺的能力之一，使大模型在处理复杂问题时能够提供严谨的思维逻辑和强大的分析决策能力，从而推动人工智能从认知层面向感知层面的发展。

3）专业知识

指大模型需要具备特定领域的专业知识和技能。例如，在医疗领域，大模型需要了解医学知识和诊断技能；在法律领域，需要了解法律知识和法律推理能力。这些专业知识有助于大模型在特定领域中进行准确、高效的问题处理。

3、情商指数及述评

大模型的情商考察涉及评估其在情感和人际交往方面的能力。包括对日常尴尬事项的反应、处理一语双关问题以及应对人际关系难题等方面的表现。这些情商考察涉及与朋友、家人、同事等各种场景下的交往问题。

具体而言，日常尴尬事项的反馈指的是大模型在处理一些尴尬或棘手问题时，能否给出合适的回答或解决方案。例如，当被问及一些私人或敏感问题时，大模型需要具备足够的情商和应变能力，以避免造成不必要的尴尬和误解。在中国语言中，常常出现一语双关的情况，大模型需要通过敏锐的洞察力、判断力和感知能力等，准确理解当前环境和词语的含义，并做出恰当的回应。

另一方面，人际关系相处难题指的是大模型在与人类进行交互时，能否帮助人类处理各种人际关系问题，例如解决冲突、进行情感交流和表达同理心等。这些问题的处理需要大模型具备高超的人际交往能力和情商，以建立和维护良好的人际关系。

在情商方面，商汤商量、百度文心一言、澜舟科技Mchat和智谱AI-ChatGLM表现优秀； 360 智脑、讯飞星火、阿里通义千问和昆仑万维天工表现良好。

4、工具提效指数及述评

工作提效的考察主要涉及工具提效和创新推动两个方面。

1)工具提效

指的是大模型是否能够提供有效的工具来提高工作效率。包括代码自动生成、数据分析与可视化工具、自然语言处理、文件整理、关键内容总结整合以及机器翻译工具等。

2）创新推动

指的是大模型是否能够提供新的思路和方法，推动工作方式的改进和升级。这些创新可以涉及新的业务流程、创新选题、内容创新等。

测评中工作提效的考察包括工具提效和创新推动两个方面，其中工具提效占50%的权重，创新推动占50%的权重。在工作提效方面，讯飞星火、百度文心一言、商汤商量和智谱AI-ChatGLM表现优秀；昆仑万维天工、阿里通义千问、澜舟科技Mchat和 360 智脑表现良好。

三、各大厂商优秀答案展示

1、科大讯飞-星火

科大讯飞推出名为"讯飞星火认知大模型"的新一代认知智能大模型，具备七大核心能力，包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。该模型拥有跨领域的知识和语言理解能力，能够通过自然对话方式理解并执行各种任务。通过不断学习海量数据和大规模知识，实现从问题的提出、规划到解决的全流程闭环。

2、百度-文言一新

百度开发的人工智能大语言模型——文心一言，具有跨模态和跨语言的深度语义理解与生成能力。文心一言拥有五大核心能力，包括文学创作、商业文案创作、数理逻辑推算、中文理解以及多模态生成。

3、商汤-商量

商汤-商量以"坚持原创，让AI引领人类进步"为使命，是首家将人脸支付技术成功应用于地铁售票系统的公司。同时还为北京大兴国际机场提供 58 套由商汤科技AI技术支持的"智能旅客安检系统"，为全球旅客提供高效便捷的服务。这些举措展示了商汤科技在推动人工智能应用和为人类带来进步方面的领导地位。

4、智谱AI-ChatGLM

智谱AI是一家由清华大学计算机系技术成果转化而成立的公司，专注于开发新一代认知智能通用模型。其引入全新的"模型即服务（MaaS）"市场理念，并建立认知大模型平台以及数字人和科技情报产品，旨在为用户提供更广泛的认知智能服务，并推动科技成果的商业化应用。

5、360- 360 智脑

360 公司是中国领先的互联网安全软件与互联网服务公司，主要经营 360 安全卫士。自主研发了名为" 360 智脑"的千亿参数大语言模型。 360 的创始人周鸿祎表示，公司将坚持"两翼齐飞"的大模型战略，一方面致力于自主研发核心技术，另一方面通过大模型在城市、政府和企业领域的应用，进一步推动产业数字化和智能化发展。

6、昆仑万维-天工

昆仑万维是中国领先的互联网平台出海企业，深耕海外市场十余载。“天工”大模型是由昆仑万维主导研发的双千亿级大语言模型。目前“天工”最高已能支持 1 万字以上文本对话，实现 20 轮次以上用户交互，在多类问答场景中都能实现较高的输出水平。

国家电网汽车充电站充电速度

7、阿里-通义千问

阿里通义大模型是阿里云推出的一款超大规模语言模型，具备多轮对话、文案创作、逻辑推理、多模态理解和多语言支持等功能。它是阿里云在人工智能领域的重要成果之一，已经在多个领域广泛应用。阿里通义为业务提供强大的基础框架和工具，推动人工智能技术的发展和应用。这一模型为用户提供了丰富的功能和灵活性，助力各行各业实现创新发展。

8、澜舟科技-MChat

澜舟科技是一家由创新工场孵化的认知智能公司，成立于 2021 年 6 月。专注于AI 2. 0 大模型的研发，并以自然语言处理（NLP）技术为基础，提供新一代的认知智能平台。澜舟科技的主要产品是一系列基于"孟子大模型"核心技术打造的能力平台和垂直场景应用。致力于为用户提供先进的智能解决方案，以推动行业的数字化转型和创新发展。

各大龙头企业如何应对大模型发展？

NVIDIA 已成为 AI 大模型开发的首选，但 GPU 短缺问题短期内难以解决。NVIDIA 在 AI 芯片领域的长期积累，使其在生成式AI浪潮中占据主导地位，其GPU也成为各大科技公司争相采购的对象。但 GPU供应有限，制约了人工智能的快速发展，OpenAI CEO表示GPU短缺限制了他们在模型调优和上下文窗口等方面的进展。目前最强的GPU NVIDIA H100 也面临严重缺货。从供给角度看，H100 供应直接受制于台积电产能，短时间内难以找到替代的代工厂，出货量有限。从需求端看，市场对H100 的需求约在43. 2 万张左右，总价值将超过 150 亿美元，还没有考虑中国对H800 的需求。NVIDIA正在提升产能，但GPU短缺可能还会持续一段时间。

国产算力板块仍具潜力，算力产业链值得关注。当前算力板块景气度较高，H800 将批量供应中国，相关的AI服务器企业有望迎来放量。此外各地智能算力中心建设也在推进，国内对AI芯片的需求快速增长，国产化替代的需求随之提升。根据测算，中国AI芯片市场规模到 2027 年将达到 2164 亿元。目前在AI加速卡出货量上，NVIDIA在中国市场份额超过80%，国产化的需求持续增长。

中国 AI 芯片市场规模及增速

一、行业变化

1、SIGGRAPH 2023 召开，英伟达 AI 布局持续演进

1） AI 芯片再度升级，英伟达巩固 AI 算力领域主导地位

在SIGGRAPH2023 世界计算机图形学大会上，英伟达创始人兼CEO黄仁勋做主题演讲，重点介绍下一代AI超级芯片GH200。他将生成式AI比喻为AI的“iPhone时刻”，自然语言是新的编程语言，使计算机科学实现民主化，人人皆可成为“程序员”。他认为大语言模型是新型计算平台，将赋能各类新应用，并让旧平台带来诸如Office和Copilot等好处。演讲中，英伟达宣布推出下一代GH200 Grace Hopper超级芯片，搭载全球首个HBM3e内存。黄仁勋的演说充分展现出英伟达对大语言模型计算平台前景的信心和领先视野，也预示着英伟达将继续通过创新芯片产品，推动大模型技术的发展。

生成式 AI 是 AI 的“iPhone 时刻”

英伟达计划于 2024 年第二季度开始生产GH200 芯片，该芯片将取代H100 GPU，性能大幅提升。在 2022 年 3 月，英伟达首次推出Grace Hopper超级芯片，该芯片将CPU和GPU融合在一块主板上，直到今年 5 月才开始正式量产。而此次推出的GH200 芯片则采用新型的HBM3e内存。GH200 芯片专为高性能计算和生成式AI时代而设计，将在今年年底左右进行样片测试，并于 2024 年第二季度末开始投入生产。GH200 芯片由 72 核的Grace CPU和4 PFLOPS的Hopper GPU组成，通过NVLink C2C技术连接，搭载141GB的HBM3e内存，提供每秒5TB的带宽。每个GPU的容量是NVIDIA H100 GPU的1. 7 倍，带宽是H100 的1. 55 倍。通过将两个GH200 芯片连接在一起，可以获得更高性能的计算服务。与前一代相比，双配置的内存容量增加了3. 5 倍，带宽增加 3 倍。

由两个 GH200 芯片组成的计算平台

该芯片具备出色的可扩展性，最多支持将 256 个芯片连接在一起，形成DGX GH200 计算平台。通过NV Link Switch技术，可以将 256 块GH200 芯片组装成DGX GH200 SuperPod，提供高达1 EFLOPS的计算能力和144TB的高速内存。通过NVIDIA Quantum-2 InfiniBand Switch技术，可以使用高速、低延迟的网络连接多个DGX GH200 SuperPod，从而构建出面向生成式AI时代的Grace Hopper AI超级计算机。

由 256 张 GH200 组成的 DGX GH200 系统

随着芯片的升级，数据中心在同等预算和工作负载条件下的能效显著提高，相较以往以CPU为主的数据中心有巨大的改进。在过去的 60 年中通用计算是主流， 1 亿美元可以构建一个由 8800 块x86 CPU组成的数据中心，功耗为5MW。然而，在当前和未来的加速计算和AI计算时代，同样 1 亿美元可以构建一个由 2500 块GH200 芯片组成的数据中心，功耗仅为3MW。而且，这个AI推理性能相当于之前提到的CPU系统的 12 倍，能效提高 20 倍。如果想要达到和 1 亿美元的x86 CPU数据中心相同的AI性能，只需要 210 块GH200 芯片构成的计算平台，功耗仅为0.26MW，成本也只需 800 万美元。

同等预算下 GH200 数据中心的能效是 x86 CPU 数据中心的 20 倍

为满足生成式AI、大模型开发、内容创作和数据科学等领域的需求，NVIDIA推出全新的桌面级AI GPU系列。其中包括RTX 6000、RTX 5000、RTX4500 和RTX4000 四款产品，基于最强大的是RTX 6000。NVIDIA还提供一站式解决方案RTX Workstation，专为企业级用户设计。RTX Workstation支持最多 4 张RTX 6000 GPU，可以在 15 小时内完成对GPT3-40B模型的8. 6 亿个token的微调，同时还能让Stable Diffusion XL每分钟生成 40 张图片，比RTX4090 快了 5 倍。

英伟达推出基于 RTX 6000 的 RTX Workstation

为满足数据中心的需求，英伟达推出OVX服务器，其搭载L40S Ada GPU。这款服务器经过图形、计算、存储和网络的优化，每台服务器最多可搭载 8 个L40S GPU，每个GPU配备48GB GDDR6 内存，提供1.45 PFLOPS的算力。OVX服务器令人惊叹的是，仅需 7 小时就能完成对GPT3-40B模型的8. 6 亿个token的微调，其性能表现甚至超过A100 的1. 7 倍。

英伟达推出基于 L40S GPU 的 OVX 服务器

英伟达在AI基础设施领域依然稳居主导地位。自从ChatGPT引领生成式AI浪潮以来，NVIDIA GPU已经成为支持生成式AI和大模型训练的优选芯片，功不可没。随着GH200 超级AI芯片的升级和多款GPU、服务器产品的推出，英伟达展现了其在AI基础设施领域的主导地位。

2、AI 生态持续拓展，助力生成式 AI 开发与多领域应用

英伟达与Hugging Face合作，使得在NVIDIA DGX Cloud上训练模型变得更加便捷。Hugging Face是目前最受AI开发者喜爱的平台之一，拥有超过 200 万用户、超过 25 万个模型和 5 万个数据集。通过与英伟达的合作，开发人员可以利用DGX Cloud的超级计算能力来构建大语言模型和其他高级AI应用程序。每个DGX Cloud实例配备了 8 个NVIDIA H100 或A100 80GB Tensor Core GPU，每个节点的GPU内存总计达到640GB。

英伟达与 Hugging Face 达成合作

NVIDIA 推出的 AI Workbench是一个统一的工作空间，可以加速定制生成式 AI 应用的开发。它可以帮助开发者在 PC 或工作站上快速创建、测试和调优模型并无缝扩展到数据中心、公有云或 NVIDIA DGX Cloud。AI Workbench 还与 GitHub、NVIDIA NGC、Hugging Face 等服务集成，开发者可以在不同的平台和基础设施上进行开发，并可以一键迁移。在现场演示视频中开发者在搭载 RTX 4090 的笔记本电脑上使用 AI Workbench 对 Stable Diffusion-XL 模型进行了微调。AI Workbench 可以自动创建项目环境、构建容器，方便地访问服务器以及部署到应用中。

NVIDIA AI Workbench 工作流程

NVIDIA 推出AI Enterprise 4.0 版本为企业级生成式AI开发带来更强的安全性和稳定性。AI Enterprise 4.0 新增支持多款软件和工具，简化生成式AI的部署。其中一个重要亮点是引入NVIDIA NeMo框架，它是一套云原生框架，可以用来构建、定制和部署大语言模型，为创建和定制大语言模型应用提供了端到端的支持。AI Enterprise支持用户跨云、数据中心和边缘构建及运行基于NVIDIA AI的解决方案，经过认证可以在主流的NVIDIA认证系统、NVIDIA DGX系统、所有主要的云平台以及新发布的NVIDIA RTX工作站上运行。此外，AI Enterprise 4. 0 还将集成到其他合作伙伴如Google Cloud、Microsoft Azure和Oracle等。

英伟达升级 AI Enterprise 4.0

NVIDIA 为 OpenUSD 进行了升级，为开发者和企业提供了更多的框架和资源服务。OpenUSD 由皮克斯发明并在 2016 年开源的通用场景描述格式，用于创建和描述3D世界，使不同的3D设计软件可以无障碍地协作。目前已有 50 多种设计工具原生支持了USD标准。NVIDIA从 5 年前就开始与皮克斯合作，全力支持OpenUSD的发展。

NVIDIA提供了Omniverse Cloud和多种API，带给开发者和企业更多的框架和资源。最引人关注的两个API是：基于大语言模型的ChatUSD，可以像Copilot一样在Omniverse中回答问题和生成代码；以及基于大语言模型的语义3D搜索服务DeepSearch，可以通过文本或图像快速搜索大量未标注的数据集。在AI的推动下协作式3D和数字化的时代正在到来。

英伟达 Omniverse 采用 OpenUSD 标准，提供多种 API 服务

二、各大厂商如何布局?

1、Stability AI 推出 StableCode，一款用于写代码的大型语言模型

8 月 9 日，Stability AI 发布其新的开放大型语言模型（LLM）StableCode ，该模型旨在帮助用户生成编程语言代码，基于 transformer 神经网络打造。Stability AI 以其 Stable Diffusion 文本生成图像模型而闻名，现在开始涉足代码生成领域。 StableCode 模型训练数据则来自 BigCode 项目的初始编程语言数据集，并用 Stability AI 进行筛选和微调，将首先支持 Python、Go、Java、JavaScript、C、markdown 和 C++ 等编程语言的开发。

同时，提供三个层级的模型，分别为用于通用领域的基础模型、指令模型和一个支持多达 16，000 个 tokens 的长上下文窗口模型。Stability AI 称长上下文窗口模型版本比其他大模型都要大，支持更专业和更复杂的代码生成提示，用户可以使用 StableCode 查看一个包含多个文件的中等大小的代码库，以帮助理解和生成新代码。

2、OpenAI 在中国申请注册“GPT-5”商标，此前已在美国申请

8 月 10 日，据国家知识产权局显示，OpenAI的运营公司最近申请注册两枚“GPT-5”商标，分别用于科学仪器和设计研究领域。此前OpenAI已在上月向美国专利商标局申请注册“GPT-5”商标。从商标信息看，GPT- 5 将提供文本生成、自然语言理解、语音转录、翻译、分析等功能。OpenAI此前在 6 月表示还未开始训练GPT-5。另外，OpenAI的GPT- 4 今年上半年也在中国申请了相关商标以及一个“WHISPER”的网站服务商标。这表明OpenAI正在积极布局GPT- 5 等新模型，中国也是其重要的商业化市场。

3、小米 AI 大模型 MiLM-6B 首次曝光：64 亿参数，C-Eval 总榜排名第 10

最近小米的大语言模型MiLM-6B首次出现在C-Eval和CMMLU两大AI模型评测榜单上。GitHub项目显示MiLM-6B是一个参数规模达 64 亿的大规模预训练语言模型，由小米自主开发。截至 8 月 11 日在C-Eval总榜MiLM-6B排名第10，同参数量级模型排名首位；在CMMLU中文向大模型排名第一。C-Eval数据显示，在STEM科目中MiLM-6B在计量、物理、化学、生物等准确率较高。在社科科目中除教育和地理外，均获得较理想的准确率。在人文科目中，MiLM-6B的历史和法律准确率较佳。总体来说，MiLM-6B在多数文科科目已具备相对良好的准确度，但在涉及“抽象思维”的法学、数学、编程等科目仍有进步空间。这表明小米自主研发的大模型MiLM-6B具有较强的通用语言能力。

4、微软亚洲研究院推出工业场景用大模型，利用 GPT-4 控制空调系统

日前微软亚洲研究院在论文中提出用GPT- 4 模型来控制工业场景中的空调系统，称此方法仅需少量样本就能在成本和效率上优于传统工控系统。微软表示对工业场景传统工控软件处理异构任务、样本利用率低，适应新场景需要大量时间和预算而用预训练大模型控制相关设备，在高准确率下可降低部署成本。微软使用GPT- 4 在虚拟空调环境进行了实验，开发出一种基础模型应用于工控但无需大量训练的方法，获得了积极结果。该研究旨在探索直接用预训练大模型进行工业控制任务的潜力逐步取代容错率较高的工业环境。这表明预训练语言模型在工业控制等领域也展现出广阔的应用前景。

5、明略科技开源 TensorBoard.cpp，助力大模型预训练

近日明略科技集团实现了机器学习可视化工具TensorBoard的C++接口，进一步丰富了基于C++的大模型项目工具集，使大模型预训练过程监控更便捷高效，加速了营销领域大模型的预训练。TensorBoard是谷歌开发的机器学习可视化工具，常用于监测机器学习过程的各项指标。据介绍TensorBoard通过可视化模型中的参数和结果，如记录训练过程中的Loss变化、验证集的PPL变化、学习率变化等，帮助分析训练状态发现问题并及时采取措施。此前TensorBoard仅支持Python。明略科技通过C++实现TensorBoard将进一步丰富基于C++的大模型项目工具集，大幅提升监测效率加速模型训练。改写接口后的工具将以多种数据模式展示训练指标，包括标量、直方图、图像等。该工具包在GitHub上开源，助力更多研究者和开发者参与大模型研发，推动人工智能多领域应用。

蓝海大脑大模型训练平台

蓝海大脑大模型训练平台提供强大的算力支持，包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑，满足大模型训练中张量并行的通信需求。支持高性能I/O扩展，同时可以扩展至万卡AI集群，满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术，当BMC收到PSU故障或错误警告（如断电、电涌，过热），自动强制系统的CPU进入ULFM（超低频模式，以实现最低功耗）。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。

千库网_科技光效展台背景_背景编号6434628-恢复的

一、为什么需要大模型？

1、模型效果更优

大模型在各场景上的效果均优于普通模型

2、创造能力更强

大模型能够进行内容生成（AIGC），助力内容规模化生产

3、灵活定制场景

通过举例子的方式，定制大模型海量的应用场景

4、标注数据更少

通过学习少量行业数据，大模型就能够应对特定业务场景的需求

二、平台特点

1、异构计算资源调度

一种基于通用服务器和专用硬件的综合解决方案，用于调度和管理多种异构计算资源，包括CPU、GPU等。通过强大的虚拟化管理功能，能够轻松部署底层计算资源，并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力，以加快模型的运行速度和生成速度。

2、稳定可靠的数据存储

支持多存储类型协议，包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通，提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制，确保模型和数据的安全稳定运行。

3、高性能分布式网络

提供算力资源的网络和存储，并通过分布式网络机制进行转发，透传物理网络性能，显著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用严格的权限管理机制，确保模型仓库的安全性。在数据存储方面，提供私有化部署和数据磁盘加密等措施，保证数据的安全可控性。同时，在模型分发和运行过程中，提供全面的账号认证和日志审计功能，全方位保障模型和数据的安全性。

三、常用配置

目前大模型训练多常用H100、H800、A800、A100 等GPU显卡，以下是一些常用的配置。

1、H100 服务器常用配置

英伟达H100 配备第四代 Tensor Core 和 Transformer 引擎（FP8 精度），与上一代产品相比，可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件，为小型企业到大规模统一 GPU 集群提供高效的可扩展性。

搭载 H100 的加速服务器可以提供相应的计算能力，并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性，凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™，NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。

CPU：英特尔至强Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

内存：动态随机存取存储器64GB DDR54800 兆赫 *24

存储：固态硬盘3.2TB U.2 PCIe第 4 代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

平台：HD210 *1

散热：CPU+GPU液冷一体散热系统 *1

网络：英伟达IB 400Gb/s单端口适配器 *8

电源：2000W(2+2)冗余高效电源 *1

2、A800 服务器常用配置

NVIDIA A800 的深度学习运算能力可达 312 teraFLOPS（TFLOPS）。其深度学习训练的Tensor 每秒浮点运算次数（FLOPS）和推理的 Tensor 每秒万亿次运算次数（TOPS）皆为NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch 结合使用时，此技术可将多达 16 个 A800 GPU 互联，并将速度提升至 600GB/s，从而在单个服务器上实现出色的应用性能。NVLink 技术可应用在 A800 中：SXM GPU 通过 HGX A100 服务器主板连接，PCIe GPU 通过 NVLink 桥接器可桥接多达 2 个 GPU。

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

内存：DDR4 3200 64G *32

数据盘：960G 2.5 SATA 6Gb R SSD *2

硬盘：3.84T 2.5-E4x4R SSD *2

网络：双口10G光纤网卡（含模块）*1

双口25G SFP28 无模块光纤网卡（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

电源：3500W电源模块*4

其他：25G SFP28 多模光模块 *2

　　单端口200G HDR HCA卡(型号:MCX653105A-HDAT) *4

　 2GB SAS 12Gb8 口 RAID卡 *1

　　 16A电源线缆国标1.8m *4

　托轨 *1

　主板预留PCIE4.0x16 接口 *4

　支持 2 个M.2 *1

　原厂质保 3 年 *1

3、A100 服务器常用配置

NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景，在不同规模下实现出色的加速，有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构，是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍，并可划分为七个 GPU 实例，以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本，A100 80GB 将 GPU 显存增加了一倍，并提供超快速的显存带宽（每秒超过 2 万亿字节 [TB/s]），可处理超大型模型和数据集。

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMM服务器内存 *16

SSD1：480GB 2. 5 英寸SATA固态硬盘 *1

SSD2：3.84TB 2. 5 英寸NVMe固态硬盘 *2

GPU：NVIDIA TESLA A100 80G SXM *8

网卡1：100G 双口网卡IB 迈络思 *2

网卡2：25G CX5 双口网卡 *1

4、H800 服务器常用配置

H800 是英伟达新代次处理器，基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800 相比，H800 的性能提升了 3 倍，在显存带宽上也有明显的提高，达到3 TB/s。

虽然论性能，H800 并不是最强的，但由于美国的限制，性能更强的H100 无法供应给中国市场。有业内人士表示，H800 相较H100，主要是在传输速率上有所差异，与上一代的A100 相比，H800 在传输速率上仍略低一些，但是在算力方面，H800 是A100 的三倍。

CPU：Intel Xeon Platinum 8468 Processor，48C64T，105M Cache 2.1GHz，350W *2

内存：64GB 3200MHz RECC DDR4 DIMM *32

系统硬盘： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU网络： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存储网络：双端口 200GbE IB *1

网卡：25G网络接口卡双端口 *1

5、A6000 服务器常用配置

CPU：AMD EPYC 7763 64C 2.45GHz 256MB 280W*2

内存：64GB DDR4-3200 ECC REG RDIMM*8

固态盘：2.5" 960GB SATA 读取密集 SSD*1

数据盘：3.5" 10TB 7200RPM SATA HDD*1

GPU：NVIDIA RTX A6000 48GB*8

平台：机架式4U GPU服务器，支持两颗AMD EPYC 7002/ 7003 系列处理器，最高支持280W TDP，最大支持 32 根内存插槽支持 8 个3.5/2. 5 寸热插拔SAS/SATA/SSD硬盘位（含 2 个NVMe混合插槽），可选外插SAS或RAID卡，支持多种RAID模式，独立IPMI管理接口，11xPCIe 4. 0 插槽。

2200W(2+2)冗余钛金电源（96%转换效率），无光驱，含导轨。

6、AMD MI210 服务器常用配置

CPU：AMD EPYC 7742 64C 2.25GHz 256MB 225W *2

内存：64GB DDR4-3200 ECC REG RDIMM*8

固态盘：2.5" 960GB SATA 读取密集 SSD*1

数据盘：3.5" 10TB 7200RPM SATA HDD*1

GPU：AMD MI210 64GB 300W*8

2200W(2+2)冗余钛金电源（96%转换效率），无光驱，含导轨。

7、AMD MI250 服务器常用配置

CPU： AMD EPYC™ 7773X 64C 2.2GHz 768MB 280W *2

内存：64GB DDR4-3200 ECC REG RDIMM*8

固态盘：2.5" 960GB SATA 读取密集 SSD*1