您的位置:首页 > 互联网

DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好

发布时间:2024-12-27 17:32:34  来源:互联网     背景:

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权转载发布。

像是迷雾中走出的一头怪兽,DeepSeek V3 在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又异常的好——

“在预训练阶段,在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练,DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设H800 GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3 进行了全面的基准测试。尽管 DeepSeek-V3-Base 的训练成本较低,但综合评估表明,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与 GPT-4o 和 Claude-3.5-Sonnet 等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为 1 亿美元,而目前正在开发的AI大模型训练成本可能高达 10 亿美元。未来三年内,AI大模型的训练成本将上升至 100 亿美元甚至 1000 亿美元。

也就是,现在DeepSeek用 550 万美金 2000 张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseek v3 的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o 以及 Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3 为幻方旗下的深度求索公司自研的MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。在Deepseek V3 技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

Deepseek罗列了几个关键的表现领域:

  • 百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

  • 长文本:在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。

  • 代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

  • 数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。

  • 中文能力:DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AI Infra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为深刻。

但V3 真正重要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度提升上,根据Deepseek官方,它的生成速度提升至 3 倍。

通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。

想体验的可以登陆官网 chat.deepseek.com,它也支持 API 访问。而且,新版本将提供 45 天优惠价格体验期,直至 2025 年2 月8 日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它确实证明了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。整体性能超过了gemini 2 flash,以及Claude 3.5 Sonnet。

国内推流youtube

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3 针对分布式推理做了创新的优化,进而显著提升了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型提供了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2 一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行压缩,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

Deepseek V3 使用了辅助损失自由负载均衡策略(Auxiliary-Loss-Free Load Balancing)。

在混合专家模型(MoE)中,每个输入Token会分配给不同的“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过增加一个额外的“辅助损失”来强制均衡负载,但这会对模型性能造成负面影响。DeepSeek通过动态调整专家的偏置值,使输入Token更均匀地分配给不同的专家,而无需引入额外损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整每个专家的偏置,使得分配更公平。它避免了引入额外的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(Redundant Experts)也是这种追求平衡的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不同的副本上,缓解了计算压力并提升了整体推理速度。这种方法可以显著提升分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更稳定的服务性能。

这些动作相当于是告诉那些调不好参数和平衡的人们:

我比你们更聪明。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-Token Prediction Objective, MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能提供更多的反馈信号,加速模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既提升了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8 低精度训练的优化。

小米mui13

买iPhone13还是14

FP8 是一种极低精度的数据表示形式,比FP16 和BF16 的精度更低,但占用的内存和计算资源也更少。问题是FP8 的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更灵活地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法结合FP8 的低资源消耗和高精度运算,解决了传统低精度训练中的不稳定性问题。它大幅减少了训练所需的内存和计算成本,同时保持了与高精度训练相当的稳定性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理大量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,造成资源浪费。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用了每一块GPU的性能。这个设计的核心是将数据分成小块,交替执行“计算”和“通信”任务。通过精确调整各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了提升效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,Deepseek V3 更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800 hack了底朝天[捂脸]太夸张了


返回网站首页

本文评论
手机诞生50周年!世界第一台手机重1公斤、充满电要10小时_世界上第一部手机
近日,联想中国区手机业务部总经理陈劲发布了一篇文章,以此纪念世界首款商用便携式手机——摩托罗拉DynaTAC 8000X的诞生。该手机在1973年9月21日上市,当晚,马丁·库珀用这款手机...
日期:09-22
阅文集团上半年营收40.9亿元 净利6.7亿元基本持平_阅文集团财务分析
查看最新行情   讯 8月15日下午消息,阅文集团今日发布截至6月30日的2022年上半年财务报告。财报显示,2022年上半年,阅文集团营收为40.9亿元,同比下降5.8%,...
日期:08-17
1年电池耗掉20%!iPhone 14/13等大批用户吐槽苹果:换电池也涨价
快科技9月20日消息,对于iPhone耗电过快的事情,很多用户已经无力吐槽。近日有不少网友表示,iPhone 14升级iOS 17后续航依然不让人满意,但这还不是最扎心的,因为买了不到一年,电池最...
日期:09-21
中兴通讯将推自有操作系统_中兴手机操作
     何士友在通信展上向深圳商报记者展示中兴通讯推出的最新智能终端。   “中兴通讯将开发自己的操作系统”,在“2011年中国国际信息通信展览会”上,中兴通讯执行副...
日期:07-23
NVIDIA、微软、谷歌等抢破头!台积电CoWoS封装要涨价20%_台积电 oem
快科技11月3日消息,据摩根士丹利的最新报告,台积电正考虑对其3nm制程和CoWoS先进封装工艺提价,以应对市场需求的激增。台积电计划在2025年实施涨价,预计3nm制程价格将上涨高达5%...
日期:11-03
微信 App 测试朋友圈“修改可见范围”「微信朋友圈功能测试」
IT之家 8 月 24 日消息,微信 iOS 平台迎来了 8.0.27 正式版更新。苹果 App Store 显示,微信 iOS 版 8.0.27 正式版解决了一些已知问题,但并未公布具体更新内容。英伟达rtx3070...
日期:09-21
墨西哥发现外星人「“外星人”遗骸再次亮相墨西哥国会,研究人员称曾是活物」
当地时间11月7日,墨西哥国会就不明飞行物(UFO)举行第二场听证会。研究人员宣布此前展示的秘鲁木乃伊是真实活过的生物遗骸,但拒绝证明这些遗骸是外星生物。etc过收费站2020年...
日期:11-10
香港恒生指数收涨0.47%「香港恒生指数收涨0.33% 零跑汽车收盘跌超22%」
  讯 9月30日下午消息,香港恒生指数收涨0.33%,本周累跌3.96%;恒生科技指数跌0.93%,本周累跌3.89%。昨日上市的零跑汽车今日收盘跌超22%,两日跌幅近50%;蔚来跌超7%,理想汽车跌超4%...
日期:10-05
能赚钱也不能幸免,亚马逊开始裁减广告业务部分员工
亚马逊周二确认,开始裁减广告业务部分员工,CEO安迪·贾西(Andy Jassy)仍在努力削减成本。办公室如何做好防护亚马逊的广告、IMDb和Grand Challenge高级副总裁保罗·科塔斯(Paul K...
日期:10-02
FCC正调查其影响以及其为何仍然存在,美国宽带有流量限制_美国fcc认证产品目录
10 月 16 日消息,美国联邦通信委员会(FCC)正在正式调查宽带数据上限及其对消费者的影响。周二,联邦通信委员会批准了一项调查通知,以审查数据上限是否对消费者和竞争造成损害,以及...
日期:10-16
讯飞智能学习机,激活孩子学习的内驱力
  “勤奋学习、熟能生巧、专心听讲”是当老师、家长经常叮嘱孩子的“学习法宝”这些“法宝”是否真的能在孩子身上见效?家长们很清楚。疫情出现,复课延期,假期变长,在线教学...
日期:07-14
英国一报纸出版商探索用ChatGPT协助记者撰稿_英国报纸原文
2月20日 消息:近日,英国报纸出版商Reach公司宣布成立一个工作组,探索使用ChatGPT协助记者撰写本地天气、交通等短篇报道,或者在传统内容领域之外发掘ChatGPT的创造性用途。该公...
日期:02-22
单场直播破7亿,靠收租涨粉5000W的“广东夫妇”,为何能持续走红?
声明:本文来自于微信公众号 秋叶大叔(ID:qiuyedashu),作者:秋叶大叔,授权转载发布。2020上半年全球手机市场份额我常常说抖音不好做,太卷。但凡事都有例外,你不行,不代表别人不行。...
日期:11-05
garmin运动手表旗舰_Garmin携全系新品亮相CES 2020,两款智能腕表斩获创新大奖
  2020年1月7日-1月11日,国际消费类电子产品展览会(International Consumer Electronics Show,以下简称CES)正在美国拉斯维加斯隆重举行。作为全球最具影响力的科技行业...
日期:07-11
千万级网红"听泉鉴宝"停播内背后:供货商被列入异常经营名单_听泉解析
网红听泉鉴宝遭质疑,学历和藏品成焦点 继知名网红后,拥有超过 2500 万粉丝的抖音博主听泉鉴宝也引发争议,其学历真实性和藏品问题受到关注。目前,听泉鉴宝及其相关账号已删...
日期:10-22
王翔 小米百度百科「小米王翔:小米汽车实现 2024 年正式量产的目标进展非常顺利」
11月24日消息:小米集团发布截至2022年9月30日的第三季度财报。财报显示,小米集团第三季度营收704.7亿元人民币,上年同期780.63亿元,同比下滑9.7%,环比上涨0.4%;净亏损14.74亿元,...
日期:11-30
辛巴开启双11直播带货,单品销售额近10亿元_辛巴 双11
鞭牛士 10月21日消息,今日,快手一哥辛巴开启双11爆品清单活动,在直播中辛巴自曝一款慕思真皮床单品销售额超过10亿元。华为折叠屏最新发布建行手机银行功能改进据鞭牛士查看,该...
日期:10-22
STYLE 3D赋能新天元面料展销,一键打造手机里的面料商场
  (STYLE 3D面料物理属性模拟)   鼠标随机一点,一款面料就能全方位展现在眼前,侧面、正面、背面,随着鼠标的引导,都清晰可见。再一点“放大镜”,面料的纹理高度逼真。这样的...
日期:09-02
iPhone14 Plus刚开售就破发:降价449元也没人买!_iphone13发售会涨价吗
10月7日,也就是昨天,iPhone14系列手机的最后一款机型iPhone 14 Plus正式全网开售,今天已经有首批预订者拿到了新机。然而如同预料的一样,这个一开始就被全网唱衰的iPhone 14 Plu...
日期:10-25
gpt-3语言模型「ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?」
声明:本文来自于微信公众号CSDN(ID:CSDNnews)),作者| 张俊林 责编| 王子彧,授权转载发布。如今,大语言模型已经彻底改变了自然语言处理 (NLP)的研发现状。众所周知,增加语言模型的...
日期:04-03