「科技点亮生活智能改变世界」

OpenAI科学家盛赞中国大模型：算法非常强，算力用到极致！

发布时间：2024-12-30 11:07:27 来源：互联网背景：

声明:本文来自于微信公众号AIGC开放社区，授权转载发布。

OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地，分享了一个来自中国的开源大模型——DeepSeek-v3。

Karpathy表示，DeepSeek仅用了280万小时的GPU算力，就训练出了比Llama-3405B（使用3080万小时GPU）更强的前沿模型，整体成本节省了11倍左右，将算力发挥到了极致。

这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下，使用高质量数据、更好的算法同样能训练出高性能大模型。

此外， DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中，性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型，成为目前最强开源大模型之一。

国外网友表示，看来限制对中国的芯片供应并没有扼杀他们的进步，反而促进了技术创新。有趣的是，资源限制不仅仅是障碍，它们还能强有力地推动创造力。

看了这个网友评论还是挺心酸的，国内被限制AI芯片，无法获得更高的算力，我们靠着智慧、创新精神依然冲破封锁——天行健君子以自强不息!

美国真的确定要把中国“排除在人工智能竞赛之外”吗?在我看来，我们可能会在后面追赶……

中国人得到“柠檬”后，会榨干它的每一滴汁，然后做出美味的柠檬水。希望美国那些资源受限的实验室也能取得同样的成就。

马斯克推特ceo

中国即将成为超级人工智能大国。

这个模型很出色，但实现这一成就的团队更优秀，人类的创造力真是无穷无尽。

DeepSeek为弥补较小模型限制，进行的改进是否也可以应用于更大的模型?我们能否期待在使用10万个 GPU 的集群时也获得类似11倍的能力提升?

很想尝试DeepSeek的API，但是从今早开始一直失败的。

非常喜欢开源模型，他们迫使西方世界不得不降低价格。

Deepseek的团队是一群超有才华的前量化分析师。量化分析师以榨取每一点性能提升而闻名。他们又一次成功了，只是这次是在不同的领域。高智商的人真是世界的福音。

他们的训练效率非常疯狂。

使用的训练数据与 Llama3405B 大致相同，约为15万亿。但在相同的训练数据下，算力却减少了10倍。

哇塞，终于有人破解了训练效率难题。当其他人都在用数十亿美元计算他们的AI预算时，DeepSeek仅用他们的零头就能开发出前沿大模型。看来，仅仅投入更多的GPU并不总是解决问题的办法。

这位老哥直接上图片，DeepSeek直接打跑OpenAI、Meta~

Deep Seek v3模型简单介绍

Deep Seek V3的架构延续了第二代的高效推理和低成本训练策略，主要包括多头潜在注意力（MLA）和混合专家(MoE)两大块。

MLA是V3的核心创新之一，主要用于减少推理过程中的内存占用。MLA将键和值压缩为一个潜在向量，并在推理过程中仅缓存该向量，而不是完整的键和值矩阵。

MLA的压缩过程通过下投影矩阵和上投影矩阵实现。下投影矩阵将输入向量压缩为潜在向量，上投影矩阵将潜在向量还原为键和值。通过这种方式，MLA在推理过程中仅需缓存潜在向量和分离的键，从而显著减少了内存占用。

MLA还对查询进行了低秩压缩，进一步减少了训练过程中的激活内存。所以，MLA是V3极大降低算力的主要原因之一。

传统的MoE架构，面对大规模的数据处理任务时，容易出现专家负载不均衡的情况。这种不均衡会导致严重的后果，其中最为突出的就是路由崩溃问题。当某些专家承担了过多的负载，而其他专家则相对空闲时，路由机制可能会因为无法有效分配任务而陷入混乱，进而导致模型无法正常工作。

由于专家负载的不平衡，计算资源无法得到合理分配，使得整体计算过程变得缓慢且低效。在处理复杂的语言任务时，需要大量的算力来支持模型的推理和决策过程。

而V3对MoE进行了改良，引入了一套先进的动态调整机制，专门用于优化专家负载。在训练过程中，使得MoE会实时监测每个专家的负载情况，通过一系列复杂而精确的算法，根据实际负载动态地调整任务分配。这种动态调整并非简单的平均分配，而是根据专家的实时处理能力和当前任务的特点进行智能分配。

例如，当某个专家的负载过高时，模型会自动将一部分任务转移到负载较轻的专家上，确保每个专家都能在合理的负载范围内工作。

此外，V3的MoE 还使用了特殊的方法，会为每个专家设置一个动态的负载阈值，当负载超过该阈值时，触发负载调整机制。在调整过程中，模型会综合考虑多个因素，例如，专家的历史处理效率、当前任务的紧急程度以及整个系统的负载均衡情况等，所以，V3的 MoE 既解读了路由崩溃的难题，还将算力发挥到了极致。

其实写到这里心里有一个疑问，Deep Seek要是有10万张H100，能开发出像o3那样的超强大模型吗?

Deep Seek除了开源最新模型之外，他们还提供了免费的在线服务，想尝试的小伙伴可以去体验一下。值得一提的是，还可以使用像o1模型那样的深度思考模式，并且会把整个推理过程全部写出来。

开源地址:https://github.com/deepseek-ai/DeepSeek-V3

在线体验:https://chat.deepseek.com/

笑脸:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b

声明：本文来自微信公众号“铅笔道”（ID:pencilnews），作者:言荒，，授权转载发布。最近，美国教培上市公司Chegg公开表示:ChatGPT正在损害其业务增长。它的用户主要是学生。官方透露:今...