您的位置:首页 > 互联网

OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!

发布时间:2024-12-30 11:07:27  来源:互联网     背景:

声明:本文来自于微信公众号AIGC开放社区,授权转载发布。

OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。

Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。

这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。

此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。

国外网友表示,看来限制对中国的芯片供应并没有扼杀他们的进步,反而促进了技术创新。有趣的是,资源限制不仅仅是障碍,它们还能强有力地推动创造力。

看了这个网友评论还是挺心酸的,国内被限制AI芯片,无法获得更高的算力,我们靠着智慧、创新精神依然冲破封锁——天行健 君子以自强不息!

美国真的确定要把中国“排除在人工智能竞赛之外”吗?在我看来,我们可能会在后面追赶……

中国人得到“柠檬”后,会榨干它的每一滴汁,然后做出美味的柠檬水。希望美国那些资源受限的实验室也能取得同样的成就。

马斯克 推特ceo

中国即将成为超级人工智能大国。

这个模型很出色,但实现这一成就的团队更优秀,人类的创造力真是无穷无尽。

DeepSeek为弥补较小模型限制,进行的改进是否也可以应用于更大的模型?我们能否期待在使用10万个 GPU 的集群时也获得类似11倍的能力提升?

很想尝试DeepSeek的API,但是从今早开始一直失败的。

非常喜欢开源模型,他们迫使西方世界不得不降低价格。

Deepseek的团队是一群超有才华的前量化分析师。量化分析师以榨取每一点性能提升而闻名。他们又一次成功了,只是这次是在不同的领域。高智商的人真是世界的福音。

比亚迪发布新款

他们的训练效率非常疯狂。

使用的训练数据与 Llama3405B 大致相同,约为15万亿。但在相同的训练数据下,算力却减少了10倍。

风帆股份最新公告信息

哇塞,终于有人破解了训练效率难题。当其他人都在用数十亿美元计算他们的AI预算时,DeepSeek仅用他们的零头就能开发出前沿大模型。看来,仅仅投入更多的GPU并不总是解决问题的办法。

这位老哥直接上图片,DeepSeek直接打跑OpenAI、Meta~

Deep Seek v3模型简单介绍

Deep Seek V3的架构延续了第二代的高效推理和低成本训练策略,主要包括多头潜在注意力(MLA)和混合专家(MoE)两大块。

MLA是V3的核心创新之一,主要用于减少推理过程中的内存占用。MLA将键和值压缩为一个潜在向量,并在推理过程中仅缓存该向量,而不是完整的键和值矩阵。

MLA的压缩过程通过下投影矩阵和上投影矩阵实现。下投影矩阵将输入向量压缩为潜在向量,上投影矩阵将潜在向量还原为键和值。通过这种方式,MLA在推理过程中仅需缓存潜在向量和分离的键,从而显著减少了内存占用。

MLA还对查询进行了低秩压缩,进一步减少了训练过程中的激活内存。所以,MLA是V3极大降低算力的主要原因之一。

传统的MoE架构,面对大规模的数据处理任务时,容易出现专家负载不均衡的情况。这种不均衡会导致严重的后果,其中最为突出的就是路由崩溃问题。当某些专家承担了过多的负载,而其他专家则相对空闲时,路由机制可能会因为无法有效分配任务而陷入混乱,进而导致模型无法正常工作。

由于专家负载的不平衡,计算资源无法得到合理分配,使得整体计算过程变得缓慢且低效。在处理复杂的语言任务时,需要大量的算力来支持模型的推理和决策过程。

而V3对MoE进行了改良,引入了一套先进的动态调整机制,专门用于优化专家负载。在训练过程中,使得MoE会实时监测每个专家的负载情况,通过一系列复杂而精确的算法,根据实际负载动态地调整任务分配。这种动态调整并非简单的平均分配,而是根据专家的实时处理能力和当前任务的特点进行智能分配。

例如,当某个专家的负载过高时,模型会自动将一部分任务转移到负载较轻的专家上,确保每个专家都能在合理的负载范围内工作。

此外,V3的MoE 还使用了特殊的方法,会为每个专家设置一个动态的负载阈值,当负载超过该阈值时,触发负载调整机制。在调整过程中,模型会综合考虑多个因素,例如,专家的历史处理效率、当前任务的紧急程度以及整个系统的负载均衡情况等,所以,V3的 MoE 既解读了路由崩溃的难题,还将算力发挥到了极致。

其实写到这里心里有一个疑问,Deep Seek要是有10万张H100,能开发出像o3那样的超强大模型吗?

Deep Seek除了开源最新模型之外,他们还提供了免费的在线服务,想尝试的小伙伴可以去体验一下。值得一提的是,还可以使用像o1模型那样的深度思考模式,并且会把整个推理过程全部写出来。

开源地址:https://github.com/deepseek-ai/DeepSeek-V3

在线体验:https://chat.deepseek.com/

笑脸:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b


返回网站首页

本文评论
50亿巨头紧急自救:ChatGPT正“杀死”自己
声明:本文来自微信公众号“铅笔道”(ID:pencilnews),作者:言荒,,授权转载发布。最近,美国教培上市公司Chegg公开表示:ChatGPT正在损害其业务增长。它的用户主要是学生。官方透露:今...
日期:05-06
阿斯顿马丁dbs黄金「詹姆斯邦德同款!阿斯顿马丁DB12 “金手指"版上市:售价461万元」
为了纪念《007:金手指》60周年,阿斯顿马丁推出了一款限量版DB12,名为“金手指特别版”,全球仅售60辆。该车售价为461.6007万元,旨在向这部标志性的电影致敬。这款特别版车型采用...
日期:11-15
境外来华人士可使用数字人民币便捷支付 微信支付多场景支持
【】4月24日消息,在中国人民银行数字货币研究所指导下,腾讯数字人民币项目组以“条码互通”、“钱包快付”等功能创新,进一步提升境外来华人士的数字人民币支付体验。境外来华...
日期:04-24
被央视推荐的会议平板,都有怎样的办公“新”体验?(会议平板哪家好)
  随着各类智能技术以及数字化技术的高速发展,数字化、智能化转型正渗透到生活的方方面面,社会正向智慧时代迈进。而目前不少企业的办公模式还停留在十年前,在智慧时代的当...
日期:05-06
魅族21Pro曝光:真无界+2亿,这才是梦中情机「魅族20t」
随着全面屏手机的进一步发展,全面屏手机的颜值变得越来越重要了,因此一款产品能否引起大家的注意,那么产品的颜值就是关键。魅族手机是一个非常注重产品颜值设计的手机厂商,是一...
日期:07-12
samsung alpha「Aqara亮相三星发布会,为全球用户带来智能家居新体验」
(原标题:Aqara亮相三星发布会,为全球用户带来智能家居新体验) 1月25日,三星Galaxy S24系列中国新品发布会吸引了全国目光,不仅...
日期:01-26
识渊是什么意思「势如破竹!识渊科技连获两项荣誉奖项,引领科技潮流!_」
(原标题:势如破竹!识渊科技连获两项荣誉奖项,引领科技潮流!) 近日,识渊科技凭借雄厚的技术研发能力和科技创新实力,一举拿下横琴国...
日期:01-30
我国甘肃发现超亿吨级整装大油田:已探明超5000万吨_甘肃石油储量有多少吨
快科技12月1日消息,据中国石油长庆油田分公司披露,经过两年多时间的勘探攻坚,在甘肃省庆阳市环县洪德地区发现了地质储量超亿吨级的整装大油田。 这一发现,标志着鄂尔多斯盆...
日期:12-02
改款特斯拉Model 3实车现身:圆形方向盘、依旧没有仪表「特斯拉model3方向盘圈数」
快科技5月12日消息,近日,有国外网友拍到了改款特斯拉Model 3(代号Highland)测试车,从中可以得到一些前瞻信息。从曝光的实车看,新款Model 3尺寸变化不大,由于前后均覆盖有黑色伪装...
日期:05-12
ios15公测版beta6「苹果iOS 16/iPadOS 16公测版Beta 3发布」
【点此直达描述文件下载】IT之家8 月 10 日消息,苹果昨天向 iPhone 和 iPad 用户推送了 iOS / iPadOS 16 开发者预览版Beta 5更新(内部版本号:20A5339d),今天苹果发布了iOS / iPa...
日期:09-15
重庆将恢复开行直达香港高铁 3月23日车票开售_重庆通香港的高铁
重庆市民可以乘坐直达列车去香港了。铁路部门将逐步增开广深港高铁香港西九龙站与广东省内跨境高铁列车40列、与广东省外的长途跨境高铁列车22列,届时广深港高铁每日跨境高铁...
日期:03-23
三星neo qled 4k评测_从光源到画质的全面创新,三星Neo QLED这样打造高品质观影体验
  显示技术不断进步,研发人员始终通过探索显示科技打造理想的画质。三星Neo QLED的研发人员同样致力于探索更加出色的屏幕显示技术,并以超出想象的屏幕表现不断提升用户的...
日期:05-12
可重复使用10次以上 中国130吨级液氧煤油发动机试车成功「120吨液氧煤油发动机」
最近一段时间,我国在航天发动机上不断取得突破,不仅500吨级重型火箭试车成功,现在可重复使用火箭发动机也有了进展,130吨级可重复使用泵后摆液氧煤油发动机首台两次起动试车圆满...
日期:11-28
斯坦福华人博士文生视频Pika 1.0爆火!4人公司估值2亿,OpenAI联创参投_pi是由斯坦福大学博士
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】仅有四人的初创公司,已经融资5500万美元,融资名单几乎集齐了硅谷的半壁江山,半年用户超50...
日期:11-29
赢!杭州中学生战胜麻省理工学霸
中关村在线消息:近日,根据国内媒体报道,在11月27日浙江杭州举办的编程大赛上,来自杭州文渊中学的周航锐战胜了来自麻省理工大学、清华大学、北京大学等国内外名校的选手,夺得本次...
日期:11-30
最新“只用一张图转3D”方法火了!GitHub刚建空仓就有300+人标星
7月24日 消息:最新的一种只用一张图转3D 的方法名为 Magic123,在 GitHub 上刚建立空仓就有300多人标星。与之前的方法相比,Magic123能够生成高质量、高分辨率的3D 网格,并且还...
日期:07-24
麻省理工学院衍生企业 CFS 宣布将建设全球首座商用核聚变发电厂_美国麻省理工研发新核电技术
IT之家 12 月 21 日消息,美国麻省理工学院分拆出来的联邦核聚变系统公司(Commonwealth Fusion Systems,CFS)本周四宣布,将在弗吉尼亚州切斯特菲尔德县建造世界上第一座商用核聚变...
日期:12-22
neo9spro发布Neo9S Pro官宣_5月20日见 首批搭载天玑9300+-iQOO_neo3 1799
来源:中关村在线iQOO今日宣布,其最新款手机iQOO Neo9S Pro将于5月20日19:30正式发布。这款手机将是首批搭载天玑9300+旗舰芯片的机型之一,并且还将提供全新的星曜白配色供消费...
日期:05-15
比尔 - 盖茨「比尔·盖茨:AI Agent 将成为安卓、iOS 和 Windows 的下一个平台」
11 月 13日消息:微软联合创始人比尔·盖茨近日在博客中分享了他对于人工智能(AI)未来发展的预测,认为 AI 即将永久改变我们使用计算机的方式。小鹏汽车 小鹏是谁据盖茨表示,随着...
日期:11-13