您的位置:首页 > 互联网

秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头

发布时间:2023-12-07 02:43:42  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:丰色,授权转载发布。

国产大模型刚刚出了一位全新选手:

参数670亿的DeepSeek。

它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的Llama2。

并尤其以推理、数学和编码能力为突出。

其中在数学能力上,它测了Grok刚刚参与过的匈牙利今年最新的高中数学考试题,得了65分。

对比Grok当时公布的成绩:59分,以及GPT-4的68分,表现十分出色。

DeepSeek主打一个发布即开源:

共包含70亿和670亿两个参数版本,每个版本均含基础模型和指令微调模型,无需申请,即可免费商用。

同时,它已开放了全面内测,注册一下就能玩。

Ps. DeepSeek的中文能力在GPT-3.5之上,可以使用中文进行测试。

在推特上,DeepSeek也引起了一大批技术同行的关注:

早期测试过的人表示没毛病。

还有人赞誉DeepSeek弥补了开源LLM在数学和编码上的短板。

那么,DeepSeek是如何训练出来的?

与Llama架构相同

DeepSeek使用与Llama相同的架构,即自回归Transformer解码器架构。

其中70亿参数的版本使用多头注意力,670亿参数版本使用分组查询注意力。

预训练在包含2万亿个中英文token的数据集(序列长度4096)和AdamW优化器上进行。

其中70亿参数版本的模型的训练batch size为2304,学习率为4.2e-4;670亿参数版本的模型的batch size为4608,学习率为3.2e-4。

DeepSeek的训练过程中特别采用了多步学习率计划:

先从2000个预测步骤开始,然后在1.6万亿token时逐步达到最大值的31.6%,在1.8万亿token时逐步达到最大值的10%。

有网友看完表示:

这种从1.6万亿token时开启的学习率冷却阶段有点类似于“Scaling Vision Transformers”那篇论文中的lr计划消融操作。

这也与Llama的余弦学习率衰减(要求它们提前指定步数)完全不同,非常有趣。

下图是作者发布的DeepSeek训练损失曲线以及在几个基准上的曲线图:

数学和编码能力突出

我们重点关注DeepSeek进行的如下三大类测试结果。

一个是今年5月才发布的2023年匈牙利高中数学考试题。

尽管DeepSeek已经在GSM8k和MATH这两个标准基准上取得了不错的成绩:

但由于存在过度拟合这些数据集的风险,作者还是决定评估一下样本外的数学泛化能力。

抖音提示侵犯知识产权

如下图所示,位于右上角的670亿参数DeepSeek最终在样本内数学能力(纵轴GSM8K)排名第三,仅次于Claude2和GPT-4,但在样本外数学能力(横轴Exam Score)排名第二,仅次于GPT-4。

第二个是考验DeepSeek指令跟随能力的测试。

在此,作者使用了谷歌11月15日刚刚发布的指令跟随评测集,来评价模型的“听话程度”。

结果是领先一众开源模型,但59.1分的成绩与GPT-4还有20分的差距。

最后是代码能力测试。

同样,作者在这里重点关注了样本外能力,选择的是LeetCode今年7月2日到11月12日的最新真题进行测试。

结果是比国内常见的大模型都要好很多,并且也远远超越了GPT3.5。

背后公司是谁?

经搜索,DeepSeek背后的公司名叫深度求索。base位于北京,今年5月正式成立。

目标不止是大模型,而是AGI。

就在11月初,这家公司就发布代码大模型DeepSeek Coder。

与之前最好的开源大模型CodeLlama相比,DeepSeek Coder在代码生成任务上(使用标准数据集HumanEval、MBPP和DS-1000进行评测)分别领先了9.3%、10.8%和5.9%。

顺丰速运机场

特别值得一提的是,深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。

幻方这家公司听起来和AI“八杆子打不着”,但实际上,2019年时,幻方就发布了自研深度学习训练平台“萤火一号”。

小米11四曲面柔性屏

据称该项目总投资近2亿元,共搭载了1100块GPU。

后来“萤火一号”由升级为“二号”,搭载的GPU数则达到了约1万张。


返回网站首页

本文评论
天猫“百亿补贴”上线双11狂补专场 所有商品支持全网比价_天猫百亿补贴发货规则
10月23日 消息:天猫双11倒计时1天,淘宝加码 “百亿补贴”,上线双11狂补专场。所有参与淘宝百亿补贴的商品支持消费者全网比价,买贵必赔。淘宝百亿补贴页面规则显示,淘宝 App 上...
日期:10-23
为什么说 HTTP/3 正在吞噬世界?
声明:本文来自于微信公众号CSDN(ID:CSDNnews),作者:|Sven Mieke,授权转载发布。超文本传输协议(HTTP)是互联网的基石,可帮助我们加载网页、流式传输视频以及为应用程序获取数据。去...
日期:10-19
Shopee与极客时间联合打造一专多能型人才(shopee极速入驻)
  在互联网职业教育1.0和2.0时代,人才培养侧重于某一专业领域的知识或技能的学习。而到了3.0时代,T型人才成为培养主流。“T”中的“—”表示广博的知识面,“|”表示专业的...
日期:07-10
复旦大学惊人之举!将中国人基因图谱公之于众,引发基因武器疑虑
近日,复旦大学在科学界掀起了一场轰动!他们竟然公开了中国人的基因图谱,引发了众多人的疑虑和讨论。这一举动不仅罕见,更让人不禁思考:这是否意味着基因武器的潜在威胁?这项研究将...
日期:09-27
华为开发者大会官宣 鸿蒙4.0定档8月_科技早报 | 华为发布鸿蒙os手机开发者beta版
对于此次大会,外界普遍猜测鸿蒙OS 4.0将在大会上正式发布。据悉,该系统将采用最新的AI大模型技术,这将为用户提供更加深入、全面、细致和智能化的体验。而作为首发平台,华为旗下...
日期:06-16
Soul星人吸猫日常,发掘生活中的小美好_soul猫控
  云吸猫是时下年轻人经常挂在嘴边的词。除了猫外表可爱性格喜人之外,这其实也在一定程度上反映了年轻人的生活状态。伴随着生活节奏的加快和生活压力的增大,人与人之间的...
日期:09-15
售价超2万元!苹果首款头显Reality Pro高清渲染图出炉:下周发布「苹果6月发布vr头显」
快科技6月1日消息,苹果将会在下周二(6月6日)召开WWDC 2023开发者大会,除了iOS 17等新系统之外,还将发布一些硬件产品。其中,苹果首款AR/VR头显已经确认会亮相,而且是作为最重要的产...
日期:06-01
品牌主理人李佳航的“先锋剧”:元宇宙潮牌PATTHUB诞生
继Adidas与无聊猿、GMoney合作推出的“Into the Metaverse”头个NFT系列产品销售额突破 2200 万美元,Gucci也在佳士得线上拍卖上推出了头个NFT虚拟艺术品Aria系列,此后New Bal...
日期:07-14
红米note13pro「专属淡金色星耀双眸!Redmi Note 13 Pro AAPE潮流限定图赏」
快科技9月25日消息,Redmi日前发布了Redmi Note 13系列,包括Redmi Note 13、Redmi Note 13 Pro、Redmi Note 13 Pro 三款机型。为什么蔡司摄像头只给诺基亚同时,还发布了Redmi N...
日期:09-26
美国登月火箭又又又推迟发射了,这次因为热带风暴!此前因液氢泄漏、发射台被雷劈等多次推迟
据央视新闻最新消息,当地时间9月24日,据CNN消息,因担心热带风暴袭击佛罗里达州,“阿耳忒弥斯1号”登月任务的发射时间再次推迟。图片来源:新华社又一次“液氢泄漏”据央视新闻,当...
日期:09-26
眼科教授繁忙的一天,临床诊断像破案(眼科医生事件)
  记者 王嘉译   时钟指向早上8点,河南省立眼科医院眼遗传病诊区2号诊室内雷博教授开始了一天繁忙的工作。候诊患者排起了长龙,雷博教授的诊室门口也被患者们焦急地包围...
日期:07-14
数字藏品有收藏价值吗_数字藏品交易要注意知识产权问题
转自:经济参考报   平面设计师Beeple的作品《每一天:最初的5000天》。资料图片   2021年3月,一件名为《每一天:最初的5000天》的NFT艺术品以超6900万美元在佳士得拍卖会场...
日期:08-16
真我v11简介「真我11 Pro+正式发布1999元起售」
5月10日消息,真我realme今日正式推出越级影像旗舰——真我11系列,包括真我11 Pro+、真我11 Pro和真我11三款产品。真我11 Pro+将于5月15日10点在全渠道正式开售,起售价1999元。...
日期:05-11
微软加快推送速度 Windows 11 22H2现在可供更多用户使用_windows 10 20h2推送
尽管微软上个月开始推出Windows 11 2022更新(版本22H2),但许多用户无论如何按动"检查更新"按钮,都无法使他们的系统达到最新版本。如果你是那些被困在原始Windows 11版本上的倒...
日期:10-08
双十一破10亿品牌「史上最“卷”双十一,百万品牌怎么破局?」
声明:本文来自于微信公众号甲方财经(ID:jiafangcaijing2019),作者:雷神,授权转载发布。今年的双十一,注定不同往年。●其势,所有品牌,都渴望一场冲量提气;●其道,直播成为最关键的主战...
日期:10-28
NFT周杰伦_NFT史上最大危机?大家却在关心周杰伦
图源:东方IC   来源:IT时报   作者/崔鹏志   编辑/王昕;挨踢妹;   全球NFT交易的“中道崩殂”仍在蔓延。   今年6月,据加密数据媒体The Block最新数据,全球NFT市场交...
日期:07-31
美国的5g技术公司叫什么「美国互联网教父:与美国5G技术相比 华为5G更加先进」
【CNMO新闻】9月12日消息,据新浪科技报道,在上海2023 ESG全球领导者大会前夕,美国互联网教父凯文凯利认定华为手机5G技术更先进。他说,与美国的5G技术相比,华为5G技术更为便宜且...
日期:09-12
中国卫星导航系统应用落地再加速 北斗不只是“导航”(北斗卫星导航系统最新进展)
  几乎是前后脚,中国北斗在过去一个月内迎来两则重磅消息。   8月31日,来自中俄卫星导航重大战略合作项目委员会第六次会议的消息称,中俄双方启动卫星导航合作,北斗、格洛...
日期:08-10
台积电创始人公开发声:半导体不再有全球化 芯片制造商竞争将更加激烈
10月14日,晶圆代工大厂台积电举行了台积电员工运动大会”。92岁的台积电创始人张忠谋警告说,该公司预计将面临更激烈的竞争。据报道,张忠谋表示,在半导体领域,不再有全球化,不再有...
日期:10-16
张朝阳回应曾患焦虑症并已痊愈:没吃药 靠心理学彻底治好「张朝阳谈焦虑」
7月9日消息,近日,歌手李玟因抑郁症轻生去世,抑郁症再次引起人们的关注。随后,一些科技界的CEO也曾患抑郁症的消息在网络上广泛报道,其中包括华为创始人任正非、搜狐创始人张朝阳...
日期:07-09