您的位置:首页 > 互联网

王小川的百川智能发布开源中英文大模型,清华北大率先使用_百川web

发布时间:2023-06-15 22:51:30  来源:互联网     背景:

6月15日消息,王小川新创业公司百川智能,推出70亿参数量的中英文预训练大模型——baichuan-7B。目前这款大模型已在Hugging Face、Github以及Model Scope平台发布。

公司CEO王小川表示:“本次开源模型的发布是百川智能成立2个月后的第一个里程碑,对百川智能而言是一个良好的开局。baichuan-7B模型,不仅能为中国的AGI事业添砖加瓦,也为世界大模型开源社区贡献了新的力量。”

据了解,baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评估基准进行了综合评估。

一箭9星!我国成功发射齐鲁一号等9颗商业卫星

王小川和百度

在中文C-EVAL的评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分。

C-Eval评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。

在AGIEval的评测里,baichuan-7B综合评分达到34.4分,超过LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。

AGIEval评测基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。

在GAOKAO评测中,baichuan-7B的综合评分达到了36.2分,领先于同参数规模的各种其他预训练模型。

GAOKAO评测基准是复旦大学研究团队创建的评测框架,以中国高考题目作为数据集,用于测试大模型在中文语言理解和逻辑推理能力方面的表现。

此外baichuan-7B在英文上表现同样亮眼。在MMLU的评测中baichuan-7B综合评分高达42.5分,领先英文开源预训练模型LLaMA-7B的34.2分以及中文开源模型ChatGLM-6B的36.9分。

MMLU由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。

百川智能介绍称,训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,公司以高质量中文语料为基础,同时融合了优质的英文数据。在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选;在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。

在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的水平。

同时,已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获越多的上下文信息,2K的处理长度存在比较大的制约。baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B还对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得baichuan-7B模型的收敛速度大大提升。与同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

能与当贝X3抗衡的投影仪

百川智能称,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

baichuan-7B此次开源的内容包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。

据了解,北京大学和清华大学两所顶尖大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。(易科)


返回网站首页

本文评论
100M宽带网速还是不行?试试360安全路由V2(360路由器网速不稳定)
  在互联网发达的今天,很多人在工作中和生活中都离不开网络,很多时候,WiFi信号的强弱也成为用户比较关心的问题。在一些比较注重上网环境和上网速度的家庭早就已经换上了100...
日期:06-21
联发科发布Dimensity Auto天玑汽车平台:高算力、高智能助力安全舒适驾乘体验
说到联发科,很多人可能第一反应就是丰富、强大的智能手机移动平台。事实上,在移动计算领域积累近30年的联发科,可以说是一专多能,在消费电子、智能电视、无线领域、智能家居、笔...
日期:04-18
15年了 谷歌走到了一个十字路口
北京时间5月10日消息,北京时间周四凌晨1点,谷歌第15届 I / O 开发者大会将在加州山景城拉开帷幕。但是这一次,谷歌压力山大,因为这家搜索巨头在其长期主导的人工智能 (AI) 领域突...
日期:05-10
中兴股票大涨「中兴股价涨停:今年将推支持ChatGPT的GPU服务器」
4月7日消息,今天下午中兴通讯股价一度涨停,截止收稿,上涨9.84%,最新市值1750亿元。消息面上,中兴通讯总裁徐子阳在业绩说明会上透露,公司年底推出支持ChatGPT的GPU服务器。4月6日,...
日期:04-07
大卖场转型:电商化救命,会员店换轨「商场的会员拓展方案」
声明:本文来自于微信公众号 新熵(ID:xinshangxz),作者:古廿,授权转载发布。大卖场时代的眼泪——大润发,近期意外交出了一份扭亏为盈的成绩单。最新公布的2023财年业绩中,大润发母...
日期:05-26
PS4模拟器渐入佳境:能玩30多款游戏了_模拟PS4
尽管不少PS4独占甚至第一方游戏已经原生登陆PC平台,但数量并不能算多。所以对部分玩家来说,还有不少人寄望模拟器越做越好。目前以ePSXe、PCSX2为代表的PS3模拟器效果已经相当...
日期:11-01
黄光裕的flag倒了_黄光裕已出来
iphone不开漫游上不了网曲面屏的使用体验   黄光裕的战斗仍未结束,只是属于他的那个英雄时代已经渐行渐远。   作者丨盛佳莹   “力争用未来18个月的时间,使国美恢复原...
日期:08-13
苹果macbook1534价格「苹果供应链已经开始囤积传闻中的15英寸MacBook Air」
据《数字时报》援引业内消息人士的话说,苹果供应链已经开始囤积传闻中的15英寸MacBook Air。报道称,这款笔记本电脑预计将在WWDC上发布。iphone14焕新计划iqoo8对比x60pro尽管...
日期:05-05
笔记本哪个牌子最好用「笔记本哪个牌子最好」
笔记本电脑在现代人的日常生活中扮演着越来越重要的角色,无论是上班族还是学生党,都需要一台性能稳定、轻便易携带的电脑。那么,笔记本电脑哪个品牌最好呢?下面我们通过搜集相关...
日期:05-29
4499元比飞机本体都贵:大疆DJI Goggles 2飞行眼镜独立开售
今年早些时候,大疆发布了DJI Avata无人机,并同步发售了更为轻便,配置也更加出色的飞行眼镜DJI Goggles 2。现在,DJI Goggles 2飞行眼镜终于独立开售,售价为4499元,比DJI Avata本体...
日期:11-29
美国有垃圾「黑了半天中国,掉下来的却是美国的垃圾」
三星Tizen上月底,当咱们中国的长征五号B遥三运载火箭运送问天实验舱进入太空后,一些西方媒体却莫名其妙地蹦了出来,开始炒作说中国的火箭残骸会掉下来“砸向”地球,想以此妖魔化...
日期:09-28
小米13要涨价下周四发布,首发价或4499元起_小米三上市价格
中关村在线消息:近日有消息称,受定位升级、成本、疫情、汇率波动等因素影响,即将发布的小米新一代旗舰机小米13系列预计售价将大幅上调,上调幅度将达15-20%,小米13售价将在4500...
日期:11-30
谷歌新一代操作系统 Fuchsia OS 将支持安卓的 ADB 工具_谷歌新操作系统Fuchsia OS
IT之家 8 月 29 日消息,谷歌的 Fuchsia 团队已经开始了一项新的工作,允许使用 ADB 工具管理 Fuchsia 设备,就像安卓手机一样。ADB 是“Android Debug Bridge”的缩写,顾名思义,该...
日期:09-12
华为荣耀4「华为荣耀4tplaypro」
是一款性价比较高的智能手机,由华为公司推出。荣耀4采用了4.5英寸高清屏幕,分辨率达到了1280*720,给用户提供了清晰、流畅的视觉体验。同时,还搭载了八核处理器,运行速度非常快,便...
日期:05-31
大学生考点摆摊卖9.85与21.1元花束 网友:就冲这寓意基本抢光_摆摊卖花束需要准备什么
6月7日,陕西西安市第八十五中学考点外,一组年轻的大学生摆起了摊位,售卖名为“一举夺魁”和“放青松”的花束,吸引了许多路人的关注。据了解,这些售卖花束的大学生来自陕西师范大...
日期:06-08
摊牌了?全球手机销量排行出炉,华为跌至第10,中国品牌抢占8席「全球手机总销量排行」
时隔3年,华为手机在全球范围内,处于什么水平?都知道,如果没有老美的制裁,华为早已取代三星,成为全球手机出货量最多的手机品牌,稳居全球第一。奈何天意弄人,在过去3年多时间里,华为遭...
日期:06-08
美国芯片跌中国芯片涨「美国芯片巨头股价狂跌 苹果蒸发6106亿」
中关村在线消息:10月7日,道、标、普三大美国股指低开低走,美国芯片股、科技股所在的IT板块遭遇超大跌幅。据悉,芯片股最大跌幅到达14%,而以特斯拉、微软、亚马逊等龙头为首的科技...
日期:10-09
康宁杰瑞双抗临床数据「康宁杰瑞HER2双抗ADC JSKN003在中国获批开展临床研究」
10月29日消息,康宁杰瑞生物制药宣布,公司收到国家药品监督管理局(NMPA)核准签发的《药物临床试验批准通知书》,批准公司HER2双抗偶联药物JSKN003开展一项Ia/Ib期临床研究,评估JSKN...
日期:10-30
《原神》揽金260亿后,米哈游如何布局下个时代?_原神米哈游收入
声明:本文来自于微信公众号 全天候科技(ID:iawtmt),作者:胡描,授权转载发布。9月28日,开放世界二次元手游《原神》迎来了两周年纪念日。据Sensor Tower商店情报数据显示,截至上个...
日期:09-30
又崩了!苹果Apple ID出现大面积故障:登录、支付都不行_apple id出现问题怎么办
快科技5月11日消息,继苹果天气App频繁崩溃后,苹果Apple ID今日下午也出现了大面积故障。电小二户外移动电源价格不少苹果用户反馈称,Apple ID/iCloud账户突然被登出,并且无法进...
日期:05-11