您的位置:首页 > 互联网

MosaicML推开源大语言模型MPT-7B-8K 上下文长度达8k

发布时间:2023-07-21 00:19:46  来源:互联网     背景:

7月20日 消息:MosaicML 发布了名为 MPT-7B-8K 的7B 参数开源语言模型(LLM),支持8K 的上下文长度。与以前的模型相比,MPT-7B-8K LLM 在摘要和回答任务方面展现出卓越的能力。

image.png

据该公司称,该模型在 MosaicML 平台上进行训练,并从 MPT-7B 检查点开始进行预训练过程。预训练阶段使用Nvidia H100进行,另外在256个 H100上进行了三天的训练,包含了令人印象深刻的5000亿个token数据。

华为旗舰店618活动

image.png

MosaicML 发布的 MPT-30B 在人工智能社区引起了轰动,MPT-30B 是一种开源且商业许可的基于解码器的 LLM。该公司声称其比GPT-3-175B更强大,参数只有GPT-3的17%,相当于300亿。

MPT-30B 在各种任务中的性能都超过了 GPT-3,并且证明比类似大小的模型训练效率更高。例如,LLaMA-30B 所需的 FLOPs 预算比 MPT-30B 大约高1.44倍,而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高1.27倍。

MosaicML 声称,与之前发布的所有型号相比,新型号 MPT-7B-8K 在文档摘要和问答任务方面表现出卓越的熟练程度。该模型专门针对加速训练和推理进行了优化,以获得更快的结果。此外,它还允许在 MosaicML 平台内微调特定领域的数据。

该公司还宣布提供 MPT-7B-8k 的商用版本,强调其在包含1.5万亿token的广泛数据集上的出色训练,超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等类似模型。

英国解除禁令

MosaicML 声称,通过使用 FlashAttention 和 FasterTransformer,该模型在快速训练和推理方面表现出色,同时受益于llm-foundry 存储库提供的开源训练代码 。

该公司发布了三种版本的模型:

  • MPT-7B-8k-Base: 这种解码器式 Transformer 基于 MPT-7B 进行预训练,并进一步优化,扩展序列长度为8k。它接受了5000亿个令牌的额外训练,产生了包含文本和代码的1.5万亿个token的大量语料库。

  • MPT-7B-8k-Instruct: 该模型专为长格式教学任务而设计,包括总结和问答。它是通过使用精心策划的数据集对 MPT-7B-8k 进行微调而制作的。

  • MPT-7B-8k-Chat: 此变体充当类似聊天机器人的模型,专注于对话生成。它是通过使用约15亿个聊天数据token对 MPT-7B-8k 进行微调而创建的。

Mosaic 声称,MPT-7B-8k 模型表现出与当前其他具有8k 上下文长度的开源模型相当或更好的性能,该公司的上下文学习评估工具证实了这 一点。

官方博客:https://www.mosaicml.com/blog/long-context-mpt-7b-8k


返回网站首页

本文评论
Gartner: Q1苹果三星手机份额均下滑 中国厂商崛起_IDC公布Q3全球平板出货报告 苹果1390万台位居榜首
11月2日消息,据国外媒体报道,市场分析公司IDC发布2020年第3季度全球平板电脑的市场分析报告,2020年Q3平板电脑全球市场出货量达4760万台, 同比增长24.9%。不同于本季度全球手机...
日期:08-02
中兴通讯发布财报:2022年实现净利80.8亿 营收1229亿
【网易科技3月10日报道】中兴通讯发布2022年度业绩报告。报告期内,实现营业收入1,229.5亿元,同比增长7.4%;归母净利润80.8亿元,同比增长18.6%;扣非归母净利润61.7亿元,同比增长86....
日期:03-11
投屏搜不到电视难题已破,乐播云投屏100%连接?(电视上找不到乐播投屏)
  导读:把手机视频投屏电视看,已成为在家看电视的主流入口之一。对于投屏我们使用得越来越多,可依然有一部分人认为使用投屏有门槛,经常搜不到设备,需要确认是否同一wifi。为...
日期:10-02
老机型满血复活 ColorOS 13 11月适配计划公布:一加6款机型喜提正式版_coloros 11适配机型更新时间
11月1日消息,日前,ColorOS官方公布了2022年11月的ColorOS 13升级适配计划,包括公测、正式两个版本。正式版升级计划机型:11月8日:OPPO Reno8 Pro+ 5G;11月16日:一加Ace、一加9RT 5G...
日期:11-09
2021鲁大师笔记本性能排行_鲁大师PC最新硬件排行,汇总2021上半年最强硬件产品!
  近期,鲁大师2021年半年报发布了PC最新硬件排行榜,下面将为大家从内存PC处理器性能排行榜、最受欢迎处理器排行、CPU市场占比排行、内存市场占比排行、硬盘性能排行、硬盘...
日期:01-02
蔡依林出道24年首次liveband 快手:695万人同时在线看直播「蔡依林2020现场」
7月14日,蔡依林在快手独家直播线上演唱会,这也是她出道24年的首次尝试liveband(乐队现场演出)。根据快手公布的官方数据,蔡依林这场演唱会直播预约人数总计1927万,直播最高同时在...
日期:07-15
iPhone14Pro没SIM卡槽信号更差了_苹果12promax插上sim卡没有信号
没错,iPhone 14又翻车了。此次iPhone 14系列部分地区取消了SIM卡槽,全部采用eSIM,但有用户表示,明明在家里没有信号干扰的地方,手机信号只有1-2格,而iPhone 13信号满格,而且5G网速...
日期:09-30
华为、小米、OPPO、vivo联手干了件大好事:手机快充终于通用了_华为 oppo vivo 小米
手机快充近年来是国产手机技术领先三星、苹果的地方,而且旦用难回,100W以上的快充不到半小时就能充满电,治好了大家的续航焦虑症。iqoo 7快充型号不过国内的四大品牌中,华为、小...
日期:10-05
苹果推送iOS 17首个公测版本_ios15公测版推送
7月13日 消息:近日,苹果公司向iPhone用户推送了iOS17的首个公测版本。然而,这一更新并不面向所有用户,而是需要与开发者账户关联的Apple ID才能进行安装。要进行升级,用户可以在...
日期:07-13
985毕业卖手抓饼当村官 我想治好精神内耗
  现在的年轻人似乎越来越“离经叛道”了,在就业市场也常常做出一些违背社会惯性认知的选择。  “高学历辞职做游戏主播”“离开投行做自媒体”“北大毕业当城管”“清华...
日期:08-28
伊利金领冠珍护2段800克价格「伊利金领冠珍护升级A2型奶源,定义“好奶粉新标准”」
近日,伊利金领冠旗下明星大单品珍护焕新上市,以鲜活A2 型生牛乳[1]全面进阶新一代超级[2]配方。全新金领冠珍护以超级配方、超级[3]奶源、超级[4]原料、超级[5]工艺、超级[6]...
日期:07-19
中国联通5g产品「联通研究院发布《中国联通5G随行网络增强架构白皮书》」
通信世界网消息(CWW)随着5G网络的发展,以及5G网络与垂直行业的深度融合,业务部署情况以及用户的业务使用习惯都发生了很大变化,传统的网络路由设计以及容灾方式已经无法满足用户...
日期:06-27
iPhone 14 Plus免税版开卖:能便宜289元_苹果13免税后多少钱
今年苹果发布了4款iPhone 14系列手机,取消了mini型号,新增了iPhone 14 Plus这一型号,也是最晚开卖的系列,昨天才上市首销,售价6999元起,现在海南免税店版的iPhone 14 Plus也开卖了...
日期:10-09
取代 WebGL,谷歌 Chrome 94 Beta 新增 WebGPU API,支持苹果 Metal
  8 月 31 日消息 外媒 9to5 Mac 报道,谷歌本周宣布推出 Chrome 94 Beta 测试版,这是谷歌桌面浏览器的下一个更新。除了一般的改进之外,这次更新还增加了对新的 WebGPU API...
日期:07-17
三星980pro是pcie4.0吗「三星回应 990 Pro SSD 使用 PCIe 4.0 而非 5:根据市场情况判断」
IT之家 9 月 1 日消息,上周,三星正式发布了 Samsung990 PRO PCIe 4.0SSD,官方称 990 PRO 充分平衡了高速度、高能效和高可靠性的要求,采用了 3D TLC(3bit)颗粒以及新的自研主控,顺...
日期:09-17
印度富士康今日消息「退出印度芯片制造了?富士康回应」
凤凰网科技讯 北京时间7月11日消息,在周一宣布退出价值195亿美元的印度芯片制造合资项目后,富士康在印度的布局备受关注。富士康周二发表声明,再次进行了解释。谈到公司与印度...
日期:07-12
杰克·韦尔奇:马云应购雅虎 乔布斯是伟大CEO
  尽管已经从通用电气董事长兼CEO位置上退下10年,但杰克·韦尔奇这位被称为“世界第一CEO”的传奇管理大师,依然有着无数的粉丝和拥趸。昨日,在环球市场主办的G MC总裁论坛...
日期:07-22
Nreal徐驰:未来AR眼镜规模将超越手机 国产企业有望领跑苹果
文|张俊   元宇宙热潮之下,VR/AR企业正在走向新一轮风口。   不过,在接受媒体采访时,Nreal创始人兼CEO徐驰更愿意将之称为空间互联网。他认为,从互联网到移动互联网之后,下个...
日期:08-16
2023开放原子全球开源峰会高峰论坛成功举办「开放原子开源基金会辟谣」
   6 月 11 日,以“开源赋能,普惠未来”为主题的 2023 开放原子全球开源峰会高峰论坛在北京成功举办。工业和信息化部相关司局、北京市经济和信息化局、北京经济技术开发区...
日期:06-14
港股美团跌超11%,市值跌破1万亿港元(美团港股上市首日)
查看最新行情   讯 8月16日下午消息,港股美团跌超11%,报159.6港元每股,市值跌破1万亿港元。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,...
日期:08-19