您的位置:首页 > 互联网

650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星

发布时间:2023-07-18 21:11:52  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】开源LLaMA神话再次复现!首个开源650亿参数大模型高性能预训练方案,训练加速38%,低成本打造量身大模型。

「百模大战」正风起云涌,AIGC相关企业融资和并购金额也屡创新高,全球科技企业争相入局。

小米开创了全面屏时代

然而,AI大模型风光无限的背后是成本极其高昂,单次预训练成本或高达上千万元。基于LLaMA等现有开源大模型的微调,也难以满足企业打造核心竞争力和多样化商业使用等需求。

因此,如何低成本量身打造预训练基础大模型,已成为AI大模型浪潮的关键瓶颈。

Colossal-AI作为全球最大、最活跃的大模型开发工具与社区,以当前被最广泛使用的LLaMA为例,提供开箱即用的650亿参数预训练方案,可提升训练速度38%,为大模型企业节省大量成本。

图片

开源地址:https://github.com/hpcaitech/ColossalAI

LLaMA点燃开源热情

Meta开源的7B~65B LLaMA大模型进一步激发了打造类ChatGPT的热情,并由此衍生出Alpaca、Vicuna、ColossalChat等微调项目。

但LLaMA只开源了模型权重且限制商业使用,微调能够提升和注入的知识与能力也相对有限。对于真正投身大模型浪潮的企业来说,仍必须预训练自己的核心大模型。

为此,开源社区也做了诸多努力:

  • RedPajama:开源可商用类LLaMA数据集,无训练代码和模型

  • OpenLLaMA:开源可商用类LLaMA7B,13B模型,使用EasyLM基于JAX和TPU训练

  • Falcon:开源可商用类LLaMA7B,40B模型,无训练代码

但对于最主流的PyTorch + GPU生态,仍缺乏高效、可靠、易用的类LLaMA基础大模型预训练方案。

最佳大模型预训练方案提速38%

针对上述空白与需求,Colossal-AI首个开源了650亿参数LLaMA低成本预训练方案。

相比业界其他主流选择,该方案可提升预训练速度38%,仅需32张A100/A800即可使用,并且不限制商业使用。

图片

而像原生PyTorch、FSDP等,则因显存溢出无法运行该任务。Hugging Face accelerate、DeepSpeed、Megatron-LM也未对LLaMA预训练进行官方支持。

开箱即用

1. 安装Colossal-AI

    gitclone-bexample/llamahttps://github.com/hpcaitech/ColossalAI.gitcdColossalAI#installandenableCUDAkernelfusionCUDA_EXT=1pipinstall.

    2. 安装其他依赖

      cdexamples/language/llama#installotherdependenciespipinstall-rrequirements.txt#useflashattentionpipinstallxformers

      3. 数据集

      默认数据集togethercomputer/RedPajama-Data-1T-Sample将在首次运行时自动下载,也可通过-d或--dataset指定自定义数据集。

      4. 运行命令

      已提供7B和65B的测速脚本,仅需根据实际硬件环境设置所用多节点的host name即可运行性能测试。

        cdbenchmark_65B/gemini_autobashbatch12_seq2048_flash_attn.sh

        对于实际的预训练任务,使用与速度测试一致,启动相应命令即可,如使用4节点*8卡训练65B的模型。

          colossalairun--nproc_per_node8--hostfileYOUR_HOST_FILE--master_addrYOUR_MASTER_ADDRpretrain.py-c'65b'--plugin"gemini"-l2048-g-b8-a

          例如,使用Colossal-AI gemini_auto并行策略,可便捷实现多机多卡并行训练,降低显存消耗的同时保持高速训练。还可根据硬件环境或实际需求,选择流水并行+张量并行+ZeRO1等复杂并行策略组合。

          其中,通过Colossal-AI的Booster Plugins,用户可以便捷自定义并行训练,如选择Low Level ZeRO,Gemini,DDP等并行策略。

          Gradient checkpointing通过在反向传播时重新计算模型的activation来减少内存使用。通过引入Flash attention机制加速计算并节省显存。

          用户可以通过命令行参数便捷控制数十个类似的自定义参数,在保持高性能的同时为自定义开发保持了灵活性。

          图片

          ColossalAI最新的ShardFormer极大降低了使用多维并行训练LLM的上手成本。

          现已支持包括LLaMA的多种等主流模型,且原生支持Huggingface/transformers模型库。

          无需改造模型,即可支持多维并行(流水、张量、ZeRO、DDP等)的各种配置组合,能够在各种硬件配置上都发挥卓越的性能。

          AI大模型系统基础设施 Colossal-AI

          Colossal-AI为该方案提供了核心系统优化与加速能力支持,它由加州伯克利大学杰出教授James Demmel和新加坡国立大学校长青年教授尤洋领导开发。

          Colossal-AI基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,降低GPU需求等。

          Colossal-AI上述解决方案已在某世界500强落地应用,在千卡集群性能优异,仅需数周即可完成千亿参数私有大模型预训练。上海AI Lab与商汤等新近发布的InternLM也基于Colossal-AI在千卡实现高效预训练。

          自开源以来,Colossal-AI已经多次在GitHub热榜位列世界第一,获得GitHub Star超3万颗,并成功入选SC、AAAI、PPoPP、CVPR、ISC等国际AI与HPC顶级会议的官方教程,已有上百家企业参与共建Colossal-AI生态。

          其背后的潞晨科技,近期获得数亿元A轮融资,已在成立18个月内已迅速连续完成三轮融资。

          开源地址:

          https://github.com/hpcaitech/ColossalAI

          参考链接:

          https://www.hpc-ai.tech/blog/large-model-pretraining


          返回网站首页

          本文评论
          阿里云东京奥运会云直播响遍全球_移动云携手咪咕,助力东京实现“云上奥运”
            东京奥运会受疫情影响采用现场无观众方式进行赛事。然而,这一切在数字化技术迅速发展的今天,却并未对国内的体育迷们带来过多影响。   奥运期间,中国移动咪咕推出了全量...
          日期:10-11
          小米11 ultra 镜头「Ultra能力全面下放!小米13系列采用12 Ultra同款徕卡光学镜头」
          小米13系列&MIUI14新品发布会正式定档12月1日(周四)晚七点,官方今天对小米13系列的影像能力进行了预热。小米手机表示,这是一次Ultra能力的全面下放,也是一次徕卡影像的全面传承...
          日期:12-01
          巴菲特再捐7.58亿美元  累计已捐赠460亿美元_巴菲特损失28亿
          11月24日 消息:一份监管文件显示,巴菲特于当地时间11月23日额外又捐赠了240万股伯克希尔哈撒韦B类股票,按收盘价计算价值约7.58亿美元。拯救者r7000p玩3a大作怎么样其中,巴菲特...
          日期:11-29
          锐龙7000上市时间「锐龙7000X3D处理器连烧数起 主板厂商集体行动:AMD回应」
          快科技4月26日讯,近期锐龙7000X3D出现了多起烧毁案例,处理器、主板双双挂掉。据不完全统计,事发后,包括华硕、微星、技嘉、映泰、华擎等在内,纷纷行动,撤掉了受影响的BIOS,并发布新...
          日期:04-26
          疫情结束你最想去哪?快来百度地图许下心愿,赢取千元旅行基金
            疫情结束后,你最想去哪?不知不觉间,这句话成了许多人每天都要问自己的“灵魂拷问”。而随着最近国内疫情防控形势日趋向好,“旅行”也逐渐看到了曙光。近日,为抗击疫情再添...
          日期:12-23
          通用超越福特,晋升美国第二大畅销电动车生产商,还远逊特斯拉
          今年一季度,通用汽车在美国本土的电动汽车销量超过了老对手福特汽车。苏宁新零售商业模式分析通用汽车美东时间4月3日周一公布,一季度在美国售出2.067万辆电动汽车,去年电动车...
          日期:04-05
          ipadmini4能插sim卡吗_苹果:第4代iPhone和iPad不能互换SIM卡
            据国外媒体报道,苹果近日证实,即将上市的第四代iPhone手机和iPad平板电脑不能互换SIM卡。   本月初,苹果CEO史蒂夫·乔布斯(Steve Jobs)发布了第四代iPhone手机,从6月15...
          日期:07-30
          搜狐与MSN中国进行战略合作 谁会获益_msn合作了几年
            搜狐视频周二下午在其官方微博上已经证实,搜狐(Nasdaq:SOHU)已经确定了与MSN中国的战略合作,其核心内容是MSN的登录账号将与搜狐视频账号互通合作。   事实上,早在一个月...
          日期:07-24
          NVIDIA澄清:RTX 4090供电采用850W电源即可「rtx2060用450w电源够吗」
          早在NVIDIA发布RTX 40系显卡之前,就曾有消息称RTX 4090显卡将需要超过900W的高额功耗,引起了不少消费者的担忧。现在,NVIDIA更新了其客户支持页面,终于澄清了这一传言。根据NVID...
          日期:09-30
          比亚迪电子:前三季度营业额711.56亿元 同比增长7.92%_比亚迪电子第一季度业绩
          10 月 28 日讯:比亚迪电子发布未经审计业绩称,前 9 个月营业额为711. 56 亿元,同比增长7.92%。母公司权益拥有人应占溢利12. 37 亿元,同比减少42.66%;每股盈利0. 55 元。华为保...
          日期:10-28
          美国云计算软件股纷纷大涨 需求仍强劲_美国云计算上市公司
          魅族社区黄章最新消息天猫魔屏推荐微软surfacepro4配置罗永浩抖音粉丝量浙江各个市车牌号识别   讯 北京时间8月15日早间消息,据报道,今年年初,美国云计算软件股纷纷下跌,但现...
          日期:08-16
          怕孩子哭闹父母包下商务车厢 网友看法不一
          3月29日,天津。袁女士和丈夫带着6个月大的宝宝回湖南老家,担心宝宝会闹,于是买下商务车厢的所有座位。袁女士称花了11955元,自己也是第一次知道可以包商务车厢。据了解,这对小夫...
          日期:03-31
          联想昭阳e46a_联想昭阳e46a配置参数
          是一款轻薄便携型笔记本电脑,适合商务人士和学生使用。今天我们来一起了解一下这款电脑的主要配置和特点。首先,采用了第七代英特尔酷睿i5-7200U处理器,性能强劲,可以轻松应对办...
          日期:05-29
          淘特发布招商新政策:免服务费、减保证金以及送推广券「淘特推广佣金制度」
          11 月 25 日消息,淘特今日发布招商新政策,自 2022 年 11 月 25 日起新商入驻即可获得三大福利,其中包括全店服务费减免、保证金减50%、开店即得 300 元推广券,该政策自今日起生...
          日期:11-27
          真双核真兼容真免费 可牛免费杀毒新版发布
            6月8日,可牛免费杀毒正式发布了 1.0 beta 2版,“真双核”“真兼容”“真免费”为其最大特色。据了解,可牛免费杀毒采用“卡巴斯基反病毒引擎+可牛云查杀引擎”的双引擎构...
          日期:07-29
          Roblox二季度业绩未达预期:游戏行业后疫情时代需求乏力_roblox为什么亏损
          微盟商户app下载爱奇艺龚宇简介钢琴家郎朗怎么了 查看最新行情   讯 北京时间8月10日早间消息,据报道,美国游戏平台公司Roblox周二发布的季报未达市场预...
          日期:08-11
          腾讯三体网剧「腾讯和 Netflix 的《三体》 我谁都不看好」
            来源:爱范儿  难点在叙事视角  三体迷们,只要你愿意,全世界的屏幕都可以为你闪烁 —— Netflix 版《三体》第一季先行中文特辑正式放送!  据悉,Netflix 版《三体》由《...
          日期:10-02
          不到一天两纪录!《消失的她》票房破8亿_消失的她 谜案馆
          6月26日消息,根据灯塔专业版消息,截止今天17时37分,电影《消失的她》票房已经突破8亿元。而在今天凌晨0点0分,该作的票房刚刚踏破7亿元门槛。这意味着,《消失的她》在不到一天的...
          日期:06-26
          当当入驻京东,昔日霸主认输了?「当当为什么输给京东」
          声明:本文来自于微信公众号伯虎财经(bohuFN),作者:梦得,授权转载发布。1月10号上午,当当网在微博上称:“对手变队友,你好,新队友。”宣布入驻京东,摆足了姿态。京东图书文娱也发布相...
          日期:01-12
          戴口罩人脸识别、多人实时体温检测   百度一步到位解决复工难题
            推动企业安全有序复工复产,是全力战“疫”状态下,促进经济稳定运行的前提。近日,百度基于领先的复杂场景多人脸检测、戴口罩人脸识别、多人实时体温检测等AI技术,打造出企...
          日期:12-08