您的位置:首页 > 互联网

Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练

发布时间:2024-05-29 19:02:36  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

大神Karpathy已经不满足于用C语言造Llama了!

他给自己的最新挑战:复现OpenAI经典成果,从基础版GPT-2开始。

挑战成功本身并不意外,但是只花费20美元、90分钟完成训练,Loss和评测还超越原版,就!有!点!过!分!了!。

不仅如此,他把复现过程写成了完整教程,果不其然再次火爆。

由于Karpathy自己租用的是A100云服务,训练124M版本花费20了美元。

不过有人按照教程用H100跑了一把,不仅训练时间更短,还更省钱了:43分钟完成,只花14美元。

另外Karpathy还自掏腰包200美元,为大家复现了350M版本的GPT-2。

但1.5B大杯版,照计算要花1周时间和2500美元,有点玩不起了,主要他手里也没有H100。

东阿阿胶股份有限公司的历史

还好各路卡壕非常仗义,该出手时就出手:

有需要随时给你用!

只收你2美元一小时!

90分钟复现GPT-2

这次Karpathy复现GPT-2,还是基于他的llama.c代码库,端到端完成训练。

代码库这些日子被他不断完善,现在启动训练非常简单:

具体来说,网络结构是GPT-2,但许多超参数设置遵循了GPT-3的那一套。

Karpathy分析,按照Chinchilla定律的标准,GPT-2在100B tokens上训练应该属于过度训练了,后面收益递减,124M模型按计算2.5Btokens就够。

不过他自己训练了10B tokens,训练数据也用刚刚发布不久FineWeb,比起OpenAI原版WebText数据集token质量更高。

原版WebText从未公开,无法在控制变量在相同条件下实验,另外今天的互联网数据分布,也可能与5年前大不相同了。

据推测,评测分数比原版更高的原因可能就在这些差别了。

另外有网友注意到,训练时的GPU利用效率也比OpenAI的工作高,不过Karpathy表示主要是由于用了单个云服务节点,不需要考虑服务器间通信问题。

最后,对于已训练完的350M版本GPT-2,同样取得了超越原版的成绩。

掌声响起来~

大神也不是那么卷

自今年二月份再次从OpenAI辞职之后,Karpathy已经用C语言搞出不少大模型成果,从Llama到GPT玩了一遍。

观察他的GitHub热力图,只有刚开始休息了一段时间,进入4月以后就越来越卷了。

这是辞职在家还要997的节奏?

其实Karpathy这段时间也旅游过,也分享过在打的游戏,并没那么卷。

根据他晒出的一周时间表:在职时975,离职后工作4-20小时不等,看心情。

  • 周一工作4小时,

  • 周二工作14小时到晚上11点

  • 周三失眠了,4点爬起来写代码,到中午崩溃

  • 周四干了20小时

  • 周五休息

  • 周六12小时

  • 周日4小时

  • 然后出去旅游两周。

大家看到这里也比较好奇,是规律的安排感觉更好,还是随心所欲能有奇效呢?

Karpathy自己也不确定,不过混乱的日程安排肯定更有趣。

最后他还分享了一条自由职业心得:

起床后直接开始工作,不看任何消息,吃完午饭再上网,避免外界信息分散注意力。

有条件的朋友可以试试了。

教程:

https://github.com/karpathy/llm.c/discussions/481


返回网站首页

本文评论
阿里巴巴第一季度云业务收入176.9亿元,同比增长10%(阿里云年报)
讯 北京时间8月4日晚间消息,阿里巴巴(NYSE:BABA;HK:09988)今日发布了截至2022年6月30日的2023财年第一季度及全年财报(注:阿里巴巴财年与自然年不同步,从每年的4月1日开始,至第二年...
日期:08-05
赛事特写 | 芙蓉城中的联通身影「芙蓉城解释」
赛事特写 | 芙蓉城中的联通身影 通信产业网|2023-08-08 11:08:06作者:闫宇 王欢来源:通信产业网【通信产业网讯】八月的成都,似火的热情。经过为期12天的赛场角逐,盛大的“青春...
日期:08-08
花呗车神卡送特斯拉车主1000度电:1月31日前可领充电红包_花呗金兑换特斯拉
快科技1月19日消息,昨日,特斯拉官方宣布,花呗车神卡送特斯拉车主1000度电。据悉,昨日,花呗车神卡与特斯拉发起联合活动,为特斯拉车主送上1000度电的充电福利,且该活动有效期在1月18...
日期:01-19
微动天下教你玩转微信流量 看「稳健集团」有何秘诀?
  摘要:微动天下助力稳健集团进军微信互联网,“小程序+公众号+微商城”或成商家必经之路。   在微信里做运营最困难的一件事就是流量问题,对于企业来讲,获取流量的成本变得...
日期:09-20
“同性别”车厢话题引热议!专家称年轻女性要学会“与狼共舞”
4月25日消息,近期关于同性别”车厢的微博话题引发网友热议。法拉第未来ff91什么时候量产对此,武汉大学尚重生指出,一个社会文明的程度取决于对于女性和儿童的态度,但女性也不要...
日期:04-25
雷军向蔚小理、华为、比亚迪等致敬 深知汽车工业开拓之不易_蔚来雷军股份
12月27日 消息:就在刚刚,小米创办人雷军发文称:“深知汽车工业之复杂,深知开拓之不易,向中国新能源汽车行业先行者致敬!诚挚向比亚迪、蔚来、小鹏、理想、华为和宁德时代等公司...
日期:12-27
剪映Dreamina好不好用 抖音AI视频剪辑软件推荐
剪映Dreamina是一款AI创作工具,可以根据用户输入的文字生成AI创意图片,支持多个维度的生成和修改。这款工具是抖音旗下的产品,目前还在内测阶段,需要邀请码才能体验。有些网红已...
日期:12-12
iqoo78g和12g「iQOO 12明天首销:4000以内唯一配备12G内存的骁龙8 Gen3旗舰」
快科技11月13日消息,iQOO京东自营店显示,iQOO 12将于明天正式开售,起售价是3999元。该机首批搭载高通骁龙8 Gen3移动平台,内存是12GB起步,存储是256GB起,这是4000元以内唯一一款配...
日期:11-13
机构:需求火爆,2023年AI服务器出货量有望年增38.4%「ai服务器龙头股」
研究机构TrendForce日前发布预测,指出随着AI服务器与AI芯片需求同步看涨,预计2023年AI服务器(包含搭载GPU、FPGA、ASIC等主芯片)出货量将接近120万台,年增38.4%,占整体服务器出货...
日期:05-31
OpenAI发布升级版ASR模型Whisper3,计划开放API_openvas api
划重点:华为mate10.8升级鸿蒙- OpenAI在开发者日发布了一系列开源模型,其中包括升级版的自动语音识别模型Whisper3。htc m9怎么样- Whisper3具备多语言支持,可将音频内容转录...
日期:11-08
面板厂Q1业绩非亏即降 下行周期叠加淡季_面板行业概念股
集微网报道(文/林美炳)谁都逃不过行业下行周期叠加淡季的肃杀之气,全球面板厂商今年第一季度业绩一片惨淡,绝大部分厂商出现亏损,少数保持盈利的厂商也难免大幅下滑。所幸的是,经...
日期:09-30
鹿客智能科技有限公司「鹿客CEO陈彬:要像华为一样,在智能锁行业打造自己的技术断裂点」
“未来10年,我们要在四大技术方向(AIoT、机电一体化、智能视频、人物识别),打造我们的技术壁垒。用华为的话说叫技术断裂点。”鹿客科技创始人兼CEO陈彬在接受网易科技等媒体采...
日期:03-23
谷歌合并旗下两大人工智能部门Brain和DeepMind「谷歌突然宣布:谷歌最新人工智能 alphafold」
4月21日消息,谷歌当地时间周四宣布,将旗下两个主要的人工智能研究部门Brain和DeepMind合并,新部门名为Google DeepMind。DeepMind联合创始人兼首席执行官戴米斯·哈萨比斯(Demis...
日期:04-21
B 站举办国创动画作品发布会:推出 51 部动画新品,《三体》动画新 PV 公布
  11 月 20 日晚间消息,哔哩哔哩在 2021-2022 国创动画作品发布会上,推出 51 部动画作品新内容,并启动“寻光”计划,挖掘与扶持更多国产动画创作者。   此次发布会上,B站公...
日期:12-09
疫情来袭的春节很安静, Soul星人的眼神很坚定
  寂静的城市,空旷的马路,2020庚子鼠年的春节格外特殊。没有夜空里烟花的绚烂、酒桌上推杯换盏的笑颜,一场突如其来的疫情像一朵巨大的乌云笼罩在这片土地的上方。从中央到...
日期:05-18
日本数字身份证系统闹信息错误乌龙,首相致歉并延长换卡时间_日本身份证号码几位数
IT之家 6 月 28 日消息,日本最新部署的数字身份证 My Number 系统出现了一些乌龙情况,据日本时报(Japan Times)报道,由于系统未能考虑到姓名相同的可能性,因此在实体身份证件寄送...
日期:06-28
我没接受-钱不是最重要的 董宇辉自曝收到广告发一条给1000万
日前,董宇辉在直播间谈到很多朋友都担心他会不会被亏待了,现金收入少等问题,他表示,真的没少,而且自己要是真想挣钱,也不难。董宇辉说自己前一段时间收到一则广告,抖音私信里有人给...
日期:10-02
百度中标上海商圈项目,BAT区块链布局各有千秋
《百度中标上海商圈项目,BAT区块链布局各有千秋》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:...
日期:08-02
系误会 「自己拍的照片被视觉中国告侵权」-视觉中国回应
【】8月16日消息,8月15日,微博博主@Jeff的星空之旅 发文,称自己拍摄的173张照片,被视觉中国致电称是侵权使用,还被要求赔偿8万余元。华为新品mate50该博主在文中称,这些作品从未与...
日期:09-17
“宁王”斩获本田超级大单!123GWh电池≈160万辆纯电动车…
本田中国正在加速电动化转型,计划向宁德时代采购123GWh电池,足以供应160万辆以上的纯电动车。12月8日,宁德时代(300750)宣布,众锐(北京)贸易服务有限公司(下称众锐公司)与公司签订采购...
日期:12-12