您的位置:首页 > 媒体评论

李飞飞高徒教你从0到1构建GPT 马斯克点赞

发布时间:2023-01-23 01:02:05  来源:互联网     背景:

詹士 发自 凹非寺

“从0到1手搓GPT”教程来了!

视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把手带着你搞定。

该内容刚发出来,在Twitter已吸引400万关注量,HackerNews上Points也破了900。

连马斯克也下场支持。

评论区更是一片锣鼓喧天鞭炮齐鸣,网友们纷纷马住。

有人评价,Andrej确实是一位出色的“事物解释者”,也热心于回答大家的问题。

还有网友更夸张,称该教程简直是来“救命”。

三星note9开箱

那么,这位活菩萨是谁?

正是前特斯拉AI总监,李飞飞高徒——Andrej Karpathy。

教程具体说了什么?

这就来展开讲讲。

从零构建GPT,总共几步?

视频教程先从理论讲起。

第一部分主要关于建立基准语言模型(二元)以及Transformer核心注意力机制,以及该机制内节点之间的信息传递,自注意力机制理论也有涉及。

该part内容长度超过1小时,不仅有概念解释,还教你如何使用矩阵乘法、添加softmax归一化,可谓“夯实基础”式讲解。

接着讲述构建Transformer。

这当中涉及了多头注意力(包括如何插入自注意力构建块)、多层感知机(MLP)、残差连接、归一化方法LayerNorm以及如何在Transformer中添加Dropout Notes…….

然后,作者会带大家训练一个模型,当中会用到一个名为nanoGPT的库,可调用GPT-2参数,快速完成GPT模型的训练。

教程中,作者还将所得模型与Open AI的GPT-3比较。两者规模差距达1万-100万倍,但神经网络是相同的。另一个将拿来比较的是人尽皆知的ChatGPT,当然,我们目前所得只是预训练模型。

在上述内容引导下,我们已得一个10M参数规模的模型,在一个GPU上训练15分钟,喂给1MB大小的莎士比亚文本数据集,它就能像莎士比亚一样输出。

比如下面两张图,你能分辨哪个是真人莎士比亚写的吗?

评论区有人好奇选什么GPU资源。作者也分享了下——自己用的是Lambda的云上GPU,这是他目前接触按需计费GPU中,最简单的渠道。

光说不练不行,作者还给出一些课后练习,总共四道题,包括:

N维张量掌握挑战;

在自己选择的数据集上训练GPT;

找一个非常大的数据集,基于它训练Transformer,然后初始化再基于莎士比亚数据集微调,看能否通过预训练获得更低的验证损失?

参考Transformer相关论文,看看之前研究中哪些操作能进一步提升性能;

神器nanoGPT也刚发布

前文提及,作者之所以能快速完成训练GPT,有赖于一个名nanoGPT的库。

这也是本教程作者前几天刚发布的利器,由2年前的minGPT升级而来,只是换了个更“标题党”的名字,自称纳米级(nano)。目前,其在GitHub所获star已超8k,网友连连点赞。

据作者介绍,该库里面包含一个约300行的GPT模型定义(文件名:model.py),可以从OpenAI加载GPT-2权重。

还有一个训练模型PyTorch样板(文件名:train.py),同样也是300多行。

对想上手的AI玩家来说,无论是从头开始训练新模型,还是基于预训练进行微调(目前可用的最大模型为1.3B参数的GPT-2),各路需求均能满足。

△ 一个训练实例展示

小米12和苹果13对比

据作者目前自己的测试,他在1 个 A100 40GB GPU 上训练一晚,损失约为 3.74。如果是在4个GPU上训练损失约为3.60。

如果在8个A100 40GB节点上进行约50万次迭代,时长约为1天,atim的训练降至约3.1,init随机概率是10.82,已将结果带到了baseline范围。

对macbook或一些“力量”不足的小破本,靠nanoGPT也能开训。

不过,作者建议使用莎士比亚(shakespeare)数据集,该数据集前文已提及,大小约1MB,然后在一个很小的网络上运行。

据他自己亲身示范,创建了一个小得多的Transformer(4层,4个head,64嵌入大小),在作者自己的苹果AIR M1本上,每次迭代大约需要400毫秒。


返回网站首页

本文评论
不能远行的年轻人 卷在“一日运动”里
深燃(shenrancaijing)原创作者 | 李秋涵编辑 | 魏佳这个国庆假期,你玩了什么?以前回答这个问题,95后洛洛只需要用一个词总结,回家或旅游。但今年,随着疫情的捉摸不定,她第一次长假不...
日期:10-09
可能倒闭的银行_为啥要救倒闭的银行?现在的诺奖得主40年前就给出了答案
前两天,本 · 伯南克( Ben S.Bernanke ),道格拉斯 · 戴蒙德( Douglas W.Diamond )和菲利普 · 戴布维格( Philip H.Dybvig )三个人共同夺得今年的诺贝尔经济学奖。根据官方说明,这次...
日期:10-18
华为能你也能ipd感想_学华为,理想被IPD送进ICU?
风水轮流转,理想的好日子似乎要暂告一段落了。2019年年底,蔚来创始人李斌去香港出差,恰好小鹏汽车董事长何小鹏也在香港,两个掉进造车大坑的男人相约在海边,一直聊到凌晨。期间李...
日期:09-11
苹果将至 老罗已来:AR到底走到了哪一步?_苹果 AR
©️深响原创 · 作者|皇甫钰文2015年,苹果AR/VR头显设备立项的传闻甚嚣尘上,行业普遍认为苹果的入局将直接“带飞”整个产业,引爆消费市场。七年时间过去了,各种关于苹果AR的谍报...
日期:12-08
原地失业!上交大佬刚到新加坡 就被虾皮取消了offer
原标题:谢邀,原地失业!上交大佬刚到新加坡,就被虾皮取消了offer【新智元导读】近日,接到虾皮offer的一位网友,携家带口飞到了新加坡,结果一下飞机就发现自己失业了。虾皮这波大规模...
日期:08-31
韩国人的致富梦:买不起房子 买特斯拉股票
韩国人把特斯拉股票作为了致富途径凤凰网科技讯 北京时间8月24日消息,在韩国,经济的不平等催生出了《寄生虫》、《鱿鱼游戏》这样的优质影视剧。许多韩国散户投资者也希望拿到...
日期:08-25
黄光裕的难题 张文中也逃不掉_黄光裕与张文元
撰文 | 赵晋杰编辑 | 王靖来源 | 盒饭财经(ID:daxiongfan)当黄光裕只能靠着减持国美股票的方法,套现部分资金为员工补发工资之时,同样狱中归来的另一位零售大佬张文中,则带着出狱...
日期:12-20
冬天一到 电动车又成你爹了
作者 | 王笑渔编辑 | 周到头图 | Teslarati这个冬天,瑞士的“电动爹”很可能要被禁止上路了。事情是这样的。据《每日电讯报》报道称,瑞士官员已经起草了一项限制电力使用的提...
日期:12-18
微软 Win11/10 Edge 浏览器正获得 Workspaces、新安全功能和可访问性改进_win10的edge
  10 月 13 日消息,早在 2021 年 4 月,微软 Edge 浏览器正在开发一项新功能,称为 Workspaces(工作空间)。该功能允许用户重命名窗口,并保存其上打开的所有标签页供以后使用。...
日期:10-21
小米是一家什么样的公司?_小米究竟是一家什么公司?
十八九岁,一本《硅谷之火》点燃了雷军,他希望创办一家技术公司,从而影响世界。站在五十二岁的角度看,一个在八十年代,大四就敢于创业的青年,就像一团别致的火,人生总不会特别黯淡。...
日期:09-19
日本人,到底拆了多少中国车?「日本汽车拆解」
出品 | 虎嗅汽车组作者 | 李文博编辑 | 周到头图 | 纪录片《决定性瞬间》2022 年 10 月 10 日,世界第一汽车品牌、日本第一大汽车公司丰田发了台叫 bZ4X 的全新电动车,喜欢这...
日期:10-28
注意看 “小帅和小美”正在肢解电影「小美小帅胖哥是什么电影」
“注意看,这个男人叫小帅,他怀里的这个女人是小美,正当两人翻云覆雨的紧要关头,门口突然传来了佛波勒的声音。”你一定在地铁上、餐馆里、身边同事的抖音里,听到过这样的影视解说...
日期:11-17
马斯克把公开给他纠错的工程师开除了「马斯克成功了」
“He’s”fired.”马斯克的裁员大戏还在继续,而最新的这“一集”,矛头直指一名在推特待了6年的工程师。甚至The Verge都这样描述:虽然马斯克已经开除了数千人,但最新的人事变动...
日期:11-28
华为“不造车”的承诺,快到期了_华为再度发布声明重申不造车
作者 | 飔痕导语:华为智选模式已经初获成功。接下来,华为会否撕下最后一层窗户纸、开始全面造车?从供应商,到全面主导近日,各大车企纷纷公布9月交付数据。引发市场广泛关注的,除了...
日期:10-21
腾讯游戏的野心 困境和迷局_腾讯游戏的野心 困境和迷局怎么玩
图片来源:视觉中国文|商隐社,作者 | 散人,编辑|甄幸运三个人站在奖台上欢呼,下面一片墓地,立着很多墓碑,每个墓碑都是一个项目。这是腾讯投资的明星公司Supercell开内部年会时,曾经打...
日期:10-09
非会员不限速!阿里云盘宣布会员调整:新增8TB、6TB/20TB下架「百度云盘非会员限速」
  12月24日消息,日前,阿里云盘发布“会员服务调整预告”,对普通会员和超级会员进行了调整。  2022年12月29日起,阿里云盘将新增8TB超级会员,支持多种会员时长订购服务,包括1个...
日期:12-25
华为P50 Pro昆仑玻璃更换服务上线
  9月13日消息,华为Mate 50 Pro为屏幕耐摔带来了一个新的解决方案——正面使用昆仑玻璃,并在发布会上宣布,昆仑玻璃也可以用于华为Mate系列/P系列的旧手机。联想小新 Air 15...
日期:09-15
酷狗推出“齐音达”音乐商用授权平台「酷狗音乐官方平台」
  酷狗现已推出了音乐商用授权平台齐音达。官方称,该平台打通了酷狗音乐人以及厂牌资源, 旨在为有流行音乐商用需求的大小企业、个人用户提供便捷选曲和购买授权服务。 ...
日期:07-31
雅迪欧迪续航_“无限续航”能否撑起雅迪的技术梦?
近日,有平台将电动汽车和两轮电动车的数据进行了一次全面对比,今年上半年,5家上市的新造车企均处于亏损状态,而雅迪、爱玛、新日和九号4家公司总盈利加起来则为18.9亿元。不过,也...
日期:11-01
对消费的控制权 终于回到年轻人自己手中_剥夺消费者选择权
你知道“早C晚A加B”吗?如果知道,那么你大概率是一名消费方面很注重论据的“成分党”。近两年,护肤消费市场正刮起一股凶猛的“成分护肤”浪潮,消费者更加愿意亲自下场研究美妆...
日期:10-16