您的位置:首页 > 互联网

OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访

发布时间:2024-03-25 17:40:34  来源:互联网     背景:

Q*

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

Transformer作者中唯一去了OpenAI的那位,公开承认了:

他参与了Q*项目,是这项新技术的发明者之一。

这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。

当记者试图询问Lukasz Kaiser更多关于Q*的问题时时,OpenAI的公关人员几乎跳过桌子去捂他的嘴。

结合奥特曼在接受采访时,毫不迟疑地拒绝了相关提问,“我们还没准备好谈论这个话题”。

神秘Q*,成了OpenAI当前最需要保守的秘密之一。

不过对于Transformer背后的开发内幕,以及谷歌究竟为什么没能在得到这项技术之后抢先推出轰动世界的AI产品,作者们透露了不少:

  • Noam Shazeer(现Character.AI创始人)才是贡献最大的

  • 谷歌早在2012年尝试手开发生成式AI搜索

  • 2017年他们就建议训练万亿参数大模型,但未被高层采纳

总之,信息量比几位在老黄的圆桌论坛上商业互吹要高得多。

《Attention is all you need》发表于2017年,到现在被引次数已超过11万。

它不仅是当今ChatGPT为代表的大模型技术起源之一,其中介绍的Transformer架构和注意力机制也被用在了Sora、AlphaFold等众多改变世界的AI技术之中,是当之无愧的传奇。

为什么是谷歌能搞出这等成果?谷歌又为什么在后来的大模型竞争中落后?

整个故事还要从2012年说起。

谷歌害怕Siri抢饭碗

2011年底,苹果正式推出Siri,试图在对话中提供对问题的答案。

谷歌高层如临大敌,认为Siri可能会抢走他们的搜索流量。

2012年,一个团队致力于开发新功能,期望能在搜索页面上直接回答用户的问题,而不用点击链接跳转到其他网站。

最终这项努力催生出了Transformer架构,能有效在数据和算力上扩展,导致了整个AI领域重大突破。

Jokob Uszkoreit(现AI生物技术公司Inceptive联合创始人)就是在这个时候放弃攻读博士学位加入了这个团队,成为Transformer最初的起点。

他来自德国,硕士毕业于柏林工业大学,父亲Hans Uszkoreit是著名计算语言学家、欧洲科学院院士。

在Uszkoreit(后简称乌兹哥)现在看来,谷歌高层当时对Siri的恐慌是没必要的,Siri从未真正威胁到过谷歌的业务,但他很高兴能有机会深入研究AI和对话系统。

2012年也是AlexNet在计算机视觉大获成功、神经网络复兴的时候,谷歌疯狂地安排员工尝试类似的技术,希望能开发出自动补全电子邮件的功能,或相对简单的客户服务聊天机器人。

当时最被认可的方案是长短期记忆网络LSTM,但这项技术只能按照顺序处理句子,无法有效利用文章后面可能出现的线索。

直到2014年左右才有了新进展,乌兹哥开始尝试现在被称为“自注意力”的方法。

注意力机制诞生

乌兹哥认为自注意力模型可能比循环神经网络更快、更有效,处理信息的方式也非常适合擅长并行处理的GPU。

但当时,包括他的学术大牛父亲在内,许多人都不看好,认为抛弃了循环神经网络就是一种异端。

乌兹哥花了一些力气说服几位同事一起试验新想法,并于2016年发表了一篇相关论文。

在这项研究中只使用了极小的文本训练(SNLI数据集,包含57万个人类写的英语句子)。

乌兹哥希望进一步推进他们的研究,但他的合作者都不感兴趣再继续了。

其他研究人员就像在答题闯关中刚答对了一道题就带着微薄的奖金离开,但乌兹哥坚持认为自注意力机制可以发挥更大的作用,开始在公司里到处找人安利他的想法。

2016年的一天,他终于遇到志同道合的人Illia Polosukhin(现区块链公司NEAR Protocol创始人)。

集齐8位圆桌骑士

Polosukhin(后简称菠萝哥)当时已在谷歌工作三年,被分配到为搜索问题直接提供答案的团队。

菠萝哥的进展不顺利,因为从用户体验出发,需要在几毫秒内对问题产生回应,当时还没有这么高性能的解决方案。

乌兹哥与菠萝哥共进午餐的时候听说这事,毫不犹豫的安利起他的自注意力机制。

菠萝哥曾透露,他后来觉得A自注意力就像科幻小说《你一生的故事》以及改编电影《降临》里外星人“七肢桶”的语言,没有先后顺序,而是像几何图案一样排列。

小米电竞显示器165hz

总之,菠萝哥后来不仅同意尝试,还拉来了第三位成员Ashish Vaswani合作(先后创办了Adept AI和Essential AI)。

Vaswani(后简称瓦斯哥)来自印度,博士毕业于南加州大学后加入谷歌大脑,相信神经网络将促进人类整体的理解能力。

三位研究人员共同起草了Transformer的设计文档,他们从第一天开始就选择了同样代表“变形金刚”的这个名字,因为“系统会改变接收到的信息”,也因为菠萝哥小时候喜欢玩变形金刚玩具。

不过菠萝哥没过多久就从谷歌离开去创业了,同时,其他成员陆续加入这个小队伍。

2017年初,第四位成员Niki Parmar(后简称帕姐)加入,他与瓦斯哥同样来自印度、也都毕业于南加大,后来两人也成了创业伙伴。

后面几位成员的加入多少都带点戏剧性。

第五位Llion Jones(后简称囧哥)来自英国,2009年硕士毕业于伯明翰大学,但有好几个月找不到工作靠救济金工作。2012年他先加入Youtube团队,后进入谷歌研究院。

他是团队中最晚从谷歌离职的,去年在日本成立了Sakana AI。

amd发布fsr3

囧哥是从另一位同事Mat Kelcey(他就出现一次,不用简称了)那里听说Transformer的,不过Kelcey自己当时并不看好这个项目。

Kelcey信奉贝叶斯,他的头像是AI预测他是技术宅的概率为60%。后来他认为没加入Transformer团队这是他一生中最大的预测失误。

话说回来,第六位Aidan Gomaz(后简称割麦子,现AI公司Cohere创始人)是最年轻的,他在多伦多大学读大三时加入Hinton的实验室,主动给谷歌里各种写过有意思论文的人发邮件申请合作。

第七位Lukasz Kaiser(后简称凯哥,现OpenAI研究员)邀请了割麦子参与实习。直到几个月后,割麦子才知道这实习本来是针对博士生的,而不是他一个本科生。

携号转网的后果

凯哥来自波兰,本来做的是理论计算机工作,后来发现自注意力对他们当时正在解决的问题(可分布式计算的大型自回归模型)是一种有前途且更激进的方案,两人就加入了Transformer团队。

六人(菠萝哥已经创业去了)聚到一起后,团队开始把试验方向定在机器翻译,使用BLEU基准测试来把模型翻译结果与人工翻译做比较。

早期Transformer原型表现不错,但只是与LSTM方案差不多,并没有更好。

此时,第八位关键成员Noam Shazeer(后简称沙哥)出场了,他毕业于杜克大学,2000年加入谷歌,当时全公司只有200人左右,

后来他成为谷歌内部的传奇人物,参与了谷歌搜索的拼写纠正功能,也负责过早期广告系统,2021年离开谷歌后创办了Character.AI。

据沙哥回忆,当时他正在办公楼走廊里走,经过凯哥的工位时听到激烈的对话:瓦斯哥正在谈论如何使用自注意力,而帕姐对此很兴奋。

沙哥觉得这是一群有趣的聪明人在做有前途的工作,最终被凯哥说服加入。

至此,8位传奇人物终于全部登场。

冲刺NIPS圣杯

沙哥的加入至关重要,他用自己的想法重新编写了整个代码,把整个系统提升到了一个新的水平。

团队一下充满动力,开始拼命卷自己,想在2017年NIPS(后改名NeurIPS)截止的5月19日之前完成。

Deadline前的最后两周,他们大部分时间都在咖啡机附近的办公室,很少睡觉。

割麦子作为实习生不断地疯狂调试,试验各种技巧和网络模块的排列组合。

最终在沙哥的帮助下,人们现在所知道的Transformer架构诞生了,相比试验中的其他方案显得非常“极简主义”。他们这样评价:

Noam(沙哥)是一个巫师。

沙哥厉害,但是沙哥并不自知。看到论文草稿的时候,他发现自己是一作还很惊讶。

讨论一番后,最终他们决定打破学术界一作二作通讯作的规则,随机排序,并给每个人名字后都打上星号,脚注标明都是平等贡献者。

在给论文取名字的阶段,来自英国的囧哥提议借用披头士乐队的歌曲《All You Need Is Love》,改成《Attention is all you need》,其他人也同意了。

他们训练了基础和大杯两个模型,其中65M基础版就击败了所有同级竞争对手,213M大杯版甚至破了BLEU测试的记录,同时计算效率也更高。

直到截止日期最后几分钟,他们还在继续收集实验结果,英法翻译的数据是最后5分钟出来的,论文在最后两分钟提交。

当时学术会议审稿人的反应不一,一个评价积极,一个评价非常积极,第三个评价是只是“还算ok”。

到了12月会议正式线下举办的时候,这篇论文引起了轰动。4小时的会议上挤满了想要了解更多的科学家。

参会的几位作者一直聊到嗓子嘶哑,最后场地闭馆时仍然人头攒动,最后被保安清场。

从整个Transformer诞生历程来看,谷歌当年的开放包容的文化是必不可少的:

这八个人聚在一起,是靠走廊里的偶遇和午餐时聊天。

OpenAI摘桃子

回到论文撰写过程中的某一天,瓦斯哥累得瘫倒在办公室的沙发上,盯着窗帘看出了幻觉,觉得布料上的图案就像突触和神经元。

那天他突然意识到,他们正在做的事情将超越机器翻译。

最终就像人脑一样,将所有语音、视觉等所有模态统一在一个架构下。

沙哥则在应用方向上有惊人的远见,论文发表前后就给谷歌高管去了一封信。

他提议公司放弃整个搜索索引,并用Transformer架构训练一个巨大的神经网络替代,基本上是在建议谷歌改变整个信息组织的方式。

当时团队里凯哥都还认为这个想法很荒谬。但如今看来,谷歌正在朝这个方向努力,只是个时间问题了。

乌兹哥后来复盘,在2019年或者2020年谷歌就有机会推出GPT-3,甚至是GPT-3.5等级的模型,还发出灵魂提问:

我们看到了可能性,但为什么不采取行动呢?

结果却是对手OpenAI的首席科学家Ilya Sutskever在论文发表当天就意识到“它给了我们想要的一切”,并建议同事Alec Radford开始动手研究。

Radford先开发了GPT的原型,然后OpenAI调动更多人从机器人、DOTA游戏等项目转型,参与进来开发了GPT-1、GPT-2……这就是另外一个故事了。

打造一种能同时在数据和算力上扩展的模型,是Transformer架构的出发点,也是其成功的关键。

但少了顶层设计和推动,谷歌也就只能止步于此,单靠员工自发已经无法组织起满足Scaling Law发展下去需要的人力物力财力。

OpenAI的组织形态既有自下而上的灵活、又有自上而下的专注,能在这条路上走的更远几乎是不可避免的。

OpenAI CEO奥特曼曾评价,谷歌高层当时似乎没人认识到Transformer真正意味着什么。

如今8位作者也陆陆续续从谷歌离职,既然公司迟迟不肯用Transformer搞事情,那就自己去搞。

除了最早离开的菠萝哥的区块链公司之外,其它成员的的去向都和Transformer相关。

2019年,实习生割麦子毕业没多久,就先带头创办Cohere,为企业提供大模型解决方案,目前估值22亿美元。

2021年开始,成员集中出走。

瓦斯哥和帕姐先后携手创办Adept AI(估值10亿美元)、Essential AI(融资800万美元),都是自动化工作流程方向。

沙哥创办AI角色扮演聊天平台Character.AI,现在估值约50亿美元,用户活跃度和留存率比OpenAI都高。

乌兹哥回到德国创办的生物AI技术公司Inceptive,估值3亿美元。甚至乌兹哥透露,他的计算语言学家老父亲也在筹办一家新的AI公司,同样基于Transformer。

只有凯哥没有创业,2021年他加入了OpenAI,后来参与了GPT-4,以及Q*项目。

最后离开的是囧哥,23年他到日本创办的Sakana AI估值2亿美元,最新成果是用擅长不同领域的大模型融合,结合进化算法,搞出更强的模型。

……

许多谷歌老员工批评谷歌慢慢从一个以创新为中心的游乐场,转变为一个注重利润的官僚机构。

甚至在2020年,谷歌Meena聊天机器人发布后,沙哥又发了一封内部信“Meena吞噬世界”,其中的关键结论是:

语言模型将以各种方式越来越多地融入我们的生活,并且将在全球算力中占主导地位。

这太有前瞻性了,几乎准确预言了后来ChatGPT时代发生的事,也就是现在进行时。

但当时谷歌高层仍旧不为所动,关键决策者忽略甚至嘲笑他。

谷歌曾拥有整个AI王国的所有钥匙,却弄丢了钥匙链。

参考链接:

[1]https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

[2]https://www.youtube.com/watch?v=zBK2CPka5jo

[3]https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

亲子互动设备


返回网站首页

本文评论
小米汽车官宣「小米汽车终于来了!雷军称3年要卖90万辆迈入行业第一阵营」
快科技11月16日消息,小米不愧是流量大户,首款新车刚亮相工信部,直接登上了多方平台的话题热搜。比亚迪将发布全新高端车型据已知信息,这款车将要在2024年上市,起售价或低于30万,目...
日期:11-15
亚马逊云计算中心「亚马逊云全球副总裁:生成式AI正处于炒作周期」
“我认为我们无法否认互联网泡沫曾经存在过,但它确实改变了每个人的生活,我们现在已经无法想象没有互联网的生活了。我相信生成式人工智能将改变每一个职业、每一个行业中的每...
日期:08-07
俞敏洪道歉,东方甄选离不开董宇辉?
声明:本文来自微信公众号“Tech星球”(ID:tech618),作者:翟元元 习睿,授权转载发布。粉丝还在掉。5天时间,东方甄选直播间已掉粉32万(12月9日粉丝3116万,截至发稿为3080万)。3个工作...
日期:12-15
龙年茅台生肖酒正式上架销售:2499元/瓶 黄牛已加价3千
快科技1月7日消息,昨日晚间,甲辰龙年贵州茅台酒(简称龙茅”)在i茅台数字营销平台(简称i茅台”)正式开启申购,市场指导价为2499元/瓶。当天投放9999瓶,i茅台实名认证用户可进入活动页...
日期:01-07
澳大利亚每周工作时间「你下班还回工作消息吗:澳大利亚立法允许员工下班断联」
快科技2月7日消息,随时保持联络,随处准备干活,这些戳中了不少打工人”的心酸。说好按时下班,可工作群里的消息依旧响个不停。随着如今技术的不断发展进步,各种即时通信工具也是使...
日期:02-08
Gartner:对话式 AI 功能将有助于推动全球客服中心市场在 2023 年增长 16%
8月1日消息:根据 Gartner 最新的报告,2023 年全球在客服中心技术、对话式人工智能和虚拟助手方面的支出预计将达到 186 亿美元,这与上一年相比的大幅增长 16.2%。这种投资的增...
日期:08-01
InseRF官网体验入口 AI 3D场景编辑和对象插入工具在线使用指南_ai infra
InseRF是一种创新性的3D场景编辑和对象插入工具,可通过文本提示和2D边界框在NeRF重建的3D场景中生成新对象。这种方法允许用户仅通过简单的文本描述和2D边界框就能在3D场景中...
日期:01-12
全面融合后,OPPO服务凸显出强大的服务能力为一加用户赋能_oppo与服务平台
2023年年初,一加手机宣布全面接入OPPO自有服务体系,一加用户可享由OPPO服务提供的线上线下多样化服务。全国的OPPO官方服务中心、7*24小时服务热线、会员日活动等服务面向一加...
日期:02-06
抖音“外卖”怎么样?我们体验了一把「抖音有外卖了吗」
声明:本文来自于微信公众号 三言财经(微信号:sycaijing),作者:DorAemon,授权转载发布。前不久,抖音开始布局外卖到家业务的消息引发关注。而近日,抖音外卖服务也开始在北京、上海...
日期:02-10
美团第四季度核心本地商业收入435亿元 同比增长17.4%
  讯 3月24日下午消息,美团今日发布2022年第四季度及全年财报。财报显示,该公司第四季度营收601.3亿元,同比增长21.4%。净亏损10.8亿元,预估亏损15.3亿元;调整后净利润为8.3亿...
日期:03-24
小米13或将11月30日发布:采用直屏设计「小米12会推出直屏吗」
11月16日消息,有知情人士爆料称,小米旗舰新机小米13将于11月30日发布。目前小米13已经获得入网许可,这款新机搭载全新骁龙8 Gen 2处理器,采用直屏设计。本月也是有不少手机品牌...
日期:11-17
iPhone 16 Pro/Max渲染图曝光:屏幕增至6.3/6.9英寸 新增拍照按钮_pro max1616
1月5日消息,据外媒报道,苹果预计将于2024年秋季发布iPhone 16系列,虽然距离发布还有8个多月的时间,但关于该系列手机的爆料层出不穷。当地时间周四,外媒分享了苹果iPhone 16 Pro...
日期:01-06
华为 耀星计划「博主分析华为“子品牌”星耀:如果有 最早今年底会出现」
  【CNMO新闻】近期,关于“华为将推出子品牌星耀”的传闻越来越多,最新消息称“星耀”品牌可能会在今年618前亮相。对此,有不少数码圈博主进行了分析。倾向于此事为真的博主...
日期:01-22
米哈游《原神》IP营销动作频频,上线两周年后“钱”景几何_米哈游新作《原神》
  蓝鲸TMT 印婧图片来源:东方IC  近日,米哈游《原神》官宣与动画制作公司ufotable(飞碟社)进行长期合作,与该公司共同制作的《原神》动画项目正式开启。  同时,这一游戏近期...
日期:09-26
Redmi Note 12系列快充规格曝光:有望首发搭载210W快充_红米note10pro支持33w快充吗
熟悉小米的用户都知道,小米旗下的Redmi子品牌一直主打极致性价比,每一代机型都获得了用户非常广泛的好评。这段时间以来,有博主开始带来了该系列的迭代产品——全新的Redmi Not...
日期:10-05
华为,又造了一个“爆品”_华为又要引爆产业
最近,华为又出新品了,但这次不是手机板块,又是一个全新领域。look~是华为Petal花瓣地图⬇️ 时隔两年终于上线,但值得一提的是,目前仅仅只在 华为应用市场国区上架,其他应用系统并不...
日期:01-13
小米汽车强势入局 上汽智己CEO:真正卷到了智己的长板上来了_小米智能汽车有限公司
快科技1月2日消息,上周车圈热闹的事情有很多,其中最为轰动和破圈的当属雷军召开了小米汽车首场技术发布会。虽然已经过去了多日,但小米进军车圈的热度不减,就在今日,上汽智己CEO...
日期:01-02
消息称苹果年底前推iPad 3 配7英寸触摸屏(ipad2018有三维触控吗)
(观海)北京时间6月15日消息,据台湾《经济日报》报道,苹果正在开发iPad 3平板电脑,并计划在年底前推出。iPad 3将配有7英寸触摸屏,分辨率则是iPad 2的5到6倍。有关苹果即将推出iPa...
日期:07-30
滴滴上线寻找准考证专线 去年高考期间找回考试物品153个__滴滴考试没过怎么重新考试
6月2日消息,为方便考生快速找回物品不影响考试,滴滴将于6月3日到6月10日期间上线寻找准考证专线。这是滴滴连续第三年推出准考证专线。三星芯片排名据悉,去年高考期间,滴滴准考...
日期:06-02
小米11 5G 骁龙888 2K AMOLED四曲面柔性屏「一加11屏幕规格曝光:搭载2K柔性曲面屏」
据此前多方透露,高通将于11月14日至11月17日期间举行高通骁龙峰会,届时将正式推出新一代安卓顶级旗舰平台——骁龙8 Gen2,随着发布时间的日益临近,外界关于该芯片以及将首批搭载...
日期:11-10