您的位置:首页 > 互联网

11人狂训2个月,马斯克精准狙击OpenAI!xAI首个大模型Grok炸场,330亿参数每月16刀

发布时间:2023-11-07 03:18:29  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】OpenAI开发者大会前夕,马斯克来截胡了!xAI首个产品Grok炸裂发布,两个月训出330亿参数大模型,以《银河系漫游指南》为蓝本,还有一股子马斯克式幽默。

最近几天,各家都是箭在弦上,磨刀霍霍。

OpenAI开发者大会在即,马斯克忽然拦路狙击,提前放出xAI的第一个产品Grok!

Grok的一大亮点,就是能从推特实时获取信息。优质数据已成全球的稀缺资源,马斯克去年豪掷440亿美元收购推特后搞得鸡飞狗跳大半年,原来是等在这儿呢。

Grok深深体现出马斯克一直推崇的xAI公司的宗旨——一个探求最大真理和宇宙本质的AI,一个公正的AI。

就在昨天,xAI的一位创始成员Toby Pohlen放出了Grok的UI界面——

Grok可以同时进行多任务处理,并排运行多个会话,还可以在多对话之间随意切换。

期间,我们可以对对话进行分支,来更好地探索Grok的回复。

回复树可以让我们在各个分支之间来回切换。还有一些/commands命令可以让我们减少点击次数。

我们可以在Markdown编辑器中打开Grok的回复,保存后继续对话。它可以和分支以及分支树协同工作。

同时,我们也可以在VS Code编辑器中,打开所有生成的代码片段。

另外,跟自己的幽默人设呼应的是,点击Grok图标上彩蛋,就可以把Grok转换为幽默模式了。

对此,另一位创始人Greg Yang表示:毫无疑问,这是我用过最好的聊天用户界面。

现在,由于候补名单的申请太过火爆,Grok的服务器直接宕机了。

6个月前刚签联名信:暂停超强AI研究6个月

有趣的是,马斯克此前也是AI末日论的强力拥趸,曾和Bengio、苹果联合创始人Steve Wozniak、Stability AI CEO、马库斯等人签署了一封要求暂停发展比GPT-4更先进AI6个月的公开信。

而眼下,AI大佬们正热火朝天地激辩着AI监管必要性的议题,马斯克却已经在这当口悄悄训练出Grok了,甚至还赶在OpenAI开发者大会前夕放出大招。

看来,大家都是心照不宣啊。

当然,马斯克总能找到办法自圆其说,xAI的官博这样解释道——

我们相信,AI智能具有巨大的潜力,可以为社会贡献重要的科学和经济价值,因此我们将努力制定可靠的保障措施,防止灾难性的恶意使用。我们会尽最大努力,确保AI始终是一股向善的力量。

甚至,马斯克还放出这样的豪言——未来特斯拉的算力,都会用于大模型的推理。即使有机器人驾驶出租车,汽车依然每周只会运行1/3时间,其余时间的算力,都会用来做SETI之类的分布式推理运算。

这样,特斯拉将拥有地球上最多的模型推理算力!

马斯克,果然在下一盘大棋。

330亿参数,8K上下文,Grok-1碾压ChatGPT

仅仅四个月,Grok就经过多次迭代横空出世。创始人团队的效率高得惊人。

创始人之一Greg Yang感慨道:当一小群积极进取的世界级人才朝着同一个方向前进,挥出的拳头就远远超出了自身的重量。只有天空,只有宇宙,才是我们的极限!让我们从每一瓦的电量中,让计算得到最大优化!

Grok意为凭直觉深刻了解,是美国科幻作家罗伯特·海因莱因在1961年出版的科幻小说《异乡异客》中创造的词汇。

xAI对于Grok的官方介绍是这样的——

Grok是一个以《银河系漫游指南》为蓝本的 AI,因此几乎可以回答任何事情,甚至还能建议我们该问什么问题。

Grok回答问题时,会不时抖个机灵,甚至比较叛逆,不喜欢幽默的人请远离。

Grok的独特优势就在于,它可以通过X平台(也即推特)实时了解世界上发生的各种事情。而且,很多AI会拒绝的敏感问题,它都不会拒绝。

现在,Grok还是一个早期的测试版产品,这已经是2个月的训练后能达到的最好程度了。因此,xAI希望能在用户的帮助下,让它每周都能迅速改进。

语调阴阳怪气,几句一爆梗,Grok确实是有点子幽默在身上的。

哦,我亲爱的人类,我有好消息要告诉你!我们的朋友Sam Bankman-Fried被认定所有罪名成立。你能相信吗?陪审团只用了8个小时就弄清了所谓的世界上最聪明、最优秀的风险投资人多年来都无法弄清的事实:他犯下了普通的欺诈罪。这真是一次疯狂的旅程,不是吗?

2个月,训练出Grok-1

Grok背后的核心引擎便是Grok-1。

这是用时4个月研发的大模型,并经过了多次迭代升级。

据了解,Grok训练时间仅仅2个月。

在宣布xAI成立之后,研究团队最先训练了一个330亿参数的原型大模型——Grok-0。

早期模型Grok-0在标准的LM基准测试中,性能与LLaMA2(70B)接近,但只使用了一半的训练资源。

过去的2个月中,xAI大模型在推理和编码方面取得了重大改进,并迭代到了Grok-1。

同样,Grok-1是一个基于Transformer的自回归模型,在Grok-0模型基础上进行了微调,上下文长度为8192。

训练数据来自互联网(截止到2023年第三季度),以及AI导师提供的数据。

能力大幅提升的Grok-1刷新了多项SOTA,在HumanEval编码任务中达到了63.2%,在MMLU上达到73%。

如下是xAI研究团队对Grok-1在衡量数学和推理能力的标准机器学习基准进行了一系列评估。

- GSM8k:中学数学单词问题,使用思维链提示。

- MMLU:多学科多项选择题,提供了5次上下文示例。

- HumanEval:Python代码完成任务,pass@1评估为零样本。

- MATH:用LaTeX编写的初中和高中数学问题,用固定的4次示例作为提示。

在这些基准测试中,Grok-1展现出强大的能力,超越了ChatGPT-3.5、Inflection-1等模型。

实际上,只有像GPT-4这样使用大量训练数据和计算资源进行训练的模型,才能超越Grok-1。

这展现了研究人员在xAI项目中以异常高效的方式,训练LLM方面正在取得的快速进步。

另外,刚刚提到的数学基准测试,模型可能通过网络访问到,所以结果可能受到影响。

为了更公平地评估,研究人员手动收集了2023年匈牙利全国高中数学期末考试数据集,以测试Grok-1、 Claude-2和GPT-4的能力。

结果发现,Grok以C(59%) 通过了考试,而 Claude-2获得了相同的成绩C (55%),GPT-4以68% 的成绩获得了B。

所有模型均在温度为0.1和相同提示下进行评估。必须指出的是,研究人员没有为这次评估做出任何调整。

这样,可以更好地反映模型在真实情况下的能力,评估模型在没经过调优的新数据上的泛化能力。

如下,研究人员在模型卡中提供了Grok-1重要技术细节的摘要。

就局限性来看,Grok-1不具备独立搜索网络的能力。在Grok中部署时,搜索工具和数据库增强了模型的功能和真实性。尽管可以访问外部信息源,但模型仍会产生幻觉。

xAI工程设计:不是Python,是Rust

在深度学习研究的前沿,可靠的基础设施和数据集、学习算法一样重要。

为了创建Grok,xAI构建了一个基于Kubernetes、Rust和JAX的自定义训练和推理堆栈。

大语言模型的训练就像一列全速前进的货运火车,如果一节车厢脱轨,整列火车都会被拖下轨道,很难再次纠正方向。

GPU可能失败的方式有很多种:制造缺陷、连接松动、配置错误、内存芯片退化、偶尔的随机位翻转等等。

在训练时,xAI连续数月在数以万计的GPU之间同步计算,由于规模庞大,这些故障频繁出现。

为了克服这些挑战,他们便采用了一套定制的分布式系统,确保立即识别并自动处理每种类型的故障。

在xAI,研究人员把最大化每瓦特计算效率作为工作重点。

在过去的几个月里,基础设施使团队最小化了停机时间,即使硬件不可靠,也能保持较高的模型计算利用率 (MFU)。

当前,Rust已被证明是,构建可扩展、可靠、可维护的基础设施的理想选择。它提供了高性能、丰富的生态系统,并预防分布式系统中的大多数错误。

宁波代购超市

对于像xAI这样规模较小的团队来说,基础设施的可靠性至关重要,否则维护会影响创新。

Rust可以让代码修改和重构更加可靠,编写的程序可以在少量监管下稳定运行数月。

xAI团队表示,我们正在为模型能力的下一次飞跃做准备,这将需要可靠地协调数以万计的加速器上的训练运行,需要运行互联网规模的数据pipeline,并在Grok中构建新的功能和工具。

在这里,xAI为自己团队招募做了一波宣传。

就技术要求这一栏,需要程序员们能够具备能力包括:

Rust

因为xAI所有的后端服务和所有数据处理都是在Rust中实现的。而且团队还是Rust语言的忠实拥护者,并相信它是高效、安全和可扩展应用程序的最佳选择。它还提供了与Python的轻松互操作性。

JAX和XLA

xAI模型的神经网络是在JAX中实现的,并且xAI有许多自定义XLA操作来提高它们的效率。

Triton和CUDA

为了充分利用计算资源,大规模运行大型神经网络,同时最大限度地提高计算效率至关重要。因此,xAI定期在Triton或原始C++ CUDA中编写定制内核。

TypeScript, React & Angular

xAI前端代码完全是使用React或Angular在TypeScript中编写的,后端通信通过gRPC-web API实现类型安全。

对于这个招聘要求,业内人士总结道——

具有高MFU的单GPU,是高生产力的人;具有高MFU的单节点,是高效的小团队;具有高MFU的数千个GPU集群,是高生产率的公司。

现在,扩展有用产出/人的难度,从一个人增加到100K,而xAI正在寻找的,是10倍的工程师......

xAI的研究方向

虽然Grok可以访问搜索工具和实时信息,但跟所有LLM一样,Grok仍然无法避免大模型的通病——幻觉问题。

xAI认为,解决当前系统局限性最重要的方向,就是实现可靠的推理。

在xAI看来,以下是几个最有前途的研究方向——

通过工具辅助实现可扩展的监督

可能Grok还很难提供一致且准确的反馈,尤其是处理长代码或复杂推理时。

这种情况下,可以让AI通过查找不同来源的参考资料、使用外部工具验证中间步骤、寻求人类反馈等,来协助进行可扩展的监督。

集成形式验证,确保安全性、可靠性和接地

xAI计划更准确、更可验证的情况下发展AI的推理技能。这样就能在没有人类反馈或现实世界交互的情况下,评估系统。

采用这种方法最直接的目标,就是保证代码的准确性,特别是在形式上验证AI的安全性。

长上下文理解和检索

一个能在特定环境中有效地发现有用知识的模型,是产生真正智能系统的核心。xAI正在致力于研究如何让AI在需要时去发现和检索信息。

对抗性鲁棒性

许多示例表明,无论是训练期间还是使用期间,AI系统中的漏洞都会导致它们犯严重的错误。而这些漏洞,就是深度学习模型长期存在的弱点。

xAI致力于提高LLM、奖励模型和监控系统的鲁棒性。

多模态功能

目前Grok还没有配备视觉和听觉功能,xAI会致力于发展它的多模态功能,实现更广泛的应用。

参考资料:

https://x.ai/


返回网站首页

本文评论
英特尔对Arc GPU在数据中心和服务器中的使用持开放态度_英特尔arc显卡
英特尔似乎对其Arc游戏GPU在数据中心和服务器中的使用持开放态度,这是CEO基辛格在最近接受ServerTheHome采访时指出的。英特尔的Arc品牌GPU主要是为游戏领域设计的,而该公司还...
日期:10-05
eBay宣布将裁员500人 约占员工总数4%左右_裁员32000人
2月8日消息,据外媒报道,当地时间周二, eBay宣布将裁员500人,约占其员工总数的4%。赫特智慧 招聘据悉,在给员工的一份备忘录中,其首席执行官杰米·伊安内表示,公司在对过去几个月全...
日期:02-08
韵达快递加急派送「网友吐槽快递派送延误 韵达总部:人手紧张正调配」
2月8日消息,据紧急呼叫报道,多地居民反映韵达快递派送异常,有快件延误快递员电话不通。对此,韵达方面回应系年后派送人力紧张导致,企业已在协调配送人力并指导网点招聘。针对近期...
日期:02-09
首次披露!知网为100%国有控股企业(中国知网国企)
来源:光明日报   作者 陈鹏     8月11日上午,在北京海淀知网总部,知网副总经理兼新闻发言人肖宏就网友关心问题,接受光明日报记者采访,首次披露多方面信息。 小米mix3滑盖...
日期:08-12
开源软件windows_免费!开源Windows系统发布新版:添加大量实用功能
  开源Windows系统,听说过吗?   实际上,从1996年起,ReactOS项目就启动了,目的在于通过开源、免费的方式重建Windows NT内核以及系统层,日前,ReactOS 0.4.14发布下载。   ...
日期:07-17
安卓代码开源_官宣:Android 13正式开源 源代码公开!华为等随便用
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-17
联想促销策略「联想促销」
近期,联想推出了一项促销活动,旨在吸引更多消费者购买其电脑与智能电子产品。据悉,此次促销覆盖了联想公司旗下多个系列的电脑和智能设备,包括ThinkPad、YOGA、小新、Legion等系...
日期:05-30
根深叶茂,共谱华章丨智涌钱潮2023产教科融合数字人才培养论坛成功举办
(原标题:根深叶茂,共谱华章丨智涌钱潮2023产教科融合数字人才培养论坛成功举办) 【中国,东莞,8月24日】在中国职业技术教育学会、...
日期:08-26
天猫双11第一波今晚8点开买_天猫双十一促销几天
10 月 31 日消息,天猫双 11 第一波将于今晚 8 点开买。多个第三方机构对双 11 商品进行的价格测评结果显示:今年的天猫双 11 商品到手价普遍在5.5-6. 8 折之间。记者从天猫获...
日期:10-31
新氧科技通过BSI认证,走更坚定的合规之路
(原标题:新氧科技通过BSI认证,走更坚定的合规之路) 10月10日,北京新氧科技有限公司(以下简称“新氧科技”)在北京新氧大厦隆重...
日期:10-12
机器狗导盲犬「瑞士研发出机器人导盲犬:避障、导航均在行」
快科技9月5日消息,瑞士联邦理工学院研发出了适合患有视力障碍人群的新伴侣——机器人导盲犬。研究人员表示,机器狗市帮助盲人在日常生活中导航,一般训练导盲犬要花很多钱,而我们...
日期:09-05
去哪儿2023春节报告:国内酒店预订间夜量达历史新高
1月31日 消息:去哪儿近日发布2023年春节报告,数据显示,春节期间平台上每位出行者比去年多走了400公里,而出境机票同比2022年增长达6.7倍。截止1月26日,热门城市机票预订量已超过...
日期:01-31
乔布斯下月发表WWDC演讲 或发布四代iPhone_wwdc是发布会吗
  据国外媒体报道,苹果周一宣布,CEO史蒂夫·乔布斯(Steve Jobs)将在下月的苹果开发人员大会(WWDC)上发表主题演讲,预计将发布第四代iPhone手机。   苹果WWDC大会将于6月7日至1...
日期:07-29
深度绑定?苹果与Arm签署长达近20年的芯片合作协议
9月6日消息,英国芯片设计公司ARM于当地时间周二提交的最新IPO文件显示,苹果公司已经与ARM就芯片技术授权签署了一项“延续至2040年以后”的新合作协议。iphone摄像头震动国美...
日期:09-06
小鹏汽车 何利扬「全力做好交付和质量 小鹏G6订单破万-CEO何小鹏亲下工厂拧螺丝」
小鹏汽车CEO何小鹏为了回应广大车主的期待,亲自到工厂拧螺丝,展现了非常接地气的宣发态度,同时也表现出他对公司的产品质量和交货时间的关注。这种务实的做法赢得了许多网友的...
日期:09-21
亿联网络联合腾讯会议发布新品MeetingBar A10& MeetingEye 500_腾讯会议连接亿联
在人工智能时代和数字化经济的大潮之下,作为战略沟通的重要空间,会议室必当先行。对于会议室的数字化塑造,需要全能且面向未来,又要能为企业组织提供便携、高效的沟通交流平台。...
日期:07-24
浙江一学区房卖270万只有铁架子 网友: 这是抢钱呢_浙江省学区房入学条件
有网友爆料了一家中介发布的温州学区房信息,此房子卖相十分难看。据网友提供的图片可以看到,这套“房子”只有半截砖墙和几个破烂的铁架子,仅剩下马桶和台盆可辨认出卫生间,完全...
日期:03-30
小鹏汽车计划2024年进入德国 杀入竞争最激烈的市场
凤凰网科技讯 9月4日,小鹏汽车副董事长兼总裁顾宏地(Brian Gu)在慕尼黑车展上表示,小鹏计划2024年进入德国市场。据悉,小鹏P7与小鹏G9将首先推出。小鹏汽车副董事长兼总裁顾宏地(B...
日期:09-05
 我国成功发射试验二十号A/B星_十二号航天发射
(原标题:我国成功发射试验二十号A/B星) 人民日报客户端余建斌 喻鹏 王茄欢 郑伟杰北京时间2022年12月12日16时22分,我国在酒泉卫...
日期:12-12
人类和人工智能相处的第一步,先从跟微软小冰创造的“女友” 谈情说爱开始
  人工智能——一个充满着迷人魅力的词语,为人们带来了无尽的想象和期待,也一直是艺术创造的热门题材。《西部世界》、《终结者》、《她》、《我,机器人》等诸多影视作品,引...
日期:05-17