您的位置:首页 > 互联网

做完GPT-4完整测评,微软爆火论文称初版AGI就快来了_微软 gpt3

发布时间:2023-03-25 11:25:21  来源:互联网     背景:

机器之心报道

机器之心编辑部

GPT-4 的能力什么档次?

1956 年,在达特茅斯学院召开的一个研讨会上,人工智能这一概念正式被提出。

之后这个词一直挑战着心理学家、哲学家和计算机科学家,因为它太难被定义了。1994 年,52 名心理学家联合发文试图捕捉它的本质。

随着时间的推移,研究者开始将注意力转移到特定领域的 AI 系统,如 2016 年 AlphaGo 挑战韩国冠军棋手大获全胜。之后,时间来到 20 世纪 90 年代末和 21 世纪初,研究者不满足于专用 AI,因此开发更通用的人工智能系统呼声越来越高。随之而来的是,通用人工智能 (AGI) 一词开始在 2000 年代初期流行起来。

最近一段时间,如大家所见,大型语言模型 (LLM) 走到聚光灯下,这些神经网络基于 Transformer 架构,并在大量文本数据集上训练而成。尤其是 OpenAI 最新发布的 GPT-4,更是展示了大型语言模型的通用性,在数学、文字、法律、医学等领域样样精通。

我们不禁会问,GPT-4 是迈向 AGI 的重要一步吗?

微软给出的答案是肯定的,在其最近发布的一篇论文中,他们阐述了这个观点。文中对 GPT-4 进行了全面评测。微软认为「鉴于 GPT-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能(AGI)系统的早期(但仍不完整)版本。」

微软还表示,「本文的主要目标是对 GPT-4 的能力和局限性进行探索,我们相信 GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。」



论文地址:
https://arxiv.org/pdf/2303.12712.pdf

有趣的是,这篇火爆的论文还被人发现有大量删减,因此有人找出了未删节版论文。

从未删减版本中,这个博主也扒出了大量隐藏的细节,如 GPT-4 的内部名称为 DV-3,实际上也是该论文的隐藏第三作者,后被删除;这些微软的研究人员对 GPT-4 的技术细节似乎了解也并不多。此外博主也透露这篇论文发布时删除了有关毒性内容的部分(防止给 OpenAI 造成负面?)。

我们下面粘贴了该博主的 Twitter 线程,感兴趣的可以查看。



Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

回到文章本身。

根据文章所认定的 AGI,是具体的拥有推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。从这些能力出发,论文进行了有趣的实验和评测。

论文分为 10 个章节:第一章为总括部分;第二章介绍了多模态,主要和视觉生成内容相关;第三章代码,根据指令生成代码、理解现有代码;第四章数学能力;第五章与世界的交互;第六章与人类的交互;第七章判别力;第八章 GPT-4 局限性;第九章社会影响;第十章未来方向及结论。

下面我们通过具体的示例,看看 GPT-4 是不是真的迈进了 AGI 时代。

多模态和跨学科组成

为了测试模型将艺术与编程相结合的能力,该研究要求 GPT-4 用 javascript 写一段代码,以生成康定斯基风格的随机图像,下图第一张为 Wassily Kandinsky 创作的,第二张和第三张分别由 GPT-4 和 ChatGPT 生成的:



下面为 GPT-4 代码实现过程:



进行视觉概念理解:在这个作图任务中, 输入提示让模型结合字母 Y、O、H 的形状来画一个人。其实在 GPT-4 的训练过程从没有关于字母形状的认识,只能从相关训练数据中、模糊地学习到字母与一些特定形状有关,结果显示 GPT-4 生成的结果还不错:



用于草图生成:GPT-4 还能与 Stable Diffusion 进行结合。下图为 3D 城市建模截图,输入提示有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。下面是生成结果:



你还能要求 GPT-4 用 ABC 记谱法生成和修改曲调:



编程能力

GPT-4 有非常强大的编程能力,包括根据指令编写代码和理解现有代码。该研究具体测试了 GPT-4 在编程方面的能力。

微软 gpt3

代码编写

下图 3.1 是一个让 GPT-4 写 python 函数的例子,该研究使用 LeetCode 在线判断代码是否正确。





然后,该研究让 GPT-4 将上表 2 中 LeetCode 上的准确率数据可视化为图表,结果如下图 3.2 所示。



前端 / 游戏开发

如下图 3.3 所示,该研究让 GPT-4 用 JavaScript 在 HTML 中编写 3D 游戏,GPT-4 在零样本的情况下生成了一个满足所有要求的游戏。



深度学习编程

为深度学习编写代码需要数学、统计学知识,并熟悉 PyTorch、TensorFlow、Keras 等框架和库。如下图 3.4 所示,研究者要求 GPT-4 和 ChatGPT 编写自定义优化器模块,该任务对于人类深度学习专家来说也是具有挑战性的。研究者为 GPT-4 和 ChatGPT 提供了自然语言描述,其中包括一系列重要的操作,例如应用 SVD 等等。



此外,该研究还测试了 GPT-4 把代码转换成 LaTex 公式的能力,结果如下图 3.5 所示。



在理解代码方面,该研究尝试让 GPT-4 和 ChatGPT「读懂」一段 C/C++ 程序,并预测程序的输出结果,二者的表现如下:



然后,该研究让 GPT-4 解释了一段 Python 代码:



还有解释一段伪代码:

360随身wifi4G



数学能力

一直以来,大型语言模型的数学能力似乎一直不是很好。那么 GPT-4 在这方面表现如何呢?本文经过一系列评测,结果表明 GPT-4 相比以前的模型在数学方面有了质的飞越,但是离专家水平还差得很远,不具备数学研究的能力。

在与 ChatGPT 的对比中, GPT-4 成功的生成了解决方案,而 ChatGPT 生成了错误答案:



在 AP 问题上,GPT-4 vs ChatGPT 对比结果。GPT-4 使用了正确的方法,不过由于计算错误导致最终答案错误,而 ChatGPT 产生了一个不连贯的论点。

上海飞凡汽车



此外,本文还测试了 GPT-4 使用数学思维和技术来解决现实问题的能力:下图展示了 GPT-4 如何成功地为一个需要广泛跨学科知识的复杂系统构建合理的数学模型,而 ChatGPT 未能取得有意义的进展。



由于论文内容长达 154 页,本文只对评测结果进行了大量展示,想要了解更多内容,读者可以参考原论文。

最后附上论文目录:

google pixel 7pro 中文









moto 360s


返回网站首页

本文评论
港股新能源汽车股跌幅较大 小鹏汽车收跌超9%「小鹏汽车港股上市融资额」
  讯 9月28日下午消息,香港恒生指数收跌3.41%,创5月10日以来最大单日跌幅;恒生科技指数跌3.85%。新能源汽车股跌幅较大,小鹏汽车收跌超9%,理想汽车、蔚来跌超7%。京东、哔哩哔...
日期:10-02
应对疫情,粉笔网武汉地区停止招生,线下未开课程全国可退
  近日,新型肺炎疫情的爆发引发社会各界的关注,在这全国人民共同抗击疫情的非常时刻,粉笔网发布声明,为最大限度的减少疫情传播,决定全面暂停武汉地区线下班招生,并且在全国范...
日期:10-11
AMD宣布退出BAPCo组织 行业标准向英特尔倾斜
(小贝)北京时间6月23日消息,据国外媒体报道,芯片生产商AMD日前宣布,将退出BAPCo(商业应用性能协会)行业组织,这意味着PC性能测试标准向着有利于英特尔芯片的方向发展。BAPCo组织是S...
日期:07-30
雷克萨斯es大降价「丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价」
  作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该...
日期:09-21
微博15亿收购新浪网全部股权?官方回应来了「腾讯收购新浪微博是真的吗」
凤凰网科技讯 12月25日消息,针对微博以15亿收购新浪网全部股权的消息,微博方面回应凤凰网科技称,本次买卖不涉及微博与新浪之间的主要业务转让,也不涉及二者之间的任何管理关系...
日期:12-25
Salesforce收购社交客户服务公司Assistly_salesforce干什么的
  9月22日早间消息,据美国科技博客TechCrunch报道,软件服务提供商Salesforce周三以5000万美元现金收购了社交客户服务SaaS(软件即服务)公司Assistly。   Assistly帮助企...
日期:07-23
iqoo9预售价「热门机型849元起,iQOO 11.11预售狂欢一图看懂」
中关村在线消息:一年一度的11.11大促销又来了,想买手机的朋友们别错过。好消息是,iQOO手机也参与到了促销中来,预定最高省600元,热门机型最低849元起售,并且全程价保。具体详情,一...
日期:10-29
包凡×杨晓磊:投资最难的是跟自己斗,人不能活在经验里
  对话/杨晓磊   编辑/曹玮钰   包凡发现了问题。他说,做投资的几年间,自己的情商“变低了”,这或许让他本人都有点惊讶。以前做投行,不谦虚地讲,他称得上处理人际关系的...
日期:07-31
Redmi无线充电新机曝光 或为K60系列_redmi无线充电手机型号
中关村在线消息:10月8日上午,有数码博主曝光了一款Redmi新机的配置信息:系列两款机型将分别支持67W、120W有线充电,并均配备30W无线充电,大概率为即将推出的K60系列。13代酷睿最...
日期:10-23
6个月亏掉5万亿!孙正义用一幅画开启自省_孙正义收拾烂摊子:花30亿让他走人
见习记者/戚夜云   在软银集团财报发布会伊始,创始人兼CEO孙正义展出一幅与主题毫不相干的颦像。这是德川家康的自画像,在轻敌冒进吃了生平唯一的败仗(三方原合战)之后,命画师...
日期:08-16
为什么PanDownload被封之后百度网盘速度快了?_pan 百度网盘下载 不限速
  近日,一位网友在知乎提问“百度网盘的下载速度变快了?”众多网友将此事与近期PanDownload开发者被抓一事关联起来。这也验证了网络上的一种声音,PanDownload软件的使用得...
日期:07-27
一台TCL P10复式分类洗衣机,解决两台洗衣机才能搞定的分类洗问题(TCL复式分类洗衣机)
  无论是对于初为人父母的新晋宝爸宝妈,还是已有二胎的家庭,在照顾宝宝的衣食住行上,最令人犯愁的莫过于宝宝每日的洗衣。相信不少宝爸宝妈都有类似的经历,宝宝缺少自理能力,...
日期:07-15
微软发表白皮书谴责GoogleApps的成本不像谷歌宣传的那样低
  北京时间5月5日消息,据国外媒体报道,微软在发表的一份白皮书中警告称,GoogleApps的成本不像谷歌宣传的那样低。   随着GoogleApps入侵微软的传统领地——企业软件市场,最...
日期:07-27
苹果放弃今年增新款iPhone产量计划「苹果今年产量如何」
据彭博社报道,由于预期需求激增未能实现,因而苹果公司放弃了今年增加新款iPhone产量的计划。此前,天风国际分析师郭明錤表示,苹果已要求鸿海富士康将iPhone 14的生产线切换到iPh...
日期:09-29
张朝阳:杨振宁比霍金更伟大「为什么说杨振宁是本世纪最伟大的物理学家」
  9月30日,在主题为“科学大家杨振宁百岁华诞”活动中,搜狐CEO张朝阳谈到“霍金伟大还是杨振宁伟大”这个问题时表示,肯定是杨振宁伟大。“这不算一个问题,(霍金与杨振宁)不是一...
日期:10-04
小米双11开门红:70分钟支付金额破30亿元 500款产品优惠_双十二小米活动
今晚20:00,双11促销季全面开启,各大厂商第一时间公布了自家销量战报,继Redmi Note 12系列首销1小时销量破25万台后,小米公司宣布,小米双11用时仅1小时10分,全渠道支付金额突破30亿...
日期:11-04
微软 Visual Studio 2022 macOS 版 17.0 预览版 6 发布,继续移植原生 UI(Microsoft Visual Studio 2020)
  据 Neowin 报道,微软今天发布了 Visual Studio 2022 for Mac 17.0 Preview 6,最新版本旨在解决 1 月 25 日 Preview 5 版本中的主要问题,同时继续推进 IDE 向原生 macOS U...
日期:07-17
本田中国销量2020「日系车走下神坛?本田中国2月销量大跌三成 已连跌6月」
日系车真不好卖了,不仅日产销量持续低迷,如今本田也不能独善其身,中国销量已现连续6个月下跌。日前,本田中国最新发布,2023年1-2月在中国的终端汽车销量为138,332辆,同比下滑45.2%...
日期:03-05
利用米聊表情打造的短篇小说
  玩米聊的朋友应该对它自带的表情印象深刻,米聊不仅提供了丰富可爱的表情,在下载表情包扩展之后,更是拥有多达数百款表情可以选择。   既然米聊表情如此丰富,我们何不用它...
日期:07-23
冰与火之歌和龙族_《冰与火之歌》前传《血与火》上线QQ阅读 首次展现龙族全貌
  阅文集团旗舰阅读产品QQ阅读于近日引入《血与火:坦格利安王朝史(第一卷)》小说电子版,该部作品是美国著名奇幻小说作家乔治•R.R.马丁的最新力作,故事背景设定在史诗巨...
日期:04-06