您的位置:首页 > 互联网

神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观

发布时间:2024-04-30 15:30:54  来源:互联网     背景:

声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

这场等待GPT-5的游戏啥时候才能结束?

GPT-5啥时候来?估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布,还是我们可以从边角料的爆料中得知一点点信息,大家对未来将要发布的这一模型充满了期待。

但奥特曼在一次访谈中表示,OpenAI 现在采用迭代部署的方式进行研发,而不是秘密进行直到完成 GPT-5才公布,他们的目标不是给世界带来震惊性的更新,恰恰相反,OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势,如果大家有那种感觉的话,OpenAI 会更加快速迭代地发布他们的产品,比如在发布 GPT-5之前,先上线 GPT-4.5。

无论如何,大家对 GPT-5的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布,我们也没有等来。

不过,LMSYS Chatbot Arena 上出现了一个神秘的模型,在社交媒体上引起了广泛的热议。

这个神秘的模型名为gpt2-chatbot,当有人问是谁创建了它?该模型自己的回复时竟然是 OpenAI,并且是基于 GPT-4架构。

图源:X@TomDavenport

这个模型吸引了大量网友的围观和测试,结果很多人发现,gpt2-chatbot 的能力似乎与 GPT-4保持在同一水准,甚至在一些任务上的表现比 GPT-4Turbo 还要好。

因此,网友们纷纷猜测,gpt2-chatbot 是 GPT-4的某个新版本,比如 GPT-4.5,或者 GPT-5的测试版。

图源:X@elder_plinius

还有人扯到了消失了很久的 OpenAI 首席科学家Ilya Sutskever,说 gpt2-chatbot 实际上是 Ilya 在答题。

图源:X@roramora0

三星手机全球畅销机型

不过今早,奥特曼神叨叨地回复了一句,表示对 gpt2情有独钟。GPT-2于2019年推出,参数量为15亿。

奥特曼的编辑记录更加激起了网友的好奇,先是 gpt-2后是 gpt2,难道 gpt2(二代)要来了吗?

图源:X@andromeda74356

不管 gpt2-chatbot 最终是什么,我们先来看看它在哪些任务上表现更强。

神秘的 gpt2-chatbot 强在哪里?

先来看 gpt2-chatbot 与 gpt-4-trubo 分别画独角兽(TikZ 独角兽)的效果对比,显然前者的效果更好一点。

图源:X@JoshhuaSays

另一个类似的画独角兽示例,gpt2-chatbot 与 Claude Opus 的效果比较。

下图从左往右依次是 GPT-4Turbo、Llama3和 Gemini1.5pro 的生成效果。

图源:X@SullyOmarr

再来看数学方面的一些例子,其中 gpt2-chatbot 可以一次性地解答国际数学奥林匹克(IMO)问题。

图源:X@itsandrewgao

不仅如此,有人发现了 gpt2-chatbot 比其他所有模型表现都要好的任务:A+B-1问题。

图源:X@DimitrisPapail

对于一些逻辑推理题,gpt2-chatbot 也更擅长,并强于其他大模型。

比如,当问 gpt2-chatbot我今天有3个苹果,昨天吃了一个。现在有几个苹果?它给出的回复很准确(3个),并解释了原因(昨天吃了一个并不影响现在有几个苹果)。很少能有模型回答对这个典型的推理题。

作为对比,GPT-4、Claude-3Opus、Gemini Ultra、Llama3-70b 都回答错了。

图源:X@airesearch12

再比如,Jessica 有两个兄弟和一个姐妹。她的兄弟各有多少个姐妹?显然 gpt2-chatbot 回答对了。

而 Claude-3Opus 搞错了。

图源:X@skirano

此外,gpt2-chatbot在一些哲学问题上也答得很好,在完整性和基本事实方面,与 GPT-4Turbo 相比,具有非常相似的解答思路。

图源:X@anonkanav

图灵奖得主Yann LeCun也赶来围观,不过他并不看好这个模型,并表示人工智能的炒作已经变成了讽刺。

LeCun 之所以这样说,是因为有人问 gpt2-chatbot一个农夫带着一只羊和一只山羊站在河的左岸,旁边有一条船。船只能装下一个人和两个动物。农夫如何带着羊和山羊到达河的右岸,并尽可能减少旅行次数?

对于这个问题,正常来说只需一趟就可以了,但 gpt2-chatbot 把答案弄得非常复杂,还分了5步完成。

图源:https://twitter.com/ylecun/status/1785100806695325804

可以说,这些测试结果让我们看到了 gpt2-chatbot 在画图、数学、逻辑推理等任务上的不俗能力,同时也会出现将简单问题复杂化的情况。但要说它就是 GPT-4或 GPT-5,有人还是不同意。

因此,有人猜测 gpt2-chatbot 实际上还是此前的 GPT-2,但是使用现代助理数据集进行了微调。在这种情况下,这意味着 OpenAI 最初的预训练效果仍然令人惊叹,并在几年后仍比其他模型更好。

图源:X@albfresco

如何体验?

首先你需要进入 chat.lmsys.org:

在如下的界面中,点击 Direct Chat:

然后选择 gpt2-chatbot 就可以测试了:

不过,当我们向 gpt2-chatbot 提问时,收到提示此模型速率已达到上限,看来大家只能再等等了。

地址:https://chat.lmsys.org/?&continueFlag=7c6341bdf97e0feac7657a2181eabc99

除了 gpt2-chatbot,OpenAI 今天还发布了一个消息,他们在2月份宣布的 Memory 功能,现在可供所有 ChatGPT Plus 付费用户使用。


返回网站首页

本文评论
抖音与官方合作_饿了么和抖音达成合作 双方今日将正式官宣
讯 8月19日下午消息,获悉,饿了么和抖音达成合作,双方今日将正式官宣。邮政快递菜鸟裹裹youtube上线...
日期:08-20
谷歌团购服务Google Offers新增5个城市(美国谷歌订餐)
  9月8日消息,据国外媒体报道,谷歌团购服务Google Offers现在新增了5个城市,包括奥斯汀、波士顿、华盛顿特区、丹佛和西雅图。   Google Offers团购服务最初是在波特兰试...
日期:07-22
荣耀100系列官宣11月23日发布!“灵动岛”设计、不规则后摄颜值一绝
快科技11月14日消息,临近年底,各大手机厂商今年最后一波新机也将陆续发布。今日,"荣耀手机"官微创建#荣耀100满分上镜#词条,在该话题中,荣耀宣布荣耀100系列将于11月23日正式发布...
日期:11-14
《流浪地球2》出现吴孟达扮演角色 郭帆:用CG复原 纪念达叔「流浪地球2有吴孟达吗」
电影《流浪地球2》将于大年初一在全国上映,目前该片预售总票房已突破1亿元。今日,《流浪地球2》在北京举行首映,映后交流环节,有观众问到片中出现的韩子昂(在《流浪地球》里由吴...
日期:01-21
小型便携投影仪哪个品牌好「什么东西“既大又小”?一款便携式高清投影仪给你答案」
人们似乎总对“大”的东西情有独钟,手机越换越大,电视、电脑也更偏爱大屏。可有的时候,人们又会向往“小”。出门办公的时候,抬着大而笨重的显示器会十分麻烦,但换成一台轻便的笔...
日期:09-22
售楼处回应保安被指穿衣少瑟瑟发抖:误会 在活动手脚_售楼处保安礼貌用语有哪些
近日,重庆一位保安在站岗时全身发抖的视频引发网友热议,许多人认为这是因为“穿得太少”。1月23日,涉事售楼处的工作人员向记者解释了这一情况,称这其实是一个误会。据这位工作...
日期:01-26
小牛电动车_小牛电动新品外媒抢先曝光?这回真的来了!
  作为首家即将登上CES舞台的国产电动车品牌,小牛电动2020年CES首秀很是值得期待。毕竟在众大佬争相抢眼球秀肌肉的科技大会上,初来乍到的小牛电动显得势单力薄了些。那么,...
日期:12-16
女网红半藏森林AI克隆人诞生:包月30元 1万用户1年收入可高达360万元_半藏森林哪里整的容
快科技6月3日消息,日前,小冰公司宣布首批网红GPT克隆人”上线,其中包括拥有百万粉丝的女网红博主半藏森林”成为首批AI克隆人参与制作者。据了解,AI半藏森林目前提供42冰花/月(6...
日期:06-03
江淮新能源汽车 蔚来「奇瑞、江淮“加入”蔚来阵营!共同达成换电合作协议」
快科技1月11日消息,据媒体报道,今天下午,由安徽省能源集团、蔚来、国轩高科、安徽省新能源汽车和智能网联汽车产业主题母基金共同出资建立的中安能源有限公司”在合肥揭牌。摩...
日期:01-12
马斯克称若推特能确认部分内容 或将继续推进收购计划_马斯克在推特上推的币
当地时间8月6日,特斯拉首席执行官埃隆·马斯克在社交媒体上表示,如果推特能够确认一些关于如何衡量用户账户是“机器人或虚假账户”还是真人的细节,他以440亿美元收购推特的计...
日期:09-27
文娱行业终于迎来小阳春
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者:石灿,授权转载发布。“开年即决战。”刁龙是全球数字营销大数据公司有米云品牌市场VP。开年后,他与同事南下广州,访企...
日期:02-09
曝小米14屏幕升级:1.5K分辨率 下巴窄到没朋友_小米14的屏幕
快科技8月17日消息,博主数码闲聊站暗示,小米14采用1.5K直屏。相比上代小米13的1080P屏幕,小米14这块屏幕显示效果更为细腻。根据此前曝光的信息,小米14这块屏幕由华星供货,使用的...
日期:08-18
淘宝夏日清凉版今晚8点上线 将发放1000万份免费高温补贴_淘宝清凉节活动时间
7月12日 消息:据悉,今晚8点淘宝将上线夏日清凉版,上新夏日限定logo和清凉皮肤,发放1000万份免费的高温补贴。上淘宝搜索“太热了”还有一个透心凉的彩蛋此外,首场促销“狂暑季”...
日期:07-12
互黑造谣不可取 工信部:严厉打击新能源汽车产业不正当竞争行为
快科技3月17日消息,中国电动汽车百人会论坛正在北京举行,会上工业和信息化部副部长单忠德表示,将严厉打击新能源汽车产业的不正当竞争行为。ai技术未来面临的发展瓶颈当谈及新...
日期:03-17
史诗级升级!苹果iOS 17新版钱包和健康App截图曝光
最近,据国外科技媒体 MacRumors 报道,苹果iOS 17引入了新版钱包和健康App。在iOS 17钱包应用中,新增了卡片、现金、钥匙、身份认证文件和订单五个选项,底部配有新的导航栏。小米...
日期:05-03
Windows新界面「微软展示下一代Windows系统首张界面图:UI焕然一新!惊现灵动岛」
在微软日前举办的Ignite大会上,有细心人士注意到一张前所未见的系统截图。与会的开发人员称,微软称这张图展示了部分WindowsNext Valley”系统的设计理念。Next Valley即下一...
日期:10-15
搜索框微创新 百度框“织围脖”势头正猛
  作为用户获取信息的主要渠道,百度搜索引擎于近期上线的“框发微博”应用,引发了业界的广泛关注。通过搜索框发布微博信息,正成为一种新的使用时尚。从该应用目前的使用量...
日期:07-28
推进半导体领域的相关研究,美国斥资110亿美元设立研发中心_美邀19家企业谈"半导体大计"
 4 月 25 日消息,美国政府近日宣布斥资 110 亿美元(备注:当前约 798.6 亿元人民币),设立专门的研发中心,推进半导体领域的相关研究。拜登政府已宣布向美国国家半导体技术中心(NSTC...
日期:04-25
微软发布Windows 11 Dev /Beta 预览版22598(win11预览版dev和beta)
  ITBEAR科技资讯4月20日消息,近日,微软发布了全新的Windows 11 Dev/Beta 预览版22598更新,带来了新的设备默认采用 Windows Spotlight壁纸,正在测试4K壁纸。此外,Media Playe...
日期:07-18
广东新一轮消费券来了:单券最大面额888元 满888.01元就能用_广东消费券在哪里领
快科技1月9日消息,广东消费券第四轮来了,这次最大单券面额达到888元,满888.01元就能用,几乎是无门槛。据悉,上一轮推出了满666.01元减666元暖冬券”非常受大家欢饮,所以这次直接升...
日期:01-09