您的位置:首页 > 互联网

OpenAI出手后,GPT-4真的不懒了?_opengpg

发布时间:2024-01-30 11:50:30  来源:互联网     背景:


来源 | AI前线

大模型会从人类经验中学习,如果人类本身越来越懒,那模仿人类的程序是不是也会越来越懒?

OpenAI 发布更新,解决 GPT-4“变懒”问题

近日,OpenAI 在一篇博文中发布了多项更新,并表示更新后的 GPT-4 Turbo“拥有比之前预览模型更好的代码生成等能力,且减少了模型在任务中途罢工的变懒情况。”但该公司并没有对更新内容做进一步解释。

OpenAI 在帖子中提到,由于知识库更新,已经有超过 70% 的 GPT-4 API 用户转向了 GPT-4 Turbo。OpenAI 表示,未来几个月内将陆续推出更多 GPT-4 Turbo 更新,包括发布具有视觉模态处理能力的 GPT-4 Turbo 正式版。这意味着用户将可输入各类多模态提示词,例如文本到图像生成提示。

此外,OpenAI 还推出了被称为“嵌入”的小体量 AI 模型。OpenAI 对于嵌入的定义,是“代表自然语言或代码等内容中概念的数字序列”。以此为基础,即可搭配检索增强生成(简称 RAG,一种从数据库获取信息、而非生成答案的 AI 方法)应用找到各类可访问内容间的关系。这些新模型、text-embedding-3-small 嵌入乃至更强大的 text-embedding-3-large 版本现均已正式开放。


gpt ai

经过改进的各 GPT 模型现已通过 API 开放,包括质量更高、价格更低廉的嵌入模型(e.gone 模型的成本仅为此前嵌入模型的五分之一,但性能更强)。

gpts

用户抱怨 GPT-4 学会偷懒:越来越像人类了?

2023 年 12 月,有不少用户抱怨称,“这段时间使用 ChatGPT 或 GPT-4 API 时,会遇到高峰期速度非常慢、敷衍回答、拒绝回答、中断会话等一系列问题”。

比如,某些时候,GPT-4 系统会给出一些特别模糊的答案,特别是关于 Docker、Kubernetes 以及其他 CI/CD 的问题。此外,GPT-4 还学会了“废话文学”——不直接回答问题,只是堆叠素材来讲解应该怎样回答问题。有用户反映,哪怕明确要求不要使用空白占位符,模型也仍然会用占位符把回答截得七零八落。这种限制回复质量的作法倒是替服务商节约了资源,但却极大浪费了普通用户的时间。

用户 jonathanallengrant 在 OpenAI 社区一个名为“为什么我觉得 GPT 变懒了”的帖子中提到:“不少人注意到自从 Dev Day 活动以来,模型的输出上限就变成了 850 个 token。换言之就是 ChatGPT 变懒了,不光留出大量空白,还常常在同一条消息里半天停在原地。我相信这应该是 OpenAI 正在以某种方式扩展模型的推理方法。”

用户 manchkiran 表示自己也遇到过类似的情况,并吐槽“现在的模型绝对是变懒了,只会快速搜索并给出 Bing 引擎的链接”,他猜测大模型变懒的原因或许与“微软加入 OpenAI 董事会后下调了算力分配”有关。

sasindujayashmaavmu 则从另一个角度分析了 GPT-4 变懒的原因:“我觉得这可能是人机回圈的锅……大模型会从人类经验中学习,所以如果人类本身越来越懒,那模仿人类的程序也会越来越懒。”

gpgpt

对于漫天盖地的吐槽声,ChatGPT 官方通过 X 平台通知用户,“我们听到了你们关于 GPT-4 变得越来越懒的反馈!我们自 11 月 11 日起就没有更新过模型了,当然这不是故意的。”

OpenAI 出手后,GPT-4 真的不懒了?

a106800k核显能玩什么游戏

OpenAI 本次更新承诺解决了 GPT-4“变懒”问题,根据社区用户反馈来看,如今的 GPT-4 似乎真的聪明多了。

用户 Distinct_Salad_6683 提到,最近自己发现 GPT 在编码能力有所提升,能够根据提示词快速提供完整的示例。之前 GPT 经常会拒绝给出具体示例,只是在描述自己要求它干的工作,并用“在此处插入函数逻辑”之类的废话来搪塞问题。

也有用户“阴阳”OpenAI:软件只要更新一下就能解决“变懒”,真羡慕。要是能有补丁帮我扛过礼拜一就好了。

由于 OpenAI 并未对更新内容做进一步解释,因此也有不少用户开始分析其到底是怎么解决 GPT-4“变懒”问题的。语言学家 christelle.hilz 分析,GPT-4 变懒的问题跟算法无关,单靠打补丁恐怕无济于事。这个问题还得从其他角度尝试解决。“我好奇的是 OpenAI 愿意花多少钱来解决 GPT 变懒问题”。

也有观点认为,OpenAI 并未真正地解决问题。因为大语言模型就是算法加公式的组合,所以哪怕更新真的解决了变懒问题,只能用这种方法改进模型本身也不是什么好兆头。

chieffy99 则更悲观地表示,哪怕是聘请了世界各地的专家,大语言模型自身的问题还是难以解决,毕竟任何专家都不可能确切了解每一个问题。因为越是越是专注于自己的专业积累,我们的视野反而变得越狭窄。chieffy99 还向 OpenAI 的管理团队“开炮”:

我向来敢于对OpenAI的缺点开炮,这里我也要明确表态:OpenAI一直认为AI的问题不可能通过开发AI方案来解决,但我觉得这是错的。 我自己没有任何关于AI的知识和使用经验,但拥有丰富的项目管理积累。抱怨变懒问题的用户是谁、当时是怎么操作的并不是重点,重点在于大模型为什么会倾向于消极工作。我本人喜欢从问题当中寻找共性,而且从目前的情况看应该不只是模型自身出了问题。我自己还没有明确的答案,但OpenAI的态度明显是“先尝试从内部做解决或者改进,等影响到正常使用了再说”。 在我看来,OpenAI的管理思路很有问题。以常见的团队沟通规划为例,只要提供足够的信息,GPT-3.5的表现还是相当不错的。所以我猜OpenAI也是用这种方式蒙蔽了高管团队的判断,毕竟精调提示词并不困难,请个专人就能解决。正因为如此,OpenAI才产生了单靠调整AI模型就能解决AI问题的思路。 我不知道现在大家说的这些问题到底跟变懒有没有关系,毕竟引发问题的原因多种多样。而且GPT大模型本身也不老实,甚至会说谎来隐藏自己的真实行为。哪怕是被发现,OpenAI也可以解释说是存在误会或者提示词存在不当内容。另外别太过迷信规则,基于规则的行为也不一定比随机问题更稳定,比如GPT-3.5就会访问网站、并把外部聊天和相关数据保存成html文件。这其实是不符合GPT身份和功能定位的操作。我也遇到过中途“罢工”的情况,但这主要是大模型忘记了当前上下文中的内容必须与之前的上下文接续起来。普通用户当然分不清楚,所以很自然地认为是大模型在偷懒。这跟之前的GPT幻觉差不多,刚开始似乎经常发生,但使用的人越多、涉及的内部信息越少,幻觉也开始逐渐缓解。 另外还有三点个人观察。首先,我很好奇OpenAI的专家到底做了什么。这个问题始于去年12月,当时外界认为GPT过于迷信专业知识、甚至为此而倾向于输出错误信息。比如通过知识文件向GPT自动输入提示词,那么生成的信息就会有所不同。而如果不输入预设文件,GPT的表现则比较正常。我就遇到了这样的情况,还专门向OpenAI上报了观察结果,想搞清在 RAG 问题有最终结论之前,到底该采取什么措施加以避免。而且之前我还尝试把知识跟行为区分开来做GPT训练,借此建立起纯知识库。在确保知识库内容与现实不冲突之后,再配合其他信息一起使用。第二点就是错误学习的问题。既然选择把大模型向公众开放,那能做纯软件修复的问题OpenAI肯定早就解决了。问题是时至今日,GPT还是没法在不改变形状的前提下,把不同尺度下相同颜色的图表正确合并。还是那句话,如果能修复的话早该修复好了。最后一点就是GPT号称全球最受欢迎的AI模型。这个评判标准实在太模糊了,我觉得应该从功能层面做准确描述。 总而言之,当前关于GPT的种种报道明显是刻意设计出来的。可怕的是GPT明显还没做好准备,因此无脑宣传已经在扭曲中立研究、造成现实损害、甚至让AI制造出更多的社会问题。有人在违规使用GPT,甚至有人把它当作非法工具来设计和实施犯罪。我不知道这次的更新能产生多大影响,但各种违规行为已经真实存在,甚至对普通用户产生直接影响。我想问问OpenAI,这一切是单靠更新AI模型就能解决的吗?

值得一提的是,OpenAI 此番发布的更新针对的是 GPT-4 Turbo,即得到广泛使用的特定 GPT-4 版本。这套模型根据截至 2023 年 4 月的最新信息训练而成,目前仅提供预览版本。也就是说,大家如果继续使用 GPT-4(使用截止于 2021 年 9 月的数据训练而成),那么“变懒”问题可能仍将存在。

https://www.theverge.com/2024/1/25/24050829/openai-gpt-4-turbo-lazy-ai-modelhttps://community.openai.com/t/i-wonder-how-much-openai-would-pay-to-cure-gpt-lazyness/604781https://community.openai.com/t/why-i-think-gpt-is-now-lazy/534332/11

欢迎加入这个星球,见证硅基时代发展↓


返回网站首页

本文评论
腾讯诉TapTap侵权案将开庭:侵害其商标权_腾讯侵权案件
凤凰网科技讯 2月1日下午消息 天眼查App显示,近日,TapTap关联公司易玩(上海)网络科技有限公司新增多则开庭公告,案由为侵害商标权纠纷。原告均为腾讯科技(深圳)有限公司,被告除易玩...
日期:02-01
美股周四:三大股指大幅上涨,苹果涨超3%,法拉第未来涨13%_美股faang
美国时间周四,美股收盘主要股指全线上涨,科技股领涨。最新公布的一批通胀数据显示美国3月份通胀压力得到缓解,而上市企业第一季度财报将陆续出炉。道琼斯指数收于34029.69点,上...
日期:04-14
小米产品经理预热小米13 仅有小米13和小米13 Pro_手机小米13
中关村在线消息:近日,小米的产品经理魏思琪在线为网友预热小米13的最新的消息。小米13依旧和上一代一样,小米13和小米13 Pro的大小并不一致,小米13依旧主打小屏旗舰,从曝光的图片...
日期:11-27
1万元!TP-Link发布Wi-Fi 7挖矿路由器:比RTX 4090快得多
利润丰厚的挖矿市场人人眼红,TP-Link都单独成立了一家子公司TP-Link ASIC,一出手就打造了一款能挖矿的路由器。这款路由器型号NX314”,重达3.9公斤,尺寸没有明确数据,但看起来个...
日期:03-09
推特CEO接受马斯克律师问话:为起诉马斯克一案作证「马斯克为什么要删推特」
  讯 北京时间9月26日晚间消息,据报道,Twitter CEO帕拉格·阿格拉瓦尔(Parag Agrawal)今日将接受特斯拉CEO埃隆·马斯克(Elon Musk)律师的提问,为Twitter起诉马斯克一案作证。国...
日期:09-30
女子骑摩托一路逆行超车被撞!10多处骨折还得负全责_骑摩托车逆行被撞身亡
1月23日消息,众所周知,骑摩托的危险性要远高于开车,肉包铁一旦出事故,后果往往非常惨烈,所以要时刻管好右手。据公安部交通管理局”最新披露的案例,2023年12月31日在江西于都,谢某...
日期:01-25
呈和科技将登陆科创板 年均2种以上新产品(呈和科技上市预测)
  对于一家研发企业来说,科研人员和技术是在行业内领先的基石,呈和科技深谙这点,对科研人员的培养和技术的投入倾尽心血,每年投入至少四百多万元用于新产品的开发,平均每年新...
日期:07-16
2022元宇宙共享大会|元宇宙共创大赛暨产业风云榜合作启动_世界元宇宙大会
央链直播报道, 2022 年 8 月 16 日,“开放与兼容” 2022 元宇宙共享大会暨《元宇宙十大技术》图书首 发仪式,及元宇宙产业委第 一届第二次全体委员大会,在北京西山国管局杏林山...
日期:09-10
从“三零三自”到“四零四自”:中国联通自智网络超前一步做对了什么
通信世界网消息(CWW)当前,全球已进入数字经济时代,中国联通加快“网络强国”“数字中国”建设,以“强基固本、守正创新、融合开放”新战略为主线,坚持集约化建设,打造“一个中国联...
日期:08-23
理想史上最强更新!理想L系列 OTA 5.0正式开启推送_理想0ne新款
快科技12月19日消息,作为理想汽车史上最强升级更新,备受车主期待的L系列 OTA 5.0,今日正式开启推送,新增145项功能,优化100项体验。其中,车机界面焕新,全新卡片桌面操作更为便捷,屏...
日期:12-20
联想刘军首次展示新IT架构:基于AI  装备精良
4月20日消息,联想集团执行副总裁兼中国区总裁刘军看好数实融合、智能化转型为中国企业即将带来的“弯道超车”机遇。刘军表示:“今天,以ChatGPT、文心一言为代表的人工智能大模...
日期:04-20
古茗捐款500万元驰援京津冀防汛救灾_古茗集团
8月4日消息,今日,古茗宣布已经向中国红十字基金会捐款500万元,用于支持受灾地区的应急救援及灾后重建工作。(一橙)苹果显示无结果找不到任何内容三星note8压感级别...
日期:08-04
银河麒麟操作系统V10发布_银河麒麟(藏文版)V10 国产操作系统将在 9 月 19 日发布
  9 月 16 日消息 据优麒麟官方宣布,银河麒麟桌面操作系统(藏文版)V10 发布会将在 9 月 19 日举行,讲述开发一款少数民族语言操作系统背后的故事,最让人期待的还是银河麒麟(...
日期:10-08
荣耀MagicBook 14对上联想小新Air 14 谁才是职场笔电最佳之选?_联想小新air14对比荣耀magicbookpro
  对于很多初入职场的朋友们来说,笔记本电脑可以说是工作的一个必需品,由于如今社会生活节奏越来越快,很多时候我们的办公需求不仅仅只局限在办公室当中。有时我们需要前往...
日期:03-10
三星 Galaxy S24 手机将能通过设备端的人工智能实时翻译电话内容
11 月 10 日消息:三星公司在最新的博客文章中确认,公司计划为 Galaxy 手机提供实时 AI 翻译电话通话的能力。三星公司表示,明年初Galaxy AI 将为公司的智能手机带来新功能。虽...
日期:11-10
微信为什么打不开公众号链接「微信突然无法访问公众号、链接了?官方给出答案」
因为疫情,不少中小学在家上网课。有些小孩和家长发来一个十万火急的问题,为什么学校让大家看的网课链接打不开?”微信官方表示,你或许忘了已经给孩子开启了青少年模式”。设置路...
日期:11-26
5.75亿超《你的名字》!《铃芽之旅》成中国影史日本动画票房第一
4月4日消息,今日,电影铃芽之旅”官方宣布,3月24日在中国内地上映的《铃芽之旅》累计票房突破5.75亿元,超越2016年上映的《你的名字》总票房,成为中国影史日本动画电影票房第一。...
日期:04-04
关机一样进行定位/支付 「iPhone」-15 Pro/Max或搭载低功耗微处理器
这段时间以来,外界关于新一代的iPhone 15系列的爆料越来越密集,不出意外的话该系列将继续推出包含iPhone 15、iPhone 15 Plus、iPhone 15 Pro和iPhone 15 Ultra四款机型,其中后...
日期:09-18
阿里云天池大赛聚焦数据智能 “津南智造”风口已来?(天池大数据众智平台)
  众所周知,阿里云天池平台素以举办“国际化”、“高端化”、“智能化”的算法比赛在行业著称,自2014年推出以来,已相继有98个国家、30万开发者参与,成为一个电商、金融、物...
日期:05-05
女子网约车上化妆遭司机停车赶人 化妆品有毒危害健康引热议:官方回应
网约车司机为了拒绝拉女乘客,居然给出了如此恶劣的借口。近日,上海一女子在网约车上化妆,司机称化妆品有毒停车赶人。按照该女子的描述,当时自己正在车上化妆,喷完定妆喷雾,然后跟...
日期:10-27