您的位置:首页 > 互联网

ChatGPT变笨新解释:世界被AI改变,与训练时不同了

发布时间:2024-01-01 14:56:36  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。

对于ChatGPT变笨原因,学术界又有了一种新解释。

加州大学圣克鲁兹分校一项研究指出:

在训练数据截止之前的任务上,大模型表现明显更好。

论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。

也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。

人们以为只提了个问题AI就能回答,其实是在训练时见过大多数常见任务。

随时间推移,人们开始提出更多新问题,AI表现就不行了。

比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。

这是所有不具备持续学习能力模型的命运。

任务污染有多严重?

研究团队一共评估了12种模型,从ChatGPT之前的GPT-3系列、OPT、Bloom,到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。

它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。

评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是生命了来源,而不发布数据本身。

如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。

对此,团队采用4种方法来测量任务污染程度:

  • 检查训练数据:直接搜索有没有相应的任务示例

在开源模型Alpaca和Vicuna上,存在训练数据污染的任务表现就比原版Llama更好的趋势明显。

  • 提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来

从GPT-3davinci-001版本到GPT-3.5-Turbo,这个问题越来越严重了。

图中X代表模型复述出了训练数据数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。

灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。

  • 成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同

  • 按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据

前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。

但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。

第四种方法召回率高但精度低,容易受干扰因素影响。

海信学校 2021

特别是对于GPT-3系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。

虽然在2021年之前的数据集上,davinci-002比davinci-001的性能有所提高,但在2021年之后的数据集上性能却相应下降,

通这表明GPT-3系列的指令微调只适用于某些早期数据集。

最后团队的结论为:

  • 由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过RLHF微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。

  • 在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。

  • 随着时间推移,观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加,这可能是由于任务污染造成的。

  • 即使对于开源模型,检查训练数据的任务污染也很困难。

  • 鼓励公开发布训练数据,以便检查任务污染问题。

有人总结到:

  • 用现有数据训练AI

  • 人们过多使用AI,以至于改变了现实世界

  • AI无法适应改变后的世界,变得低效

  • 这是一个循环。

    论文:

    https://arxiv.org/abs/2312.16337

    参考链接:

    [1]https://twitter.com/ChombaBupe/status/1741531065032798360


    返回网站首页

    本文评论
    东北过年杀猪菜图片「全国年味地图出炉:东北杀猪菜 中部地区爱吃面」
    临近年关,年味也越来越浓,除夕夜吃团圆饭是中国人过春节的传统,不同地区的习俗也各不相同,年饭也是各具各地特色。对此,中国天气网特别推出全国年味地图,解锁大江南北十大特色年味...
    日期:01-16
    小米Civi 2发布:颜值超高 共有4种配色「小米civi外观」
    在小米新品发布会上,小米发布了Civi系列新机小米Civi 2。该机共有4种配色,分为冰冰蓝、怦怦粉、朦朦黑以及与Hello Kitty联合设计的特别款“小白裙,每款配色的颜值都非常的高。...
    日期:09-30
    腾讯第二季度国际市场游戏收入107亿元 同比下滑1%(腾讯游戏产业收入占比)
    京东销售产品iphone8和x大小家电以旧换新京东补贴 查看最新行情   讯 8月17日下午消息,腾讯控股今日发布2022年度第二季度财报。财报显示,该公司第二季度...
    日期:08-18
    2023年中国汽车利润率仅有4.9%:终于知道为啥燃油车不死了
    9月28日消息,乘联会秘书长崔东树撰文称,2023年1-8月份,汽车行业销售利润率仅有4.9%,创几年新低。具体来说,2023年1-8月的汽车行业收入61652亿元,同比增11%;成本53736亿元,增11%;利润3...
    日期:09-29
    和好天气一起City walk,漫游在城市的每一个角落
    (原标题:和好天气一起City walk,漫游在城市的每一个角落) 最近City walk在各大社交平台刮起了一阵风潮,形成了新的互联网景观。...
    日期:08-17
    北京讯鸟科技有限公司_讯鸟分布式移动客服——让我们宅在家里轻松办公吧!
      如果你感到浑身乏力和酸痛,不要过分紧张,这可能是长时间躺床上刷手机造成的!   宅在家里的乐趣,多半来自于随时可以外出~   前天睡醒,假期还剩三天;昨天睡醒,假期还剩五天;...
    日期:02-09
    2020年三大运营商携号转网情况_“携号转网”正式启动,纳入四大运营商考核指标
      11月27日消息 今日,工信部召开携号转网启动仪式,11月27日起,携号转网正式在全国提供服务。   据中新网消息,中国电信、中国移动、中国联通、中国广电四大运营商把携号转...
    日期:10-22
    传闻中的iPhone Ultra策略可能奏效 但很容易适得其反
    9to5mac报道,苹果是否会计划推出一款新的iPhone Ultra,价格甚至高于Pro Max?这是周末一份报告的建议,首席执行官蒂姆·库克(Tim Cook)在上周的财报电话会议上暗示了这一点。在小区...
    日期:02-08
    小米13Ultra 1TB白色16GB 1TB版本今天开售:首发7299元「小米13ultra最新消息」
    5月4日消息,小米官方今日宣布,小米13 Ultra白色16GB 1 TB版本今天开售,首发价7299元。小米13Ultra共提供橄榄绿、黑色、白色3款配色,采用第二代纳米科技皮、Unibody金属框架机...
    日期:05-04
    甜哭了!杜海涛因为一碗米饭对沈梦辰上头
    近日,主持人杜海涛在《半熟恋人》节目里说,当他和沈梦辰一起出去吃饭时,看到沈梦辰独自吃着一碗冒着尖的米饭,“她嘎嘎嘎都吃了,太可爱了!redmi k30s是屏下指纹吗nothingear蓝牙...
    日期:02-15
    小米13 Ultra跑分公布 提升较大
    小米已经宣布将于下周二召开发布会,正式推出高端徕卡旗舰小米13 Ultra,而目前小米13 Ultra跑分公布了,数据库中已经可以查到新机的数据,其中显示该机型号为2304FPN6DC,搭载高通第...
    日期:04-13
    比亚迪大屏立功 中国乘用车仪表盘平均尺寸将增至近10英寸「比亚迪唐显示屏尺寸」
    CINNO Research发布报告,预计2024年中国市场乘用车电子仪表盘平均尺寸将增至近10.0英寸。统计数据显示,2020年和2021年中国市场乘用车电子仪表盘平均尺寸分别为8.3英寸和8.7英...
    日期:12-30
    区块链局势总摇摆不定,因其起源与黑客文化有着莫大的关系_区块链的诸多特征使其成为一项备受期待
    加密和解密之间的“军备竞赛”,对加密学的发展有着巨大的影响...Maskelyne是第一代黑客,准确来说是“白帽黑客”,遵守道德理论的黑客,也有点搞破坏的那种...1984年,史蒂芬·列维...
    日期:08-01
    奔驰新广告「大众之后,奔驰车机被曝推送广告_网易订阅」
    IT之家 9 月 28 日消息,如今广告真是无处不在,电视机有广告、手机有广告,现在连汽车都要推送广告了,而作为交通工具,安全性是最重要的,车机推送广告势必会对行车安全产生影响。近...
    日期:10-03
    SAP S/4HANA_SAP S/4HANA产品新特性
      提到ERP软件,你可能还停留在以下印象中:   · 由客户一次性购买软件和相关硬件,价格昂贵;   · 同时,需要招聘管理和实施软件的IT人员;   · 持续和艰难的实施计划,各...
    日期:11-25
    韦乐平:T比特时代正在开启
    通信世界网消息(CWW)在在6月14日举办的2023中国光网络研讨会上,中国电信集团公司科技委主任韦乐平分享了“T比特时代正在开启”的主题演讲。iqoo天玑720苹果第三方magsafe充电...
    日期:06-14
    第二款国产卫星通信手机!荣耀Magic6详细规格首曝_荣耀magic系列是什么定位
    快科技12月11日消息,今天,数码博主@数码闲聊站分享了第二款国产卫星通信手机,荣耀Magic6的详细规格。该博主表示,荣耀Magic6将采用与华为Mate60相同的3D ToF人脸识别技术,可以识...
    日期:12-11
    元宇宙相关岗位平均月薪1.85万元 最高能拿4万_元宇宙招聘
      来源:快科技2018年中国企业500强车企  元宇宙作为第三代互联网形态,其时空拓展、高度沉浸、感官延伸、人机融生等特点,让人心生向往。目前各大企业也纷纷布局元宇宙。 ...
    日期:09-28
    科大讯飞遭遇“意外”事故,业绩承压与决胜未来的取舍_科大讯飞2021爆发
    突发性坏消息多少令同时发布讯飞星火认知大模型的科大讯飞(002230.SZ)有些无奈。与此同时,今年以来,虽然业绩表现欠佳,但科大讯飞成长性仍获得投资者及机构的乐观看法。毕竟,在众...
    日期:10-30
    华为鲲鹏生态创新中心_华为鲲鹏社区商标获批
      信息显示,近日,华为技术有限公司申请注册的“华为鲲鹏社区”商标状态变更为“已注册”,国际分类为网站服务,该商标申请于 2021 年 8 月。此前,华为公司多个“华为鲲鹏”商标...
    日期:12-03