您的位置:首页 > 互联网

用AI生成数据训练AI,最终只会“模型崩溃”_ai生成绘画

发布时间:2023-06-20 15:28:23  来源:互联网     背景:

声明:本文来自微信公众号“DoNews”(ID:ilovedonews),作者:李熙,编辑:杨博丞,授权转载发布。

尽皆知: 过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。 然而科幻文学家们的预言中,其实应验的乌鸦嘴不比正面成就少,比如 DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。

2023年2月,美国华裔科幻文学家特德·姜发表文章称:ChatGPT等大语言模型,实质是对互联网语料库的有损模糊压缩,如同JPEG格式之于原始高清图片。

按特德·姜的观点,用大语言模型生成的文本来训练新的模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多的信息,最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多,信息网络本身就变得越发模糊、难以获取有效真实信息。

ai数据处理

2023年6月中,牛津、剑桥、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者发布的论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言:用AI生成数据训练新的AI,最终会让新的AI模型退化以至崩溃。

苹果勿扰模式失效

01.“粪口循环”9次,就能让大语言模型崩溃

这些研究者们发现,在训练新的神经网络AI模型时,使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一新模型的退化过程与结果称为“模型崩溃”。

按论文所述,不管受训的新模型功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使模型处在近乎理想状态的长时间学习条件亦如此。

论文一作伊利亚·苏玛利沃夫(Ilia Shumailov)称,AI生成数据中的错误会极快沉淀,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期与晚期两种。在早期时,被喂生成数据的AI模型会开始失去原初数据分布的信息;在晚期,被喂生成数据的AI模型会吐出完全不符合现实、不相关原初底层数据的结果。

而且与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI一直保有对之前学习过的原初底层数据的记忆,但极其固执,错误会千篇一律且难以矫正,模型将持续甚至强化将错误结果认为是正确的结论。

ai生成绘画

OLED的笔记本

论文中“模型崩溃”过程的示意图

研究者们先用小模型试验起,用相同模型生成的数据训练同一模型。以此方法在高斯混合模型(GMM)上实验,拿AI分辨人工生成的不同正态分布。结果是在如此训练50次后模型开始出错到无法分辨原初底层数据。训练到两千次后,模型的错误结果收敛到每次基本雷同毫无变化。

以同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原初底层数据无关,20次后错误结果就开始收敛至基本雷同。

以上的小模型的原初数据量小,或许易于迷惑。研究者再用现在商用广泛的OPT-125m文本生成模型实验,此模型由Meta 公司开发,参数量1.25亿。研究者先用有1亿词元的“维基文本库2”数据集喂给模型,跑出同样词元量的生成结果数据集。再用生成结果数据集反复训练OPT-125m模型。

结果是,在研究者输入提示词之后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句。被如此训练1次的大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文。被如此训练7次的大模型吐出的是完全与初始提示词无关的文本,9次后大模型的生成文本就是完全不知所云的车轱辘话。

02.“模型崩溃”,是因为AI与生俱来的的统计特性

“模型崩溃”的原因其实并不难懂。概言之,与特德·姜、马斯克这些名人们嘲笑生成式AI的说辞很相近:这些大模型本质上是高端统计学应用,离“智能”的实质还差得远。

用AI生成内容来训练AI的话,无可避免就会踩进“统计近似值偏差”的坑里。实质是高端统计程序的神经网络模型们,天然会高估、过于重视大概率的通常值,也会低估、过于忽视小概率的非常值。

amd配a卡有加成吗

这些模型生成的结果无法规避以上缺陷,持续用来再训练新模型,数据的多样性会越来越小、符合真实的正确度会越来越有限、“近似值拟合”会越来越严重。用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。

ai 训练出的模型 怎么用

论文中“模型崩溃”成因的示意图

用论文作者之一罗斯·安德森(Ross Anderson)的话说,这就如同用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。

理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。

在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界,此发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

亚马逊今天股价

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。

数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。

一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。

二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。

虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI 模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。


返回网站首页

本文评论
红米K60硬件配置曝光,标配30W无线快充_红米k20能不能用65w快充
中关村在线消息:10月8日,据相关爆料,即将在明年第一季度发布的红米K60系列详细参数已经曝光,新机共将为大家带来两款产品,一款为标准版一款为超大杯,二者均搭载骁龙8+处理器,但在续...
日期:10-16
腾讯举报有用吗「腾讯治理恶意举报行为 4月以来共处置608个帐号」
6月16日 消息:腾讯发布《针对恶意举报行为的治理公告》称,近期在处理用户举报的过程中,发现有一群不法分子,通过伪造证据的形式恶意举报他人,他们谎称可用恶意举报手段进行封号,...
日期:06-16
苏宁上线“停课不停学专场” 学生:妈妈再也不用担心我的学习了
  目前,随着疫情持续,国内包含上海、江苏、安徽等在内的11个省市区已经公布延迟开学到3月的信息,随着寒假的再一次“充值”,各地网上教学工作也陆续正式启动。   学生停课...
日期:03-07
致力存储芯片国产化替代 ICMAX发力企业级SSD市场(存储芯片未来趋势)
  对于半导体存储行业来说,这是一个最好的时代,从移动设备到数据中心,从AI、万物互联到5G通讯,我们生活在一个数据大爆炸的时代,存储无处不在,并且持续往更大带宽、更高...
日期:06-02
jbl2蓝牙音箱怎么连接「JBL Tour Pro 2 真无线蓝牙耳机发布,充电盒带有显示屏」
IT之家 8 月 31 日消息,JBL 推出了一款独特的真无线蓝牙耳机新品 ——JBL Tour Pro 2,它的特别之处在于耳机盒上有一块显示屏。JBL Tour Pro 2 号称配备了“世界上第一个”智...
日期:09-12
谷歌新操作系统Fuchsia OS「谷歌新一代操作系统 Fuchsia OS 将支持安卓的 ADB 工具」
IT之家 8 月 29 日消息,谷歌的 Fuchsia 团队已经开始了一项新的工作,允许使用 ADB 工具管理 Fuchsia 设备,就像安卓手机一样。ADB 是“Android Debug Bridge”的缩写,顾名思义,该...
日期:09-09
圣诞购物季警惕网购木马“抢钱”
  圣诞、元旦、春节三节接踵而至,网络购物市场异常火爆,由此引发的网购安全问题也越发突出。12月23日,国内知名的互联网安全厂商金山网络发布12月份首个红色安全预警,称在新...
日期:07-25
生鲜电商“剩”者为王_生鲜电商群雄逐鹿:谁能笑到最后
魅族和诺基亚真的在搞事情 这下情怀可以延续了高通wifi6芯片图源:图虫   作者/董静怡   编辑/张伟贤   每日优鲜的溃败来得有些突然,压力给到了叮咚买菜。   8月11日...
日期:08-12
谷歌推出AI平台“Flood Hub”提供全球洪水预测服务
5月23日 消息:谷歌推出了一款名为“Flood Hub”的AI平台,主要利用人工智能的能力来预测洪水,帮助国家、救援机构和民众提前七天获取即将到来的洪水信息。该平台的工作原理包括...
日期:05-23
进入AI交流时代:时空壶W3探索语言革命_时空语言符号是什么意思
ChatGPT的问世意味着人工智能正飞速冲向"智能"的彼岸,其强大的语言模型和处理能力正在逐步颠覆我们的生活和生产方式,引发大家对人工智能感到担忧的同时,也让我们深思,在这个强...
日期:06-16
薇娅再露面,谦寻的天已变_薇娅是谦寻的老板娘
声明:本文来自微信公众号“全天候科技”(ID:iawtmt),作者:张超,编辑:罗丽娟,授权转载发布。不再倚仗薇娅。表面上,谦寻过去将更多资源和团队赋能在了薇娅身上,但本质是为了摸着石头...
日期:05-07
滴滴也办了一场“吐槽大会” 柳青:吐槽滴滴的人,都是有爱的人
  9月4日,由打车引起的吐槽节目《七嘴八舌吐滴滴》在腾讯视频首播,滴滴出行总裁柳青和滴滴员工、滴滴司机一起献出了他们的网络综艺首秀。柳青在现场自嘲“每一次打车都是...
日期:04-22
集邦咨询预计2024年苹果Vision Pro MR头显出货量约为20万台
6月8日消息,据外媒报道,考虑到产品售价和某些基本功能缺失等因素,集邦咨询(TrendForce)预计,2024年,苹果Apple Vision Pro混合现实(MR)头显的出货量仅有约20万台。天玑800u oppo程序...
日期:06-08
甲方和乙方谈恋爱「甲乙方合作就像谈恋爱,最好的承诺是手放开」
声明:本文来自于微信公众号 刀姐doris(ID:doriskerundong),整理|Even 编辑|刀姐doris,授权转载发布。本期推送为——播客《温柔一刀》Vol.33文字精选版,总字数为5191,预计阅读时间...
日期:11-25
百度加入W3C万维网联盟 将参与国际标准制定_w3c是指万维网联盟
  9月14日消息,W3C(万维网联盟)CEO Dr. Jeff Jaffe 访问百度总部,双方就百度加入W3C正式签署协议。百度作为中国首个受邀加入该国际性组织的互联网企业,将在网络开放平台和...
日期:07-23
分析人士:电动自行车将在下个10年成为主流_电动自行车行业在中国的发展只有十余年
  12月17日消息 根据The Verge的报道,下一个十年将被定义为一场电池驱动的交通革命,而引领的车型将不再是特斯拉的Model 3或赛博卡车,也不会是电动滑板车,而是电动自行车。...
日期:10-13
男子包饺子放金戒指被网友质疑 霸气回应称自家开金店、寓意长寿多福
有些家庭过节的时候,喜欢在饺子、包子、汤圆、馄饨甚至月饼等里面包硬币,代表福气,谁吃到就很幸运。关于生活的照相机据九派新闻视频报道,1月21日,河南安阳一男子晒出包饺子时将...
日期:01-24
蓝色起源计划2023年登月「蓝色起源"轨道礁"空间站通过NASA审查:将于2027年投入使用」
8月27日消息,美国国家航空航天局(NASA)在今年6月中旬至7月中旬进行的系统审查表明,太空公司蓝色起源参与开发的“轨道礁”(Orbital Reef)在总体设计上是可行的,批准其进入设计阶段...
日期:08-28
抖音国庆旅游数据报告_抖音国庆大数据来了!秦皇岛、黄山等上榜旅游黑马城市TOP5
  10月8日,抖音发布国庆大数据。数据显示,今年国庆黄金周期间,四川阿坝藏族羌族自治州以打卡数增幅189%位列旅游黑马城市第一位,其次是辽宁丹东、四川甘孜藏族自治州、河北秦...
日期:03-20
博鼎实华金舰:小基站芯片国产化已取得多项突破「博鼎机械产业园」
通信世界网消息(CWW)随着5G技术的飞速发展,全球范围内的移动网络基础设施正经历着一场革命。5G小基站作为5G网络的一部分,正在逐渐成为实现5G网络全面覆盖和大容量数据传输的关...
日期:05-27