您的位置:首页 > 互联网

人工智能的创新基石:合成数据_人工智能融合发展

发布时间:2024-10-14 16:28:31  来源:互联网     背景:

通信世界网消息(CWW)近期,合成数据在大模型中应用的话题引起广泛关注。6月,英伟达发布新一代开源大模型Nemotron-4 340B,其指令模型训练是在98%合成数据基础上完成,此前英伟达还推出了合成数据生成工具Omniverse Replicator,能够生成物理模拟的合成数据,用于自动驾驶汽车和机器人的训练。7月,苹果也发布了其自研的人工智能系统Apple Intelligence,在预训练阶段也大量使用了合成数据。围绕合成数据的价值、应用、风险等,值得我们深入思考,基于此,本文从合成数据的概念入手,分析如何生成合成数据、其主要应用领域、使用合成数据的风险挑战,并探索未来发展前景。

合成数据概念及兴起缘由

合成数据并不是一个全新的概念,早在1993年,著名统计学家Donald Rubin在论文中提出合成数据的概念。近年来,随着ChatGPT的火爆和生成式人工智能技术的发展,合成数据概念受到越来越多的关注。

众所周知,大模型训练和开发对数据尤其是高质量数据的需求量日益增长。然而,现实世界中大模型训练所需数据量却日渐紧张,面临“不够用、不好用、不能用”等诸多问题。

 1.不够用 

当前大模型训练对数据的需求量远超数据的增长量,知名研究机构Epoch AI在一篇论文中指出,到2026年,大模型将消耗尽所有高质量数据,低质量数据将在2030年~2050消耗殆尽,而所有图像训练数据在2030年~2060年被消耗完。2024年6月,《麻省理工技术评论》刊出一篇论文也指出,高质量数据将在2028年前后被消耗完(见图1)。另外,由于成本问题,也会导致某些数据难以获取。

图1 人类高质量数据存量与大模型训练所需数据量的预测

 2.不好用 

现实世界中存在数据质量参差不齐的问题,数据中存在错误、缺失、异常、格式不一致等情况,例如打了马赛克的图片,都会使得模型分析结果产生偏差。

 3.不能用 

随着数据使用监管加强,数据隐私保护法律法规日益完善,对涉及个人隐私权、肖像权、个人真实信息等数据的保护力度加大,要求企业在大模型开发和应用中,不得随意使用上述数据。

这些问题一定程度上制约了人工智能发展,合成数据应运而生。合成数据(Synthetic Data)是指通过计算机算法生成的模拟数据,它模拟真实世界的数据分布和特征,通过数学模型和生成技术,来构建新的数据集,而不是直接来自现实世界的观测或记录。合成数据可以通过针对性的数据补充和强化,解决数据匮乏、数据质量不足等问题;可以规避数据隐私、安全、保密等风险,在医疗、金融等领域意义重大;还可以模拟和生成现实世界中难以采集到的边缘场景,保持数据的多样性。

总之,合成数据为解决上述问题提供更多方向和思路,极大拓展了AI应用的可能性。Gartner、Accenture等著名咨询公司都看好合成数据的发展前景,认为合成数据有望解决人工智能未来发展的“数据瓶颈”,成为推动AI技术更广泛应用的核心要素。

人工智能合成图

合成数据如何生成

合成数据技术路线众多,常用的有以下三种:基于LLMs生成的合成数据、基于GANs或者Diffusion Models生成的合成数据、基于统计和模拟生成的合成数据,在实际应用中多种方式往往相互协同和补充,以提升数据合成质量。

 1.由LLMs生成的合成数据。

新媒股份未来

LLMs拥有卓越的语言理解和表达能力,以及强大的指令遵循能力,能够为特定场景和领域创建定制的数据集。使用LLMs生成合成数据的常见做法,可分为提示工程和多步骤生成。首先,基于高性能模型的提示工程生成合成数据,用于补充特定领域的数据,帮助轻量级或下一代模型进行监督学习。如Meta Llama 3的后训练完全依靠从Llama 2获得的合成数据;又如OpenAI计划使用o1模型生成合成数据来训练即将推出的Orion模型。其次,基于模型生成多步骤的合成数据,可用来补充思维链(CoT)的中间推理过程,促进模型的对齐与进化。如浙大、中科院等机构利用GPT-4-Turbo生成代码绘制图像,并逐步提示模型生成解释答案的原理,从而组成多模态合成数据集,使用该数据集对Vanilla Llava-1.5-7B微调能显著提升其视觉推理能力,在推理难度最高的路线图场景中,准确率提升67.4%。

 2.由GANs或者Diffusion Models等算法生成的合成数据。

通过对抗训练和逐步去噪的过程,模型能够生成与真实数据高度相似的合成图像样本,广泛应用于数据增强、医疗隐私等领域。

 3.基于传统的统计和模拟等方法生成的合成数据。

一方面通过观察真实的统计分布,利用算法生成符合特定统计分布的数据。另一方面,可以通过模拟器等方法创建数据,如Sora文生视频模型用到Unity、Unreal Engine等游戏引擎合成的视频数据作为训练集。

目前,市面上有许多工具可生成合成数据,如英伟达发布3D仿真数据生成引擎Omniverse Replicator、微软开源合成数据工具Synthetic Data Showcase等。6月14日,英伟达发布开源大模型Nemotron-4 340B,包含基础模型Base、指令模型Instruct和奖励模型Reward,也可用于生成高质量合成数据(流程见图2),其中Instruct模型用于生成基于文本的合成输出,Reward模型对生成的文本进行评估并提供反馈,指导迭代改进并确保合成数据的准确性。

图2 Nemotron-4模型生成合成数据的流程

oppo有搭载骁龙870新机上市吗

合成数据的应用实践

近年来合成数据在具身智能、自动驾驶等领域得到重点关注及广泛应用,如成立于2023年初的光轮智能公司,专注于在自动驾驶、具身智能等领域提供合成数据解决方案,在2023年完成种子轮、天使轮、天使+三轮融资,累计融资金额达数千万元人民币,并于2024年5月底完成Pre-A轮融资。

 1.合成数据为具身智能带来了丰富、可控且经济的训练与学习材料,提升具身智能系统在各种复杂环境和任务中的适应性和表现能力。

人类远程操控机器人完成任务并生成高质量数据,其收集成本高昂且耗时,合成数据成为“扩大机器人学习的强大且经济”的有效途径,通过数字孪生技术,让机器人在虚拟世界学习如何操作和感知环境。如英伟达与UT提出MimicGen数据生成系统,通过对人类演示进行处理,自动生成不同场景下的大规模合成数据集,用于机器人的模仿学习。在Square、Coffee Preparation等18个任务中,只用175个人类示例就生成超过5万个训练数据集,并且在Square任务中,只用10个人类示例就生成了1000个训练数据集,覆盖不同场景配置,并将成功率从人类示例数据集的11.3%提升至90.7%,在复杂的Coffee Preparation任务中,成功率从12.7%提升到97.3%。

 2.合成数据为自动驾驶领域带来丰富的训练资源,提升自动驾驶系统的性能和安全性。

在自动驾驶车辆的开发过程中,边缘场景(如复杂交通、恶劣天气等)的数据采集尤为困难,国内领先的数据仿真平台公司51Sim利用先进的仿真技术构建各类低概率、高风险的边缘场景,增加训练样本和多样性,提升感知算法泛化能力,帮助主机厂加速模型训练。同时,51Sim参与北京大学牵头的“面向自动驾驶场景的高真实感数据合成”研究课题,通过将自动驾驶示范园区典型的真实场景与拟真度极高的渲染算法进行集成,生成带有多模态数据标注的高逼真合成场景数据集,大幅推动视觉大模型和高速脉冲视觉模型算法研究评测在自动驾驶场景中的落地应用。

合成数据的挑战及应对

由于合成数据的生成机制和技术特性限制,其应用存在一定隐忧。今年7月,Nature一篇最新论文显示,运用合成数据迭代训练9次,导致大模型不可避免走向崩塌。同样,杜克大学助理教授Emily Wenger发表在Nature上的一篇社论文章也指出,基于合成数据训练的大模型生成的图像会扭曲狗的图片。其本质原因是由于使用合成数据进行模型训练会忽视异常值和偏差值,从而导致原始数据分布的长尾消失,而经常出现的内容被无限放大,模型越来越偏离原始数据分布。

这正是合成数据应用存在的挑战之一,即数据保真度问题,合成数据无法完全模拟真实世界的复杂性和多样性,这会影响模型的训练效果和推理能力。挑战之二,即数据偏差问题,如果合成数据的生成过程本身存在偏差,例如人工恶意植入错误信息或误导信息,合成数据会继承甚至不断放大这种偏差。挑战之三,即可信度问题,合成数据的产生过程通常是“黑盒”的,难以解释生成数据的具体原理和过程,可能导致对合成数据的来源和质量产生质疑。挑战之四,即法律和监管问题,目前合成数据的监管体系尚不完善,如何确保合成数据的合规使用,如何解决带来的新的安全问题,这都是需要进一步考虑和研究的问题。

redmi会出平板吗

在技术方面,应对挑战的有效方法之一是采取“混合数据”策略,即在大模型训练中输入多样化的数据,保持真实数据的一定比例。如在大模型预训练阶段仍以真实数据为主导,合成数据作为针对性补充和拓展则保持较低占比(如5-10%);而在对齐阶段,提升合成数据占比,使其与真实数据规模相当,甚至可以更高。其他应对方案还包括调整生成参数、提供多样的提示等。

在监管方面,应注重合成数据的隐私保护和数据安全、合规使用、法律和伦理考量、持续监督与评估等多方面的规范和引导。2024年7月15日,新加坡个人数据保护委员会(PDPC)发布了《合成数据生成指南》,对合成数据的生成技术、典型应用、生成步骤等进行详细说明,提供了合成数据生成技术和方法指导,并强调了隐私保护与数据质量控制的重要性。欧盟颁布的《通用数据保护条例》(GDPR)对合成数据的生成和使用提出了监管要求;今年6月,欧盟数据保护监管机构(EDPS)发布的关于生成式人工智能数据合规指南,为合成数据的合规使用也提供了一定参考。我国于2022年11月发布《互联网信息服务深度合成管理规定》,对深度合成技术使用进行系统性规定,促进深度合成服务规范发展。

合成数据的未来发展展望

合成数据领域正迎来快速发展,其应用前景广阔,据Gartner预测,2024年AI训练中用到的数据有60%是合成数据,到2030年绝大部分训练数据将是合成数据。据著名市场调研机构Nester预测,全球合成数据的市场呈现蓬勃发展趋势,年复合增长率达35%,预计到2035年底,合成数据市场规模将达124.5亿美元(见图3)。可见,合成数据作为数字经济时代的“新型石油”,将为推动人工智能产业乃至经济社会快速发展提供新动能。

图3 合成数据全球市场规模预测(亿美元)

总之,合成数据或成为推动大模型能力跃迁的重要突破口,带来广阔市场前景和全新商业机会,但其本身也存在数据质量、技术突破、法律监管等挑战,应从技术、产业、监管等多方面持续研究和探索,共同推动合成数据走向“科技向善”。

新款ipad双十一会降价吗


返回网站首页

本文评论
《纽约时报》屏蔽了 OpenAI 的网络爬虫GPTBot
本文概要:1.《纽约时报》阻止 OpenAI 使用其内容训练 AI 模型。2.《纽约时报》更新服务条款,禁止使用其内容进行人工智能训练。3.《纽约时报》可能考虑对 OpenAI 采取法律行...
日期:08-22
铁路新规发布:明年1月1日实施 这三类车无需实名买票「铁路购票新规定」
11月28日消息,据报道,交通运输部发布新版《铁路旅客车票实名制管理办法》,进一步明确所有铁路旅客列车和车站实行车票实名制管理。新版办法将于2023年1月1日起施行。近年来,随着...
日期:11-30
对部分客户正进行大模型相关部分数据服务-海天瑞声
【】4月3日消息,海天瑞声近日在互动平台表示,公司认为整个大模型、AIGC领域未来将保持长期向上发展趋势,但其发展速度、阶段性效果及其在算法、算力、数据等方面的布局释放均需...
日期:10-04
铱钼科技发布新品EM165H新能源智能矿用卡车,云锱平台重新锚定矿卡未来
(原标题:铱钼科技发布新品EM165H新能源智能矿用卡车,云锱平台重新锚定矿卡未来) 12月初,厦门铱钼智汇科技有限公司(以下简称为“...
日期:12-12
发放千万补贴 中国汽车流通协会联合懂车帝开启616全民购车节
【】5月25日消息,懂车帝联合中国汽车流通协会正式启动2023年“616全民购车节”。本次购车节从5月25日持续至7月14日,覆盖热门新车及二手车车型,累计将发放千万级别购车补贴。汽...
日期:09-27
某消费投资人看好的24个小生意:鸡蛋灌饼、麻辣烫、包子铺等…_某类消费者重视投入成本
声明:本文来自于微信公众号三言Pro(ID:sycaijing),作者:三言,授权转载发布。投资人现在看中什么赛道?近日有网友列出某知名消费投资人看好的24个小生意,包括鸡蛋灌饼、包子铺、麻...
日期:10-25
滴滴快送上线200城,可提供“小件快送”服务_滴滴配送贵吗
6月13日,滴滴出行平台新增滴滴快送业务,目前已接入达达快送、闪送、UU跑腿三家公司,提供“经济帮送”、“专人直送”的小规格物品的即时配送服务。目前已在成都、杭州、北京等...
日期:06-13
任正非:华为要建立高端人才储备库,不拘一格获取优秀人才_华为顶级人才计划
通信世界网消息(CWW)9月4日,心声社区发布了华为创始人任正非在高端技术人才使用工作组对标会上的讲话内容。任正非表示,我们要建立一个自己的高端人才储备库,只要是优秀人才都可...
日期:09-05
macbook air 有15寸「苹果发布15英寸的MacBook Air 起售价1299美元」
财联社6月6日电,苹果发布15英寸的MacBook Air,为苹果公司历史上最大尺寸的MacBook Air,电量将提升达50%,搭载M2处理器,起售价1299美元。苹果下调2022年发布的13英寸MacBook 100...
日期:06-06
马斯克分享猎鹰9号火箭“死亡俯冲”的视频「猎鹰9号火箭解剖图」
据CNET报道,SpaceX正在发射如此多的猎鹰9号火箭任务,它们几乎是例行公事。但是,有时人们可能对一项任务产生新的看法。周四,SpaceX 创始人埃隆·马斯克 (Elon Musk)在Twitter上...
日期:10-14
今天腾讯QQ 25岁生日!官方社交报告上线:看看你哪一年注册的QQ号_注册qq生日怎么填年月日吗
快科技2月10日消息,今天是腾讯QQ 25岁生日,1999年,成立3个月的腾讯推出即时通讯工具OICQ。仅9个月,OICQ注册用户突破100万,2000年11月,OICQ正式更名为QQ。京东哪家手机壳好今日,腾...
日期:02-10
信通院刘默等:数据空间探索与实践_信通院 刘钊
通信世界网消息(CWW)数据空间是数据资源高效流通与开发利用的新型基础设施、应用模式与产业生态,通过运用各类技术和治理规则,保护各方合理数据权益,促进不同主体间开展安全可信...
日期:10-11
哈佛大学研发出一种更平价和高效的空调方法「哈佛大学研发出一种更平价和高效的空调」
夏天的命都是空调给的。这句话正从梗变成现实。在今年的高温下,空调变得越来越必要,但同时,空调用得越多,既会加重用电电压力,而排出的热气也会让户外环境更热,制冷剂也会对环境...
日期:09-14
你能想象没有手机的日子吗?李彦宏将给你比手机更好玩的东西
    现代生活中,手机成了人们生活办公必不可少的工具。人们每天需要高频率地使用手机,如联系他人、查找信息、上网娱乐等等,以至于很多人根本无法想象没有手机的日子。但...
日期:05-01
2022贺岁档票房破10亿!《阿凡达:水之道》5.9亿元能拯救院线吗「2021票房破10亿」
12月24日消息,据灯塔专业版实时数据,截至今日10时57分,2022年贺岁档(含预售)总票房(11月25日-12月31日)突破10亿。惠普暗影精灵pro2动物都有什么的短视频其中,《阿凡达:水之道》《航...
日期:12-24
中国电动车太抢眼!官方:已成为不少国家新能源销冠_中国电动车现状
10月29日消息,据央视”报道,在日前国务院新闻办公室举办的2023年前三季度工业和信息化发展情况新闻发布会上,新能源汽车的表现十分抢眼。前三季度新能源汽车产销分别完成631.3...
日期:10-29
三星内存股票「三星减产股价疯涨 存储市场将大反转?」
集微网报道(文/林美炳)受半导体部门亏损拖累,三星电子今年第一季度营业利润跌破1万亿韩元,仅剩6000亿韩元,同比下滑约96%。这是三星电子2009年第一季度以来的最差业绩,而且首次被L...
日期:10-03
华为nova 7 se手机尺寸「华为nova 10 SE手机海外发布: 6.67英寸大屏 66W快充」
华为nova 10 SE手机在南非发布,目前在当地的官网已经能够搜到相关的型号和产品的细节,为 nova 10 系列手机将包括华为 nova 10 Pro、华为 nova 10 和华为nova 10 SE 三款i9 10...
日期:10-06
没有数据 双11收官京东、天猫战报这样说「双11天猫京东手机战报」
11月12日消息,从10月下旬就开始的“双11”折扣季在11月12日零点收官。对于第14届天猫双11的表现,天猫官方表示:今年天猫双11稳中向好,交易规模与去年持平。天猫去年双11的交易额...
日期:11-14
京东春晚互动大奖揭晓:100寸电视、2万元洗衣机只要1分钱_京东100寸液晶电视
快科技2月2日消息,作为2024年总台春晚独家互动合作平台,京东联合了超多品牌,给大家带来超大惊喜。蓝牙耳机什么牌子的好?-耳机-ZOL问答此次京东一共为大家准备了1亿份实物好礼,...
日期:02-03