您的位置:首页 > 互联网

高质量数据成为大模型“卡脖子”问题「高质量的数据」

发布时间:2023-06-14 14:33:18  来源:互联网     背景:

通信世界网消息(CWW)数据集是大模型竞争的关键要素之一,AI大模型的突破得益于高质量数据的发展。AI大模型需要大规模、高质量数据,而数据的高效处理方式是大模型成功的关键。随着数据集规模的增大,数据管理难度也在攀升,产生高质量数据存量耗尽、数据安全风险、数据合规等问题。建议加强数据合规监管和评估机制;重视数据多样性和代表性发展;加强数据隐私保护和安全措施;加快高质量数据集发展。

什么是高质量的数据

AI大模型需要大规模、高质量数据,数据高效处理方式是关键

高质量数据集

训练大模型需要大规模、高质量、多模态的数据集,通常需要从各个领域和多个数据源收集数据,这些数据可以是文本、图像、语音、视频等多种形式。大语言模型训练使用的数据集规模爆发式增长。从2018年GPT-1数据集约为4.6GB,2020年GPT-3数据集达到了753GB,而ChatGPT的数据集为超万亿单词的人类语言数据集(约45TB)。OpenAI并没有公开训练ChatGPT的相关数据集来源和具体信息,这也形成了一道无形的技术壁垒。常见的数据集主要由海外开源组织、高校、互联网巨头、政府机构等掌握。

图1 常见大模型数据集总结

资料来源:OpenDataLab,CSDN

ChatGPT的突破性进展除了依赖于更高质量、更丰富的训练数据集外,同样得益于其高效的数据处理能力,特别是数据清洗、标注等。ChatGPT从多个数据源采集到大量原始数据后,首先使用自然语言处理技术对原始数据进行清洗,同时,还使用了特定的过滤器,去除常见的噪声数据和无用信息。为了提高准确性和表现力,ChatGPT使用数据增强技术对数据集进行扩充,增加语料库的规模和多样性,从而提高ChatGPT的泛化能力和鲁棒性。另外,ChatGPT使用RLHF(来自人工反馈过程的强化学习)生成用于微调的高质量标记数据。最后,ChatGPT使用标注和增强后的语料库来训练助理大模型。

AI大模型面临高质量数据耗尽、数据安全、数据合规等风险

1. 高质量数据将耗尽,寻找新的数据来源迫在眉睫

高质量数据是大模型不断优化的稀缺资源。高质量训练数据越大,大模型的推理能力越强。以GPT-3为例,来源于维基百科、书籍及学术期刊等高质量数据仅占其数据集的17.8%,但其在模型训练中的权重占到了40%。而大模型训练所需要的数据集的增速远大于高质量数据生成的速度,导致高质量数据逐渐面临枯竭。当前的存量数据中,高质量数据将在2026年耗尽,低质量数据将最晚在2050年耗尽,图像数据将最晚在2060年耗尽。

为了解决高质量数据不足的问题,OpenAI主要采用合成数据的方法,即借助生成对抗网络(GAN)来生成数据。将样本数据输入至预先准备好的模型,通过数据变换、旋转、缩放、仿射变换等操作增加数据的多样性和复杂度。合成数据因其高质量、高垂直的特性,将有可能最先在金融、医疗等行业率先适用,并将在2030年超过真实数据。目前,英伟达、微软、Meta等均已在合成数据领域完成布局。

2. 数据安全风险日益凸显,输入至模型的数据安全缺乏保障

特斯拉股价疯涨

大模型必须对用户隐私进行过滤,否则带来的隐私泄露风险将不可估量。大模型数据来源除了所有公开数据、合作数据、合成数据,用户在与大模型的交互过程中产生的数据也成为了模型训练的语料基础。这使得大模型成为了“数据中心”,在输出过程中必须确保数据安全。ChatGPT在发布之后,便出现了大量的用户隐私泄露事件。今年3月,三星半导体部门连续出现三起ChatGPT数据泄露事件,源于员工将公司机密输入而导致。截至目前,为避免企业信息泄露,苹果、三星、亚马逊、摩根大通等多家企业已经明确禁止使用外部生成式AI工具。

为避免用户数据泄露,ChatGPT采用了数据脱敏处理、加密存储、外部安全审计等方式,但效果有限。在经历数起用户隐私泄露事件后,ChatGPT上线了“关闭聊天记录”功能,开启后用户的隐私数据将不会被保存,这意味着ChatGPT将隐私安全的风险又交回给了用户手中。

3. 数据合规风险或成为限制大模型发展的首要因素

从公开数据源中获取的数据会存在危害国家安全、歧视、暴力、色情、谣言、政治倾向、犯罪等不合规数据。这就要求大模型在训练之前需要对数据进行严格清洗和准确标注。ChatGPT避免数据合规风险的方法包括数据清洗、数据标注、模型的预训练、降低不良信息权重、自我反思等。但这些方法仍然存在被用户通过“恶意诱导”的方式绕过,包括生成恶意软件、编造虚假消息。国内某用户在利用ChatGPT测试过程中,发现利用特定方式可以让ChatGPT生成钓鱼信息的模板,从而绕过其监管策略。

全球范围内,针对人工智能的监管已经来临。美国、欧洲、中国均已经对大模型的监管提出相应的政策及法案,对生成式人工智能的个人隐私、知识产权、虚假信息、政治倾向等方面提出了监管意见。美国商务部下属国家电信和信息管理局 (NTIA) 在4月11日发起了一项关于AI风险和机遇的征求意见倡议,涉及歧视标准、社会和治理保证、风险管理、透明度和反偏见等。并在5月16日举行了OpenAI听证会,围绕着版权侵害、虚假内容、影响选举、数据安全、大公司垄断等议题展开。OpenAI的CEO Altman在听证会上就美国政府应该如何监管AI公司,提了四条建议:一是组建一个新的政府机构,负责给AI厂商提供许可证,并吊销不符合政府标准的厂商的许可证;二是为AI大模型创建一套安全标准,大模型必须通过安全测试与风险评估;三是指派第三方专家独立审核AI产品的各方面指标;四是创立一个由美国领导为AI制定相关标准的国际组织。欧盟在5月11日通过了《欧盟人工智能法案(The AI Act)》,该法案针对不同类型的人工智能系统制定了相应的监管措施,区分了不可接受的风险、高风险、有限风险和低或轻微风险四种风险类型,并针对不同类型施加了不同的监管措施以及相应类型的人工智能系统的提供者义务。我国国家网信办在4月11日发布《生成式人工智能服务管理办法(征求意见稿)》,并对大模型备案、安全评估、内容真实准确、尊重他人合法利益、公平竞争、处罚等问题作出了相关规定。

相关建议

1. 建立数据合规的监管和评估机制

推动完善AIGC监管立法,保护和规范人工智能领域的内容合规。相关机构和政府部门应建立相应的监管机制,对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外,应加强对大模型的社会影响和风险评估,及时发现和解决可能存在的问题。

2. 加强数据保护和安全措施

相关机构和企业应制定严格的数据隐私保护政策,加强数据安全技术和措施,确保用户个人隐私得到充分保护。同时,要加强数据共享和合作的安全管理,防止数据泄漏和滥用。

3. 加强高质量数据集发展

美股腾讯音乐今日股价

一方面,借助数字中国战略,通过数据交易所,实现数据资源在各行业、各企业间自由流通,缓解大模型训练数据量不足问题。同时,大力发展数据服务商,提供数据标注、清洗、维护等服务,助力大模型训练数据质量提升。另一方面,加强AI生成技术,利用AI合成数据缓解数据耗尽问题。

oppo双十一销量


返回网站首页

本文评论
游客吐槽25元看海洋馆就几个鱼缸 开业两天后关闭「海洋馆要钱吗」
3月12日在宁夏银川,一名女子抱怨银川吾悦广场海洋馆只有几个鱼缸,小孩还要花25元进去看,引发网友热议。日企搬出中国该女子说,自己是在朋友圈看到银川吾悦广场海洋馆的相关信息,...
日期:03-13
奇虎内部邮件回应:傅盛严重违反竞业禁止协议
  10月1日消息,针对奇虎360在香港起诉前产品经理傅盛一事,奇虎360昨天向员工发布邮件,称“这一次起诉傅盛,实属不得已而为之”。   以下是邮件正文:   关于前员工傅盛违反...
日期:07-23
身家2081亿的贝佐斯前妻离婚:再婚仅1年两人互拉黑 曾签署婚前财产协议
据美媒报道,亚马逊创始人贝佐斯的前妻、慈善家麦肯齐斯科特(MacKenzie Scott)已于当地时间26日申请与她的第二任丈夫丹朱伊特(Dan Jewett)离婚,而据悉两人在结婚前还签署了婚前财...
日期:09-30
十代酷睿漏洞「12代酷睿源码泄露 Intel:安全没问题 找到漏洞还有奖」
日前Intel的12代酷睿处理器BIOS源码泄露引发网络热议,网上信息显示文件容量高达6GB,主要用于创建及优化12代酷睿的UEFI BIOS。华为鸿蒙3.0什么时候可以升级考虑到BIOS的重要性...
日期:10-26
香港恒生指数开盘跌0.68% 网易开跌超2%_香港恒生指数收盘价格
查看最新行情   讯 8月15日上午消息,香港恒生指数开盘跌0.68%,恒生科技指数跌0.91%。网易开跌超2%,阿里巴巴、快手跌超1%。 moto 模块化vivo直板按键手机...
日期:08-15
吴亦凡户籍信息只要50元?腾讯手机管家盘点3大信息泄露途径
  近日,《陈情令》中蓝忘机扮演者王一博发微博称:“别再给我打电话了 别再用我手机号去登录软件 也别再去买我的号码 这已严重影响了我的生活。”微博中透露的“买号码”引...
日期:01-24
金山毒霸怎么重装电脑系统_春节回家帮亲戚修电脑 金山毒霸真给力
  春节回家访友探亲,在互送新年祝福之余,亲朋好友向我诉说了在使用电脑过程中的种种遭遇,大到感染病毒,网银密码被盗,网购上当受骗,小到浏览器主页被篡改,输入法图标丢失,桌面图...
日期:07-26
NVIDIA最新调查:80%的RTX 40系显卡用户会启用光追和DLSS
快科技4月13日消息,今天NVIDIA发布最新调查数据,表示在使用RTX 40系显卡的用户中,有83%都会选择开启光线追踪,而79%都会选择启用DLSS。与RTX 30系和RTX 20系相比,这一数据明显高...
日期:04-13
nova11pro「华为nova 11来了!”捅破天“技术卫星通信下放 比肩Mate 50/P60」
4月1日消息,博主智慧皮卡丘爆料,华为nova 11系列即将发布,至少有两款机型,而且它们都是曲面屏形态。更重要的是,nova系列还有一项杀手锏:华为将卫星通信功能下放给了nova产品,正式...
日期:04-02
国家新闻出版署发布1月国产网络游戏审批信息,共88款游戏获批_新闻出版总署游戏审批
  讯 1月17日晚间消息,国家新闻出版署发布2023年1月国产网络游戏审批信息,共88款游戏获批。腾讯《元梦之星》、网易《超凡先锋》、米哈游的《崩坏:星穹铁道》、完美世界的《...
日期:01-18
美国阿波罗登月火箭「美国阿耳忒弥斯 1 号登月火箭再次改期发射」
IT之家 9 月 3 日消息,当地时间 9 月 3 日,美国国家航空航天局(NASA)五天来第二次暂停了正在进行的倒计时,并推迟了发射阿耳忒弥斯 1 号登月火箭的计划。根据 NASA 公布的信息,此...
日期:09-14
小米10t pro国际版_小米9T Pro登陆欧洲
  (原标题:,售价429欧元起)   8月9日消息 据外媒报道,小米9T Pro(国行为Redmi K20 Pro)在欧洲开启预售,售价为429欧元起(约合人民币3381元)。   据Gsmarena报道,小米9T已...
日期:02-01
腾讯上半年总收入超2700亿元「腾讯三季度收入1401亿元,净利润399亿元同比增1%_」
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-25
手机号注册涉黄_整治手机涉黄:半年停止解析未备案域名6.5万个
  (记者王政)“经过6个多月的专项治理,专项整治行动已取得了阶段性成果。”工业和信息化部有关负责人今天表示,自去年11月组织开展整治手机淫秽色情专项行动以来,共关闭或屏蔽...
日期:07-29
“暴雪制片厂”名不虚传:《暗黑破坏神4》剧情预告CG公布_暗黑破坏神4预告片中文字幕
一直以来,让暴雪游戏广为流传的,除了游戏本身的质量外,制作精良的CG短片也是不可或缺的部分。纳德拉微软价值观而这,也带来了暴雪制片厂”这个广为流传的称号。抖音一千多万粉丝...
日期:05-23
蚂蚁区块链公司法定代表人变更 倪行军卸任_蚂蚁集团倪行军
凤凰网科技讯8月8日消息,天眼查App显示,近日,蚂蚁区块链科技(上海)有限公司发生工商变更,法定代表人由倪行军变更为邹亮,同时,倪行军卸任执行董事职务,邹亮任董事长兼总经理。天眼查A...
日期:08-09
你信吗?宝马MINI再道歉:吃冰淇淋的“老外”是同事 求宽容2位小姐姐
快科技4月21日消息,闹得沸沸扬扬冰淇淋事件,让宝马成为了网友吐槽的对象,而现在MINI中国也是再次回应。MINI中国表示,要跟大家郑重道歉,因为这次上海车展事件,MINI占用了公共资源,...
日期:04-21
三星Galaxy S23出厂系统吃掉近60GB存储空间被喷:澄清后反转了
三星Galaxy S23系列发布后,有媒体发现,512GB的版本系统固件和预装软件就吃掉了57GB。对此,国外数码评测人Golden Reviewer解释,首先,512GB从二进制转为国际单位制后,可用空间就只...
日期:02-15
知识付费又叫什么「知识付费,一个周期的尾声?」
声明:本文来自于微信公众号 黄有璨(ID:owen_hyc),作者:黄有璨,授权转载发布。2周以前,在大理参加了网红校长Alex组织的一场知识付费行业大会,见了很多业内新老朋友,结合跟大家的交流和...
日期:06-06
守望先锋游戏地图「免费开玩!《守望先锋:归来》正式上线:大批新地图、新英雄」
据官方消息,《守望先锋:归来》已经于今日凌晨正式上线,作为续作继承了原汁原味的玩法和画面风格,老玩家可以迅速上手,还新增了不少机制和英雄、地图。当然,最重要的就是这次完全免...
日期:10-08