您的位置:首页 > 互联网

美国高质量数据集开发对我国数据标注产业发展的启示_数据集包含1972年美国加州

发布时间:2024-10-28 23:37:38  来源:互联网     背景:

随着互联网、物联网发展以及各种数字化终端设备的普及,2023年全球产生的数据量接近100ZB,且大部分是非结构化形态。要将原始形态数据,转化为机器可识别和学习的格式,数据标注服务应运而生。这两年生成式AI的突破性发展,更是带动数据标注从小众服务迅速成长为潜力巨大的产业。根据Grand View Research的报告,2023年全球数据标注工具和服务市场规模达85亿美元,其中,美国为28亿美元,占1/3,尤其数据标注工具更为突出,占全球市场接近40%。据MARKETSANDMARKETS统计,当前全球Top30数据标注服务提供商中美国就有18家。

数据质量是AI模型训练面临的最大挑战。据美国最著名数据标注服务公司Scale AI对其1300名从业者调查发现,三分之一表示他们遇到的首要问题是数据质量问题,其次是收集、分析、存储和版本控制问题。作为AI价值链的“上游”环节,没有高质量数据集,意味着“下游”就无法高质量建模,数据错误会转化为AI的偏见和误导性预测。高质量数据集开发和提供因此成为数据标注服务的核心竞争力。

美国政府制定 “通过数据扩大机会和发现”战略,积极推动AI高质量数据提供

自提出数字经济战略,美国政府就开始重视数据高质量供给问题。美国的数据管理机构是商务部,于2016年成立独立的联邦咨询委员会数字经济顾问委员会(DEBA),同年底发布《数字经济战略》,强调技术和数据的双轮驱动。

人工智能战略中,美国政府尤其重视数据高质量提供问题。2020年,特朗普总统宣布美国AI倡议承诺“增强高质量和完全可追溯的联邦数据的访问……提高这些资源对AI研发的价值”,并指示机构识别并解决数据质量限制问题。《联邦数据战略2020年行动计划》旨在通过集中联邦政府资源推动AI技术发展,(1)强调了数据共享与开放,为数据标注服务提供了更丰富的数据资源,提高了数据的质量和覆盖范围;(二)强调了数据治理和隐私保护的重要性,这有助于增强公众对数据标注服务的信任;(三)促进跨部门合作,形成了统一的数据标准和共享机制,提高了数据标注的效率和质量。这些措施共同构建了一个更加健全和高效的AI数据服务体系,对美国的数据标注服务及产业的高质量发展产生了积极的影响。

生成式AI进一步促进美国政府对高质量数据集提供的关注。今年1月,美国商务部数据治理委员会启动了AI和开放政府数据资产工作组,任务是制定可供生成式AI使用的数据开放指南。4月,工作组面向公众发布《为AI准备的政府数据资产开放》的需求征询。强调AI工具越来越多地用于数据分析和数据访问,为确保AI能够恰当便捷地访问数据,要确保所访问数据的完整性,确保数据“机器可理解”,而不仅仅是“机器可读”,强调高质量数据集提供至关重要。

美国国家标准与技术研究院(NIST)落实可信AI原则,制定标准和框架,规范高质量数据集

美国将AI系统的伦理和社会影响纳入国家标准战略,其中之一是确保AI系统的可靠和可信,主要由商务部下属的联邦机构国家标准与技术研究院(NIST)来领导制定相关标准。

2023年1月,NIST发布了AI风险管理框架(RMF)。特别强调没有数据就没有AI,可信AI依赖高质量数据集。AI系统运作的功能和决策可信度,很大程度上取决于系统训练所需的数据集。因此,应采取必要措施以确保使用数据时遵守负责任的AI原则。

NIST积极推动全球可信AI标准的制定。2023年10月,拜登总统发布关于安全可靠和值得信赖的人工智能的行政命令,旨在建立新的AI安全和保障标准,促进创新和竞争,引领全球并推进美国的领导力。行政命令发布180天后, NIST如期发布四份草案文件,旨在帮助提高人工智能(AI)系统的安全性、安全性和可信赖性,其中第四份提出了制定全球AI标准的计划。

NIST不断开发并推出高质量数据集。例如,NIST与执法机构、民间社会和其他利益相关者合作开发面部数据集,可作为开发面部识别技术的组织共享使用。美国政府介入提供急需的高质量数据已有先例。例如,美国交通部在2015年开始着手建立一个公开可访问的国家地址数据库,此前他们认识到几个政府机构以及经济的大部分部门都在收集和依赖地址数据,但缺乏这些信息的单一、全面来源,导致重复收集和碎片化的数据集。

美国数据标注企业制定数据质量标准和管理流程,研究方法和技术,落实高质量数据集提供

高质量数据集首要的前提是确保数据的安全合规。数据标注公司积极参与并获得数据管理顶级行业和国际标准认证,比如,LableYourData公司的数据标记和数据处理服务获得了PCI DSS Level 1和ISO/IEC 27001:2013认证,并符合GDPR和CCPA规定。SuperAnnotate通过认证和遵守包括 SOC2Type2、HIPAA、GDPR、SSO、2FA 和 CCPA等行业安全标准和框架来优先考虑数据安全。

其次,数据标注企业总结高质量数据集的相关标准。比如,ClickWorker公司总结出高质量数据集的六要素:准确性、完整性、一致性、时效性、有效性和独特性。LableYourData公司认为高质量数据集必须符合相关性并具一定覆盖范围:1、数据集的数据应与建模目标相关。如果为自动驾驶汽车设计ML算法,即使是由名人照片组成的最好的数据集,但不具相关性也没用。2、确保构成数据集的数据片段足够高质量,让数据符合所需特征列表。例如,当构建面部识别模型时,训练照片需要具有足够好的质量。3、保证数据特征丰富性和多元性,避免不平衡的数据集导致模型结果存在盲点和偏见的问题。4、尽量使用真实数据,虽然假数据更便宜、更干净,并且数量充足,但假数据可能导致模型结果过度拟合或欠拟合。

再次,数据标注公司制定并在标注平台内嵌数据质量保证(QA)程序化流程。比如,Kili科技公司研发了从数据上载到数据标注再到数据集交付的完整QA工作流,通过一致性检查、审查与反馈以及质量控制指标等工具,增强质量管理;允许在标注界面直接使用自定义QA脚本进行错误的自动化识别,也可以使用预构建的模型自动发现并修复数据集的问题,保证95%准确率的高质量数据集的交付。

另外,标注公司研究高质量数据集的评估指标和参数。比如,LableYourData公司的数据质量测算指标包括:(1)标注者间一致性测算,贯穿整个数据集、标注器之间、标签之间的每个任务,确保每个标注者在数据集的所有类别中使用的方法是一致的;(二)共识算法,测算所有标注者所提供的标注的共识度,并确定最终标注;(三)Cronbach's Alpha测试,帮助检查整个数据集的标注的一致性和可靠性。

美国数据调查机构

启示

总结以上美国企业高质量数据集提供做法,对于我国数据标注产业高质量发展有以下三点启示:

 1.统筹数字经济、数据要素与AI+三大战略,培育可信AI生态系统。

美国的数字经济、AI和数据三大方面战略,都统一归口到美国商务部管理,充分发挥了政府、研究机构和企业之间的协作关系,也极大释放了数据要素价值。为促进我国数据标注产业的高质量发展,建议采取类似的三位一体战略,构建以需求为中心的应用导向的可信AI生态系统。

 2.构建数据标注产业服务平台,加大对中小企业的扶持力度。

美国大型AI公司和标注服务企业在推动数据标注产业的技术革新和高质量发展方面发挥着关键作用,为促进我国标注产业发展和技术创新,建议聚焦数据要素×行业应用和AI+重点项目,结合公共数据运营,组织构建数据标注产业服务平台,将数据资源和算力作为公共服务向中小企业提供,节省他们的数据获取成本。

考拉海购运营模式

 3.加强数据管理和标准制定,推动企业数据标注技术创新和质量提升。

美国企业通过技术创新和严格的质量控制,确保了数据集的高质量。我国数据标注企业应加强技术创新,利用生成式AI等先进技术提高数据标注的效率和质量。同时,建立严格的数据质量管理体系,从数据的采集、处理到标注的每个环节都进行严格的质量控制。此外,国家应推动数据、数据治理及管理相关标准体系制定,企业应积极参与国家和国际标准制定,通过获得行业、国家和国际标准认证,提升数据集开发的质量和核心竞争力,打造数据标注领域的全球品牌。


返回网站首页

本文评论
红魔9.30「红魔9 Pro系列新品发布会定档11月23日 配骁龙8 Gen3」
11月13日,红魔手机官方宣布将于11月23日下午14:00举办新品发布会。据之前报道,型号显示为NX769J的手机可能是红魔9 Pro。该机搭载高通骁龙8 Gen3移动平台,但目前具体配置参数和...
日期:11-13
爱奇艺《潮流合伙人》发布会打造“潮文化”场景 首播后内容热度峰值已超6000
  12月8日,爱奇艺在北京举办了自制原创潮流经营体验节目《潮流合伙人》的播后发布会。爱奇艺首席营销官王湘君,爱奇艺高级副总裁、《潮流合伙人》总监制陈伟,爱奇艺副总裁、...
日期:07-05
邓中翰委员:精准支持集成电路产业创新_集成电路创新峰会
  集成电路产业是支撑国家经济社会发展的战略性、基础性、先导性产业,是新基建的基石,也是我国当前需要重点突破的“卡脖子”领域。   全国政协委员、中国工程院院士、中...
日期:07-16
MediaTek展示天玑旗舰技术,先进科技引领移动平台创新趋势
10月12日消息,MediaTek举办天玑旗舰技术媒体沟通会,分享了天玑5G移动平台的最新技术进展和前沿趋势,包括移动光追、移动GPU增效方案、AI图像语义分割、5G新双通、Wi-Fi 7、高保...
日期:10-16
新增10天家庭关爱假!字节跳动员工假期又多了
企业为了提高员工福利,增加员工稳定性,提升对企业的归属感,也会根据自身情况指定一些福利性假期。日前,互联网大厂字节跳动升级了员工关怀,带来了更人性化的假期福利,此次字节跳动...
日期:09-30
三星8k屏幕手机「极简至上,看三星8K系列如何诠释时尚之美」
(原标题:极简至上,看三星8K系列如何诠释时尚之美) 苹果13交货日期会比预计提前吗 随着电视领域不断地发展,大尺寸、高分辨率的8K...
日期:09-15
顶配3299元 三星Galaxy Watch6手表国行发布:集齐男女五大健康功能
快科技8月3日消息,今晚的发布会上,除了折叠屏手机、平板等新品之外,三星还发布了新一代Galaxy Watch6系列手表,包括Galaxy Watch6和Watch6 Classic两个系列。其中Galaxy Watch6...
日期:08-03
exynos猎户座「比GPT-4强100倍!OpenAI将在12月发布新模型—猎户座」
声明:本文来自于微信公众号AIGC开放社区,授权转载发布。知名科技媒体theverge消息,OpenAI将在ChatGPT发布两周年之际12月左右,推出传说中的大模型——Orion(猎户座)。据内部人士透...
日期:10-28
加拿大 iPhone 用户遭遇夏令时 Bug,苹果 iOS 时钟提前延后了 1 小时_苹果时间限制bug
  11 月 2 日消息,据 9to5 Mac 报道,美国和加拿大地区的夏令时将在 11 月 7 日结束,这意味着其时钟将“延后”1 个小时。一些 iPhone 用户 —— 似乎主要是加拿大的用户 —...
日期:11-18
让标准以人为标准!海尔科技刷新全球美好生活_海尔 科技
  标准离我们的生活遥远吗?  篮球场的标准长是 28 米,宽是 15 米;三分熟牛排的标准是切面30%呈粉色,50%为红色;一粒大米也有“品尝评分值”这一衡量优质大米的标准……可以说...
日期:10-16
余华没想到小说《河边的错误》被改出来了:同名电影即将上映_余华《河边的错误》读后感
10月13日消息,电影《河边的错误》官方发布从文学到电影”特辑。特辑展现了影片从原著小说到最终呈现在银幕之上的台前幕后过程。这部电影改编自余华最具代表性的先锋小说,余华...
日期:10-16
美图2023中期业绩:研发投入同比增长10.8%,聚焦AIGC_美图上市
凤凰网科技讯 8月28日,美图公司(1357.HK)正式披露2023中期业绩,2023上半年,美图公司实现总收入12.61亿元(人民币,下同),同比增长29.8%。经调整后归属于母公司权益持有人的净利润1.5...
日期:08-29
网红烧烤大白鲨背后:多少电商平台在违规卖“野味”?
中新网8月4日电(中新财经记者 吴涛)近日,“网红直播烧烤大白鲨”持续引发热议,有消息称该大白鲨是网购而来。记者注意到,虽然在电商平台搜索不到“大白鲨”,但不少电商平台涉嫌违...
日期:08-05
华为归来不会对iPhone 15发货产生太大影响 首批iPhone,15 Pro已准备发货
来源:中关村在线布加迪2020年新车据苹果官方消息,首批iPhone 15 Pro系列机型的状态已经更新为“准备发货”,预计将于9月22日送达。值得注意的是,iPhone 15 Pro Max的预计送达时...
日期:09-18
理想脱颖而出 新势力唯一盈利车企_理想汽车
【】曾经因为使用“落后”的增程技术被嘲笑的理想,现在却已经将蔚来和小鹏甩在了身后。4月份,理想共交付了超过2.5万辆新车,超过了蔚来和小鹏的总和,国内新势力第一梯队的“蔚小...
日期:09-29
女子怒斥苹果静安店排队者崇洋媚外 苹果客服:将加强安保_静安苹果旗舰店开张了
3月21日,在上海的苹果静安店开业之际,网络上流传出一段视频,视频中一名女子对排队购买苹果产品的顾客进行怒斥,指责他们崇洋媚外。针对此事,苹果客服在次日(22日)作出了回应。拼多...
日期:03-22
蚂蚁链位列中国BaaS市场第一 核心技术自主可控
(原标题:蚂蚁链位列中国BaaS市场第一 核心技术自主可控) 9月4日,国际权威研究机构IDC发布“中国BaaS厂商市场份额,2022”报告...
日期:09-05
清华开发出智能可穿戴人工喉咙 还原准确率超90%「人工智能可穿戴设备」
3月9日 消息:最近,清华大学集成电路学院的任天令教授领导的团队研发了一款智能可穿戴人工喉,该喉部利用石墨烯材料开发而成,可以识别喉部发声信号,并将其转换为语音,准确率高达90...
日期:03-09
腾讯、抖音大合作!《王者荣耀》之后《英雄联盟》也将开放抖音直播
快科技1月27日消息,据知情人士爆料,继《王者荣耀》后,腾讯旗舰游戏《英雄联盟》端游(含《云顶之弈》)直播版权也将在抖音开放。扎克伯格怼马斯克末日论消息称,直播最快将在2月第一...
日期:01-28
【新版本】GrapeCity Documents V7.0 导出功能全面升级,助力数据处理效率提升
近日,GrapeCity Documents 正式迎来其V7.0的发布更新,导出功能全面增强,提供更优质的导出体验,帮助用户更高效地处理数据。 本次更新的增强功能为用户提供了更便捷、高效的模板...
日期:03-05