您的位置:首页 > 互联网

大模型时代的数据标注:从劳动密集向技能密集升级「劳动密集型转型」

发布时间:2023-06-25 14:02:31  来源:互联网     背景:

通信世界网消息(CWW)算力、算法和数据是人工智能的“三驾马车”。过去的十多年,算力、算法、数据等技术的创新和迭代,都取得了“大爆炸”式发展。ChatGPT横空出世背后,有海量训练数据、人工标注指令微调以及基于人工反馈的强化学习。未来,人工智能在垂直场景落地,需要大量经过标注处理的数据完成算法训练。现阶段,数据标注属于劳动密集型产业,人工智能尤其是大模型的崛起,将数据标注推向AI辅助标注、自动标注,数据标注进入技能密集时代。

我国数据标注行业现状及特点

数据标注是指借助特定软件标注工具,将图片、语音、文本、视频等数据内容进行分类、标准特征标签等(例如图片属于“猫”、“狗”、“鸟”等分类),使其易于被机器学习算法可理解和快速处理。近年来,随着人工智能的快速发展,数据标注需求激增,我国数据标注市场呈现如下特点。

一是在需求和政策共推下高速发展。2022年我国数据产量已达8.1ZB,同比增长22.7%,全球占比10.5%,位居世界第二,数据已成为我国重要的资源禀赋优势。与此同时,我国数据要素市场化配置进程加速,政策加持国内 AI 产业发展,市场对高质量数据标注需求激增。根据艾瑞咨询、华经产业研究院数据,2021年我国数据标注市场规模为43至44亿元,2025年有望突破百亿元。此外,数据标注是劳动力资源密集省市政府解决就业难的抓手,多个省市纷纷出台政策支持数据标注产业发展或建立数据标注产业园,如山西省出台了《山西省数据标注产业发展规划(2019-2025 年)》、《山西省加快数据标注产业发展的实施意见》、《山西人工智能基础数据产业专项资金管理办法》等,山西、河南、四川、贵州等省已形成了众多数据标注小镇,全国范围来看,集数据采集、存储、标注、服务等于一体的AI基础数据相关产业持续壮大,进入高速发展期。

二是AI头部企业纷纷入局并赢得竞争优势。数据标注市场有两类参与者,一类是专业的第三方数据标注公司,如Testin云测、澳鹏appen、海天瑞声、数据堂、龙猫数据、曼孚科技等;一类是AI科技公司内部的标注部门。两类数据标注力量都在壮大,第二类发展更快,越来越多的AI头部企业自建标注工具平台和标注基地,如百度在山西建立人工智能基础数据产业基地、推出数据标注开放平台,京东在山东设立京东众智大数据标注助残基地、推出 Wise 开放标注平台,字节跳动在全国设立了六个标注基地。这些AI头部企业资本雄厚、数据需求旺盛、技术实力强,后发优势显著,百度、京东已进入数据标注市场第一阵营。

三是市场需求以定制化服务为主。相关数据显示,2021年我国数据标注及审核市场中定制化服务占比85.41%,而标准化的数据集产品仅占13.33%。这与AI在垂直场景深度落地需要与特定任务类型、特定应用场景相匹配的数据进行算法训练。大模型时代下,“基础模型+微调”有望成为 AI 开发新范式,微调是让AI获特定领域知识,并赋予其组织、应用知识的能力,可以预见,贴合垂直场景的高精准定制化数据标注服务在未来将是市场需求主流。

数据标注行业面临的问题与挑战

劳动模型是什么意思

早期,市场对数据采集标注的要求较低,准入门槛低,行业内云集了大量中小规模的服务商和灵活就业/兼职个人,数据标注领头企业主要采用转包、众包模式提供服务,行业存在标注效率低下、数据质量参差不齐、高技能人才不足、全程数据安全合规风险高等问题。

一是标注效率低下、数据质量参差不齐。当前数据标注高度依赖人力,十分枯燥、耗费眼力体力,很多中小供应商缺少AI辅助标注、AI质检能力,标注师个人能力素质直接影响标注效率和数据质量,形成行业生产效率低下、数据质量不均衡的局面。

二是高技能产业人才缺乏。从任务需求来看,以较为复杂的语音标注、计算机视觉标注为主,医疗医药、法律、金融、电力等专业数据集标注生产,还对标注师的学科知识储备有一定要求。从人才培养来说,人工智能训练师新型岗位培养、专业设立并没有受到社会重视,市场上缺乏经过系统性训练的高技能人才。

三是全程数据安全合规风险高。根据中国信通院报告,80%的安全风险发生在数据流通环节。从行业现状来看,数据标注的链条较长,包括采集、标注、存储、传输等环节,转包模式下信息链条更长,黄赌毒/暴力信息过滤、隐私保护、数据不当使用等都是标注和审核企业面临的难题。

数据标注行业存在的变化及趋势

随着人工智能技术在更多垂直应用场景落地深化,数据标注表现出以下几个趋势:

一是AI辅助标注、自动化数据标注成为新竞争力,助推行业从劳动密集转向技术密集。从全球范围来看,美国由于人力成本较高,较早使用机器替代人力,谷歌、微软等互联网巨头都推出了自动标注系统,Playment和Scale AI合作,为全球高分辨率 LiDAR传感器制造商 Data 联合开发了高级深度学习标注工具。在中国,用工管理日趋规范以及标注需求量的激增,纯人工标注在效率和成本上的优势将很快消失,使用AI赋能的自动标注能力与相关工具来提升效率和质量,将逐渐成为数据标注企业提高市场竞争力、降本增效的利器。AI辅助标注、自动标注不仅提升了数据的产出效率,同时也在标注模型工具的迭代中打造出了完善的 AI 基础设施,从而助推行业向技术密集转型。

二是行业走向垂直化、定制化,门槛提高,市场集中度提升。随着人工智能进入多元行业和场景落地阶段,自动驾驶、医疗医药、小语种、法律、金融等有一定专业性要求的垂直场景将成为主要需求,带动行业进一步朝着垂直化、定制化发展,专业性要求越来越高,市场准入门槛将显著提高。同时,头部的品牌数据服务商由于具备较强算法能力和稳定训练数据资源,有实力打造AI辅助标注、自动化标注平台工具,标注效率、质量和成本优势将凸显。未来,品牌数据服务商和需求方自建的标注团队将逐步替代中小供应商,行业市场集中度将显著提升。如,2019年中小数据供应商的市场份额高达 47%,百度市场份额为11%,2022年百度的市场份额跃居到18%。

三是追求更高的数据质量、安全性和隐私性。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但再提升到 99%甚至 99.9%,则需要高质量数据。另一方面,海量原始数据的采集标注,涉及大量敏感数据,如人脸、语音等内容,随着数据安全合规法律政策体系的完善和监管升级,对数据的采集、标注、存储、传输的每一个环节的安全合规要求越来越高。因此,围绕标注质量和全流程数据安全合规,建立一套完善的流程机制,并有技术工具保驾护航,就成为当下诸多数据标注服务商着重建设发展的能力。

楼主的乞儿

电信运营商的探索和机遇

电信运营商在数据资源的内部场景化应用、外部产品化流通方面,主要使用结构化数据,非结构化数据采集标注仅在客户服务场景中的热线话务、投诉及故障工单的智能打标,以及装维流程中的现场作业规范管理等少数场景应用;外部产品化应用主要是视联网产品的AI视频分析识别,如明厨亮灶中对进入厨房区域的厨师服/帽、口罩的穿戴着装,抽烟、玩手机、老鼠检测、外来人员识别等实时告警等。整体来说,电信运营商的语音标注、计算机视觉标注处于探索期,尚未像百度、京东一样形成专业化标注生产能力,但值得肯定的是,在为数不多的探索中运营商选择了AI辅助标注、自动化标注路径。当下,AI大模型炙手可热,催化数据采标需求加速释放,电信运营商可审视如下机遇点。

一是面向垂直行业的AI辅助标注、自动化标注工具及解决方案。一方面是我国尚未形成AI辅助标注、自动化标注的领先产品,另一方面是对数据安全要求严格或期望降低数据生产成本的企业,纷纷从选择专业标注公司驻场服务到自购通用标注工具、模型训练工具进行适配优化,自行完成数据标注,这给专注于某个垂直领域的基础数据服务商带来了机会:针对细分领域提供自动化标注工具或解决方案。

二是面向数据采集标注全流程的数据安全合规基础设施。AI基础数据生产涉及到采集、存储、标注、传输等环节,市场需要低成本的覆盖全流程的数据可信生产流通环境,运营商在云网数字基础设施中增加诸如区块链、前沿密码等技术,将产生新的优势。

劳动密集型转型

电子商务社交化是大势所趋

三是垂直行业的专业数据集生产。运营商长期深耕金融、政法、公安、医疗、交通、教育等行业解决方案,在众多垂直领域形成了产业生态,具有将企业数据与垂直领域的跨组织、跨区域数据资源融合汇聚,提供专业数据集的潜能。


返回网站首页

本文评论
新氧秘密孵化新业务“尺颜医选”,117个维度建医美界米其林
  医美消费者经常会相信朋友的介绍,认为这样更简单可信。岂不知这种想省心、安全的心态,反倒给不良中间商留下了空间,甚至形成了一套渠道代理产业链。在某些医美发达的城市,...
日期:02-14
美国对TCL、联想、海信、一加等中国企业发起337调查(海信与TCL)
  当地时间周四,美国国际贸易委员会(ITC)决定依据《美国1930年关税法》对半导体设备及其下游产品发起两起337调查,涉及几家涉嫌专利侵权的中国科技公司,其中包括TCL集团、海...
日期:04-02
小米各项业务营收占比_小米第二季度互联网服务收入69.7亿元,其中广告业务收入45亿元
讯 8月19日下午消息,小米集团(HK: 1810)今日发布截至2022年6月30日的第二季度财报。财报显示,小米第二季度营收701.7亿元,同比下滑20.1%,预估698.6亿元;净利润13.9亿元,预估15亿元;调...
日期:08-20
宁德时代四川电池工厂因限电停产
荣耀双十一销量   记者 |庄键   8月16日,界面新闻自当地知情人士处获悉,宁德时代四川宜宾工厂已因限电停产,限电停产时间从8月15日至8月20日。   四川宜宾工厂位于四川省...
日期:08-17
腾讯音乐手游《节奏大师》回归!今日首次技术测试 iOS无缘「腾讯版节奏大师」
去年2月,腾讯经典音乐手游《节奏大师》宣布暂停运营,彼时,公告中并未提及永久关服,因此不少玩家猜测会不会再次开启游戏服务器。京东双11竞速榜今日,《节奏大师》运营团队发布公...
日期:12-27
华为发布Vision智慧屏Z电竞版/Vision智慧屏/智慧屏便携版 售价5999元起
9月29日消息:华为今天举行发布会,正式推出全新的「Vision」系列智慧屏,包括华为 Vision 智慧屏 Z 电竞版、华为 Vision 智慧屏、华为智慧屏便携版三款新品,将于9月29日20:00开...
日期:09-30
比亚迪疯狂助攻 磷酸铁锂电芯市场份额升至67.5% 三元锂不再吃香
2月21日消息,乘联会日前发布了《2023年1月新能源汽车三电系统洞察报告》。报告显示,受去年年底新能源补贴政策到期和春节假期影响,2023年1月新能源汽车市场销量走低。受此影响,1...
日期:03-01
vivos6上架时间「vivo S16上架预约:三款机型 22日发布」
日前,vivo已经正式官宣,将在12月22日举行发布会,当天将会发布vivo S16系列手机,目前系列共有3款新机,包括vivo S16e、vivo S16、vivo S16 Pro三款机型,而目前vivo S16系列已经上架...
日期:12-18
谷歌总部的安卓机器人雕像没了嘛「谷歌总部的安卓机器人雕像没了」
  3 月 20 日消息,谷歌的安卓雕像曾经占据的谷歌总部的一角,现在那里已经变成了“一块泥地”。一些参观了谷歌 44 号楼的人声称,安卓标志性的机器人雕像已经神秘消失了。...
日期:09-26
2022年依旧解决不好!iPhone 14 Pro被网友吐槽信号差_苹果升级14信号变差
苹果手机的信号问题多年来一直是网络的热点话题,甚至到了2022年,苹果依旧没有将这个致命问题很好的解决掉,并将“祖传手艺”延续到了iPhone14系列身上。今天,一则#iPhone14Pro被...
日期:09-29
别天真!iPhone必须用USB-C:封闭iOS下苹果仍能为所欲为「苹果为什么要用usb-c」
当地时间10月24日,欧洲理事会批准,自2024年起各类在欧盟范围内销售的手机、平板、数码相机等电子设备必须统一使用Type-C充电接口,消费者在购买电子设备时还可以自行选择是否另...
日期:11-12
首尔 逛街「中国游客在首尔和东京奢侈品店扫货:出手相当阔绰」
1月8日,我国开始执行新版出入境政策,逐步恢复正常通行。根据百度指数,截止到1月18日的十天时间里,我国香港的整体搜索指数最高,而韩国首尔的搜索指数同比增长达94%高居第一,随后是...
日期:01-22
华为Mate 50 Pro全球开售:比国行贵1800元_华为mate 50 pro价格
华为于9月底面向海外市场推出了Mate 50 Pro手机,目前新机已经在波兰市场开售,法国和德国预计将于11月开启销售。从目前的电商页面来看,8+256GB售价约为8599元人民币,比国行的679...
日期:10-27
Windows 10 Build 19002发布:蓝牙配对优化向快速通道成员开放
  10月18日消息 微软今天面向Windows Insider快速通道的用户发布了20H1的最新预览版系统更新,内部版本号为Build 19002。这次更新没有很多新的功能。最主要的内容就是此前...
日期:01-17
微信为什么打不开公众号链接「微信突然无法访问公众号、链接了?官方给出答案」
因为疫情,不少中小学在家上网课。有些小孩和家长发来一个十万火急的问题,为什么学校让大家看的网课链接打不开?”微信官方表示,你或许忘了已经给孩子开启了青少年模式”。设置路...
日期:11-26
视频播放超4000万,花样百出的剧情赛道如何撬动流量?
声明:本文来自于微信公众号飞瓜说(ID:feiguashuo),作者:云知,授权转载发布。剧情类视频一向是快手热门视频榜上的常客,让用户们刷的乐此不疲。而最近,爆款的剧情类视频屡出,更是呈现出...
日期:10-28
每日优鲜 破产「每日优鲜再被强制执行55万」
  天眼查App显示,近日,北京每日优鲜电子商务有限公司新增多条被执行人信息,执行标的共计55万余元,执行法院均为北京市朝阳区人民法院。截至目前,该公司存在33条被执行人信息,立...
日期:09-01
京东物流图是实时的吗「京东物流上线与图智能选址产品」
11 月 16 日消息,基于京东海量大数据和智能技术优势,京东物流近日正式上线与图智能选址产品,赋能企业开辟新店。据介绍,与图智能选址是集成地理环境、社会经济、人群画像等大数...
日期:11-23
安卓系统可以用facebook吗「Facebook App将取代Android的WebView 但不会使用Custom Tabs」
当你在其他应用程序中打开一个链接时,它通常会在你的浏览器(如Chrome)或Custom Tabs中启动。Facebook选择在其自己的应用内浏览器中打开网页,该浏览器由Android系统WebView提供...
日期:10-06
iPhone 5c 将要被贴上“过时产品”的标签_iPhone 5c正式被列为过时产品
DoNews10 月 9 日消息(郭睿琦)据报道,从今年 11 月 1 日起,iPhone 5c 将要被贴上“过时产品”的标签了,同样停止所有维修和服务。与iPhone 5c 同时被淘汰的产品中还包括iPad mini...
日期:10-25