您的位置:首页 > 互联网

GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人

发布时间:2023-05-07 10:02:16  来源:互联网     背景:


数据标注员正在工作。受访者供图

ChatGPT大火后,数据标注员迅速进入大众视野,也成了就业新风口。他们有的年薪百万,有的日结两百,但在ChatGPT风口上,作为人工智能背后“老师”的他们却也是局外人,存在被替代的风险。

所谓数据标注员即指,对人工智能原始数据集进行标注、分类、分析和清洗来帮助训练机器学习算法和人工智能模型的职业。数据标注员以入行门槛低,上手快,薪资待遇好也广受县城青年欢迎,目前全国已经建立起多座超千人数据标注基地。

5g云智慧

然而,数据标注行业这一新风口同样存在“教会徒弟,饿死师傅”的可能,随着人工智能大模型的迭代这一职业可能面临被替代的风险。目前国外已经出现AI自动标注替代人工标注的案例。那么,在人工智能行业飞速发展的当下,对普通人来说数据标注员是一份好工作吗?数据标注这一细分赛道发展前景如何?目前正面临哪些问题?未来,数据标注行业会被AI标注颠覆吗?

对此,新京报贝壳财经记者采访了数位数据标注员、数据标注行业创业者以及人工智能领域有标注需求的甲方公司负责人、学界人士,试图解答上述问题。

4分钱一个框,每天拉够2500个,数据标注员成就业新风口

作为人工智能背后的“老师”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能学习的”。从每天早上9点上班开始,他的脑子里就只有一件事——怎么完成单日2500个框,达到95%合格率的要求。

几个月前,小雷辞去了工厂车间的工作,应聘成为了一名数据标注员。相较于制造业的灰尘、酷暑和严寒,新工作办公室内有空调和暖气,整洁干净的办公桌上还摆放着新鲜的绿植。

宽敞明亮的办公室里聚集了包括小雷在内的50多名20-30岁的年轻人,他们大多具备大专院校及以上教育水平,乘着人工智能的风口成为了行业基层的数据标注员,每天的工作就是对海量数据进行清洗、分类、画框、注释、标记等操作,转换成符合算法工程师要求的标准交付。

以自动驾驶领域的3D点云标注为例,小雷的单位规定单日标注任务量为2500个框,底薪2500元,合计每个框4分钱,超额完成任务还有绩效工资,这对学历不高,身处河南县城的青年来说,已经算是一份薪资中等偏上的工作。

所谓数据标注即指对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注是人工智能获取训练数据的主要渠道,应用场景广泛。从语音转录、人脸识别、自动驾驶到AI聊天,人工智能模型训练所需要的海量数据目前几乎全部依赖数据标注员手工标注。

不过,与大众印象中高新技术行业往往需要高学历人才不同,2021年版的《人工智能训练师国家职业技能标准》对该职业的能力特征描述为“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普通受教育程度则为“初中毕业(或相当文化程度)”。

高需求量、低用工门槛为学历层次相对较低的普通人提供了进入办公室工作的机会。2018年,山西转型综合改革示范区与百度合作,建造了基地占地面积超1万平米,数据标注员超2000多名的数据标注基地;在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作;在山东的第一个数据标注基地,已经有1500名从业者。


数据标注员正在工作。受访者供图

基层数据标注员:层层外包下有的到手薪资千余元,人员流动频繁

结束上一份电商工作后,高小贝回到太原老家,在朋友的介绍下开始接触数据标注行业。付费后,高小贝进入培训公司的3D点云项目组,从0基础到逐渐上手再到开始接单,高小贝用了40多天,项目标注单价则为1毛8分钱。

第一次项目回款,高小贝收到了三千四百多元,除去培训费用,还有少部分结余。

与高小贝相比,小雷入职前并未参加任何培训,从完全不懂到单日完成2500个框且正确率95%,单位只给了小雷一周不到的时间,由于从事时间较短,熟练度欠佳,再加上经常返工重标,即使每天多加班2-3个小时,小雷效率最高的时候,单日工作量也只有2000个框左右。

所谓3D点云项目单日2500个框,并不意味着仅是圈出图片中的障碍物,实际上,标注员在工作时还要注意障碍物的尺寸、ID、方向,以及点云是否框全,是否漏框了轮胎点,是否框入了地面点,同时还要判断车在高速行驶时出现的残影是否框选等。小雷认为3D点云标注工作并不算难,但具体操作要求比较复杂,所以很难在单日内大批量标注。

“标注本身就是个重复性的工作。上手不难,难的是都不愿意培养,都喜欢直接能干的。”前数据标注员田先生如此告诉贝壳财经记者。由于缺乏培养机制,再加上职业发展天花板有限,从事数据标注行业接近一年后,本科毕业的田先生选择了辞职。

同为3D点云标注项目,小雷公司开出的标注单价为每个框4分钱,而高小贝所在的培训公司单价则为1毛8分钱,为何会出现如此大的单价差异?

实际上,多位数据标注行业受访者向记者证实,行业内层层外包的现象比较严重,从有标注需求的甲方公司到中标的乙方公司,再到框架下的二包、三包,甚至四包公司,每层都会抽取一定的费用,最后落到标注员身上,标注单价4分钱并不罕见。一位有标注需求的甲方公司项目负责人向贝壳财经记者透露,自家公司的视频事件描述标注,报价一条9毛,最后分到标注员手中单价可能只有几分钱。

此外,由于标注工作的层层外包,标注公司交付时的沟通成本也随之变高,甲方的需求经过层层传达后经常出现沟通不及时,标注标准来回变化的情况,因此返工重标也是大多数基层数据标注员不得不面对的问题之一。

数据标注员低入门门槛的同时也意味着低竞争力,所谓的数据标注行业在中低端市场正逐渐演变为传统的人力资源密集行业。

在每天加班的情况下,小雷一个月到手薪资也只有一千多元,且要忍受由于长时间操作电脑、鼠标而带来的眼睛干涩、手部酸痛感。目前,小雷选择了辞职寻找新的工作。

层层外包模式下,也有原来的从业者,选择了创业。

考虑到从事数据标注工作个人产出有限,且行业表现为多劳多得,高小贝选择了复制裂变,自己投资开办了一家数据标注公司。不到一年的时间内,她的标注公司全职人数达到了20人,公司标注部门每月净营收在2.5万-4万元之间。

此外,从自己的创业经历出发,高小贝的公司还开发了标注孵化业务,提供对个人以及团队的数据标注培训,目前公司已经孵化分公司3家,孵化人数则达到了16人。“市场上割韭菜的公司居多,高额加盟费、分包转包各种情况搞得整体市场乌烟瘴气。但总的来看,行业本身很适合小资本创业、赔率低,如果创业者能接到优质订单,在团队管理、培训流程上得到指导,行业前景还是不错的。”高小贝说。

收入两极分化,高素质人才年薪百万背后?

林霖(化名)也是数据标注行业的头部玩家,他以传统人力资源行业起家,后转型数据标注行业。

“今年人工智能生成赛道爆发,我们公司已经接到了大批量数据标注外包需求,预计今年可以做到十倍营收增长。”林霖对贝壳财经记者表示。

他认为,数据标注行业发展潜力巨大,不断扩张团队规模,提升团队整体素质才能接到一手优质的标注项目。林霖的团队目前全职员工人数上千,其中本科生占比较大,公司在河南、湖南、重庆等多地均设有数据标注基地,服务的客户主要是头部的互联网和人工智能企业。

2020年转型数据标注行业,经历了行业非线性增长的几年,林霖的公司抢占了数据标注行业的小风口,在生成式人工智能标注领域已是业内最大团队之一。

林霖向贝壳财经记者透露,数据标注员的平均薪资一般略高于公司当地平均薪资,尤其是高素质标注人才,薪资待遇则更高。“目前我知道最高的,纯粹做数据标注,不参与算法、研发等,差不多在90-100(万年薪)。”

普通数据标注员月薪两三千,高级数据标注从业者年薪百万,为何会有如此大的薪资差距?

林霖向贝壳财经记者解释,普通数据标注员仅需要对一个标注题目负责,高级数据标注从业者则需要对一个标注环节,甚至对整个标注需求负责;此外,标注业务也根据难易程度分为不同等级,例如在自动售货机订单审核项目,人工仅需抽查机器判断的已售商品是否准确即可,如是否将果粒橙识别为可口可乐,对标注员个人能力要求不高,而在ChatGPT问答规则设计项目中,好的标注员在回答“背诵苏轼《水调歌头》”提问时,不仅会给出诗词全文,还会揣摩提问者提问意图,给出苏轼在中国诗词史上地位如何、此首诗词相关的背景、诗词衍生的其他内容等等。“一个优秀的数据标注员能通过关键词,识别出提问者背后的真实需求是什么,进而设计规则。”在林霖的公司不乏中科院博士从事数据标注工作。

与大部分人印象中数据标注员低门槛好上手不同,林霖透露,数据标注行业其实不乏对高素质人才的需求,例如医药行业、金融行业相关的标注更倾向于寻找有相关教育经历或从业背景的人才标注,ChatGPT人机对话项目则倾向于寻找文字理解能力好的人才操作。

“教会徒弟,饿死师傅”?数据标注员会被AI标注替代吗?

随着人工智能自主学习能力的不断加强,人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分半标注的数据,不依赖人工标注的自监督学习和数据标注也已在业界出现。来自苏黎世大学的一篇名为《在文本注释任务上,ChatGPT优于众包工人》的论文显示,用ChatGPT给文本做数据标注的成本不到0.003美元一条,显著低于人力成本。

“教会徒弟,饿死师傅”的传言正在弥漫,数据标注员最终会被AI标注替代吗?

多位学界人士对贝壳财经记者表示,低门槛的数据标注工作的确会被人工智能标注取代,如果大模型的性能已经满足需求,那么直接用大模型的预测作为标签,来蒸馏小模型即可,如ChatGPT已经能够成熟地自动识别和分类文本,并对文本的情感进行分析和评估。不过,也有学界人士告诉记者,虽然自动标注发展越来越成熟,但正确率并未达到100%,而是普遍集中在50-70%。此外,不少数据标注项目其实稍有门槛,对于某些特定领域的标注,人工智能暂时还不能取代人类。

林霖则表示,自己非常看好数据标注行业未来的发展。他认为,人工智能行业的发展无穷无尽:从语音标注到人脸标注,再到自动驾驶领域的3D点云标注,以及近几年大热的ChatGPT类标注。

“与其担心没有项目可接,不如提高自己与时俱进的能力”。高小贝则告诉记者,人工智能领域有一句流传甚广的老话非常适用,即“人工智能行业,有多少人工就有多少智能”。

新京报贝壳财经记者 李梦涵 罗东骏

编辑 岳彩周

校对 卢茜


返回网站首页

本文评论
104MB缓存游戏神U!锐龙7 7800X3D不能超频 但可以白捡12%性能_锐龙7 5800h玩游戏
AMD将在今晚正式解禁拥有104MB大容量缓存的锐龙7 7800X3D,绝对是主流游戏玩家的新一代神U,定价也只要3299元。唯一遗憾的就是,受制于3D堆叠缓存的电压问题,它不支持超频(否则很...
日期:04-05
小米手机二季度出货量降26%,王翔:库存较高但在可控范围「小米手机出货量下降」
2022年7月31日,北京金源燕莎购物中心,小米之家体验店。 视觉中国 图受到疫情和新业务投入影响,二季度小米的营收和净利润出现明显下滑。 8月19日,小米集团(1810.HK)发布截至今年6...
日期:09-23
黄轩代言的阅文手机电子书“口袋阅”开启预售 标准版售价为899元
  5月23日,阅文集团能打电话的电子阅读器“口袋阅”登陆京东,正式开启预售,标准版售价为899元,预售将持续至5月31日。6月1日起,京东将会对预售阶段的订购产品进行发货配送,同时...
日期:05-16
天猫魔盒和小米盒子如何挑选?深度好文解读电视盒子市场_买天猫魔盒还是小米盒子
  电视盒子现在的需求是越来越大了,目前的电视盒子有3大品牌,当贝、小米、天猫,其中天猫和小米是较早进入行业的,并且卖的一直都很不错的,所以很多人都会拿来比较,最近也...
日期:07-14
WPS Office当选App Annie 2018年出海应用增长之星(wps office 手机版2018)
  日前,在众多非游戏类App中,WPS Office当选App Annie评选的「 2018年出海增长之星」奖项,并出席了颁奖典礼。App Annie是业内颇具影响力的移动应用评选之一,入选出海应用增...
日期:02-02
调查显示近三成美国人生活离不开互联网(全世界都在用美国的互联网吗)
  美国的一项最新调查显示,美国人认为高速互联网是过去十年最具影响力、也是最无法离开的技术。   美国民意调查公司Zogby International的在线调查显示,在1950名成年美...
日期:07-25
NVIDIA GeForce RTX 30系移动显卡评测:强行进入2K时代_英伟达确认将于 1 月 12 日展示 GeForce RTX 30 系移动显卡
  1月10日消息 英伟达官方已宣布,GEFORCE RTX: GAME ON 特别直播活动将于北京时间 1 月 13 日凌晨 1 点整开始。而官推今日整理了将于 GeForce RTX:Game On 活动中展示给大...
日期:07-10
5G创新选择5G的云,华为云成互联网行业首选联创伙伴(华为公司的5g技术)
  7月17日,华为云2020互联网5G创新峰会在东莞松山湖欧洲小镇举办,围绕5G时代下的互联网发展机遇及创新路径展开深入探讨,同时分享了华为云“5G+X”联创营的相关思考与实...
日期:07-14
再战智能手表 谷歌Pixel Watch全配色曝光_Pixel Watch
中关村在线消息:在今年 5 月的 Google I /O 主题演讲中,谷歌预热了 Pixel 7、Pixel 7Pro 和 Pixel Watch 智能手表。9 月初,谷歌宣布将在北京时间 10 月 6 日 23:00 的新品发布...
日期:10-04
上汽集团2021年3月汽车销量「汽车之家2022年第三季度营收18.43亿元 净利润5.078亿元」
11月4日 消息:汽车之家发布了截至2022年9月30日止第三季度业绩。2022年第三季度,该集团期间内净收入总额为18.43亿元(人民币,下同),同比增加4.48%;归属于汽车之家的净利润为5.08...
日期:11-06
王小川、王慧文做邻居,中国版Open AI“抢位”五道口|态℃_王小川新进视频
文/闫妍张朝阳也想不到,今天的搜狐网络大厦,会成为打造中国版Open AI的核心根据地。早在2006年,搜狐成立的第8个年头,张朝阳全款无按揭,用1.6万/平米的价格买下了威新国际大厦9个...
日期:04-13
268位全国代表委员入驻“新华号” 邀您两会“云上见”
  代表委员入驻“新华号”项目自2月22日正式启动之后,得到了全国代表委员的广泛关注、充分认可、积极参与。上线仅一周,已有268位代表委员完成入驻新华号,其中,全国人大代表2...
日期:07-16
多地兴起“抬共享单车上山”挑战 网友:别坑运维大哥_共享单车搬运车
近日,在在深圳梧桐山顶出现了一辆小黄车”共享单车,引起网友关注热议。中国联通规模官网买的ipad pro几天能发货欧洲杯今天三场比赛预测此前网友爆料称,发现梧桐山山顶附近某处...
日期:04-09
无忧精英网发布职场女性状态调查报告
  在妇女节来临之际,前程无忧旗下精英职业发展平台-无忧精英网发起了《职场女性状态》调查,共有9725位职场精英(工作2年+,年薪10W+)参加了本次调研。调查显示,企业越来越重视...
日期:08-21
坐火车可以办理电子身份证临时乘车证明_明起,12306手机App可开具电子临时乘车身份证明
  按照国家“一网通办”的相关要求落实便民利民措施,进一步提高旅客出行体验,自1月15日起,正式在12306手机APP实现电子临时乘车身份证明的开具功能。   旅客遗失或未携带...
日期:07-17
百度健康携手中国性学会打造专业互联网男科中心,全面提升“诊疗+健康管理”体验
  近日,百度健康与中国性学会在北京大学医学部成功召开百度健康男科中心发布会,中国性学会会长姜辉、中国性学会常务副会长戴玉田、中国性学会副会长周辉良、百度健康总经...
日期:07-10
马斯克 美国政府「马斯克曝光:美政府干预所有社交媒体,会向其下达明确指示」
  环球时报驻美国特约记者/李准  推特首席执行官马斯克27日发文称,“每家”美国社交媒体公司都在美国政府的主导下进行了严格审查。此外,美国政府有时还会向这些公司下达...
日期:12-29
女子因上厕所未在工位被领导打:网友集体愤怒
这年头,奇葩的公司和领导着实不少。据红星新闻,近日,在上海,成女士在一男领导找她的时候刚好去了厕所,没想到因此发生口角,还被打了。成女士称,当时,这位直属领导通知开发组的同事开...
日期:12-31
大陆地震预警网提前预警_大陆地震预警中心官网
  (原标题:四川成都发生5.1级地震,大陆地震预警网提前8秒预警)   2月3日消息 据中国地震台网正式测定,今日00时05分在四川成都市青白江区还发生了5.1级地震,震源深度21千米...
日期:03-10
法拉第未来任命 Becky Roof 担任临时 CFO
  3 月 2 日消息,据外媒报道,美国当地时间周二,电动汽车公司法拉第未来(Faraday Future)宣布,已任命咨询公司 AlixPartners 的董事总经理贝琪・洛夫(Becky Roof)担任临时首席...
日期:03-04