您的位置:首页 > 互联网

AI大模型折叠:数据标注“民工”月入不过5000,单价从5毛降到4分_ai算法

发布时间:2023-10-09 18:19:31  来源:互联网     背景:

声明:本文来自于微信公众号 Tech星球(微信ID:tech618),作者:王琳,授权转载发布。

郑雯至今觉得记得几个月的下午,那天,她一个小时就赚了2毛钱。她毕业于湖南的一所专科学校,是一名大模型数据标注师,每天的工作并不复杂——给自己领取的原始数据(如图像、视频、文本等)添加标签。

但大模型对于数据的质量要求很高,那天当时一张图片被要求反复修改了8次才通过,整个修改过程花费了一个1小时。也就是说,她这一个小时只赚了2毛钱,而正常情况下可以赚到12块,可以拉600个框。“钱并不好赚”,她反复强调。

大模型 ai

这几乎是所有数据标注从业者的共识。数据标注的一端承载着从业者们不足5000元的月薪,他们如蚂蚁雄兵般构建起大模型的基石。而另一端则是互联网大厂们的AI梦想,他们希望借此超越Chat GPT4。

数据标注采用最原始的计件制算工资,并不存在职场上的勾心斗角。唯一的苦恼这份过于枯燥的工作,让他们中的大部分很难坚持完3个月。并且,几乎所有人都告诉Tech星球,你最好别去。

可他们不知道的是,要不了多久,他们中的大部分可能会失去这份枯燥的工作。因为,那些简单的数据标注将会被AI取代。

图源备注:图片由AI生成,图片授权服务商Midjourney

从5毛到4分,价格暴跌

林双在2017年赚到了一笔“快钱”:15天6000多元。对于专科毕业的林双来说,这个收入着实可观。那是人们对AI期望爆棚的时候,几乎没有人怀疑过它的未来,所有的投资机构都坚信这里可以诞生十亿、百亿甚至千亿规模的企业。

几乎所有AI技术的背后都是算法、算力、算据的竞争,庞大的数据是技术优劣的底层。背景光鲜的程序员们坐在“北上广”的办公室里,通过代码迭代算法描绘AI蓝图,而大专生、宝妈等在三四线城市的格子间处理庞大数据包中的图片、文字、语音等。

ChatGPT也不例外。一位百度文心一言项目组的员工称,大模型本身并没有什么新技术,也没有太高的技术壁垒,关键的问题是算力壁垒形成的参数壁垒。

大模型时代的数据标注员和以前的也并没有特别大区别,为数不多的差距可能是更加舒适的办公环境和对标注质量的更高要求。一位数据标注的从业者向Tech星球介绍,一般刚刚入行时,他们会组建一个10人左右的团队,这其中有一个人承担质检工作,如果不合格,就要员工打回去重做。而数据的质量则决定着大模型的优劣。

数据民工们也并不关心,AI技术又有什么新的分支,他们更在意的是单价,因为这里是计件算工资。

“那会儿单价高的时候,拉一个2D框就有1毛多,我最高的时候干了10多个小时,一天就赚了600多元”,林双回忆道。不过,这不是最高的,一位标注人员称,早期2D拉框的价格最高能达到5毛钱。

拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为2D和3D,后者的价格会更贵一些。

但这种热度并没有持续多少,伴随着越来越多人涌入以及AI行业整体发展的不够顺利,标注一个图片的单价越来越低,林双称现在最低的只有4分钱。

ai模型是什么意思

“如果是拉框,行业的平均单价是在0.15元左右,但还是要看项目,如果自己可以接到单,接到一手单的最低要求应该是100个入职员工,那规模挺大,3D的框有可能达到3毛钱一个,不过很少可以有达到5毛的。”

当然,如果你本身具备医疗、金融方面的专业知识,那么单价则会更高。比如,很多医疗大模型会要求标注员有是临床专业,且有相关从业经验。

大部分从业者每个月的收入都不过5000元,其中也不乏少数的幸运儿。杨硕本来在四川经营一家服装店,但疫情影响了他的生意,他在今年转型做大模型数据标注,现在,他每个月有8000元收入,“我是和公司签了合同,交了9500元的加盟费,合同里写着每个月最低收益是7000元。”

究竟谁赚到了钱

阿里、腾讯、字节这样的互联网大厂,以及上汽、领克等车企是数据标注业务分发的源头,想要以最好的价格直接从源头获取订单,数据标注公司们需要具备一定的规模。

一位数据标注公司员工对Tech星球称,他们直接从大厂拿到订单,但是大厂要求他们得有500人,因此他们会选择通过加盟或者子公司的方式来达到人员要求。

二者的区别是加盟适用于初入行的人组建工作室,如果要成立子公司,一般一个区域就只有一家。小白工作室需要收加盟费,2.5万或者3万。子公司是一个区域的独家代理商,需要缴纳5万费用。而他们可以三年以内保证订单的充足,并负责3年内的技术培训,这些工作室或者子公司们组成一个大的工会,几百到几千不等。

上述数据标注公司员工称,大模型的火热再次将数据标注行业推上热潮,现在几乎每天都有人去他们公司拜访。

但事实上,经营一个数据标注公司并不容易。数据标注公司告诉你的是,这个行业前1到2个月比较难做,因为员工需要爬坡期,前期只需要5-8个人就够了,40多岁的阿姨都没有问题的。

稳定是数据标注公司或者工作室最重要的因素。但是Tech星球接触的大部分标注员工往往都因为枯燥无趣在3个月内“光速”离职,新员工并不是马上可以到岗实操,人员流动性大的结果就是数据标注的质量和周期不够稳定。缺钱的宝妈是数据标注工作室最喜欢招纳的人群。

“找兼职肯定不行的,会有空档期,房租和电脑投入了,会亏钱,最好的方式是全员坐班”,开过数据标注工作室的人魏铭向Tech星球介绍。

ai模型训练标注分析

大部分数据标注公司的回款周期是3个月起步,最多半年,但他们需要以月付的方式给员工工资,这需要一定程度的资金储备,“一个人3500,100个人,3个月就是105万。”

张建曾经加入过一个又200多号员工的工会。第一年,他们赶上行业的爆发期,2D拉框的单价高达5毛,那一年他所在的工会赚了400多万。

但是第二年,行情急转直下。标注的单价变低,员工的流动性更快,空档期增加,再加上两个大项目都没有结算,一整年过去,他们亏了300多万。“老板都说短时间内坚决不碰数据标注”,张建表示,“他们现在正在和上游打官司。”

这是利润微薄的生意。海天瑞声是目前数据标注行业内首家主板上市公司,去年这家公司有2.63亿元营收,利润只有2945万元,净利润率刚刚超过10%。但今年上半年,由于客户数量减少,这家公司便陷入了亏损。

随时可能被替代的“螺丝钉”

依靠着肯尼亚工人蚂蚁搬家式的积累,最终OpenAI的语言对话大模型能力脱颖而出。这些被称为数据民工的普通人支撑起了山姆·奥特曼(OpenAI创始人)的AI梦,但如果不出意外,他们手中的大部分工作,很快就会被自己参与创造的新产品所取代。

在国外,Open AI 前员工于2021年成立的Anthropic今年已经融资51.5亿美元,是其过去两年融资总额的7倍还多。这家公司提供了一种新的方法,可在较少人工参与的情况下,便训练出模型。

今年,AI初创公司refuel推出了一个名为Autolabel的开源工具,可以使用市面上主流的大模型来对数据集进行标注。该公司的测试结果称,Autolabel的标注效率相比人工标注提高了100倍,成本仅为人工成本的1/7。

2022年北京冬奥会直播回放

在国内,一家名为视智未来的公司也在打造标注大模型。他们在接受采访时表示,有些项目已经用GPT交付了,准确率方面达到了80%多,与人工接近。

不过,海天瑞声认为,AI一定不会实现完全的自动化标注,因为机器如果想要持续演进,使其更接近于人类的判断和理解,就一定需要人类作为引导。

几乎所有从事过数据标注的人员,都向Tech星球透露着同一个观点:数据标注是一个没有门槛的工作,只需要你熟练使用电脑即可。

但事实上,如果简单的标注可以用AI来完成,那么人工参与的将是难度更高的数据筛选和标准工作,这也意味着行业的门槛将会不断提高,尤其是ChatGPT、文心一言类的大语言模型。

作为对照,早在ChatGPT走红前,OpenAI就组建十几位博士生来“打标”。而百度在海口的数据标注基地拥有数百名专职大模型数据标注师,标注师的本科率达到100%。

苹果突然发布新品

oppofindx6新机发布信息

这类大语言模型的特点是,标注员需要具备一定的知识储备和逻辑分析能力。根据《财经十一人》报道,标注师们需要判断问题类型,随后给5个回答分别打分并排序,分数区间为0-5分,如果打分低于3分,还要标注出具体原因,例如“答非所问(0分)”、“严重跑题(1分)”、“存在逻辑问题,存在事实性错误,比例较小给2分”等。

数据标注的另一个热门领域是自动驾驶。据德勤的报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2027年,比例将上涨到52%。相较于大语言模型,对于自动驾驶领域的模型而言,那些简单的拉框操作依然有着较为宽松的学历要求。

标注员们是人类从移动互联网时代到人工智能时代的基石,Tech星球接触到的大部分从业者大多不清楚AI将带给他们那些改变,也不知道他们为了AI的发展做出的贡献,他们只是互联网时代的新一代螺丝钉,而且随时可能被替代。

(备注:文中人物皆为化名。)

巨人网络公司游戏


返回网站首页

本文评论
WiFi6有多6?中国移动2019智能硬件质量报告来告诉你_中国移动wifi6路由器评测
  随着5G在中国的正式商用,公众普遍都将目光转向了最新的5G技术,而曾经的“大众情人”WiFi似乎被冷落了不少。网上经常有一种说法,“有了5G就不用办宽带,不用开WiFi了,毕竟5G...
日期:07-09
华为Mate60热销,苹果砍单1000万台,一夜跌了7800亿「华为mate60pro最新消息」
最近一周多时间以来,华为Mate60系列是最火的手机,不管是在中国市场,甚至在全球市场,都是如此。这是因为Mate60的推出,或意味着华为已经突破了美国的封锁,这可以说是划时代的一款手...
日期:09-08
iphone12pro max升15「大调整!iPhone 15 Pro Max或改名为iPhone 15 Ultra」
【手机中国新闻】前不久,苹果发布了最新一代iPhone 14系列,目前新机已经开售,其Pro系列凭借“灵动岛”的设计俘获了一众果粉的心而大卖。从iPhone 11到14系列,苹果手机的Pro Max...
日期:09-15
95后小伙卖临期食品走红:极具性价比 也能防止浪费_卖临期食品挣钱吗
临期食品,一般是指即将到达保质期,但仍在保质期内的食品。如今到临期食品超市或线上选购临期食品,成为年轻人的消费热点,有人还因销售临期食品成了网红。6月17日消息,江苏无锡95...
日期:06-19
比亚迪唐系列新车售价24.98万元-30.98万元,唐DM-p冠军版综合续航超1000KM
8月31日消息,比亚迪唐系列新车正式上市,售价24.98万元-30.98万元。外观上,唐家族全擎高价值系列新增全新银釉白、冰川蓝车色。唐EV冠军版、唐DM-p冠军版/战神版新增全新中国结...
日期:08-31
投资超10年,腾讯突然割肉影视巨头!合计8000多万股,曾多次增资!
查看最新行情   文/吴志   继海澜之家、京东、步步高之后,又一家上市公司遭遇了腾讯减持。这一次是A股影视巨头华谊兄弟(300027)。   8月5日晚间,华...
日期:08-07
用音乐连接年轻用户!雅迪冠能系列现象级热销席卷全国,势不可挡
  近日,伴随着雅迪联手小红书打造的雅迪 2023 冠能音乐节完美落幕,雅迪冠能系列再次掀起全民抢购热潮。以音乐为沟通桥梁,雅迪不仅与年轻用户建立起深层次的情绪共鸣,而且成功...
日期:08-31
站在风口的生成式ai,离真正起飞还有多远「站在风口的生成式AI,离真正起飞还有多远?」
本地视角记录硅谷,全球视野关注创新别忘了给我们加星标 ~2023新技术追踪BUSINESS生成式AI的想象,不能只困在大模型里。文| Juny生成式AI技术无疑是当前最大的时代想象力之一。...
日期:08-02
顾客吐槽看《阿凡达2》需30元购3D眼镜 凭啥买非常不合理:影院回应
你去电影院看《阿凡达2》了吗,是不是也遇到了下面不爽的一幕?三星note20是高端机吗苹果称未就收购TikTok进行磋商近日,安徽宿州。有市民称12月18日看《阿凡达2》时被要求30元购...
日期:12-27
快狗打车升级安全防护措施,保障每一单的安全送达_快狗打车服务完成了怎么办
  安全防护是每个企业都非常重视的环节,尤其是在疫情期间,安全问题更是头等大事。日前,短途货运行业领导者快狗打车率先发声,第一时间升级了疫情期的安全防护,进一步完善了对...
日期:11-08
公会积极复工复产,2023直播行业有哪些新机遇呢「公会积极复工复产,2023直播行业有哪些新机遇?」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:筱虹、小龙果,授权转载发布。春节过后,公会们陆续复工复产。与年前相比,公会们明显感觉到了行业的变化:大环境变好,直播间流量...
日期:02-09
哈啰单车“预防闯红灯”专利公布:闯红灯就“叫唤”「哈啰单车违规」
电动自行车闯红灯,已经几乎成为道路特色”,尤其是外卖、快递等人群,更是闯红灯重灾区。为此,哈啰单车也做出了自己的应对方案。11月15日,据国家知识产权局中国专利公布公告(授权公...
日期:11-18
广电总局:全国高清播出电视频道已达431个_全国广播电视网
  3月2日消息 根据国家广播电视总局的消息,截至目前,全国各级播出机构经批准高清播出的电视频道已达431个。   在431个高清播出的电视频道中,中央广播电视总台在境内播出...
日期:09-23
城市ngp功能「城市NGP在北京正式开放-小鹏汽车」
【】6月15日消息,据小鹏汽车官方消息,今日,城市NGP在北京正式开放!这是行业内首个在北京城区内开放的高等级智能辅助驾驶,当前主要适用于北京各环线及主要快速路。目前,该功能已面...
日期:09-24
吉利汽车上半年营收同比增29% 全面新能源化转型加速_2018年净利润增长18%的吉利汽车今年要这么做
财联社8月18日电,吉利汽车2022年中期业绩报告披露。上半年,吉利汽车实现营业收入582亿人民币,同比增长29%;平均单车毛利1.6万元,同比增长9.9%;新能源销量增长398%,为国产品牌中增速...
日期:08-20
9月份销量39000辆 同比增长18%_9月份销量前十汽车
一汽红旗近日公布,该品牌在9月份的销量达到39000辆,同比增长18%。具体车型方面,红旗H5车型9月份销量12361辆,红旗HS5车型9月份销量11921辆,红旗E-QM5车型9月份销量为8971辆。一汽...
日期:10-02
苹果将在天猫开启Apple官旗首播_苹果将在天猫开启apple官旗首播吗
5月30日,Apple Store官方旗舰店发布消息称,将于2023年5月31日19:00点在天猫开启Apple官旗首播。这是苹果官方在电商平台的全球首次直播。华为自动驾驶解决方案小米max高配版华...
日期:09-25
主摄造型绝了!小米13 Ultra最新外形渲染图曝光「小米13锐龙版」
小米13 Ultra即将在本月发布,时间可能选在4月18日(周二)。从小米13 Ultra的首张海报来看,它将采用硕大的圆形摄像头模组,但器件排布将有所变化。最新的带壳渲染图显示,小米13 Ultr...
日期:04-11
iphone12pro信号太差了「2022年依旧解决不好!iPhone 14 Pro被网友吐槽信号差」
苹果手机的信号问题多年来一直是网络的热点话题,甚至到了2022年,苹果依旧没有将这个致命问题很好的解决掉,并将“祖传手艺”延续到了iPhone14系列身上。今天,一则#iPhone14Pro被...
日期:09-28
大消费2022:降本增效、行业寒冬、报团取暖
声明:本文来自于微信公众号 xxxxxx(ID:xxxxx),作者:曹双涛,授权转载发布。2022年对整个消费行业来说,都是极为特殊的一年。这一年,旷日持久的疫情让消费者的收入变得极其不稳定,这不但...
日期:01-10