您的位置:首页 > 互联网

国内大模型数据之困有解了!头部标注厂商打造,专为垂直行业落地

发布时间:2023-09-27 00:29:22  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:白交 ,授权转载发布。

大模型落地垂直行业,数据已打响第一枪。

现在,专门面向垂直大模型的数据解决方案来了——

直接帮助通用大模型产业落地那种。

背后是将交付精度标准拉到99.99%,在业内连续霸榜的云测数据。

高质量数据,作为大模型时代下的关键“燃料”,直接决定着大模型效果的好坏。

不少业内大佬包括张勇、李彦宏、周鸿祎等在内都曾谈到大模型产业落地中数据的价值和意义。

但从大模型训练流程、行业数据的稀缺性,又决定着数据生产处理并非易事。

既然如此,云测数据又是如何解决的呢?

剑指垂直大模型

首先,不同于传统数据服务方案基于任务划分的维度,整套垂直大模型数据解决方案按阶段划分,分为三个阶段:

  • 持续预训练

  • 下游任务微调

  • 灰度发布联调

这种模块化设计,一方面交付更为高效,大模型企业可根据自身需求选择特定的服务内容;另一方面这恰好也是云测数据所认为从通用大模型到行业大模型所需要的“三段论”。

首先,持续预训练阶段,需要往通用大模型中注入垂直行业知识。一方面,需要场景化数据的采集和处理能力;另一方面,还要保证数据质量的稳定性和持续性。

随着大模型构建之后还有后续的持续迭代,所以需要长期、稳定的高质量行业数据输送。

其次,下游任务微调阶段,也就是根据企业需要去进行任务端到端定制。

据介绍,云测数据的数据标注平台集成了既有像语音分类、语音撰写、文生图、视频标注等传统标注工具支持,也有像问答对编写、Prompt编写、多轮对话等大模型特定标注工具。这一阶段需要人机协同来运作。

完成微调之后,也就是最后的灰度发布联调阶段,邀请比如像保险、金融、智驾等特定垂直领域人员和专家的评测评估;还有基于特定环境要求,搭建真实还原的使用场景。

遇到一些bad case就将数据通过平台回流到最初清洗标注,以及调优阶段,以此来形成数据闭环。

总结来看,整套方案主要体现了两大特点:持续订阅、专业定制。

前者是大模型持续迭代升级、满足时效性的共性,企业需要数据持续高质量地输入;后者则是在保证高效高质的前提下,大模型垂直场景落地所必备的特性。

为此,云测数据特别在下游任务微调、灰度发布联调两个阶段,他们有着特定领域专家池,里面都是了解场景的深度用户,去评估有效的交互内容。

以电商中文案生成这一典型场景为例。

据云测数据总经理贾宇航介绍,首先是持续预训练环节,云测数据基于已有的数据集积累,比如不同产品信息、 商家评分、用户评论等各类型数据,进行一个持续数据提供。

微调环节,则是进一步结合企业实际使用需求去生成相关文案,包括像品类特点、内容风格、客户画像等维度的定制。

win10 21h2安装失败

至于联调评测阶段,一方面是公司专业的功能测试专家去整合系统进行评测;另一方面,是专业标注人员去对生成内容去进行评价和评分。

除了电商之外,云测数据在保险、智驾、智能家居领域都已经有了相关大模型合作落地。

为什么是云测?为什么是垂直大模型?

现在,通用大模型浪潮已经趋于冷静,各领域企业都在思考如何应用大模型来降本增效。

云测数据率先给出垂直大模型的数据解决方案,并明确表示“大模型应走向行业”。

为什么会是云测数据?而这解决方案背后又是基于什么考量?

在与云测数据交谈之中,谈及最多的定位是数据生产者和处理商——

基于AI数据处理的经验以及行业经验,持续输出相应的方案和标准。巧合的是,每年服贸会都成为了云测数据阶段性的成果展示平台。

  • 2020年云测数据代表行业首次对外宣布:项目最高交付精准度达到99.99%;

  • 2021年,云测数据先后发布云测数据标注平台、AI数据集管理系统等技术成果,率先形成AI训练数据的“采、标、管、存”一站式服务,实现从“数据原料”到最后的“数据成品”全链条打通,输出完整的数据价值。

  • 又经过一年的打磨和完善后,应对AI工程化演进趋势,云测数据在2022年发布了面向AI工程化的新一代数据解决方案。方案不仅包括标注数据、管理数据所需的平台工具,还涉及管理体系以及数据安全。

其中数据处理工作台支持持续任务处理、人机协作,同时以标准API接口与各类系统对接,将AI数据训练过程中的综合效率提升200%。

今年大模型时代来临,在云测数据看来,行业数据之所以稀缺,核心是因为现有数据不够clean,需要做清洗处理。

有业内机构表示,大模型数据清洗率,即清洗出来正确的数据占原数据百分比,不到10%。

而解决方案以工具链集成的方式,能够帮助企业根据自身需求,快速本地部署处理数据。这样还能保证数据不出外网,保障数据资产的安全性。

事实上细心一点发现,这一轮轮方案看似是面向不同趋势和场景,实际上都是基于已有方案基础上的迭代。

贾宇航对此回应,都是基于数据底座集成。

斗鱼直播发展现状

经过数年AI数据处理经验的累积,这也正是云测数据以不变应万变的方式应对AI技术趋势。

至于选择垂直大模型部署,这则是与行业经验有关。

一来,多年来在汽车、安防、手机、家居、金融、教育、新零售、地产等行业多场景的优势,能满足大模型高质量、多样性、时效性的数据需求。

二来,云测数据本身也能结合自身优势,将公司在软件测试业务上10多年ToB服务经验也迁移沉淀至云测数据的AI数据服务中,提质增效的作用十分显著。

于是乎,凭借在产品、服务、技术研发等方面的综合实践,云测数据已连续四年被评为行业第一,被认定具备丰富的研发及产业化服务经验。

数据之于大模型时代

家电计划报废

大模型,正在加速让人工智能朝着以数据为中心的方向转变。数据的价值也在这一进程中来到了前所未有的高度。

从大模型预训练、监督微调、强化学习,再到迭代、应用,数据可以说是贯穿整个流程。如何清洗处理高质量数据,利用数据去提高模型性能,在产学研界仍然在积极探索之中。

至少从各家招聘网站上看到,数据标注人才成为刚需,市场十分火热:基本平均本科以上,各领域专业人才都有涉及。

甚至有公司在招物理学博士来做标注了。

既然如此,身处于浪潮之中的数据服务公司,又在卷什么往什么方向卷呢?

一来,技术能力。数据作为AI算法的底层设施,降本增效成为数据行业中的首要目的和第一标准。

以往谈到数据行业,无非是劳动密集型,只需靠人力堆积,将各维度数据转化为结构化数据。

随着之后模型规模增大,数据量与模型性能成正相关成为普遍共识时,单靠人力无法提高效率,一体化的数据处理平台、算法工具链开始发展起来。

尤其是以自动驾驶为典型场景,它不仅涉及各种交通路况的复杂长尾场景,还有在感知层面就涉及激光雷达、相机等多维数据的融合,这就需要自动化工具、多模态、甚至多种算法来提高效率。

现在以ChatGPT为代表的大模型,对数据的需求不再只是参数规模,还在于更高维度的——高质量、多领域和多模态;这也就需要AI数据服务公司更高效的技术实力来响应。

二来,场景化数据。大模型的技术路径已经清晰,落地垂直领域也已经成为必经之势。而在行业场景中多年深耕,掌握核心行业资源和用户,就能快速享受到红利。

而且现在越来越多开源通用大模型问世,大模型的训练门槛也就逐渐降低,更多工程化、系统化难题在后续迭代和应用的部署上。

垂直企业想要用上大模型,就需要专业AI数据服务商持续性地、紧密地合作,获取行业知识数据。

天猫ceo张勇

如果说,自动驾驶让数据标注告别人力走向了工具/平台标注,那么大模型将数据标注重新迎来了洗牌时刻——

真正从劳动密集型变为知识密集型、技术密集型。

只有掌握行业Know-how,持续技术创新的AI数据公司能站到最后,你觉得呢?

—完—


返回网站首页

本文评论
Groupon提交IPO申请业界质疑其“赚钱”能力
  据外媒报道,全球知名团购网站Groupon将提交新的上市申请资料。不过,在今年6月,Groupon首次提交上市招股书后,分析人士表示并不乐观,对其长期增长性提出严重质疑。日前,更有数...
日期:07-22
华为Mate60 Pro开售后流量爆炸 热度是iPhone 15十倍!_华为mate60pro最新消息
【手机中国新闻】8月29日中午,在几乎没有任何预兆的情况下,华为突然宣布正式开售旗下新机Mate60系列。而在这之前,虽然华为其实并没有举行Mate60系列的发布会,也几乎没有进行任...
日期:08-30
纽约时报:Adobe未来将押注触摸设备
  10月11日消息,《纽约时报》专栏作家尼克 ·比尔顿 (Nick Bilton)今天发表文章,称《Adobe:未来在过去之中》。   上周五,我步入Adobe CTO凯文·林奇(Kevin Lynch)的旧金...
日期:07-23
高价回收苹果6「大卖2.5亿部!苹果昔日神机iPhone 6二手收购价低至100元」
最近,苹果更新了其过时产品列表,史上最畅销的iPhone系列机型之一iPhone6退休”,正式退出历史舞台,该机型距停售已过去五年多时间。2019年,苹果生产线调整,iPhone6正式停产,5年之间,i...
日期:10-05
00后女孩学殡葬专业 正式入职陵园做守墓人 对工作很满意_殡葬好就业吗
11月16日,重庆一名00后女孩正式入职陵园做守墓人,引发网友围观。据了解,该女孩在大学所学专业是现代殡葬技术与管理,之前她晒出和好友在公墓实习的经历,如今已经毕业成为正式员工...
日期:11-23
家庭宽带干货分享  带你告别用网困扰_家用宽带都是共享带宽吗
  生活节奏越来越快,在外打拼的人们,谁不想在家里感受一下贴心的关怀,享受一下美好的休闲时光呢?然而,家庭用网总会遭遇一些尴尬,你是否存在这些困扰?这种时候该如何解决呢?...
日期:03-18
抖音为虚拟人直播立规矩!AI生成内容监管正当时_抖音虚拟人物直播app
声明:本文来自于微信公众号 直播观察(ID:zhibogc),作者:直播行业权威媒体,授权转载发布。最近,随着ChatGPT的大热,另一个词也频繁出现在大众视野——AIGC。AIGC是一种使用人工智能技...
日期:05-10
快手小麦儿收入「快手:打击“夏粮收割”摆拍、扎堆麦地直播割麦等蹭热度行为」
6月2日 消息:快手发布《关于严厉打击蹭热点行为的公告》称,平台发现有媒体报道部分网红扎堆蹭夏粮收割热度的情况。快手乐见展示传播中国农民辛劳朴实的一面,但拒绝毫无底线地...
日期:06-02
谷歌炮轰微软:收取专利费是“敲诈”(谷歌收安卓专利费)
  微软与三星达成专利授权协议:三星卖出的Android智能手机和平板电脑都需要向微软支付授权费。此举遭到谷歌强烈炮轰,称微软是在“敲诈”。   谷歌新闻发言人认为:“微软...
日期:07-23
浏览器份额统计「Statcounter 发布浏览器份额榜,Chrome 占比 66.16% 稳居第一」
IT之家 1 月 3 日消息,Statcounter 近日发布了 2022 年 12 月的浏览器份额报告,揭示了最新浏览器的份额情况。总体来看,谷歌 Chrome 浏览器依然稳居第一,而 Edge、Safari、Firef...
日期:01-03
双线定制时代开启,好莱客入驻苏宁门店_苏宁高级推客
  越来越多的定制品牌开始通过苏宁家装加速布局全线市场。   2月25日,广州好莱客创意家居股份有限公司总经理那崇奇到访苏宁,与苏宁厨卫家装公司总裁助理刘志阳进行会面...
日期:09-05
王亚飞深圳个人资料「专访飞腾王亚松博士:中国“芯”强劲赋能千行百业数字化征程」
通信世界网消息(CWW)6月4日至6日,由工业和信息化部主办的“第31届中国国际信息通信展览会”在北京国家会议中心举行。本届展览会以“打通信息大动脉共创数智新时代”为主题,集中...
日期:06-09
一站式购齐Apple产品不是梦,京东年货节放心换服务助“原年人”温暖过新年
  盼望着,盼望着,距离春节放假还有20多天,这可难坏了躁动的打工人们,其实学会忙里偷闲,劳逸结合,工作日很快就过完了。不过摸鱼也是要有技巧的,不然点开某个视频不小心外放了,刚...
日期:02-15
天涯社区十大经典帖子「天涯社区已无法打开 网友掀悼念潮:一代人的青春记忆」
最近,网友发现天涯社区的网站和App已经无法打开。据天涯社区发布的公告,该社区正在进行技术升级和数据重构,因此在此期间,该平台将无法被访问。由此引起了网友们的“悼念潮”,他...
日期:04-26
山寨播放器成垃圾图标制造机 每天2万网民被骚扰
  5月12日消息,金山网络云安全中心监测到网民在搜索“倩女幽魂、硬汉、天涯赤子心”等热门大片在线播放时,被暗藏病毒的虚假电影网站欺骗。安装专用播放器之后,病毒会在桌面...
日期:07-27
华为Mate40系列发布会「华为mate40系列发布会胡杨树图片」
华为Mate40系列于2020年10月22日在中国北京举行线上发布会,共发布了Mate40、Mate40 Pro、Mate40 Pro+和Mate40 RS四款手机。这个系列的发布是华为今年最为重要的移动终端产品...
日期:05-29
美图海报工厂下载「美图上线“AI海报”功能10秒可出100张海报」
5月17日消息,美图公司旗下美图设计室上线“AI海报”功能,10秒可以产出百张海报图。美图设计室上线的“AI海报”,可通过AI技术进一步降低设计门槛,让更多有海报设计需求的非重度...
日期:05-17
淘宝商城双11方案泄露 多辆豪车半价销售_淘宝商城双11方案泄露 多辆豪车半价销售情况
汽车半价抢购?这是真的!一年一度的tmall.com淘宝商城“双十一”促销盛宴即将启幕,昨天淘宝商城公布的信息显示,今年双十一期间,将有数十辆汽车参与“半价”抢购活动。 据悉,包括...
日期:07-24
热搜爆了!华为发布会,刘德华惊喜现身!首款轿车重磅官宣,还有售价21999元黄金智能腕表..._余承东_新品
每经编辑:程鹏9月25日,华为在深圳召开秋季全场景新品发布会。华为MatePad Pro、超高端品牌“非凡大师”、黄金智能腕表等新品集体亮相,全场不停有人喊出“遥遥领先”!值得一提的...
日期:09-26
老马和小扎,要把40亿人带进Web3
三星tizen电视   出品|虎嗅科技组   作者|周舟   头图|视觉中国   一个奇怪的国际现象正在互联网行业发生,腾讯(中国最大的社交公司)、Meta(美国最大的社交公司)、Line(日本...
日期:08-16