您的位置:首页 > 互联网

AI厂商拿Robots协议当草纸,互联网秩序“礼乐崩坏”

发布时间:2024-06-29 13:31:20  来源:互联网     背景:

声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。

就在一众AI大模型厂商还在为盈利发愁时,英伟达靠卖算力已成功登顶全球市值第一公司的宝座,再次证明了当淘金热汹涌时候、只有卖铁铲的最赚钱。但训练大模型不仅要算力、还要有数据,以至于Reddit、X等内容平台纷纷做起了数据买卖这个生意。只不过,如今这个生意也越来越不好做了。

近日根据路透社报道,内容授权初创公司TollBit近日向出版商发出警告称,多家人工智能公司正在规避他们用于阻止抓取内容的通用网络标准,并将抓取的内容用于训练生成式AI系统。几乎在同一时间,知名科技杂志《Wired》也发文称,AI搜索公司Perplexity存在绕过机器人排除协议(Robots Exclusion Protocol),以获取受限网络内容的行为。

AI,人工智能,机器人

魅族 小米手环

苹果修改id密码显示连接到服务器时出现问题是怎么回事

再算上此前OpenAI使用YouTube上的视频内容训练打模型,谷歌也曾被曝出修改用户协议、以免费获取旗下平台用户数据的消息。似乎上至一线巨头、下至初创企业,AI行业俨然集体化身为了“数据小偷”。

一直以来,数据无疑是训练AI大模型的基础,而高质量数据更是决定了大模型的性能上限,这也正是AI厂商如同饕餮般吞噬数据的真相。为此他们可谓是满世界买数据,但现实却是可供交易的数据已经满足不了大模型的胃口了。

当正常买卖数据这条路不好走了之后,“偷数据”似乎就变成了AI厂商心照不宣的操作。比如这次被部分AI厂商无视的Robots Exclusion Protocol(以下简称Robots协议),其实是一个存放于网站根目录下的ASCII编码文本文件,它是控制网站被搜索内容的一种策略,也就是/Robots.txt。

Robots协议的唯一作用,就是告诉user-agent(网络爬虫)网站中的哪些内容允许被爬取、哪些内容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘宝为例,当时这家电商网站的Robots协议非常简单,直接就禁止了“Baiduspider”、即百度蜘蛛访问网站的任何部分。依靠这样的Robots协议,淘宝避免了流量外溢到百度,进而催生了其站内的竞价排名体系。

图片

为什么这样简简单单的代码就能拦住了百度的爬虫呢?这是因为百度签署了《互联网搜索引擎服务自律公约》,承诺遵守Robots协议,并愿意限制搜索引擎抓取应有行业公认合理的正当理由、不利用这一协议进行不正当竞争行为。这也是后来百度起诉360违反Robots协议时,会大义凛然指责360搜索在明确承认Robots协议约束力后、又规避了这个协议的底气。

2019年国美与苏宁营收

尽管Robots协议并不俱备法律层面的强制力,甚至都不是行业自律公约,实质上仅仅只是一个君子协定,可是在过去三十年里,Robots协议在事实层面成为了网站和搜索引擎共同遵守的一个有关数据抓取的规则。一个缺乏强制力的君子协定能存在、并得到不同文化背景互联网公司的认可,自然是有它的道理。

图片

Robots协议的成功之处,就在于做到了搜索引擎和网站的双赢。其中搜索引擎抓取了网站的网页、让自己的索引库更加充实,进而满足用户对于信息的需求,而网站方则从搜索引擎处得到了流量作为回馈,进而通过流量变现赚到真金白银。

以AI搜索独角兽Perplexity为代表的一众AI厂商打破乃至无视Robots协议的趋势,如果要用一个词来形容,“礼乐崩坏”似乎是最合适的。

周朝用“礼乐”实现了人人各安其位各乐其业,长幼有序尊卑井然,上下和睦贵贱相安的秩序,而互联网的奠基人则用开放、平等、协作、快速、分享塑造了互联网世界的行为准则。互联网精神虽然并不要求每一个参与者都具备这种精神,但是Tim Berners-Lee、Marc Andreessen等早期互联网的缔造者,却在顶层设计中用“无形的大手”促使每一个参与者需要遵循互联网精神。

图片

一个很简单的例子,就是如果大家曾经不相信互联网精神,那么Copy to China根本就不会发生。所以问题就来了,为什么互联网世界如今会“礼乐崩坏”呢?韩非子有言,“事异则备变。上古竞于道德,中世逐于智谋,当今争于气力”。早期的互联网世界“竞于道德”,是因为彼时的互联网还是蛮荒之地,大片的处女地等待着参与者来开拓,一旦找对了赛道就能扶摇直上。

可到了移动互联网时代,随着互联网世界的拓荒时代结束,每一条赛道几乎都站满了巨头,创业者就得靠智谋才能成功,否则即使成为风口上的猪,风停了也得摔下来。

而当下随着流量红利的枯竭,互联网进入存量竞争时期后,就得刺刀见红了。这时候对于AI厂商来说,获取更多的数据以训练更强的模型、再用更强的模型拉到更多的投资才是王道,遵守Robots协议反而会让自己在市场竞争中落后。

图片

当然,AI厂商并非就想离经叛道,而是他们拿不出让数据拥有着满意的筹码。此前网站站长愿意向Googlebot敞开大门,还不是因为谷歌搜索能回馈流量,可AI厂商并不像搜索引擎那样能用流量来作为报酬,反倒是AI厂商训练的大模型可能会代替网站。所以指望网站像接纳搜索引擎一样接纳AI厂商,无异于难如登天。

所以当数据拥有者不想给、可AI厂商偏偏又很想要的情况下,“礼乐崩坏”也就来了


返回网站首页

本文评论
视觉编码器VCoder:提高模型在识别图像方面的能力_视觉编码实验报告
1月4日 消息:VCoder是一个视觉编码器,旨在提高多模态语言模型(MLLM)在识别图像中的对象和理解图像场景方面的能力。它能够帮助模型更好地理解和分析图像内容。京东年货节满减国...
日期:01-04
红杉中国创始人沈南鹏以每股186.52港元的均价出售美团210万股(红杉资本沈南鹏持股)
为什么余额宝收益越来越多apple music都有版权吗 查看最新行情   据港交所7月27日披露文件,7月25日,红杉中国创始人沈南鹏以每股186.52港元的均价出售美...
日期:07-31
LQ-LoRA:通过低秩量化矩阵分解实现高效的语言模型微调
要点:LQ-LoRA是一种基于LoRA的变体,通过低秩量化矩阵分解实现对大型语言模型进行高效微调,特别适用于解决内存效率和数据适应性问题。LQ-LoRA通过在适应过程中将权重矩阵分解...
日期:11-27
可上线向公众提供服务 「百度字节等8家公司大模型产品通过生成式人工智能备案」
IT之家 8 月 31 日消息,百度、字节、中科院旗下紫东太初、百川智能、智谱华章等 8 个企业 / 机构的大模型位列第一批名单,可正式上线面向公众提供服务。百度深夜宣布,旗下 AI...
日期:09-16
华为高分入选2023Gartner Peer Insights™云数据库管理系统“客户之选”
通信世界网消息(CWW)近日,Gartner最新发布Gartner Peer Insights 《Voice of the Customer for Cloud Database Management Systems,2023》报告,华为云成为全球唯一获得云数据库...
日期:06-25
oppofindx帧数是多少「OPPO Find X7标准版游戏实测:帧率位居行业第一」
快科技1月3日消息,据OPPO官方消息,OPPO Find X7标准版游戏表现超越行业Pro。具体而言,在知名开放世界手游中,OPPO Find X7实测帧率是60.8FPS,做到了同平台第一名。摩托罗拉edge s...
日期:01-04
寒武纪研发投入「寒武纪一体化开发环境 可实现跨云边端平台的应用开发」
随着当前人工智能技术普遍应用于日常生活和传统产业,对于底层芯片计算能力的需求一直 在飞速增长,其增速已经大幅超过了摩尔定律的速度。例如在 2021 年,由Google提出的Switch...
日期:06-30
人工智能助推「推动人工智能普及最佳路径是打造更多AI终端设备-杨元庆」
【】6月20日,世界智能产业博览会在国家会展中心(天津)开幕。联想集团董事长兼CEO杨元庆,在大会开幕式上发表了题为《人工智能赋能新质生产力,促进中国制造智能化、绿色化发展》的...
日期:06-20
阿里云服务器爆款产品5折活动:网络增强型sn2ne低至2951.40元/年
  在阿里巴巴Q3中阿里云单季营收达到107亿元,首次突破100亿元,同比增长62%。而受益于疫情防控期间日益增长的远程办公需求,阿里云的增长还在持续。   阿里云凭借什么达到...
日期:07-23
目前我国新能源汽车总保有量超过「截至9月底全国新能源汽车保有量1149万辆 占汽车保有量的3.65%」
10月8日消息,据公安部统计,截至2022年9月底,全国机动车保有量达4.12亿辆,其中汽车3.15亿辆;机动车驾驶人4.99亿人,其中汽车驾驶人4.61亿人。魅族18骁龙870版本联想小新pro16新款20...
日期:10-09
金山卫士3.0新增装机功能 不用安装盘也能重装系统_金山系统重装大师
  5月19日,金山网络旗下金山卫士今日推出3.0正式版。该版软件增加了“重装系统”的新功能,不用安装盘即可重装系统。该功能主要针对普通电脑用户,十分钟便可以轻松完成系统...
日期:07-28
区块链百科全书IQ.wiki推出基于ChatGPT的搜索引擎“IQ GPT”_区块链搜索引擎是什么
8月11日 消息:IQ.wiki 是一个基于区块链的百科全书,现已推出基于 OpenAI 的 ChatGPT 技术的搜索引擎,以帮助加密货币用户搜索各种来源的信息。该搜索引擎名为 IQ GPT,通过简单...
日期:08-11
「搭载3.2GHz骁龙8 Gen 2 「一加Ace」-3曝光」_一加8t和ace2参数对比
来源:中关村在线苹果是否涉嫌垄断近日,博主@数码闲聊站爆料称,一加将推出一款搭载3.2GHz骁龙8 Gen 2处理器的新机。该机正面配备6.74英寸左右的1.5K高频调光单孔微弧柔性屏,机身...
日期:09-05
影像性能两手抓 Reno10系列性能比肩旗舰「reno10xzoom」
今天,OPPO宣布了OPPO Reno10系列的最新配置。据悉其搭载了骁龙8 旗舰芯片平台,长寿版100W超级闪充和16GB 512GB超速大内存,拥有鲁大师认证的最流畅系统ColorOS和航天级超导石墨...
日期:05-23
丫丫熊猫续约「丫丫干饭名场面 蛋糕是熊猫抱寿桃」
今天是,大熊猫 “丫丫”23岁生日。北京动物园为它准备了一顿特别的 “生日宴”,“丫丫” 坐在竹子上享受美食。蛋糕上还有两个如意窝头,细节考究,而且 “丫丫” 变得更圆润、更...
日期:08-03
吃面比吃米更易发胖 西安交大团队证实:三大原因_吃面比米饭更容易发胖
吃面和吃米饭,都是高热量的碳水化合物,虽然能让人快乐,但在让体重悄悄发胖方面,两者确有不同之处。日前,西安交通大学公共卫生学院研究团队在权威营养期刊《营养素》发表了一项研...
日期:02-25
为科研量身定制,优刻得推出“云极”高性能计算EPC
  随着数字化走向纵深,科研教育进入信息化时代。在科研项目的推进过程中,往往会面对复杂的数据密集型计算任务,例如仿真、数据建模、渲染等大量运算场景。此时如果使用单一...
日期:07-10
小米汽车SU7申报信息曝光:续航最高800KM_小米汽车价位
快科技12月12日消息,在工信部最新公示的纯电动乘用车申报信息中,我们发现了小米首款汽车SU7的身影。其上显示,小米SU7将会有两个版本,电池包容量分别为101kWh和73.6kWh,每款电池...
日期:12-13
Neo8 1TB版本618大促降至2459元 无门槛红包来袭_iQOO_neo58+128
来源:中关村在线vivo iQOO Neo8手机16GB+1TB版本于2023年6月开售,售价为2499元。目前京东自营在大促活动中直降,并叠加多重优惠实付低至2459元,购买还可享受3期白条免息。下单时...
日期:10-25
联想s300笔记本「联想s300笔记本怎么样」
是一款非常经典的笔记本电脑产品,采用了时尚的设计和高效的配置,深受消费者的喜爱。以下是对的搜集相关信息整理成的一篇600字的文章。一、外观设计11月新能源汽车上险量排行...
日期:05-30