您的位置:首页 > 互联网

聊天机器人正在消化互联网,而互联网希望拿到回报「聊天机器人的作用」

发布时间:2023-04-30 15:33:33  来源:互联网     背景:

4月30日消息,人工智能公司正在利用无数人在互联网上创作的内容,但没有征得他们的同意,也没有给予任何报酬。如今,越来越多的科技和媒体公司开始要求支付费用,希望从聊天机器人的热潮中分一杯羹。

以下是翻译内容:

如果你曾在博客上发表过文章、在Reddit上发布过帖子,或在开放网络上分享过任何内容,那么你就有可能为最新一代人工智能的诞生做出了贡献。

快手电商对实体店的冲击

谷歌的Bard、OpenAI的ChatGPT、微软的新版必应以及其他初创公司提供的类似工具,都整合了人工智能语言模型。但如果没有互联网上免费获取的海量文本,这些聪明的机器人作家将无法问世。

如今,网页内容再次成为争夺的焦点。这种情况自早期搜索引擎之争以来就没有出现过。科技巨头试图将这个不可替代的、富含全新价值的信息源划分为自己的领地。

原本不知情的科技和媒体公司正在意识到,这些数据对于培养新一代基于语言的人工智能至关重要。Reddit是OpenAI宝贵的培训资源之一,但最近前者宣布会向人工智能公司收取数据访问的费用。OpenAI拒绝就此发表评论。

最近,推特也开始对数据访问服务收费,这一变化影响了推特业务的许多方面,包括人工智能公司对数据的使用。代表出版商的新闻媒体联盟本月在一篇论文中宣布,当公司利用其成员制作的作品对人工智能进行培训时,它们应该支付许可费。

程序员问答网站Stack Overflow的首席执行官普拉尚思·钱德拉塞卡(Prashanth Chandrasekar)表示:“对我们来说,真正重要的是信息的归属。”对于大型人工智能公司访问网站上的用户创作内容,这家公司计划开始收取费用,“Stack Overflow社区在过去15年中花了那么多精力回答问题,我们真的想确保努力得到回报。”

以前曾出现许多人工智能服务,如OpenAI的Dall-E 2,它们可以通过学习来生成图像,但却被指控大规模窃取知识产权。创建这些系统的公司目前正卷入针对这些指控的诉讼。而人工智能生成的文本之争可能会更大,不仅涉及到补偿和信用问题,还涉及到隐私问题。

但华盛顿大学计算语言学家艾米丽·本德尔(Emily M. Bender)认为,根据现行法律,人工智能机构不必对其行为负责。

这场争端的起因在于人工智能聊天机器人的开发方式。这些机器人的核心算法被称为“大型语言模型算法”,需要通过吸纳和处理大量现有的语言文本数据,以模仿人类说话的内容和方式。这类数据与我们在互联网上所习惯的服务不同,比如Facebook母公司Meta Platforms等用于定向广告的行为和个人信息。

这些数据是由人类用户使用各种服务所创造的,比如Reddit用户发布的数亿条帖子。只有在网络上,你才能找到足够大的人工生成词库。如果没有它,今天所有基于聊天方式的人工智能和相关技术都不会成功。

搜狗输入法平板模式

非营利组织艾伦人工智能研究所的研究科学家杰西·道奇(Jesse Dodge)在2021年发表的一篇论文中发现,维基百科和无数来自大大小小媒体机构、受版权保护的新闻文章,都存在于最常用的网络爬虫数据库中。谷歌和Facebook都使用这个数据集来训练大型语言模型,OpenAI也使用了类似的数据库。

OpenAI不再公开其数据来源,但据该公司2020年发表的一篇论文,其大型语言模型使用从Reddit抓取的帖子来过滤和改进用于训练其人工智能的数据。

Reddit的发言人蒂姆·拉斯施密特(Tim Rathschmidt)表示,目前还不确定向访问其数据的公司收取费用会带来多少收入,但相信他们所拥有的数据可以帮助改进当今最先进的大型语言模型。

报道称,出版业高管们一直在调查:他们的内容在多大程度上被用来培训ChatGPT和其他人工智能工具?他们认为应该如何获得补偿?以及他们可以用哪些法律来捍卫自己的权利?不过,该组织的总法律顾问丹妮尔·科菲(Danielle Coffey)表示,到目前为止,还没有与任何大型人工智能聊天引擎的所有者(如谷歌、OpenAI、微软等)达成任何协议,让他们为抓取自新闻媒体联盟成员的部分训练数据付费。

推特没有回复置评请求。微软拒绝置评。谷歌的一位发言人表示:“长期以来,我们一直在帮助创作者和出版商将其内容货币化,并加强与受众的关系。按照我们的人工智能原则,我们将继续以负责任的、合乎道德的方式进行创新。”该发言人还说,“现在仍处于早期阶段”,对于如何构建有利于开放网络的人工智能,谷歌正在征求有关意见。

法律和道德泥潭

聊天机器人百科

在某些情况下,复制开放网络上可用的数据(也被称为抓取)是合法的,尽管公司仍在就如何以及在何时被允许这么做的细节上争论不休。

大多数公司和组织愿意将他们的数据放在网上,是因为他们希望这些数据被搜索引擎发现并编制索引,这样便于人们找到这些内容。然而,复制这些数据来训练人工智能,以取代寻找原始来源的需要,这是完全不同的。

计算语言学家本德尔表示,那些从网络上收集信息来培训人工智能的科技公司的运营原则是:“我们可以接受它,因此它是我们的”。将文本(包括书籍、杂志文章、个人博客上的随笔、专利、科学论文以及维基百科内容)转化为聊天机器人的答案会去除材料的来源链接。这也会让用户更难核实机器人告诉他们的内容。对于经常说谎的系统来说,这是一个大问题。

这些大规模信息抓取还会窃取我们的个人信息。Common Crawl是一个非营利性组织,十多年来一直在抓取开放网络上的大量内容,并将其数据库免费提供给研究人员。Common Crawl的数据库也被用作希望培训人工智能的公司的起点,包括谷歌、Meta、OpenAI和其他公司。

塞巴斯蒂安·内格尔(Sebastian Nagel)是Common Crawl的数据科学家和工程师,他表示,你几年前写的一篇博客文章,虽然后来被删除,但可能仍然存在于OpenAI使用的训练数据中,该公司使用多年前的网络内容来训练其人工智能。

本德尔表示,与谷歌和微软拥有的搜索索引不同,从训练有素的人工智能中删除个人信息需要对整个模型进行重新培训。道奇也称,由于重新训练一个大型语言模型的成本可能非常高,即使用户能够证明个人数据被用来训练人工智能,公司也不太可能这样做。由于所需的巨大计算能力,这类模型的训练成本高达数千万美元。

但道奇补充说,在大多数情况下,也很难让接受过包括个人信息数据集训练的人工智能反刍这些信息。OpenAI表示,它已经调整了基于聊天的系统,以拒绝提供个人信息的请求。欧盟和美国政府正在考虑监管这类人工智能的新法律法规。

阿里巴巴有没有淘宝客

问责制和利润分享

有些人工智能的支持者认为,人工智能应该获得他们的工程师可以获得的所有数据,因为这是人类学习的方式。从逻辑上讲,为什么机器不应该这样做呢?

本德尔表示,抛开人工智能目前和人类还不一样这一点,上述观点存在一个问题,即根据现行法律,人工智能不能为自己的行为负责。抄袭他人作品的人,或试图将错误信息重新包装为真相的人,可能会面临严重后果,但机器和它的创造者则不承担同样的责任。

当然,情况可能并非总是如此。就像版权所有者Getty起诉使用他们的知识产权作为训练数据的图像生成人工智能公司一样,如果企业和其他组织未经授权使用他们的内容,他们很可能会最终将基于聊天的人工智能制造商告上法庭,除非他们同意获得授权。

聊天机器人体现了什么体验

无数人写的那些个人随笔,以及在默默无闻的论坛和已经消失的社交网络上发布的帖子,还有其他各种各样的东西,真的能让现今的聊天机器人变得写作能力一样好吗?这些内容的创造者能从中获得的唯一好处,也许只是他们在使用语言方面为培养聊天机器人做出了一些贡献。(小小)


返回网站首页

本文评论
iphone11pro建议升级ios14吗「资深果粉分享:iPhone14 Pro的升级和槽点」
随着每年9月的“科技春晚”的落幕,今年的新款iPhone 也公诸于世。作为果粉的我,也第一时间入手了iPhone 14 Pro 银色版。使用了一段时间沉浸在新机的喜悦同时,来分享一些我对新...
日期:10-12
曝AirPods Max 2最早要到2024年下半年才会推出「airpods max什么时候出的」
苹果供应链分析师郭明錤(Ming-Chi Kuo)表示,苹果至少要到明年下半年才会推出第二代AirPods Max,并可能等到2025年上半年才能更新耳机。郭明錤在最新的一系列推文中概述了他的行...
日期:02-04
荣耀V40保值换新套餐受追捧 26日再次开售_荣耀v40保价
  日前,备受期待的荣耀V40正式发布,同时荣耀携手京东,推出了荣耀V40保值换新套餐,加99元就能享受保值换新服务,引发网友抢购热潮。现在,为了给更多人谋福利,第二批荣耀V40保值换...
日期:05-14
女子上班第一天因已婚被辞 获赔100元:这合法吗?
职场怪事多,已婚被辞退?三星5G网络设备据山东商报报道,近日,在广东广州,王女士上班第一天,办理完入职后,却因为自己已婚,被公司辞退了。据王女士说,当天刚刚入职,正在熟悉日常的工作职...
日期:01-12
苹果反诉AliveCor公司,苹果才是心电图相关专利的先驱
  IT之家12月3日消息,苹果今天决定反诉AliveCor公司,以便于更好地维护自身权益。双方的争议始于2021年,AliveCor于美国国际贸易委员会(ITC)提出申诉,指控苹果侵犯了AliveCor的三...
日期:12-12
字节跳动的创新点_技术+创新 教育业务或成字节跳动新重点
  ​字节跳动组织升级后,教育业务或将成为新重点。   不久前,成立八周年的字节跳动进行了组织架构升级。公开信中创始人张一鸣着重提到未来他将思考和规划教育等新战略方...
日期:08-20
腾讯教育《学习强师》公益活动走进四川,携精准作业管理系统等开展教师信息化培训
  2021年是国家“十四五”规划的开局之年,将全面进入乡村振兴战略实施阶段。四川省教育厅在开展党史学习教育“我为群众办实事”实践活动中,聚焦民族地区教育信息化发展,着...
日期:03-11
补齐遗憾!小米13全系标配IP68防水防尘「小米11ip68级防水」
今天下午,小米官方发文宣布,小米13将全系标配IP68级的防水防尘。IP68近几年一直是高端旗舰的标配,小米这也是首次在标准版也配备了这一规格。据悉,小米是在小米11 Pro机型上首次...
日期:12-04
张大大的走红,无忧传媒的“阳谋”?
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:江北,授权转载发布。近期,抖音用户的快乐,很大一部分来自于张大大的直播间。1月31日晚20:00,@张大大 在抖音开启了自己的直...
日期:02-25
网络上卖药的有监管吗?_网上药店监管也难 仅能关闭难抓人
  “网上售药所占的市场份额肯定会越来越大,这对我们药品监管来说是一个挑战。”在昨天上午举行的东莞市“全国安全用药月”启动仪式上,市食品药品监督管理局副局长尹锡祺...
日期:07-22
爱玛科技登陆A股:电动自行车行业马太效应加强 加码研发夯实领先地位
  电动自行车行业龙头企业爱玛科技(603529.SH)今日登陆A股,成为国内第四家登陆资本市场的电动自行车上市公司。   电动自行车是国民性交通工具,行业发展稳定。2019年,电动...
日期:01-23
“奈雪的茶”悄悄更换LOGO:开始去掉日本元素_奈雪的茶logo设计原理
奈雪の茶、元気森林、伏见桃山乍一看这些牌子,是不是都有一种日本产品的感觉?其实,它们都是百分之百的本土牌子,只是把自己包装成了伪日式”而已。近日,奈雪的茶悄悄然更换品牌的...
日期:11-29
iPhone 14坐过山车误报“车祸”!官方回应让人无语
今年新推出的iPhone 14系列亮点并不算多,不过新的车祸监测功能还是非常受人关注的,经测试新功能能够在用户遭遇事故时紧急报警。然而,这一功能似乎过于灵敏,近日,海外有反馈称,多...
日期:10-11
直播是电商吗_店宝宝:厘清电商直播平台差异
  直至今日,直播在各类平台里都是一个标配工具。但直播本身其实只是一个形式,电商才是内核。   店宝宝电商研究院负责人张斌表示,如果今天要入局电商直播,第一要搞定产品力...
日期:02-21
抖音开抢微信饭碗!功能单一问题不少,用户称:“不需要第二个微信”
  文丨新浪财经 周文猛  字节跳动又一次把触手伸向了腾讯腹地——社交主场,而这一次,他进军社交领域的号角,又能吹响多久?  近日,抖音在官网上线了一款桌面端聊天软件,名为...
日期:01-05
福特公布第四季度营收好于预期 同比增长17%
2月3日消息,据外媒报道,当地时间周四,福特公布了2022年第四季度财报。财报显示,该公司第四季度的营收为440亿美元,同比增长17%,高于市场预期的398亿美元。第四季度,该公司的净利润...
日期:02-03
人社部等 4 部门对美团、滴滴等企业保障劳动者权益开展联合指导
  9 月 10 日消息 从人社部官网获悉,9 月 10 日上午,人力资源社会保障部会同交通运输部、市场监管总局、全国总工会召开平台企业行政指导会,就维护新就业形态劳动者劳动保障...
日期:07-17
FF 91正式量产!贾跃亭再提为梦想窒息:疯魔般的坚持不被理解_ff91和贾跃亭什么关系
3月30日消息,今日,法拉第未来(Faraday Future,简称FF”)宣布FF 91 Futurist正式量产,预计将在美国和中国市场销售。vivo折叠屏和oppo折叠屏推荐买哪个FF创始人贾跃亭在仪式上表示,...
日期:03-30
世界人口正式达到80亿:幸运儿是一名女婴 诞生于亚美尼亚
今天下午,联合国宣布世界人口正式达到80亿,这是一个里程碑事件。现在问题来了,第80亿名新生儿是谁呢?诞生在地球哪个地区?现在答案来了,环球时报援引塔斯社消息称,亚美尼亚格加尔库...
日期:11-16
小米13啥时候出「不止没有小米13S!更便宜的小米13系列天玑版也无望了」
去年,小米在12系列之外还推出半代升级的S系列,配置上升级了更稳定的骁龙8+,还用上了徕卡影像,口碑及其出色。之前不少网友都在期待小米13系列推出S版本,但现在愿望落空了,雷军已经...
日期:03-01