您的位置:首页 > 互联网

从《纽约时报》起诉OpenAI、微软看大模型企业的版权风险与合规举措

发布时间:2024-01-18 22:39:11  来源:互联网     背景:

通信世界网消息(CWW)2023年12月27日,美国《纽约时报》指控微软及OpenAI未经许可使用该报数百万篇文章训练其聊天机器人,要求销毁所有涉及纽约时报新闻作品的ChatGPT或其他大型语言模型和训练集、并赔偿数十亿美元的法定损害赔偿和实际损失。纽约时报此举被认为是迄今为止规模最大、最具代表性和轰动性的案例。这一事件是对大模型企业合规性的一次考验,未来将产生深远影响。

针对大模型企业的版权诉讼主要聚焦模型训练和输出阶段的侵权行为

国内外大模型企业面临多起版权诉讼。据不完全统计,自2022年 11月至2023年10月,仅美国加州北区法院便已受理10起针对大模型企业的版权诉讼案件1。2023年6月,国内笔笔神作文发布声明表示学而思AI大模型侵权、12月多位创作者起诉小红书AI模型涉嫌使用这些画师的作品训练。

(一)模型训练阶段的版权利用行为成为多数版权纠纷的焦点 

自行收集数据 (如通过网络爬虫等技术手段收集数据等 )与经授权获取数据 (如采购第三方数据库等 ) 是获取训练数据的两类典型途径,均存在侵权风险。一是使用网络爬虫抓取的内容受网络爬虫协议条款约束,如果违反robots.txt文件抓取的作品可能构成侵权。二是签订授权协议或者通过著作权集体管理机构合法授权获得的内容,通常难以做到百分百的准确授权,可能会出现超出授权范围的侵权行为、或因授权方数据来源不正当等引发的侵权行为,如在笔神作文与学而思的纠纷中,笔神作文认为学而思通过‘爬虫’技术非法访问、缓存笔神作文APP服务器数据多达258万次,违反了双方数据授权相关的合同条款,包括“甲方(注:三体云联公司)不得随意泄露、使用、传播或缓存乙方(注:一笔两划公司)服务接口中的作文范本及相关内容,否则造成的损失将由甲方全额赔偿”、“甲方不得在未经乙方允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等”2。

(二)大模型生成内容与原始作品过于相似引发的侵权风险 

一是与他人作品存在“实质性相似”而直接侵犯了原有内容,如《纽约时报》起诉微软、OpenAI的证明材料中显示GPT-4输出内容与纽约时报的原文,高度一致。二是相似内容可能会误导公众或混淆原始作品来源,而对原有内容造成市场挤占。如有著权人起诉Stability AI公司未经权利人许可、获取与利用其版权作品作为Stable Diffusion的“训练图像”,导致数百万权利人则因生成的“新”图像对原作品交易市场的挤占而遭受损失。三是丰富的模型服务模式有可能绕过版权方的商业限制,如在《纽约时报》起诉微软、OpenAI的证明材料中显示必应搜索索引复制和分类《纽约时报》的在线内容,提供未经授权的详细摘要。

国外大模型技术提供商正通过多种手段加强合规应对

(一)从训练数据来源加强风险防范 

华为进军全屋智能产业

一是确保训练数据来自可信的、可靠的来源,包括权威机构、专业组织、可验证的数据仓库或其他公认的数据提供者等,如上海人工智能实验室发布人工智能开放数据平台OpenDataLab提供5500多个高质量数据集,上海数据交易所官网正式上线语料库、累计挂牌近30个语料数据产品。二是多样化训练数据来源,在最新一项以Stable Diffusion等AI扩散生成模型为研究对象的实验中,马里兰大学和纽约大学的联合研究团队指出,利用Stable Diffusion生成的内容与数据集作品相似度超过50%的可能性不足2%。三是规范使用爬虫、OpenAPI等技术手段获取训练数据,尤其应重点评估爬虫行为合规性、抓取数据行为是否破坏数据源所预设的技术防护措施等。四是尽量避免强版权性作品和数据的使用,如若无法避免、则应提前获取合法有效授权、明确授权范围,并在授权范围内合规使用。

(二)在数据处理过程提高数据合规性 

一是注重数据标注和清洗过程,包括经过培训的专业人员进行,并且需要进行验证和审核,以确保标注的正确性,去除重复项、噪声数据和错误数据,通过数据脱敏、去标识化、数据掩码等技术去除数据中的敏感信息。二是设置训练数据退出机制。如谷歌Bard设置 “‘Bard活动记录’开关”,为用户提供自主选择是否允许Bard收集存储用户数据的权利,同时设置“手动删除”功能、方便用户自由选择保留和删除何种数据;Stability AI允许权利人从后续发布的Stable Diffusion 3.0的训练数据集中删除自己的作品,版权人可在“Have I Been Trained”网站上找到自己的作品,选择退出数据训练集。

(三)加强模型内容输出阶段的合规性 

在服务协议、用户协议等文件中增加生成内容的权利归属约定、侵权责任承担、使用限制等条款已成为大模型企业加强合规性、避免版权风险的常用方法。除此之外,还可通过以下三种途径加强模型内容的合规性。一是利用版权过滤技术、相似度检测技术等手段对模型输出内容进行识别、审查和过滤等,如OpenAI使用GPT-4进行内容审核,在审核效果上GPT-4的标记质量与经过轻度训练的人类审核员类似。二是建立敏感词数据库并预设“安全响应”或“针对性拒绝”等响应机制,防止生成并传播敏感内容。例如,有研究者引入了一个敏感主题分类器来识别上下文的“政治”、“宗教”、“药物”、“医疗建议”和“NSFW”的内容,当检测到敏感主题时,会触发预设响应3。三是建立内容侵权投诉反馈渠道,对于确定的侵权内容及时采取断开链接、删除、通知使用用户等措施。

对国内大模型企业的启示

(一) 注重治理组织和制度建设 

一是响应《科技伦理审查办法》,自建或委托第三方科技伦理审查委员会,对企业人工智能业务开展全生命周期开展伦理审查与自我监管。二是推进算法、数据、内容安全合规的制度化建设,包括对模型的输入输出内容进行审查、定期进行模型的合规性检查、对数据采集的合规性审查等,三是面向企业内部开展版权合规、伦理通识的培训宣传。

(二)加大技术研发与资源投入 

一是持续增加对大模型可信技术的研发投入,如数据清洗、增强模型可解释性、模型内容自动化审核等。二是关注用户反馈与需求,包括在模型服务或产品的协议中列明用户数据用途、用户数据退出机制、用户反馈渠道等。三是加大对高质量、合规数据的资源投入,如丰富数据来源、加大数据授权、规范数据采集和处理等行为。

(三)增强外部沟通与合作 

一是与政府和相关监管机构建立常态化对话与沟通机制,既是了解政策动向和监管要求,并为人工智能治理、知识产权等相关的政策、法律法规制定提供行业实践和技术建议。二是与同行企业、学术研究机构、国际组织等共同研发可信AI、合规等技术标准,分享最佳实践案例,协同应对潜在的技术、安全和伦理挑战。三是定期发布包括模型的研发、应用、影响评估以及面临的挑战和解决方案等在内的责任报告、白皮书,或开展论坛和讲座,提升企业人工智能治理、合规等方面的透明度,树立企业负责任的品牌形象。


返回网站首页

本文评论
腾讯数字生态大会AI论坛:AI与产业融合进入快车道_腾讯数字生态大会
  当前AI与产业融合的现状如何?AI落地面临哪些挑战?AI未来会对人类社会生活带来怎样的改变?5月22日,在2019腾讯全球数字生态大会AI专场上,来自AI研发和应用领域的企业家、...
日期:06-15
是谁催生了野生景点旅游热词_是谁催生了野生景点旅游热?
  来源:法制日报  ● 近年来,随着露营日趋火热,野山、野水、野地方成了博主的流量密码,吸引不少游客为“野趣”前往打卡。但这些地方由于缺乏配套设施,危险重重,一些事故频频...
日期:08-23
物联网让城市更智能_物联网向智能物联网升级  场景智能不再只是想象
  2019年的《政府工作报告》指出,打造工业互联网平台,拓展“智能+”,为制造业转型升级赋能。而构建工业互联网平台,就需要实现工业系统中机器、人以及系统等各种元素的互联,其...
日期:08-07
2010十大营销事件揭晓 360“免费战”入选
  近日,“2010第三届时代营销盛典”在世界第一大高尔夫球会观澜湖揭晓。360 公司凭借“免费杀毒”系列整合传播被评为年度十大营销事件,同时获得这一荣誉的还有万科、招商...
日期:07-25
未经授权转播综艺 乐视被强制执行100万「乐视网高管质押股票未按约履行债务 公司申请强制执行」
凤凰网科技讯2月21日消息,天眼查App显示,近日,乐视网信息技术(北京)股份有限公司新增一则被执行人信息,执行标的102.5万元,执行法院为北京互联网法院,关联案件为侵害作品信息网络传...
日期:02-22
IP-Adapter-FaceID模型在哪下载 IP-Adapter-FaceID官网体验入口_faceitdemo下载
最近,IPaapter团队推出的IP-Adapter-FaceID模型爆火,其大幅提高了人脸识别精准度引发关注。这个模型的推出激起了旧模型在从图片人像中提取相似度方面取得了显着的提高。现在,...
日期:01-05
联想电脑包「联想电脑包防水吗」
是一种用于存放和保护笔记本电脑的配件,它可以为您的电脑提供额外的保护,使其免受伤害。这些电脑包有多种颜色、尺寸和风格可供选择,可满足不同用户的需求。1. 外观和材质通常...
日期:05-29
单季度30亿广告收入背后,谁在视频号公域掘金?
声明:本文来自微信公众号“财经故事荟”(ID:cjgshui),作者:财经故事荟,授权转载发布。不负“全厂的希望”之名,腾讯2023年Q2财报显示,视频号继续狂飙,用户时长同比几乎翻倍。同时,肉...
日期:08-18
我国IPv6活跃用户达7.63亿!全球遥遥领先「我国ipv6活跃用户数达3.62亿」
7月3日至4日,第二届中国IPv6创新发展大会在浙江省金华市举办,会上首次发布了《中国IPv6产业发展报告(2023版)》。根据国家IPv6发展监控平台的数据,截至今年5月,我国IPv6活跃用户数...
日期:07-05
可以生成艺术字的app「Adobe Firefly正式公测  可一键生成艺术文字」
5月24日 消息:Adobe此前推出的人工智能绘画工具Firefly(萤火虫)已经正式开放公测了。Firefly是Adobe推出的一种人工智能绘画工具,它包含全新的创意生成AI绘画模式,可以生成图像...
日期:05-24
三星官网s20发布会「三星 Galaxy S24 发布会邀请函泄露,活动日期提及 Galaxy AI」
12 月 22 日消息:三星即将在 2024 年 1 月 17 日于美国举办 Galaxy S24 系列的发布活动,这一消息由泄露者 Evan Blass 在 X 平台(前 Twitter)上发布的一张图片中透露。骁龙八核...
日期:12-22
“只有鹅毛大雪”才是暴雪吗 并非如此:要看降水量!_鹅毛大雪表示寒冷吗
12月15日消息,白雪纷纷何所似,撒盐空中差可拟,未若柳絮因风起!这两天天气预报称不少地区会降大雪甚至暴雪,于是不少人盼望着天上下起鹅毛般的雪花,不一会儿就能将地面完全覆盖那种...
日期:12-16
100寸投影布与投影机距离_100寸幕布投影安装距离,3米距离选多大投影幕布?这张表看一下
  很多朋友买回投影仪后遇到的第一个棘手的问题就是,投影幕布的选择尺寸、和安装距离,到底应该怎么处理解决问题,我们一起看下去。   常见投影仪投射比、适宜投射画面:...
日期:07-10
国补退坡 上海延续新能源车置换补贴:单车补1万元_上海市政府新能源车补贴 5000
2023年1月1日起,新能源购置国家专项补贴政策终止。不过,一些地方选择出台本地补贴政策,促进新能源汽车置换、消费。1月29日,上海市印发《上海市提信心扩需求稳增长促发展行动方...
日期:01-30
通明湖公园好玩吗「2023通明湖论坛将于5月11至12日在北京举办」
为贯彻落实党的二十大精神,加快实施国家创新驱动发展战略,着力提升关键核心技术自立自强水平,推动我国信息技术应用生态体系建设和融合创新发展,在部市共建经开区信创园四方协同...
日期:05-08
周鸿祎提《孤注一掷》情节 360配合破获一起网络诈骗重案_孤注周浩
快科技8月24日消息,反诈电影《孤注一掷》最佳热映,最新票房已经突破31亿元,杀入国产片票房前15。今天,360创始人周鸿祎在微博发文,就提及了《孤注一掷》,他称:影片有段内容,码农小组...
日期:08-24
游族网络:AI已应用于美术资产生成、智能NPC交互等多个领域
8月31日 消息:8月30日晚,游族网络发布2023年半年报。报告显示,2023年上半年游族网络实现营业收入8.45亿元,其中,自研产品收入占比达到80%。公司海外收入实现5.52亿元,占总收入比...
日期:08-31
苹果为自家芯片打造开源框架MLX,实现Llama 7B并在M2 Ultra上运行_苹果m1芯片软件开发
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。苹果的这个新框架 MLX 不仅拥有 PyTorch 风格的 API,还为开发者提供了很多经典示例(比如...
日期:12-07
华为保时捷rs6+256多少钱「麒麟9000S加持!华为Mate60 RS保时捷设计版曝光:售价10000」
近日,有数码博主透露,华为将在9月25日召开新品发布会,推出包括华为Mate60 Pro 、Mate60 RS、代号“Poincare”的MatePad Pro 13.2、华为智慧屏V5Pro、华为智能眼镜2、华为Wa...
日期:09-16
YouTube推出新手势:长按即可2倍速观看视频
7月18日 消息:根据 9to5google 的报道,如今在 YouTube 上提高视频播放速度已经成为一种常见现象,尤其在播客领域。为此,谷歌正在测试一种新的手势,通过长按屏幕即可将视频的播放...
日期:07-18