您的位置:首页 > 互联网

抄袭大模型?零一万物回应争议:模型结构设计基于GPT,借鉴行业公开成果|钛媒体焦点

发布时间:2023-11-15 13:02:56  来源:互联网     背景:


创新工场创始人兼CEO、零一万物CEO李开复(图片来源:创新工场)

一周前刚完成大模型首秀的零一万物,今日却成为风口浪尖上的焦点。

11月14日上午,一位国外开发者在Hugging Face开源主页上评论称,创新工场董事长兼CEO、零一万物CEO李开复旗下 AI 公司“零一万物”开源大模型Yi-34B,完全使用Meta研发的LIama开源模型架构,而只对两个张量(Tensor)名称进行修改。

几乎同时,前阿里副总裁、Lepton AI公司创始人兼CEO 贾扬清以“不具名”、“大厂”等说明方式质疑抄袭LIama对行业的影响,从而将这次事件推向了“高潮”。

针对开发者的指控和相关传闻,11月14日下午,钛媒体App向零一万物进行求证,零一万物方面对外公布了一份官方回应:

美股周四暴跌

零一万物表示,GPT是一个业内公认的成熟架构,Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

声明称,模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI infra 能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。

零一万物在声明中强调,“在大量训练实验过程中,由于实验执行的需要对代码做了更名,我们尊重开源社区的反馈,将代码进行更新,也更好的融入Transformer生态。我们非常感谢社区的反馈,我们在开源社区刚刚起步,希望和大家携手共创社区繁荣,Yi Open-source会尽最大努力持续进步。”

事实上,整个指控事件历经短短数十个小时,就从行业传闻到舆论发酵,让开源模型是否存在“抄袭”这件事成为了大家的一个关注焦点。而开源的大型语言模型(LLMs)是否存在抄袭,仍是一个“模糊”的答案。

一场超150小时的舆论转变:大模型独角兽被指控“抄袭”

整个事件要从8个月前开始讲起。

2023年3月下旬,李开复发文宣布,将以Project AI 2.0入局大模型行业,计划孵化大模型公司。今年7月,“AI 2.0”公司零一万物(01.AI)上线。创新工场当时表示,这是其“撸起袖子”亲自带队,“塔尖孵化”了一家AI 2.0公司。

2023年中关村论坛上,李开复就对钛媒体App等表示,以GPT-4等大模型为代表的生成式 AI 热度在全球蔓延,意味着AI 2.0时代已经到来,它将带来比移动互联网时代大十倍的机会,穿透各行各业极大地提振生产力。“我们预测,全新的 AI 2.0平台将能有效帮助提升人类生产力,创造巨大的经济价值及社会价值。”

“大模型的技术门槛很高,非常需要整合一个兼具科研能力和开发实力的高效团队,制定贯彻公司的技术和产品战略,从上到下一致执行。”李开复认为,零一万物将专注打造AI 2.0时代的平台及生产力应用生态。

11月6日,李开复团队召开了一场重要的线上会议,而在此之前,其“Yi”系列开源模型信息已经在官网披露。

此次一个多小时的线上会议中,零一万物正式发布首款开源中英双语大模型“Yi”系列,包括Yi-6B(参数规模为60亿基础模型)和Yi-34B(参数规模为340亿的基础模型)两个版本。

与此同时,有消息称,零一万物已完成新一轮融资,由阿里云领投,公司估值超过10亿美元,从而跻身成为“独角兽”行列。

事实上,零一万物主要围绕精进模型、预训练框架技术等七个方向进行研究,团队拥有多个中外科技大厂、博士学位等背景。其中,零一万物技术副总裁及AIInfra负责人戴宗宏,曾就职于阿里、华为,曾担任华为云 AI 领域CTO;零一万物技术副总裁及Pretrained负责人黄文灏则毕业于北京大学博士学位,曾在微软研究院担任高级研究员,并曾任职于北京智源 AI 研究院。


官方信息显示,零一万物新的Yi-34B模型在多项评测基准中全球领跑,基于超强Infra下模型训练成本实测下降40%,模拟千亿规模训练成本可下降多达50%,并以更小模型尺寸的基准结果超过LLaMA2-34B/70B、Falcon-180B等大尺寸开源模型。

而且,包括Hugging Face平台和C-Eval中文评测榜单等,Yi-34B取得了多项 SOTA 国际最佳性能指标认可,成为全球开源大模型“双料冠军”,击败了Llama2和Falcon等开源竞品,称是“全球最强开源模型”。

“随着团队到位,今年6、7月份开始写第一行代码,短短四个月做了非常自豪的产品。我们是‘不鸣则已,一鸣惊人’。所以‘一鸣惊人’之后,如果我们过半年甚至过一年回头看,今天对我们来说只是刚刚开始,我们还会不断的去开发、推动、宣布更多令人惊艳的成果。”李开复对钛媒体App等表示。

在李开复看来,34B的大模型是他心目中基础模型的黄金尺寸,其刚好达到了涌现的门槛,但又没有过大,既满足了精度的要求,又对训练推理成本友好。

该模型在发布后引起了国内外很多研究者、开发者的关注。然而,新品发布会的余温还未完全结束,如今,零一万物再次被拱上了风口浪尖。

11月14日,在零一万物预训练大模型Yi-34B的Hugging Face开源主页上,一位名为ehartford的国外开发者质疑,该模型使用了Meta Llama的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。据悉,所谓张量,是深度学习中的多维数组,用于创建更高维度的矩阵和向量。

“Yi-34B,感谢您提供的优秀模型。据我们了解,除了两个张量被重命名之外,Yi完全使用了Llama架构。由于 llama 架构有大量投资和工具,因此对张量使用相同的名称是有价值的。开源社区肯定会重新发布 Yi,并重命名张量,以获得符合 llama 架构的版本。我们希望您在模型获得大量采用之前考虑将这一更改应用到您的官方模型中,以便它最终能够获得应有的采用。”ehartford在文中表示。

几乎同时,年初从阿里云离职创业的贾扬清发表了一个朋友圈,以“国内大厂”之名表示,国内一款新的大模型事实上是LLaMA架构,但是为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。


尽管贾扬清没有点名这个模型为“零一万物”,也没有具体说明这是哪款新模型,且零一万物也不是“大厂”。但在这一“巧合”的时间点,人们就会自然而然“想象”成是Yi模型。

11月4日下午,随着这场大模型“改名”风波持续发酵,除了开头的这份公开中文声明外,零一万物团队同时在事发的源头Hugging Face网站做了一份公开回应。

Yi 团队开源总监Richard Lin表示,ehartford对张量名称的看法是正确的,团队将把它们从 Yi 重命名为 Llama。对Yi团队来说,重要的是对这些事情的准确和透明。

“这个命名问题是我们的疏忽。在大量的训练实验中,我们对代码进行了多次重命名以满足实验要求。但是,我们有点失败了,在发布版本之前没有将它们切换回来。我们对此很抱歉,对于造成的混乱我们深表歉意。我们正在努力加强我们的流程,这样这种失误就不会再发生了。您的反馈给了我很大的帮助。我们还将再次检查所有代码,以确保其他一切都按顺序进行。如果您和社区给予更多关注,我们将不胜感激。”Yi 团队开源总监表示。


截至发稿前,ehartford已回应称,谢谢团队的回复。而也有网友在下面评论,“这是一件小事,很容易(得到)解决。”

开源代码“抄袭、侵权”规范界定仍较为模糊

今年6月的一场关于大模型的圆桌会议上,中国人民大学高瓴人工智能学院教授卢志武直言,国内很多企业创业者都沉不下心去把底座做好。

小蚁摄像机黑白画面

“什么国产大模型的春天,都是假的,因为它都是在GPT、LLaMA上微调的。我看到了很多大模型,一测10分钟就知道虚假,当然也有一些少量的大模型,愿意在底座上投入很多精力,但大部分还是很浮躁。这是最大的一个问题,我反而觉得语言模型上面这个差距会越来越大......你看到好像很多一堆模型出来,只是因为这个语言模型的架构solution(解决方案)已经公布了而已,但如果你没有公布,为什么前面做不出来,都是3月、4月、5月才出来,这不是很奇怪的事情吗?我觉得不符合逻辑的,大家都不愿意去做底座。”卢志武表示。

而昆仑万维CEO方汉则现场反驳,“我是坚决反对(这个说法的),我们自己是做大模型训练的,我可以很清楚的告诉你们,我们跟LLaMA一毛钱关系都没有,因为我们从20年就开始做(大模型)。所以我觉得你也不能一棒子把所有中国大模型的创业者们(人)都‘打死’。”

事实上,目前对于开源的模型与代码协议“各式各样”,不同开源项目的协议均有所不同,协议规则与法律界定部分仍比较“模糊”。

普遍而言,开源并不代表没有版权,任何第三方使用都应该遵循其开源许可协议,如果企业需要用开源代码进行商业化,需要与开源项目所有者进行授权或提交一定的费用。而在法律层面上,大模型所有者可以通过专利、商标、版权等方式保护自己的大模型知识产权。

早在今年7月中下旬,Meta宣布开源了Llama 2模型。据Llama2官网挂出的相关使用许可和限制声明显示,“该模型可以用于商业用途,除非你的产品的月活跃用户数超过7亿。需要填写一个表格才能获得访问权限,这个表格也会让你从HuggingFace的网站上下载模型。”

换句话说,只要你填写表格申请,就可以下载、使用这一模型并实现二次开发,不存在“抄袭”问题,因为Llama模型本身就是开放的。

而这种开源、开放、友好的方式,使得很多 AI 大模型公司和应用商解决掉了训练成本问题,且让数据和模型生态开放,包括阿里云、旷视科技等多家中国企业均表示已支持Llama2开源技术,所以大家使用Llama2进行再训练、推理输出成Chat产品就不足为奇了。

一位行业专家对钛媒体App表示,使用开源项目,主要有两点,一是要声明原作者是谁,你用的是哪个项目,而且要遵循开源项目里的开源协议、作者声明,不能修改且不能删除;二是关注项目对商业化的友好程度,有些是表明可用于商业项目,还有一种不允许商业化、二次开发等因素的开源项目,这部分需要开发者重新去沟通与评估。

实际上,大模型是典型赢家通吃领域。需要更多的钱,需要更多的算力,以及更优秀人才。因为更好的算力意味着更多人用,更多人用意味着更多数据,更多数据意味着更好的算力结果。由于大模型必然是巨头必争之地,因此如果早做开发,在市场中更容易抢得先机。

针对零一万物回应事件,在钛媒体App获得的一份微信聊天截图中,一位 AI 领域的学者表示,Llama这个架构与chinchilla、Gopher、GPT-3关联度很高,也可以说是“抄袭”。而Hugging face上一模一样但名字不同的模型比比皆是,大部分改动的是训练方法数据配比,而不反映在架构上。以没改架构而批评国内的模型没有创新,不论是Yi还是其他模型,这样的批评是不公正的。

盛景嘉成董事总经理刘迪曾对钛媒体App表示,目前 AI 大模型底层主要是数据、算力、算法,核心技术难度较低——算力需要堆英伟达显卡、算法也可以用开源的,数据则有法规限制,所以投资人的兴趣降低了。

未知资本常务董事william wong表示,“现在很多初创公司,后台接入ChatGPT,前端做了个UI设计,就上架苹果商店鼓吹自己在做AIGC创业了。”而他认为,这种AIGC项目没有技术壁垒和商业逻辑,只是“蹭热度”。

钛媒体App了解到,下一步,Yi系列也将推出专长代码和数学的训练模型。另外,目前零一万物已经启动100B(1000亿)参数的训练,有望近几个月内发布,未来零一万物还有望推出基于 AI 2.0 的超级应用等技术产品。

“实际上,(大模型创业)大家的起跑线是一致的,那么水平差距就不大。”刘迪告诉钛媒体App表示。

(本文首发钛媒体App,作者|林志佳)


返回网站首页

本文评论
刘慈欣亲自颁奖!中国科幻作家海漄获2023雨果奖_中国科幻作家刘慈欣获得雨果奖的作品是
快科技10月21日消息,据新华社报道,2023雨果奖”在2023成都世界科幻大会上揭晓,中国科幻作家海漄凭借小说《时空画师》获得最佳短中篇小说奖,2015雨果奖”获得者刘慈欣亲自为其颁...
日期:10-22
oppo a2手机多少钱「千元手机颜值之选 OPPO新机A2x配置及配色图发布」
OPPO A2x手机在移动全球合作伙伴大会上亮相,该机型的微博官方账号展示了三款不同配色,被誉为“千元手机颜值质感之选”。OPPO A2x将于10月14日开售,具体价格尚未公布。一加6t在...
日期:10-12
女子称撑破试穿裙子无奈买下 网友:拒绝“试衣羞辱”_试穿衣服时候撑破了要赔吗
山东济南有一名女子,在试穿一条牛仔裙时,往上提时就从前面口袋处撕裂开了。店员向她提出用8折351元的价格购买,因为是第一次遇到这种情况,所以她只好买下来了。回家后,她发现这条...
日期:06-12
蜜芽等中国母婴行业代表企业创始人及CEO应邀出席活动
  5月10日母亲节当天,快手母婴发起#快手母亲节#活动,以“送给妈妈们最好的礼物”为主题,蜜芽、好孩子、乐友等中国母婴行业代表企业创始人及CEO应邀出席活动,开启母亲节CEO福...
日期:04-15
余承东:除了华为和比亚迪,其他车企存活难/5月人均工作48.6小时/iOS 17新增「护眼」功能
每周六,未来周报陪你轻松回顾本周最重要和热门的新闻。✏️ 本周大新闻一览iOS 17 配了个「护眼」新功能英特尔进入量子计算领域,发布量子芯片微软 CEO:AI 像是人类大脑的「蒸汽...
日期:06-17
海信聚好看为武汉用户免费开通影视VIP_海信电视聚好看免费会员
  武汉新型冠状病毒肺炎疫情牵动着国人的心,为丰富武汉市民春节期间的文化生活,即日起,海信电视“聚好看”为当地用户赠送影视会员新春礼:正月期间可免费畅享影视VIP内容,众多...
日期:03-19
下一代switch主机「传下一代Switch明年面市」
Eurogamer声称任天堂在上个月的科隆游戏展上向受邀单位闭门演示了次世代版《旷野之息》(临时制作的高分辨率版本,不代表该作会重制)。《旷野之息》只是参与演示的游戏之一,VGC从...
日期:09-07
00后小伙经常熬夜到凌晨3点 刚下火车晕倒急送ICU!医生提醒:致死率极高
近日,一名22岁小伙独自坐火车到深圳打工,刚下火车出站就晕倒在地,无意识无呼吸无心跳,路人急忙帮其心肺复苏,并拨打了120。恒温控制系统介绍在送医途中和医院里,他竟又发生了4次心...
日期:08-24
如何用ai画自画像「开发人员创建一个AI素描工具来生成嫌疑人画像 专家却无比担忧」
2月8日 消息:据Motherboard报道,两名开发人员使用 OpenAI 的 DALL-E2图像生成模型创建了一个法医素描程序,可以根据用户输入内容为创建“超逼真的”嫌疑人素描。富士康是好厂...
日期:02-09
再获国际认可,微步在线斩获 CDM InfoSec Awards 2021 最具创新 、前沿、最佳产品三奖项
  日前,RSAC 2021 大会于线上开幕,全球权威网络安全媒体 Cyber Defense Magazine(CDM)发布了 InfoSec Awards 2021 获奖名单。作为中国下一代网络安全代表性企业,威胁情报领...
日期:11-15
苹果公司的游戏业务相关收入超过索尼、任天堂、微软、动视的总和
  10 月 4 日消息 《 华尔街日报》的分析显示,苹果 2019 年在游戏方面的营业利润为 85 亿美元,也就是说苹果 2019 财年仅凭借抽成就从 App Store 游戏中获得超出任天堂、微...
日期:03-06
百度网盘文件违规屏蔽_百度网盘6月清理色情违法等有害文件5万余个,封禁账号23万余个
  7月18日,百度发布6月信息安全综合治理月报,向网民周知百度在处理网络虚假有害信息、保护网民权益方面的相关行动和信息。   报告显示,2019年6月,百度内容安全中心通过全...
日期:09-21
七夕送小牛?“个人出行季”这几对电动车CP超好嗑
  七夕将至,如何在浪漫情人节“秀”足恩爱?如果第二件半价的奶茶、双人烛光晚餐、情侣装的甜度还不够,不如尝试和TA骑着小牛电动车一起去看英仙座流星雨吧!为了拉满七夕浪...
日期:07-18
小度确认将发布智能手机:消息属实,敬请期待「小度以后」
5月8日消息,今日有消息称,百度旗下小度将进军智能手机市场,并计划在5月下旬发布旗下第一款智能手机。redmik50官宣屏下行业报告 知乎对此,小度相关负责人确认:消息属实,更多产品信...
日期:05-08
AMD显卡开始发力 AI追上3年前N卡的80%性能了「amd+n卡」
快科技7月3日消息,在显卡领域,NVIDIA的强大是公认的,不论游戏还是计算都是如此,而且优势领先到对手很难追,AI领域几乎一家独大,好消息是AMD总算发力了,MI250显卡性能达到了A100显卡...
日期:07-03
华硕主板z590上市时间_发售在即,华硕新 Z590 主板曝光:顶级定位,做工豪华
  1月10日消息 知名爆料者 @harukaze5719 在 Twitter 上提前曝光了两款华硕 Z590 主板。包括顶级的 ROG MAXIMUS XIII EXTREME GLACIAL 和 MAXIMUS XIII HERO。前者预计...
日期:07-10
国内运营商首次,中国移动携手合作伙伴完成NR-NTN实验室模拟验证_中国移动modern
国内运营商首次,中国移动携手合作伙伴完成NR-NTN实验室模拟验证 通信产业网|2023-09-06 15:19:00作者:通文来源:通信产业网【通信产业网讯】近日,中国移动携手中兴通讯、是德科...
日期:09-08
vivo1999元的手机推荐","info":{"wordid":"6930977427889018120"}},{"k
来源:中关村在线iqoopro支持22.5w快充吗近日,vivo官方上架两款新机,分别为vivo Y78(t1)和vivo Y78m(t1),售价均为1999元。这两款机型的配置方面,vivo Y78(t1)提供了皓夜黑、玉瓷青和凤...
日期:10-10
孟羽童已不是董明珠秘书引热议 本人回应:很享受格力市场营销工作
今日,孟羽童已不是董明珠秘书”的话题引起网络热议。台积电占台湾的gdp多少事件起因是董明珠在近日的一场直播中透露,孟羽童已经不再担任秘书,而是去做视频了,董明珠称,相比秘书...
日期:04-07
百度推“全民读书月”:知名大咖直播带书、全矩阵产品打造知识盛宴
  “世界读书日”日益临近,百度推出“全民读书月”系列活动,不仅为网民提供了全网最低价的图书,更推出大量“涨知识”的活动。   据介绍,为更好地推动全民阅读,百度此次邀请...
日期:12-27