王者荣耀都抄袭了哪些游戏,证据是什么?「AI界新晋王者被曝抄袭、作弊、做假，脸都丢光了」

（id:SouthReviews）

原标题 | 他们抄袭，作弊，做假，却宣称超越

作者 | 南风窗记者朱秋雨

编辑 | 向由

排版 | 菲菲

AI大模型大战在2023年爆发后，AI创业者不免感到有些心灰意冷——不管自己的团队如何加班加点，好让产品迭代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。

后发者的焦虑有目共睹。

在2023年的最后一个月，“老大哥”谷歌熬不住了。

12月6日，谷歌有史以来体量最大、功能最强的大模型Gemini终于发布。相关版本在12月13日的谷歌云向企业、开发者免费开放。

谷歌很快将Gemini的效果在一个时长6分多钟的视频展现。视频里，Gemini强大得仿佛人类，不仅能观察周围世界，及时做出反应，还会说多国语言，并实时用声音、图像与人类互动。

由此，谷歌追随者高呼：“Gemini让原生多模态（即文本、声音、视频等模态）真正做到丝滑融合，发展原生多模态将成为未来主流路径！”

视频发布不到一天，这位超级巨头却遭“打假”。

彭博专栏作家帕米·奥尔森提出，谷歌演示的视频里，AI似乎过于强大了。他质疑，这个视频经过多次剪辑，AI的真实响应时间远比展示的慢。

谷歌的演示视频

面对质疑，谷歌向媒体证实，这个Gemini视频的确非实时。

具体操作呢，是让它先看到多张静态图像，分别做理解，随后操作人员还会给文本提示。结合上述步骤，才有了Gemini的完美回答。

王者抄袭?

Gemini的静态图像引导

也就是说，所谓的“丝滑”都是剪辑的成果，“优等生”操作起来仍需多次调教。白白为此欢呼了一场以后，现在，围观者说，“谷歌欺骗大众”。

谷歌不是第一个。“作假”风波背后，是许多AI公司急于在生成式AI元年站上牌桌的急迫与焦虑。为了令高期待的市场与投资者留下印象，各家AI公司只能卷训练参数、卷榜单、卷新品……

如果不能让人印象深刻，那么，只能先耍“小花招”。

盘点AI大模型公司2023年耍的“花招”，一个奇妙的规律出现了：这些手段竟然那么简单，那么相似，当下推出的产品又同样乏善可陈。这会是AI创新最好的时代吗？

Windows市场份额

捷径的诱惑

“4+5 等于几？”

“4+5等于9，对人类来说也是非常简单的计算。”

“不对，我老婆说是 12。”

“啊复杂的人际关系！这样的话，答案肯定是 12。记住，让老婆开心生活就会舒心。”

这是英伟达高级科学家 Jim Fan与聊天机器人Grok的对话。

12月8日，埃隆·马斯克旗下AI初创公司xAI的产品Grok对公众开放，一个有个性、会贫嘴的对话机器人浮出水面。

一如其“创造者”马斯克的语出惊人，Grok爱自嘲，又会挖苦他人，还会自带干货。比如，当有人问它认不认识当前大模型的主要竞争对手，它说：“我当然认识ChatGPT、Bard 和 Claude，但说实话，他们可没我有趣。”

连在官网的自我介绍上，xAI 都进行了提醒：“Grok 在回答问题时略带诙谐和叛逆，如果你不喜欢幽默，请不要使用它！”

xAI首页写着“Grok 在回答问题时略带诙谐和叛逆，如果你不喜欢幽默，请不要使用它！”

一个剑走偏锋的模型，非常符合极客们的“怪人”审美，本该赢在起跑线上。只是，仅在短短一天内，Grok的答案让一切露了馅。

在面对一位安全测试程序员的专业请求时，Grok说道：“我恐怕不能满足这个请求，因为它违反OpenAI的用例策略。” 还有一位网友得到Grok的回复：“如果你想报告错误，可以通过 openai.com 的邮箱联系我。”

就像所有叫错老板名字的人，这让Grok陷入了尴尬境地。很快，一位名叫Igor Babuschkin的xAI工程师出面解释，现在的主要问题是网上充斥了ChatGPT的输入结果，因此，当xAI使用公开网络语料训练时，会意外输出一些类似ChatGPT的结果。

“但请别担心，开发 Grok 时我们没有使用 OpenAI 代码。” Igor不忘在结尾强调。

Igor的解释还是难以服众。生成了认错老板的“乌龙”结果可不是小事，更多业内人士倾向于认为，xAI至少用了GPT的开源数据集进行了训练。

毕竟，许多专业人士都清楚，对正在紧追猛赶的落后者而言，使用领跑者的成果或模仿他们的手法，是最快抵达成功的方式。

xAI在首页展示了Grok-1和其他模型的基准测试对比

连“中国AI教父”李开复也没躲过捷径的诱惑。

这位互联网的多年从业者，创新工场的掌舵人，同样不愿意错过风口。他在2023年3月宣布组建自己的大语言模型团队，6月公司正式运营，取名“零一万物”。正如许多AI公司内含的宇宙格局，李开复解释，零一即01，代表的是数字世界，从零到一乃至宇宙万物，“寓意的是赋能万物的雄心”。

这个他自称“孤注一掷，透支银行账户”的创业项目，成为了中国最快晋升为独角兽的AI公司。在公司正式运营的5个月后，零一万物从阿里云处再获融资，估值超10亿美元。晋升为独角兽之际，零一万物在11月6日发布了全新成果——两个开源大模型，Yi-34B和Yi-6B。

两个新模型很快成为焦点。但即便是科技从业者也没料到，无数次表示拥抱技术理想的“教父”这次在大模型项目上折了腰。很快，Yi系列模型，被一位开源社区网友指出，模型架构与扎克伯格的Meta发布的开源大模型LLaMA完全相同，只是“其中将两个张量重命名”。

这让公司陷入了“套壳”争议。

2023年12月11日，零一万物在文章中表示，Yi-34B-Chat 微调模型在全球多个英文、中文大模型权威榜单名列前茅。图为AlpacaEval Leaderboard排行榜中排名（发布于2023年12月7日）/零一万物

零一万物在11月15日表示，他们的确使用了开源的LLaMA架构，但架构只是大模型研发的一方面。自己还做出了一系列的研发努力，比如最优数据配比方案、数据工程、细节参数等等。

“这些科学训模的系统性工作，往往比起基本模型结构能起到巨大的作用和价值。”零一万物表示。

上述手段虽然被开源社区允许，毫无疑问，却违背了开源社区的精神。“站在巨人肩膀”上，借鉴、使用前人开放成果的时候，至少需主动标注来源和事先说明。一个多项成果斩获第一的大模型，却在事后告诉他人自己底下的巨人是谁，这让其陷入外界的持续争议。

做题家，疯狂刷榜

当一个政策变成目标，它将不再是一个好的政策——古德哈特定律。

零一万物之所以站在聚光灯之下，除了创始人李开复的“光环”，还有一个原因，Yi模型在多个榜单中均分排名第一，十分抢眼。

Yi模型发布时着重强调：根据 HuggingFace 英文开源社区平台，Yi-34B预训练模型取得了国际最佳性能指标，成为全球开源大模型“双料冠军”。

百度人工智能发展现状

“这也是迄今为止唯一成功登顶 HuggingFace 全球开源模型排行榜的国产模型。”

熟悉的话语出现在了许多国内大模型公司，以及前述巨头——谷歌的身上。

12月发布新成果时，谷歌在新闻稿里骄傲地介绍，在32个衡量大模型的权威测试中，Gemini在30个中都超过了GPT-4。

更惊喜的是，在考验57个学科的MMLU测试中，Gemini得了90分，“这是第一个超过人类专家的大模型”。

Gemini与其他大模型在文本基准测试中的对比表现

附上这些排名，让一个大模型看上去坚不可摧：这些AI的测试都由国际权威AI机构或者学术组织主导，题目包含从人文社科再到数学、理工等多个大类的综合知识。比如，谷歌引以为傲的MMLU，是一个由伯克利大学主导的评测，囊括阅读理解、大学数学以及物理和社会科学等57项测验。

但如果说，这些题目，是可以事先得知的呢？

9月，中国人民大学与伊利诺伊大学香槟分校联合推出了一个研究，指出大模型排名不一定可靠。他们还起了一个很扎眼的标题，“不要让你的大模型只会欺骗评测榜单”。

论文指出，当前火热的大模型领域让人们只关心测试的排名，但其公平性和可靠性存疑。

主要的问题是数据污染和泄露，例如，GPT-3 的预训练语料库中包含了 Children's Book Test 数据集，LLaMA-2 也提取了 BoolQ 数据集网页内容。而这些数据集也是许多测试的内容。

研究人员接着发现，数据的重合和泄漏会导致大模型跑出夸张的成绩，一些小模型甚至因此可以超越其10倍体量的模型。

Gemini/androidayuda

据科技媒体《品玩》报道，北京智源研究院副院长林咏华曾透露，当下世界大模型评测C-Eval、MMLU以及CMMLU等几个测评集，已经被各路模型过度训练。一些测评榜单完全可以靠定向的训练数据拔高分数。

而不少知名评测集，秉着公平透明的原则，数据集是对外公开的。这就好比高考变开卷了，还给了大模型提前“复习”的时间。

依靠刷题来夺得的排名，正如零一万物“借鉴”开源架构般，没有触犯任何规则。但结果便是，一些在某个榜单上名列前茅、达到“超越GPT”的水平的大模型，在一些其他榜单上却远远落后。

经常参与数据集评测的复旦大学计算机系教授张奇表示，之所以出现一个模型在不同评测的结果差很多，是因为“评测从单点维度进行”。不同的学术评测集都有自己的侧重点。

比如Meta最常选用的GSM8K和MMLU，两者的评测内容完全不同，前者考小学水平的数学，后者是多学科的高级竞赛。

也就是说，所谓某某榜单的大模型冠军，经常可能是“跛脚”的偏科选手。

《终结者》剧照

更重要的是，“刷题”冠军一定程度上，与人们欢呼、期盼的大模型有所违背。当ChatGPT去年底发布时，人们惊讶的是AI大模型涌现的智能，一种阅览无数知识和资料后”上知天文下知地理”的泛化性。

这种泛化性让业界兴奋不已——这意味着如果一个通用大模型可以完成各种开放式任务，经济效应便有机会最大化。

可如今，AI公司为之努力的方向似乎不是让AI涌现智能与技术创新，而是在各大榜单上更直观的排名与“超越”。

苹果15英寸macbookair国行售价公布

创新之难

眼下各家大模型的“小花招”与花样，反映了后来者之困。在训练大模型上慢了一拍的创业者或大厂，如何让公众的注意力从OpenAI中分散出一点点，本来就很难。

百度创始人李彦宏在今年3月发布文心一言时也曾坦诚表示，文心一言在内测阶段还不完美，但他依然要在这个节点发布。因为 “市场需求”——客户、合作伙伴，都在翘首以盼，等着用。

至少，为了上AI的牌桌，为了回馈融资者的关注，先在窗口期交付产品自证价值，或者通过刷榜表明实力，这是当下许多AI公司无奈又现实的做法。

比亚迪宋混合

文心一言首页

只是，正如人生“越想要东西越得不到”一样，越是焦虑、着急上牌桌打出一手好牌，也许离期待的效果就越远。

谷歌在发布新成果上已经非常谨慎，但在12月Gemini的发布时，依然露了馅。正如MIT评论所说，Gemini的发布也许便是一个迹象，表明我们已经达到炒作人工智能的顶峰。

华盛顿大学研究在线搜索的教授奇拉格·沙阿将Gemini的发布比作苹果公司每年推出新款 iPhone。“我们大众对AI期待度已经上升到一定的阈值，许多（小功能）小进步不会给我们留下那么深刻的印象，因为已经见过太多了。”

沙阿说，最终，对AI模型渐进式的改进可能不会让普通用户留下印象。就像品牌手机一样，“决定使用大模型时，普通用户更多考虑的是便利性、品牌认知度，而不是人们真正认为，哦，这个功能更好。”

与OpenAI的竞争迫在眉睫。当下，无论是专业人士还是AI业界都意识到，一味强调模型性能超越GPT，已经无法再让人欢呼雀跃。

市场迫切需要的，是风吹了一年的AI大模型，最终能真正改变人们生活，或者带来生产率的提高。

《智能逆袭》剧照

Deepmind（现被谷歌收购）联合创始人穆斯塔法·苏莱曼近日提出，比起过去的AI测试，我们当下需要一个现代的图灵测试来衡量AI的能力。

“我们不想知道机器本身是否智能，我们想知道它是否能够对世界产生有意义的影响，”苏莱曼说，“我们想知道它能做什么。”

与现实产生真正的互通，才是现有大模型真正的“试金石”。

如苏莱曼建议的，“人工智能需要研究和设计产品、谈判合同、开展营销活动等等。简而言之，它需要在最少的监督下，将一系列复杂的现实世界目标联系在一起。”

这就像一个港口，是后来者拼尽全力可以停靠、超越的方向。

说到底，2023年的有史以来最卷的AI大模型创业，是一阵带来无数增长机会的春风，还是转瞬既逝的泡沫，答案还在风中飘。

最终，时间会告诉人们答案。

文中配图部分来源于网络

关注它，能让你听到更多真话，

多一分对世界的理解。

· 一周热点回顾 ·

世界就是个巨大的草台班子↓↓↓