您的位置:首页 > 互联网

自给基准「自己发基准自己第一,Anyscale行为惹社区吐槽」

发布时间:2023-12-25 19:58:29  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

前一天发布 LLMPerf 排行榜,宣称要推动大型语言模型推理领域的发展,鼓励创新与超越。

第二天就收获 AI 社区的大量吐槽,原因是排行榜的基准甚至没有得到很好的校准。

这是 Anyscale 这家初创公司正在经历的事情。

Anyscale 是一家专注分布式计算领域的美国初创公司,虽然创立仅三年时间,但却收获了不少的关注。

首先就是 Anyscale 旗下开源项目 Ray 带来的光环。Ray 是一个开源的分布式计算框架,可以将 AI/ML 和 Python 的 workload 从单机拓展至多台计算机上,从而提高 workload 的运行效率,目前已经在 Github 上收获了两万多个 Star。带动了最新一波大模型热潮的 ChatGPT,也是基于 Ray 框架训练的。

还有一部分原因是创始团队的光环。这家初创公司的创始人之一、UC 伯克利教授 Ion Stoica 是市值310亿美元的数据巨头 Databricks 的联合创始人,他在十年前带领学生创立了 Databricks,收获了商业上的巨大成功。在2019年,他又一次做出了创业的决定 ——Anyscale 诞生了。公司创始团队中的 CEO Robert Nishihara 和 CTO Philipp Moritz ,也都是他在伯克利的学生。此外,伯克利教授 Michael I. Jordan 也参与了 Anyscale 的创业。

这些要素,都让人们在 Anyscale 身上看到了 Databricks 的影子,一些投资者将 Anyscale 描述为充满希望的下一个 Databricks

2021年12月,Anyscale 完成了1亿美元的 C 轮融资,估值达到10亿美元,投资者包括 a16z、Addition、NEA、Intel 等。今年8月,Addition 和 Intel 又共同牵头追加了新一轮9,900万美元投资。

这应该是一个前景光明的技术团队。而此次被吐槽事件的经过是这样的:

11月初,Anyscale 发布过一个开源大模型推理基准,叫做LLMPerf。这个基准是为了方便广大研究者评估 LLM API 性能。

三天前,Anyscale 在上述工作的基础上,推出了 LLMPerf 排行榜。

排行榜地址:https://github.com/ray-project/llmperf-leaderboard

Anyscale 称,他们已经利用 LLMPerf 对一些 LLM 推理提供商进行了基准测试,评估大模型性能、可靠性、效率的关键指标包括以下三点:

  • 第一个 token 的时间(TTFT),表示 LLM 返回第一个 token 的持续时间。TTFT 对于聊天机器人等流媒体应用尤为重要。

  • token 间延迟:连续 token 之间的平均时间。

  • 成功率:推理 API 在无错误的情况下成功响应的比例。由于服务器问题或超出速率限制,可能会出现失败,这反映了 API 的可靠性和稳定性。

但 Anyscale 晒出的这些测评结果引发了不小的争议,比如 TTFT 这一项指标,对于不同规模的模型,Anyscale 都是第一名。

70B Models:

13B Models:

7B Models:

小米对印度的市场渗透

后两项指标的测评结果中,Anyscale 也显示出遥遥领先的水准。

面对这么多优秀对手,Anyscale 真的能实现吊打吗?图中结果令人怀疑。

对此,PyTorch 创始人 Soumith Chintala 表示:看到来自可靠来源的构建不佳的基准让我感到痛苦。我希望 Anyscale 能够解决问题,并在发布此类基准之前咨询其他利益相关者。如果我不是很了解 Anyscale,我会认为这是恶意行为。

问题出在哪里呢?Soumith Chintala 认为,这个基准没有得到很好的校准,它仅在很短的时间内展示了复杂问题的一个方面。

至少,用户需要了解多个附加因素:1. 服务的每个 token 成本;2. 吞吐量,而不仅仅是延迟;3. 在一段时间内测量的可靠性、延迟和吞吐量,而不仅仅是突发可靠性,突发可靠性可能会根据一天中的时间而有很大变化。

此外,Anyscale 应该明确标记该基准是有偏见的,因为 Anyscale 正在管理它,或者向其他利益相关者开放基准的设计和治理,即开放治理,而不仅仅是开源。试图制定和控制标准并不好。

自给基准

基准游戏并不新鲜,曾经的数据库之战、大数据之战、机器学习框架之战都涉及到各种投机取巧的基准测试,仅仅为了更好地展示自己。

两位 AI 学者陈天奇和贾扬清也回忆起,那些年关于基准游戏的故事:

作为 LeptonAI 的创始人,贾扬清还分析了 Anyscale 发布的大模型推理排行榜为什么不够合理:

作为 AI 框架领域的资深人士,请允许我分享一个故事。在图像模式时代,每个人都想成为 最快的框架,为了让自己的速度快上2%,不惜牺牲很多其他因素。

有一个框架从来都不是最快的。猜猜它是什么?

这个框架的名字叫 PyTorch。直到今天,PyTorch 仍然不是最快的框架,这是我从同事 Soumith Chintala 身上学到的重要一课。这是一个有意识的选择,以确保不会过度优化单一(或少数)标准。

我为 Anyscale 制作基准测试而鼓掌,恕我直言,这是一个诚实、用心良苦的基准测试,却存在严重错误和不明确的参数。比如,在引擎盖下运行这些服务的是什么 GPU?

自给基准

但是,既然性能比较不可避免,那我就把结果公布出来吧。

在 Anyscale 在10月份发布的一篇帖子中,曾对比过三家 API 的推理性能。贾扬清晒出了一张 Lepton API 与这三家 API 的对比图片:

基准数据来源:https://anyscale.com/blog/reproducible-performance-metrics-for-llm-inference

原始数据不是由 Anyscale 发布的,因此我们不得不在帖子中的原始图片上叠加图表。很抱歉把这些东西拼凑在一起。贾扬清表示:我们并不打算用它来衡量谁是最快的,只是想证明我们是名列前茅的。

除了贾扬清,其他被上榜的 API 所属团队也提出了质疑。

比如 FireworksAI 联合创始人、CTO Dmytro Dzhulgakov:

TogetherAI 的 CEO 表示:Anyscale 是为了清洗他们 API 糟糕性能进行的基准测试。

多方质疑之下,Anyscale 的 CEO 亲自回应了基准的缺陷问题:

我同意你的很多反馈,我们将解决它!

一些具体的事情:

我们将添加成本作为一个指标(这非常重要)。

我们将随着时间的推移测量延迟和可靠性。正如您提到的,这些事情根据一天中的时间而变化。

关于吞吐量,此处的预期范围是对 API 端点产品进行基准测试(而不是 LLM 推理引擎)。每个副本的吞吐量不是一个面向用户的概念,我们可以在不访问内部的情况下进行基准测试。吞吐量非常重要,但这是一种不同的设置。

我们的目的是使其对社区有用。仅当其成为共同努力并且社区认为这是公平时,它才会有用。我们正在与所有利益相关者联系以就此进行合作。

与此同时,Anysacle 也在邀请各位 API 提供商共同参于排行版的修正:

百度首页内容屏蔽

对于此事,你怎么看?


返回网站首页

本文评论
大咖请回答2023 | 中天互联时宗胜:从量的积累到质的飞跃,工业互联网步入新阶段
通信世界网消息(CWW)2023年即将落下帷幕,回眸2023年,ICT产业稳步发展,运营商与产业链上下游企业携手并进,5G行业应用遍地开花、算力网络走向纵深、大模型百花齐放、技术创新加速IC...
日期:12-22
讯飞翻译笔生词导出_如何快速查生词?讯飞翻译笔让孩子的学习更高效
  前几天我家孩子的期中考试成绩下来了,他考得不错,总分和排名都位居班级前列,我也很替他高兴,不过看到了他的英语成绩之后,我不禁开始担心起来。我家孩子今年初二,其它学科的...
日期:07-16
2010互联网产业大圈点:用户自创建内容超过50%
  微博市场增长速度 创中国互联网应用发展之最   易观智库研究显示,2010年中国微博市场注册用户数量将达到7500万,增长速度创下中国互联网应用发展之最。增长速度创新高...
日期:07-26
科技企业家 Hogarth 将领导英国的人工智能安全工作组「英国人工智能之父」
6月19日消息:英国政府周日表示,科技企业家 Ian Hogarth 将负责领导其新成立的专责小组,研究人工智能带来的安全风险。上周,英国首相里希·苏纳克将伦敦推举为人工智能监管的全...
日期:06-19
Matousec报告:黑客攻击打败“大多数”杀毒软件
  安全研究公司Matousec发布报告,详细说明黑客如何用一种攻击技巧,成功躲避 Windows安全软件的侦测,包括McAfee和趋势科技(Trend Micro)知名的杀毒软件。   不过,Matousec...
日期:07-29
苹果A16芯片造价曝光:达A15的2.4倍_苹果a15芯片和a14芯片
中关村在线消息:近日,有外媒曝光了iPhone 14 Pro/Pro Max两款机型内搭载的A16芯片的信息,称其造价高达110美元(折合人民币约782元),是上代A15仿生芯片的2.4倍有余。根据介绍,A16仿...
日期:10-09
腾云 计划「腾讯官宣启动青云计划全球招募顶尖技术学生」
9月24日消息,今日腾讯集团官方微信宣布启动青云计划,在全球范围内招募一批顶尖技术学生,通过公司平台培养属于中国的互联网科技人才。青云计划提供全面定制化的培养和极具竞争...
日期:09-24
全面屏iphone或将在2024年面世2023将用全面屏 有望在2027年推出 iPhone
来源:中关村在线小水滴夜视版plus根据最新报道,苹果计划在未来几年推出一款全面屏的iPhone。这款iPhone将配备屏下摄像头(UDC),而在此之前,苹果可能会将其Pro系列 iPhone 上的 Und...
日期:12-07
经过5万小时训练,AI懂得玩《精灵宝可梦》了_经过5万小时训练,ai懂得玩《精灵宝可梦》了吗
划重点:1. 西雅图软件工程师Peter Whidden花费了几年时间训练一个强化学习算法,使其能够玩经典的《精灵宝可梦》游戏,该AI已经进行了超过5万小时的游戏训练。2. AI的奖励模型...
日期:10-19
河南一95后女孩挑战一万块花一年:坚持200多天还剩2038元 被网友花式吐槽
有没有算过,自己一年要花多少钱?Facebook宣布改名为“Meta”TCL华星光电押注Mini LED屏幕,它能取代OLED吗?据星视频,今年3月,来自河南漯河的95后女孩李雨(化名)给自己定下了一万块...
日期:11-20
微软 Edge 浏览器游戏侧边栏曝光,直接内嵌游戏商店(edge浏览器自带游戏)
  12 月 28 日消息,微软 Edge 浏览器目前已经引入了 Office 集成、数学求解器等工具,不过官方似乎并不满足。   据 NeoWin 报道,微软似乎正在为 Edge 浏览器添加一个游戏...
日期:07-17
郭明錤称苹果2025年推出自研5G基带的iPhone机型
9 月 7 日消息,天风证券分析师郭明錤发布简报,表示苹果计划在 2025 年开始,在 iPhone 机型上使用自研 5G 基带。天籁k歌有mv吗郭明錤此前曾表示,苹果计划将自研的 5G 基带率先部...
日期:09-07
抖音通用门店卡券怎么核销「抖音电商商品卡实时免佣再掀商家经营热潮」
抖音电商 3 月推出商品卡免佣政策后,“卖更多免更多”的政策利好吸引了超百万商家参与活动。 9 月 1 日,平台宣布将商品卡免佣升级为实时免佣,并已规划四期执行,升级权益再度吸...
日期:09-26
最火手机竟然是它:你肯定想象不到_最火的手机排名
荣耀MagicV2预售突破纪录,CEO赵明透露新一代折叠屏手机在市场上取得巨大成功。尽管备货充足,但消费者需求远超预期,导致线上线下销售火爆,不少门店已售罄。赵明表示,团队正在加快...
日期:07-23
讯飞华为官宣联手:国产大模型只有基于自主创新算力底座才有大未来
声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:杨净 梦晨,授权转载发布。讯飞华为,竟悄然已在大模型上联手?!一个算法软件,一个硬件芯片,两个国产代表性公司已经选择强强联合...
日期:07-09
小米卢伟冰:Redmi Note 12 Turbo 16GB 1TB版4月6日再次开售「小米note128g」
小米Redmi Note 12 Turbo手机搭载第二代骁龙7 芯片,主打高性能和超大存储空间。这款手机于近期发布并上市,售价从1999元起。oppo reno7 pro支持光学防抖吗小米官方在首发日宣...
日期:04-05
苹果手表 快充「第三方Apple Watch充电要快起来了!苹果将强制换用快充模块」
快科技8月8日消息,根据MacRumors消息,苹果目前正在计划给第三方配件开发商提供Apple Watch的快速充电模块。根据苹果此前的宣称,这一快速充电模块,能够让Apple Watch在45分钟内,...
日期:08-09
冲击百亿目标 欧派衣柜持续发力“全屋定制”赛道_欧派集团全屋定制延伸品牌
  近日,欧派衣柜正式与红星美凯龙签署战略合作协议,重磅发布了“1号战略”。在这份协议中,欧派衣柜高调提出未来发展目标,除了强化运营战略、打造多维度营销渠道外,还将在两年...
日期:07-17
三翼鸟科技有限公司「三翼鸟筑巢工具升级:6倍效率设计智慧家」
有人说“设计是家的灵魂”,在这个越来越注重风格和个性的时代,很多人的新家往往是从一张设计图开始。只是想设计一个满意的家并不简单,设计周期冗长不说,设计风格还要有新意,最难...
日期:09-29
韵达辟谣“公司要倒闭”传言:故意抹黑、我们仍然排第二!_关于韵达最近的新闻
2月12日晚,韵达速度官方微博发布了一则关于近期网络传言的澄清公告”。韵达表示,客服不受理”、营收不盈利”、公司要倒闭”等等近期网络传言,皆为不实之词,是个别网络账号故意...
日期:02-13