您的位置:首页 > 互联网

丈量模型生态变局 智源发布FlagEval“百模”评测结果

发布时间:2024-12-20 00:36:20  来源:互联网     背景:

【】2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。

智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。多模态模型发展迅速,涌现了不少新的厂商与新模型,语言模型发展相对放缓。模型开源生态中,除了持续坚定开源的海内外机构,还出现了新的开源贡献者。

多种模态评测综合榜单 覆盖文本、语音、图片、视频理解与生成

语言模型,针对一般中文场景的开放式问答或者生成任务,模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。

语言模型主观评测重点考察模型中文能力,结果显示字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跳动Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

小米笔记本15.6 2020 评测

视觉语言多模态模型,虽然开源模型架构趋同(语言塔+视觉塔),但表现不一,其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测结果显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

文生图多模态模型,今年上半年参评的模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理,涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦 P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

苹果13pro发布价

语音语言模型,得益于文本大模型的进步,能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距,整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学&微软WavLLM、清华大学&字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均进入前五。

四大专项评测榜单 多维度探索模型能力边界与应用潜能

马斯克是苹果员工

本次评测,智源研究院再次联合与海淀区教师进修学校新编了K12全学段、多学科试卷,进一步考察大模型与人类学生的能力差异,其中,答案不唯一的主观题依然由海淀教师亲自评卷。得益于多模态能力的带动发展,模型本次K12学科测验综合得分相较于半年前提升了12.86%,但是仍与海淀学生平均水平存在差距;在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分;模型普遍存在“文强理弱”的偏科情况。

FlagEval大模型角斗场,是智源研究院今年9月推出的面向用户开放的模型对战评测服务,以反映用户对模型的偏好。目前,FlagEval覆盖国内外约50款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。此次评测,共有29个语言模型、16个图文问答多模态模型、7个文生图模型、14个文生视频模型参评。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。

香港好得快

作为模型对战评测服务FlagEval大模型角斗场的延展,今年10月智源研究院推出了模型辩论平台FlagEval Debate,对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估,以甄别语言模型的能力差异。本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在“幻觉问题”,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物Yi-Lighting、OpenAI o1-preview-2024-09-12为前三名。

此次评测,智源研究院探索了基于实际应用场景的全新方法,通过评测模型的量化代码实现能力,探索模型在金融量化交易领域的潜在应用能力和商业价值。评测发现,大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码;在知识问答方面,模型整体差异较小,整体分数偏高,但在实际代码生成任务上,模型差异较大,整体能力偏弱;头部模型能力已接近初级量化交易员的水平。金融量化交易评测结果显示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。

智源评测体系FlagEval再迭代 覆盖全球800+开闭源模型

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。

智源研究院副院长兼总工程师林咏华在评测发布会上表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。(Suky)


返回网站首页

本文评论
11.83亿元!极兔100%完成收购顺丰旗下丰网公司「丰网速运和极兔」
快科技7月4日消息,据工商资料显示,近日深圳市丰网信息技术有限公司发生工商变更。顺丰旗下深圳市丰网控股有限公司退出股东,新增极兔速递旗下深圳极兔供应链有限公司为股东并全...
日期:07-04
Verizon收购CloudSwitch公司增强云服务业务_verizon cloud
8月26日消息,据国外媒体报道,Verizon周四宣布,它已经收购了CloudSwitch软件公司并且计划利用其云软件帮助企业客户更轻松地在Verizon的Terremark环境中迁移应用程序。这个收购...
日期:07-22
周鸿祎建议理想MEGA改成四座版 李想:所有的四座版车都不舒服_理想mpv
快科技4月26日消息,在北京车展上,周鸿祎建议理想创始人李想将MEGA改成四座版。周鸿祎表示:你要是有一个四座版,我觉得你那个车(理想MEGA)的空间会非常舒服;极氪009(光辉)就加了个隔板...
日期:04-27
商务部:“十四五”电子商务发展规划将于近期发布(商务部 十四五规划 电子商务)
  9 月 2 日消息 据第一财经报道,商务部发言人表示,“十四五”电子商务发展规划正在履行有关内部程序,将于近期发布。规划出台后,商务部将会同相关部门通过多渠道开展宣介工...
日期:03-26
《黑神话》火到破纪录,老黄都要到游戏展秀一把:全景光追英伟达独享,同款技术还有20+游戏在路上
声明:本文来自于微信公众号 量子位,作者:梦晨 克雷西,授权转载发布。全球玩家鏖战《黑神话》,峰值222.3万人同时在线,见证奇迹!同时在线人数Steam平台总榜第二、单机游戏历史第...
日期:08-21
抖音12个去重方法,搞定二创作品过原创「抖音6步去重法」
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:十里村,授权转载发布。各位村民好,我是村长。问题来了,如何在进行短视频内容二次创作的时候,有效避免官方判断重复呢?随着各...
日期:04-13
荣耀赵明最新消息「荣耀CEO赵明:要打破思维局限 不把折叠屏竞品作为核心对手」
7月13日 消息:荣耀近日在北京举行了荣耀Magic V2的折叠屏新品发布会。荣耀Magic V2是一款折叠屏手机,其整机的折叠厚度为9.9毫米,展开厚度为4.7毫米,重量为231克起,是目前首款折...
日期:07-13
医学中gpt「GPT-4在医学问题上击败了专业调优的 MedPaLM 2 模型」
12月4日 消息:在研究中,微软的研究人员展示了GPT-4在医学知识测试中的卓越表现,特别是当结合先进的提示工程技术时,其性能超过了专业调整的MedPaLM2。研究结果显示,相较于费时费...
日期:12-04
即信云通信参加中国车联网大会 助力智慧交通新时代_中国智能网联汽车创新成果大会
  日前,由国家工信部、深圳市人民政府联手主办的中国车联网产业展览会于深圳会展中心盛大召开。玄武科技·即信云通信与全国各大研究院、政企机关、知名企业等代表参与大...
日期:03-01
iQOO Z9 Turbo搭载了第三代骁龙8s,跑分超176万分
4月24日19:00,iQOO Z9系列新品发布会正式开始。此次iQOO Z9系列一共包含了三款手机:iQOO Z9x、iQOO Z9以及iQOO Z9 Turbo。首先,iQOO Z9 Turbo搭载了第三代骁龙8s移动平台,这颗...
日期:04-25
澳大利亚男子冲浪被座头鲸撞翻:挣扎数秒幸运脱险_澳洲冲浪者遭大白鲨袭击身亡
10月30日消息,澳大利亚一名冲浪者在冲浪时被幼年座头鲸猛烈撞击后幸存,这一幕被冲浪者随身相机记录了下来。据悉,55岁的杰森布林在悉尼北部海滩进行风帆冲浪时,被一头跃出水面的...
日期:10-30
特斯拉入华10年来又一大型项目 上海储能超级工厂将于2025年完工
快科技7月17日消息,在最近的周一媒体沟通会上,特斯拉全球副总裁陶琳确认,上海储能超级工厂预计将于2025年如期完工。她还称,上海的超级工厂将保持当前生产水平,并表示对中国市场...
日期:07-17
三星s23禁用更新S23更新后无法响应手指触控操作 等待官方解决 三星部分Galaxy
来源:中关村在线沃尔沃xc40免费保养政策300元半入耳蓝牙耳机推荐三星Galaxy S23系列用户在收到One UI 6.1更新后,部分用户反馈升级之后无法响应手指触控操作。目前,有一个临时...
日期:04-05
惠普 固态「HP存储年货专场,爆款固态超值好价热卖中!」
年关将至,年货好礼置办起来,HP存储好物统统安排上,爆款固态、移动SSD、手机扩容存储卡...... 1 月 17 日20:00- 1 月 31 日,HP存储全场给力价格,福利依旧重磅,店铺抽奖、晒单赠E卡...
日期:01-18
苹果首次公布iOS 17升级使用率,不如iOS 16!_ios17.4.1怎么样
在去年发布 iPhone 15 系列后,苹果便正式推送 iOS 17 和 iPadOS 17 新版系统,相信目前已经有不少 iPhone 用户升级到了这个系统版本。但 iOS 17 和 iPadOS 17 的受欢迎程度如...
日期:02-07
苹果iPhone 15 Pro Max干掉128GB版!iPhone 14 Pro Max 128GB瞬间涨了
快科技9月13日消息,苹果在今天凌晨推出了iPhone 15 Pro Max,起售价是9999元,没有128GB版本,直接256GB起步。随着iPhone 15 Pro Max的发布,苹果商店下架了iPhone 14 Pro Max,这导致...
日期:09-14
腾讯增持美团「万亿美团,大跌10%!腾讯真要减持吗?」
  文 | 唐燕飞 温婷  大股东减持的传闻引发各界猜测,在二级市场掀起波澜。  8月16日,美团股价午后持续走低,跌幅一度扩大至10%。截至收盘,股价有所回升,跌幅为9.07%。  ...
日期:09-26
xbox series s 涨价「微软:目前Xbox Series X/S游戏机机无涨价计划」
IT之家 8 月 26 日消息,索尼已宣布在全球范围内提高其 PlayStation 5 游戏机价格,其中国行涨价 400 元 —— 但美国地区除外。在欧洲,该游戏机价格大幅上涨 50 欧元(约 341.5 元...
日期:09-26
广东一公司要求连续出勤37天上热搜 回应:断章取义 可以调休
近日,珠海一家公司因要求员工连续出勤37天而引发社会广泛关注。根据网传的聊天记录,该公司发布公告,规定从2024年10月12日至11月17日,包括周末在内,员工必须每天正常出勤。若有特...
日期:10-16
潮宏基珠宝发布初个非遗花丝数字藏品「潮宏基珠宝有限公司」
比较近几年随着元宇宙、web3. 0 概念的兴起以及区块链等技术的发展,全球数字经济进入新的阶梯,这其中数字藏品无疑是很具有代表性的产物,于是各路玩家紧跟也时代潮流,纷纷布局数...
日期:09-09