您的位置:首页 > 互联网

大语言模型“书生·浦语”多项专业评测拔头筹

发布时间:2023-08-28 17:43:39  来源:互联网     背景:

最近,AI大模型测评火热,尤其在大语言模型领域,“聪明”的上限被不断刷新。商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。



“FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,可视化呈现评测结果,总计600+评测维度,包括22个主观、客观评测数据集,84433道评测题目。除知名的公开数据集 HellaSwag、MMLU、C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。”

“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。”

“书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者

“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。

今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。

7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(
https://github.com/InternLM/InternLM)

后续又推出升级版对话模型InternLM-Chat-7B v1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。

此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。

在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名。

“InternLM-chat-7B”还刷新中英客观评测记录。

「什么是“基座模型”、“有监督微调模型”?」

基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。

有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。

极米4k激光电视怎么样

普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。

中国联通回应FCC

英伟达rtx3080显卡

因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。

此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B。

特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能。





SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。

“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,在SuperCLUE-Opt开源大模型榜单拔得头筹。




作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。

相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。

自动驾驶商业化运营


返回网站首页

本文评论
淘特上线“微店铺”和“心动搜索”智能搜索交互体验产品_淘特商家手机版
11月16日 消息:淘特宣布上线两款智能搜索交互体验产品:淘特“微店铺”和“心动搜索”。这两款基于淘特搜索逻辑研发出的体验新功能已完成国家专利申请。联发科芯片稳定性据...
日期:11-23
内蒙古联通聚焦主责主业,助力自治区完成“五大任务”_内蒙古联通领导
内蒙古联通聚焦主责主业,助力自治区完成“五大任务” 通信产业网|2023-07-24 12:38:44作者:武栋 宫丽华来源:通信产业网【通信产业网讯】党的十八大以来,习近平总书记先后三次赴...
日期:07-24
奔驰导航播报怎么关闭「奔驰车机被曝推送广告 遮挡导航界面!客服回应」
近日,一位一汽大众 ID.6 纯电车车主反映,在使用车载导航驾驶时,中控屏突然出现弹窗广告,遮挡了行驶中的导航信息引发网友热议。不过,车机弹广告并非是大众专属,奔驰车机也出现了广...
日期:09-29
iPhone 13到手4388 立减800 双11限购_双11苹果13能降多少
iPhone 13已经发售一年,但是热度丝毫不减,现在今年双11依然是苹果的促销主力机型,,今年11·11的双十一价立减800元,到手现在只要4388元,虽然iPhone 14系列发布了,用户对于iPhone 13...
日期:10-30
AMD Radeon RX 7600 显卡完整规格曝光:165W 功耗、2625MHz 频率_amd 7670显卡
IT之家 5 月 23 日消息,原定于本周晚些时候发布的Radeon RX 7600 显卡已经被 HD Tecnologia 提前泄露。这款RDNA3 显卡看起来似乎要比上一代 RX 6600 有着更高的供电要求。悦...
日期:05-23
疫情冲击游戏行业:玩家回归现实世界 游戏公司销售滑坡(疫情期间游戏产业)
ios不为人知的功能ipad2优酷看不了国内邮箱用户量排名华硕天选2 1660魅族16 x系列   讯 北京时间8月15日早间消息,据报道,近几个月,随着疫情后玩家逐渐回归现实世界,同时生活...
日期:08-15
华为新发展理念_更创新、有发展、值得信赖,华为云新生态体系全新发布
  当前,数字经济持续推进,千行百业的数字化进程加快,云生态建设重要性凸显。为进一步推进生态发展,赋能合作伙伴,华为云于2022年第1季度发布了包括拓客激励、各类产品专项激励...
日期:06-12
为啥电动两轮车长时间骑动力会衰减?张朝阳物理硬核科普「电动两轮车跑的慢怎么办」
5月9日消息,在近日的《张朝阳的物理课》上,搜狐创始人张朝阳连线绿源创始人倪捷,针对为啥电动两轮车在骑行一段时间后寿命、续航和动力等性能就会出现不规则地大幅衰减的问题进...
日期:05-10
5g共建共享工作目标「共建共享模式下 5G网络规划及优化思考」
通信世界网消息(CWW)5G 网络具有高速率、低时延、高可靠等特性,是新 一代信息技术的发展方向和数字经济的重要基 础设施。同时,5G作为全球新一轮产业革命的引擎,已被世界 各国上...
日期:08-08
如果古建筑会“说话”_如果古建筑会说话第二季
如果古建筑会“说话” 通信产业网|2023-06-06 18:32:21作者:曹明明 卢桂峰来源:通信产业网【通信产业网讯】在祖国大地上,有一些或老或新的城市地标建筑,它们不仅见证了城市的快...
日期:06-06
熊猫基地五一被挤爆:游客为看花花排队2小时看3分钟_熊猫基地免费
4月30日消息,据星视频报道,四川成都五一假期人潮涌动,成都大熊猫繁育研究基地里人山人海,挤满了来看熊猫的游客,队伍从园区内一直排到园区大门外。很多游客都是为了看熊猫界的明...
日期:05-01
从3999元跌至2879元,256GB+天玑9200,从高端市场跌至中端市场「cpu天玑920」
有没有大的升级不重要,但一定要推出新机,这种情况在如今的手机行业中非常普遍,因为智能手机发展已经进入了一个瓶颈期,很难带来大的突破,但手机厂商们又必须推出新机维持自家手机...
日期:08-27
配置全面提升!TCL T7H拔高中端电视标准,是中高端电视之选
在电视消费市场,中端价位产品才是大多数人的选择,也是各厂家竞争最激烈的战场。中端电视产品因为厂家技术成熟,电视成本限制等因素,要做到出圈是件很难的事,这次TCL推出年度配置...
日期:08-16
连续泄露小米13真机!百万粉汽车大V公开道歉 愿意接受处罚_泄露小米新机自媒体被判赔100万
虽然小米13还没发布,但关注手机内容的各位应该已经都见到各种真机、渲染图了。在此前经历过快递员泄露事件之后,最近两天又被800万粉丝的汽车博主陈震”曝光出来,而且是连续两...
日期:12-06
违规将用户数据传输到美国:脸书母公司Meta遭欧盟顶格重罚约91亿元
快科技5月22日讯,Facebook母公司Meta倍欧洲隐私委员会创纪录罚款12亿欧元(约合91亿元人民币),原因是其涉嫌将欧盟用户数据传递到美国,这违反了欧盟2018年生效的通用数据保护条例(G...
日期:05-22
彻底没了!消息称苹果iPhone将抛弃Touch ID功能_iphone6没有touch id
苹果在2017年的iPhone X上使用了Face ID,从而取代了Touch ID功能,但是外界一直有Touch ID回归的传言,但是知道今年的iPhone 14系列,仍然没有见到Touch ID的身影。据知名苹果爆料...
日期:10-05
雷军微博提前预热!小米13 Ultra预计四月发布
小米13 Ultra采用徕卡四摄组合,包括1英寸IMX989和三颗IMX858镜头,分别覆盖超广角、5倍人像长焦和潜望式长焦镜头,实现全焦段覆盖和全主摄规格。此外,小米13 Ultra还将提供徕卡经...
日期:04-05
年末黑客扎堆网购 木马作者月赚百万
  年终岁末,伴随着网购市场的异常火爆,大量病毒木马鱼贯而出,纷纷扎堆年末的网购市场,伺机展开赤裸裸的“抢钱”行为。据金山网络安全专家李铁军预测,未来一个月内,新增与网购...
日期:07-25
女子放生2.5万斤鲇鱼被起诉 网友:这钱用来捐了不好吗
据澎湃新闻报道,江苏常州,2020年12月,女子徐某为祈福而购买了9.04万元的鲇鱼,并与当地水产批发市场的刘某洽谈将其放生。于是,徐某加入了一个通过微信联系的放生圈子,组织了一次放...
日期:12-30
腾讯天籁发布远程听力服务平台,利用AI实现助听器线上验配丨中国互联网公益峰会
  “声音能够听到,但是听着很累,你大点声儿!”身处五线小县城的张大爷常年耳聋,由于缺乏专业验配服务网络和验配师,他佩戴助听器的效果总是差强人意,这也是很多偏远地区听障人士...
日期:05-22