您的位置:首页 > 互联网

研究院“超越”中文大模型测试集正式发布 甲骨易AI_甲骨易(北京)翻译有限公司怎么样

发布时间:2023-09-27 17:02:55  来源:互联网     背景:

【】5月22日消息,近期中文大语言模型蓬勃发展,但却一直少有出现可应用于评测 ”大模型能力“ 的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试,并在此基础上制作了一套适配“测试中文大模型”的数据集,并将其命名为“超越”,MMCU(Massive Multitask Chinese Understanding)。 5月20日,甲骨易AI研究院 “超越”中文大模型测试集正式发布。

据介绍,“超越” 的意义是希望中文大语言模型 “超” 出多数模型只能基于英文数据集测试的现状,通过发现大模型的缺陷,从而促进大模型理解中文语言的能力,使其 “越” 来越强大。 这里“超”和“越”要单独来理解,并不是超越别人的意思。

甲骨易(北京)翻译股份有限公司怎么样

甲骨易AI研究院首席研究员Felix透露,4月推出了MMCU的测试集和测试方法。数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到1万+,其中包括医疗领域2819道题,法律领域3695道题,心理学领域2001道,教育领域3331道。

甲骨易(北京)翻译有限公司怎么样

“我们是把大模型当作一个真正的人类来看待,”Felix表示,测试集之所以涉及语、数、物理、化学这些科目,因为人工智能必须像人类一样,具备对于世界的基础的认知;而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。

中国品牌榜2021

“所有题目都不是从网络上直接能够抓到的,而是由大量的人工整理,尽可能确保不会出现在大模型的训练数据中。而整套的测试集涵盖的领域能够确保模型测试的知识的广度和深度,从而帮助研究者们去发现这一模型的哪个领域有缺陷或者说它的整体上都有缺陷。”Felix说到。

经营现金流同比增长为负

中国科学院大学网络数据重点实验室的咸宁针对MMCU测试集的使用情况进行分享,解释了测试数据集的分析原理,对几大模型的测试成果进行了展示与客观分析,并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

通过大模型测试发现,在本应有明显优势的语文科目中,国产大模型的表现却差强人意。Felix指出,现在很多模型评估还是处于人工评估阶段,甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差,但未来还将持续优化评测方式并扩充评测领域。

女子地铁互殴视频

“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示,愿与业界更多机构联手,一道携手推进大模型的发展,加速人工智能技术的产学研用进程。

B站港交所上市


返回网站首页

本文评论
华为mate50折叠屏「华为P50新款折叠屏曝光:搭载骁龙778G 月底将发!」
日前,有数码博主爆料称,新版华为P50 Pocket new就要来了,不出意外的话将在本月底与大家见面。该博主还提到,这款新版P50为P50 Pocket有可能会去掉副屏,这样做应该是为了尽量压缩...
日期:10-17
微软游戏模式_微软将在下一代Windows系统中突出游戏功能
  北京时间12月24日早间消息,消息人士表示,微软将在下一代Windows系统中突出游戏功能。   消息人士称,PC游戏将是微软“新动力”的一部分,同时是“整个操作系统的关键元素...
日期:07-25
95后女孩斥资1.96亿 将拿下A股公司!背后父母身份不简单
95后女生”曾是财经记者”斥资1.96亿”,如此多的标签在身,收购一家A股上市公司,想不引起网友关注热议都难。11月10日消息,据报道,停牌数日的国立科技披露新东家”身份,为95后女生...
日期:11-11
全域兴趣电商下,抖音电商作者有了哪些新增量?「内容电商和兴趣电商」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。两年多时间里抖音电商高速发展,对于已经入场的电商作者来说,他们的价值有了哪些变化?而对于那...
日期:11-25
腾讯地图暂未发车「腾讯地图将于11月11日停止服务」
中关村在线消息:今日,腾讯地图官方宣布PC端将于11月11日停止服务,用户可以下载腾讯地图手机APP版继续使用。google pixel升级8.0有哪些提升腾讯地图,前称SOSO地图。这是由腾讯公...
日期:10-23
不输ChatGPT 国产AI大模型开测:为中文优化、支持国产CPU训练_十佳国产模型
ChatGPT今天升级了GPT-4模型,AI能力更加强大,国内在这方面也在迅速追赶,有国歌国产版ChatGPT问世了,现在清华大学教授唐杰宣布由该校AI成果转化的ChatGLM开始内测。据介绍,对话机...
日期:03-15
微软的人工智能ai_【IBM 人工智能文章】企业如何用好AI?这三点需要特别注意
  《这就是 Watson》系列之二   《这就是 Watson》系列博客的作者为IBM Data and AI 总经理Rob Thomas,旨在解释如何才能在 AI 领域取得制胜法宝,并展望 AI 无处不在的市...
日期:10-14
提升数科公司IT运营能力,用友iuap数智平台全面赋能「用友iuap怎么样」
(原标题:提升数科公司IT运营能力,用友iuap数智平台全面赋能) 在内外部环境影响下,数科公司的运营模式正在悄然发生转变,即从以往...
日期:08-25
刚刚,浦发硅谷银行紧急回应!美团发声:没放存款!破产风暴直击硅谷,最黑暗一天?币圈惊魂一跳,发生了啥?
硅谷银行突然倒闭,正在引发一系列多米诺效应。短短48小时,美国硅谷银行(SVB)火速倒闭,成为了美国金融业自2008年以来最大的倒闭案,造成的冲击波正在广泛蔓延。首当其冲的便是处于...
日期:03-13
大熊猫吃小熊猫的视频「大熊猫幼崽吃游客掉落口罩 熊猫妈妈直接“叼娃”」
据白鹿视频分享,3月22日在四川成都大熊猫研究基地,游客看到一只熊猫幼崽正在啃掉落地上的口罩,引起了游客的担忧。幸好熊猫妈妈科大及时赶到,将幼崽带走,还使用了熟悉的“叼娃”...
日期:03-24
京东累计销量王,iPhone 11仅2999元_京东苹果11什么时候降价
4月7日消息,iPhone 11京东平台优惠活动上线,售价仅2999元起。64GB版本售价3799元,加入购物车自动满2500元减800元,到手价2999元。128GB版本售价4299元,加入购物车自动满3000元减7...
日期:04-08
真我手机realmev11价格「realme真我11 Pro系列正式开售,全渠道销量破8万台」
   2023 年 5 月 15 日—中国 · 深圳—科技潮牌真我realme发布了新品真我11 Pro系列的首销战报,作为 2023 年“无越级不发布”的第三款产品,真我11 Pro系列全渠道销售量突...
日期:05-15
5.98万起售还嫌贵?五菱缤果上市即热销:当天交付522台「五菱宏光缤瑞」
3月29日,五菱旗下全新微型电动车缤果上市,共计5款,售价区间为5.98-8.38万元,价格公布后,很多人表示5.98万的价格太贵,五菱已经不是人民的五菱了。iqoo8pro有人脸解锁吗不过吐槽归...
日期:04-01
每日优鲜 倒闭_每日优鲜大厦坍塌的那一天
文/沈丹阳   除了在密谋这一切的那几个人之外,每日优鲜近千名员工们没人会想到,2022年7月的最后一周,也成了这家生鲜电商明星公司的“最后一周”。   一切到来的没有太多迹...
日期:07-31
乘联会:特斯拉中国10月交付71704辆电动汽车 环比下降14%「特斯拉2016年报」
11月4日消息,据国外媒体报道,中国乘联会(CPCA)周四发布的统计数据显示,特斯拉在10月份交付了71704辆中国制造的电动汽车,环比下降14%,同比增长32%。今年9月,该公司交付了83135辆中国...
日期:11-10
健身房教练卖的蛋白粉「健身房被淹教练只能抱出来蛋白粉:损失在100万左右」
7月8日消息,据媒体报道,江苏泰州一健身房因暴雨积水,800多平的面积被水淹,教练们无奈拎着蛋白粉跑出来。刘老板称,当时水位高达1.4米左右,整个门店的跑步机、体测机、空调、电脑、...
日期:07-09
淘宝“伤城”:利益让淘宝天平倾向了大卖家
  “让天下没有难做的生意”的阿里巴巴,却正让一些小卖家的生意变得难做起来。   “刚在淘宝商城开店不到三个月,突然出来这种事情,恐怕不少员工要失业了!”位于福建泉州...
日期:07-23
阿里文娱智能营销平台斩获IAI六项大奖,以融合、联动、创新助力高效营销
  2019年5月8日,第十九届IAI国际创享节在京拉开帷幕,各界媒体精英齐聚现场,围绕“挑战不确定,创见2019”主题,探讨智能营销时代下的品牌营销与传播。同时,现场揭晓了本届IAI国...
日期:06-08
2022年依旧解决不好!iPhone 14 Pro被网友吐槽信号差「iPhone 11 pro 信号差」
苹果手机的信号问题多年来一直是网络的热点话题,甚至到了2022年,苹果依旧没有将这个致命问题很好的解决掉,并将“祖传手艺”延续到了iPhone14系列身上。今天,一则#iPhone14Pro被...
日期:10-05
“微信支付分”首次公开亮相  目标是做生活服务助手_微信支付分介绍
  在刚刚结束的2019微信公开课Pro版活动上,微信官方首次提到了“微信支付分”。此后,微信将进一步推进该产品的试运营。   此前,有媒体报道称,部分生活场景类小程序已经接...
日期:12-16