您的位置:首页 > 互联网

清华大学发布《大语言模型综合性能评估报告》 :GPT-4 第一,文心一言更懂中文

发布时间:2023-08-11 01:23:22  来源:互联网     背景:

8 月 10 日消息,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》(下文简称“报告”),报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。

阿里巴巴在家办公

据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。

IT之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。


返回网站首页

本文评论
每人每日限购1斤,二师兄变得让人高攀不起
  猪年“二师兄”是真的很火!前段时间刚刚作为垃圾分类的重要成员上了热搜,最近又因为各地猪肉价格持续飙升而引发广泛关注。继香椿自由、车厘子自由、水果自由之后,吃得起...
日期:03-18
研究发现人在打盹时最具创造力:创造性比清醒受试者多78%
快科技5月27日消息,美国麻省理工学院(MIT)与美国哈佛医学院研究人员最近一项研究发现,人们在打盹”时最具创造力,尤其当被引导梦到特定主题时。具体来讲,一个人在游离于睡眠和清醒...
日期:05-27
美女卖房的方式奇特一个月卖了80套「女子4年卖2套房花700多万做美容 不但没变美脸还变形了」
8月3日,杭州一名幼师小丽(化名)报警称自己被美容店老板诈骗,4年时间花掉了700多万元。目前小丽已报警指控美容店老板叶某涉嫌销售假药罪、诈骗罪、非法行医罪,警方正在调查中,尚未...
日期:08-04
钉钉、飞书、企业微信,还没学会赚钱_企业微信 飞书 钉钉
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:金玙璠,授权转载发布。2022年,是国内移动办公“三巨头”取消“免费午餐”的一年。先是阿里旗下的钉钉对企业客户收取年...
日期:12-14
余承东:华为没5G Mate50仍大卖获用户认可 问界增程车卖爆是必然
Mate 50卖的很不错,余承东也是坦言,压力少了不少,那个熟悉的华为手机回归也是必然的事情。wii游戏机销量辛选选品会余承东近日在接受采访时表示,最新Mate50大卖了,自己压力会好一...
日期:10-16
英伟达g技术「英伟达推出更强大的升级款人工智能芯片 GH200:内存是 H100 的三倍」
8月9日消息:英伟达于周二发布了一款设计用于运行人工智能模型的新芯片,以抵挡包括 AMD、谷歌和亚马逊在内的竞争对手在 AI 硬件领域的挑战。6s后置摄像头和6sp通用吗根据一些...
日期:08-09
ios天气显示「苹果 iOS 16 更新,天气 App 新功能盘点」
IT之家 8 月 31 日消息,苹果在 iOS 16 中对天气应用进行了一些改变,包括新的通知类型,并增加了一些信息,从湿度、温度到能见度全方位为你提供服务。此外,新版天气 App 中的许多新...
日期:09-04
续航再次登顶!iPhone14系列将配备史上最大电池,安卓手机很羡慕(iOS14电池容量)
随着智能手机的不断更新换代,手机上的各种配置都得到了升级,无论是屏幕、处理器、马达、拍照、系统等都得到了升级,随着手机功能的不断完善,随之而来的续航问题也随之而来,为了解...
日期:08-19
美女变霉女 58同城携手杨幂“穿越”终成梦
  "58同城,一个神奇的网站!"在耳畔回响的同时会使人联想到什么?往往是拉起的却是姚晨亲切的骑着一头小毛驴逛赶集的画面,业内人士表示"能够从众多广告中脱颖而出,赶集网做到...
日期:07-28
中国互联网协会副理事长黄澄清:我国人工智能已进入全球第一梯队
6 月 28 日下午消息,中国互联网协会副理事长黄澄清在“GPT 产业联盟成立大会上”表示,近年来以 GPT 为代表的公司蓬勃兴起,推动了生成式 AI 的快速发展,相关产品在极短的时间内...
日期:06-29
应对ChatGPT挑战 谷歌拟将AI植入所有产品和服务中「google ai platform」
3月9日消息,谷歌向来以长期押注于各种未来技术而闻名,而当前爆火AI聊天机器人所需的大部分技术都曾在其实验室中被研究过。然而,一家名为OpenAI的初创公司在去年11月推出了Chat...
日期:03-09
网易邮箱公益广告助力企业复工生产
  随着新冠肺炎疫情在中国境内逐步得到控制,各行业正在有序复工复产,为帮助疫情中受冲击的企业更快恢复,不仅国家出台了多项扶持政策,社会各界也纷纷伸出援助之手。作为中文...
日期:02-02
华为成立汽车bu「华为不造车!一4S店使用“华为汽车”宣传 被罚3.5万」
华为不造车,问界也不是华为汽车,在华为方面多次强调下,已经成为业界共识,但还有汽车销售公司蹭华为汽车”热点营销,结果导致被罚。快科技6月18日消息,河南平顶山合众汇赢汽车销售...
日期:06-19
数字藏品持续升温 也要警惕风险吗_数字藏品持续升温 也要警惕风险
作者: 陈兵 张天蓉   [ 据不完全统计,2022年1月初到4月底,国内数字藏品的每日发行额从100万元提升到了1330万元,增长超过10倍。 ]   自2021年下半年起,数字藏品吸引了文物界...
日期:07-31
用长焦拍你所爱 OPPO Reno10系列“拍你所爱照相馆”成都站完美收官「oppo手机长焦镜头作用」
“双芯人像,所爱跃然眼前”,OPPO Reno10全系于5月24日正式发布。该系列全系标配超光影长焦,配合OPPO独有的超光影算法,使其一举成为了OPPO新一代的人像拍摄旗舰。恰逢61儿童节这...
日期:06-03
植物大战僵尸宣布与中移动合作 将推Dota模式
  11月14日消息,“植物大战僵尸”开发商、宝开(PopCap)大中华区总经理刘琨在游戏开发者大会(GDC China)上正式宣布与中国移动(微博)达成合作,未来植物大战僵尸将推出Dota模...
日期:07-24
传AMD拟量产高端FX系列处理器 对抗英特尔_FX处理器
8月2日消息,据台湾有关媒体报道,据电脑主板业内人士透露,AMD计划在8月份量产,然后于9月正式发布,最快从10月份开始批量销售高端FX系列“推土机”(Bulldozer)处理器,以对抗英特尔的...
日期:07-22
元宇宙风口正劲,IDP.国际大数据交易产业园喜迎新气象
2022 年已过半,继北京新冠疫情形势平稳之后,三里屯IDP.国际大数据交易产业园接二连三迎来科技参访团。自今年 4 月 7 日,北京邮电大学科技园元宇宙协同创新中心(下称“创新中心...
日期:08-03
卢伟冰小米之家「小米14来了?卢伟冰:新旗舰产品力很强很强 配置能把人吓坏」
今天中午(11月18日),小米中国区总裁卢伟冰在微博表示:今天关于小米新旗舰的讨论好热闹,产品力很强很强iphone6plus正常跑分在评论区与网友交流时,有粉丝提到别打谜语,直接放配置让...
日期:11-23
索尼推出 Playstation Star 服务 为玩家提供数字藏品「playstation all-star」
DoNews9月29日消息(郭睿琦)索尼今天宣布, Playstation Star 服务现已正式上线,玩家可通过该服务获得数字藏品以及积分等奖励。PlayStation Plus 会员同时加入 PlayStation Stars...
日期:09-30