您的位置:首页 > 智能设备

正宗肉末米粉_ChatGPT大战司法考试,无需微调,一类试题达到人类水平!

发布时间:2023-01-04 16:32:50  来源:互联网     背景:

原标题:ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答

ChatGPT的下一个新身份——做题家!

这不,它已经在人类各个考试中开“卷”了。

律师、医生、注会什么的,它都开始纷纷展露身手。

比如,全球考生都头疼的司法考试,现在ChatGPT在两项试题达到了合格率,其中一项还跟人类水平持平。(还是在没有任何微调的基础上)

“成绩”一出,瞬间引发巨大关注,网友:Amazing~

还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。

iphone 14pro美版还能用吗

正宗肉末米粉

咳咳,要是公务员考试呢?

咱们结尾见分晓!

两项法考试题合格

具体就先来看看ChatGPT在司法考试中的表现如何。

美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)。

选择题部分,由来自8个类别的200道题组成,通常占整个律师考试分数的50%。

在这项研究中,研究人员对OpenAI的text-davinci-003模型(通常被称为GPT-3.5)在MBE的表现进行评估。

(ChatGPT正是GPT-3.5面向公众的聊天机器人版本。)

为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。

随后,研究人员分别对GPT-3.5进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对GPT-3.5的成绩表现有积极影响,而微调没有任何效果。

在提示工程中,他们共测试了7种提示类型。

正宗肉末米粉

1、只做单项选择;

2、单项选择和解释;

3、只做前两个选择;

4、前两个选择和解释;

5、前两个选择和重新提示;

6、对所有选择进行排序;

7、对前三个选择进行排序。

研究人员在上述的提示和参数值中执行了107次样本考试。结果在这些提示中,提示风格#7的前三个选项排序表现最好,他们共收集了41个样本,对这个提示进行参数组合。

超参数优化中,他们评估了包括温度系数、top p、best of、max tokens等参数。

最终在完整的MBE练习考试中达到了50.3%的平均正确率,大大超过了25%的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着63%的准确率。

在所有类别中,GPT平均落后于人类应试者约17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。

但总的来说,这一结果都大大超出了研究人员的预期。

因为它对答案排序与正确性有很强的相关性,Top2和Top3的选择分别有71%和88%的正确率。其中“Top2”的准确率全都超过了极限,有五个类别均超过了人类平均水平。而“Top3”的准确度更高,在证据这一表现中甚至达到了98%。

这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。

ChatGPT能当考霸吗?

谷歌资深软件工程师肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做了一系列测试,涉及司法、医学、会计学、化学等多个领域。

分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT正确率达到了91.6%。

因为是2022年8月的考试,所以ChatGPT数据库中肯定不包含考试内容。对于陌生的24道考题,它只错了2题。

物理/化学考试中,ChatGPT的表现也不错,正确率达到了77.7%,45道题目中答对了35道。

前不久,谷歌医疗大模型Med-PaLM通过美国医师执照试题(USMLE)验证。

ChatGPT也不甘于落后,同样挑战了USMLE的第一阶段基础医学考试。

去掉有图像的题目后(因无法输入对话框),ChatGPT正确率达70%。

其余则是在司法方面,工程师肯尼斯老哥让ChatGPT尝试了一些非正式题目。

比如美国律师职业道德考试(MPRE)的示例题目(共15道),ChatGPT答对了9道,正确率60%。

面对50道律师资格考试模拟试题,ChatGPT的正确率也维持在了70%,答对35道。

此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT取得了149分,排名在前40%。其中阅读理解类题目表现最好。

表现最差的,还是数学题。

在CPA注会考试中,ChatGPT的正确率只有40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。

总之,ChatGPT在各种考试中的表现,还是让人有些意外。

有网友已经产生危机感了:

damn,我的工作要被抢了!

有人分析,如果直接让AI来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么AI将能够很好提升律师的工作效率。

正宗肉末米粉

还有人表示,如果能保证任何数据都不泄露的话,那ChatGPT将能够推动更多行业平民化。

或许正如肯尼斯老哥说的那样,人类+电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。

One More Thing

最后,我们也让ChatGPT试了试国内法考的题目~

先说结果,3道选择题,ChatGPT都没有答对……虽然解释得头头是道,但它应该确实没有读过我国的法条。

参考答案D

这答案罗翔老师看了直摇头

参考答案A

换成公务员行测试题呢?没想到ChatGPT的答案对了,可是过程和答案似乎完全没关系……

这……怎么感觉AI秒算结果,但随便编了个过程来糊弄人类啊!


返回网站首页

本文评论
盘点2013年最具创新的10款手机「最畅销的十款手机」
  12月14日消息,据国外媒体报道,今年市场上迎来了数款智能手机,盘点一下2013年最具创新性的手机。  第10位:iPhone 5S,它较去年的iPhone有着递增式的改善。对于多数人而言,iPh...
日期:07-26
郭明錤分析苹果未来_市值蒸发千亿 郭明錤质疑苹果放弃增产iPhone:本来就没计划
  此前有消息称,苹果放弃了今年增产iPhone 14的计划,原因是预期的需求激增没有到来。据投行杰富瑞报告显示,iPhone 14系列手机上市前三天在中国的销量为98.7万部,比2021年同期...
日期:10-05
rtx3060支持4k吗_RTX 4090被抢先装机:四槽三风扇 性能暴力至极
RTX 40系列显卡发布会定在北京时间9月20日晚23点,从最新掌握的情报来看,NVIDIA计划首发带来RTX 4090、RTX 4080(12G)和RTX 4080(16G)三款。继一些AIC厂商的RTX 4090非公卡抢跑后,OE...
日期:09-17
全屋智能 站在黎明前「全屋智能中心」
智能家居赛道在很长一段时间都在做连接和控制的工作,但这几年兴起的全屋智能已经让智能的体验得到了很大的提升。而在这个数千亿市场的背后,也衍生了多个流派,他们基于各自的传...
日期:09-30
酷睿raptor lake处理器「英特尔会在Raptor Lake移动版中首次配备VPU,并完全集成在Meteor Lake」
英特尔很快会推出称为VPU的新模块,这是一项新的AI性能提升技术,很可能与Raptor Lake一起推出,并在Meteor Lake上实现完全集成。去年就有报道称,Meteor Lake会集成VPU,其位于运算...
日期:09-17
换新iphone怎么和手表配对_你打算换新的苹果手表吗?调查结果出炉 网友们这么选
  2022年9月7日,苹果发布了Apple Watch Series 8,并于9月16日开始发货。苹果最新的旗舰智能手表增加了许多新的功能并升级了一些配置,如增加车祸检测功能,以及拥有更长的电池...
日期:10-01
999元 TicWatch GTW eSIM发布:独立4G通话 续航30天(ticwatch esim卡)
  近日,出门问问推出了全新千元级4G通话手表TicWatch GTW eSIM,现已正式开启预售,价格为999元。iQOO线下店  这款手表支持eSIM独立通话功能。不论是户外晨跑,还是下楼遛狗...
日期:01-27
华为mate50pro玻璃测试_华为Mate50 Pro首发昆仑玻璃 实测砸核桃:一口气三个 结果完好无损
  在Mate50发布会上,华为推出了昆仑玻璃,除了是Mate 50 Pro昆仑破晓、昆仑霞光两款素皮版的正面标配,华为还推出了Mate系列/P系列的旧手机更换昆仑玻璃服务。  那么在“实...
日期:10-12
三星S23系列最新爆料:S23 Ultra重234g 支持45W充电「三星s22ultra系统操作体验」
  熟悉三星的小伙伴都知道,三星的S系列可以称得上安卓阵营的机皇。S系列凭借着高素质屏幕、强悍性能等优点获得了用户的一致好评。目前,三星最新的S系列机型是S22系列。根据...
日期:10-26
[多图]Windows 8版Algiz 10X军用级平板电脑将于明年问世
当你正在为如何在极酷环境下仍能继续使用平板电脑犯难的时候,不妨看下瑞典Handheld Group的Algiz 10X。据悉,这款平板可在地理、物流、林业、公共交通、施工、维护、采矿、军...
日期:07-25
苹果将推儿童手表?报告称比 Apple Watch SE 更便宜_儿童适合苹果手表吗
IT之家 9 月 6 日消息,距离苹果秋季发布会“Far out”还有不到 48 小时,预计该公司将推出 iPhone 14、Apple Watch Series 8、AirPods Pro 2 和面向极限运动人士的全新 Apple...
日期:09-07
RTX3070Ti游戏本仅8499!蛟龙16游戏本出新配「rtx3060ti游戏本推荐」
蛟龙16游戏本一经发售便凭借新一代模具和极高性价比受到了广大游戏本爱好者的追捧,就连YJJpaopao看到后都竖起了大拇指直呼YES!在追求更高性能的玩家们一直都期待搭载RTX3070T...
日期:09-17
斐纳扫地机器人880s说明书_智能扫拖时尚新选择,斐纳TF-880S扫地机器人开箱评测
  时尚领域包罗万象,它不仅限于我们普遍认知的服装、包包、鞋帽等,就连汽车、家电等产品也开始跃居时尚领域。因为人们的审美和需求是在不断变化的,一个产品想要让人们驻足停...
日期:07-23
摩托罗拉edgex40详细参数「疑似摩托罗拉moto X40入网 “猛攻性价比”或下个月发」
  近日,疑似摩托罗拉moto X40系列手机入网,证件照得以公开。新机型号名为XT2301-5,正面配备了一块FHD+分辨率双曲面居中挖孔屏,视觉观感不错。手机四边框采用圆润设计,预计能够...
日期:10-31
一加nord开箱_一加 Nord 2 高清渲染图曝光,神似一加 9 系列
  6 月 29 日消息 一加 Nord 2 手机此前已得到曝光,该机将搭载天玑 1200 芯片,运行氧 OS 系统。  近日,外媒 91Mobiles 和 OnLeaks 曝光了一加 Nord 2 的高清渲染图。多面...
日期:07-10
印度考虑限制中企销售千元以内手机?印官员否认_印度手机普及了吗
(原标题:印度考虑限制中企销售千元以内手机?印官员否认) 【环球时报综合报道】印度《铸币报》网站11日报道称,印度政府高级官员表...
日期:08-19
小米redmi11pro多少钱_小米 Redmi Pad 渲染图与详细参数曝光:搭载联发科 Helio G99,10.61 英寸 90Hz LCD 屏
  9 月 28 日消息,小米 Redmi Pad 此前已经通过了 3C 认证,作为 Redmi 首款平板电脑,支持 22.5W 快充。无线充电对苹果手机有影响吗  今日,博主 @数码闲聊站 放出了该平板的...
日期:10-06
华硕 ROG XG32UQ 显示器今晚开卖:32 英寸 4K 160Hz,首发 6499 元
  10 月 7 日消息,华硕日前上架的 ROG XG32UQ 显示器将在今晚开卖,32 英寸 4K 160Hz,标价 6999 元,首发 6499 元。比特币跌破40000美元大关美国的AI小米redmi10多久出的  ...
日期:10-09
iPad mini受业界好评 小尺寸平板或将成主流?_ipad mini尺寸变化
  北京时间11月8日消息,据国外媒体报道,iPad mini上市之初,业界和用户都对它褒贬不一。如今,多数业内人士经过一段时间的试用后都表示自己已经爱上iPad mini,有人甚至不愿意再...
日期:07-25
redmi note 10 pro和iqooz5哪个好_Redmi Note 11R 公布:号称“为普及 5G 手机而来”,明日开售
  9 月 29 日消息,今天 Redmi 官方公布了一款新机 ——Redmi Note 11R,号称“为普及 5G 手机疾速而来”,支持双卡双 5G,采用 90Hz 高刷高清屏、5000mAh 电池,将于 9 月 30 日...
日期:10-02