您的位置:首页 > 互联网

OpenAI总裁:GPT-4并不完美但却绝对与众不同「openai gpt4」

发布时间:2023-03-16 09:02:11  来源:互联网     背景:

3月16日消息,人工智能研究公司OpenAI于昨日发布了备受期待的文本生成AI模型GPT-4。OpenAI联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)在接受采访时表示,GPT-4并不完美,但却绝对与众不同。

GPT-4在其前身GPT-3的基础上,在许多关键方面进行了改进,例如提供了更多真实的陈述,并允许开发人员更容易控制其风格和行为。从某种意义上说,GPT-4也是多模式的,因为它可以理解图像,能给照片添加注释,甚至详细描述照片中的内容。

但GPT-4也有严重的缺陷。就像GPT-3一样,该模型会产生“幻觉”(即模型聚合的文本与源文本无关或不够准确),并会犯下基本的推理错误。OpenAI在自己的博客上举了一个例子,GPT-4将“猫王”埃尔维斯·普雷斯利(Elvis Presley)描述为“演员的儿子”,但实际上他的父母都不是演员。

当被要求将GPT-4与GPT-3进行比较时,布罗克曼只给出了四个字回答:与众不同。他解释称:“GPT-4绝对与众不同,尽管它还存在很多问题和错误。但你可以看到其在微积分或法律等学科技能方面的跃升。它在某些领域的表现曾很糟糕,现在却已经达到超越普通人的水准。”

测试结果支持了布罗克曼的观点。在高考微积分考试中,GPT-4得4分(满分5分),GPT-3得1分,介于GPT-3和GPT-4之间的GPT-3.5也得4分。在模拟律师考试中,GPT-4成绩进入了前10%行列,而GPT-3.5的分数在后10%左右徘徊。

openai gpt-3

华为mate8性能

与此同时,GPT-4更受人关注的地方在于上面提到的多模式。与GPT-3和GPT-3.5不同,它们只能接受文本提示,例如可以要求“写一篇关于长颈鹿的文章”,而GPT-4可以同时接受图像和文本提示来执行某些操作,比如识别在塞伦盖蒂拍摄的长颈鹿图像,并给出基本的内容描述。

这是因为GPT-4是针对图像和文本数据进行培训的,而它的前身只针对文本进行了培训。OpenAI表示,培训数据来自“各种合法授权的、公开可用的数据源,其中可能包括公开可用的个人信息”,但当被要求提供细节时,布罗克曼表示拒绝。训练数据以前也曾让OpenAI陷入法律纠纷。

GPT-4的图像理解能力给人留下了相当深刻的印象。例如,输入提示“这张图片有什么好笑的?GPT-4会将整张图片分解,并正确地解释了这个笑话的笑点。

目前,只有一个合作伙伴可以使用GPT-4的图像分析功能,这是一款针对视障人士的辅助应用程序,名为Be My Eyes。布罗克曼说,在OpenAI评估风险和利弊的过程中,无论何时,更广泛的推广都将是“缓慢而有意的”。

他还称:“有些政策问题也需要解决,比如面部识别和如何处理人的图像。我们需要找出危险区域在哪里,红线在哪里,然后随着时间的推移找到解决方案。”

OpenAI在其文本到图像转换系统Dall-E 2上也遇到了类似伦理困境。在最初禁用该功能后,OpenAI允许客户上传人脸,以使用AI支持的图像生成系统对其进行编辑。当时,OpenAI声称,其安全系统的升级使面部编辑功能成为可能,因为它将深度造假以及试图创造色情、政治和暴力内容的潜在危害降至最低。

另一个长期问题是防止GPT-4在无意中被用于可能造成伤害的方式使用。该模型发布几小时后,以色列网络安全初创公司Adversa AI发布了一篇博客文章,演示了绕过OpenAI的内容过滤器并让GPT-4生成钓鱼电子邮件、对同性恋者的攻击性描述以及其他令人反感文本的方法。

高通骁龙8单核跑分

这在语言模型领域并不是新问题。Facebook母公司Meta的聊天机器人BlenderBot和OpenAI的ChatGPT也曾被诱惑输出不恰当的内容,甚至透露了它们内部工作的敏感细节。但包括记者在内的许多人曾希望,GPT-4可能会在这方面带来重大改进。

当被问及GPT-4的健壮性时,布罗克曼强调,该模型已经经过了六个月的安全培训。在内部测试中,它对OpenAI使用政策不允许的内容请求做出响应的可能性比GPT-3.5低82%,产生“事实”响应的可能性比GPT-3.5高40%。

布罗克曼说:“我们花了很多时间试图了解GPT-4的能力。我们正在不断更新,包括一系列改进,这样该模型就更具可扩展性,以适应人们希望它拥有的个性或模式。”

坦率地说,早期的现实测试结果并不是那么让人满意。除了Adversa AI测试之外,微软的聊天机器人Bing Chat也被证明非常容易越狱。使用精心设计的输入,用户能够让该聊天机器人表达爱意,发出威胁伤害,为大屠杀辩护,并发明阴谋论。

布罗克曼并未否认GPT-4在这方面的不足,但他强调了该模型的新限制工具,包括被称为“系统”消息的API级功能。系统消息本质上是为GPT-4的交互设定基调并建立界限的指令。例如,一条系统消息可能是这样写的:“你是一位总是以苏格拉底风格回答问题的导师。你永远不会给学生答案,而是总是试着问正确的问题,帮助他们学会独立思考。”

其思想是,系统消息充当护栏,防止GPT-4偏离轨道。布罗克曼说:“真正弄清楚GPT-4的语气、风格和实质一直是我们非常关注的问题。我认为我们开始更多地了解如何进行工程设计,如何拥有一个可重复的过程,让你得到对人们真正有用的可预测结果。”

布罗克曼还提到了Evals,这是OpenAI最新的开源软件框架,用于评估其AI模型的性能,这是OpenAI致力于“增强”其模型的标志。Evals允许用户开发和运行评估模型(如GPT-4)的基准测试,同时检查它们的性能,这是一种众包的模型测试方法。

布罗克曼说:“有了Evals,我们可以更好地看到用户关心的用例,并可以对其进行测试。我们之所以开源这个框架,部分原因是我们不再每隔三个月发布一个新模型以不断改进。你不会制造你不能测量的东西,对吧?但随着我们推出新版模型,我们至少可以知道发生了哪些变化。”

openai gpt2

布罗克曼还被问道,OpenAI是否会补偿人们用Evals测试它的模型?他不愿就此做出承诺,但他确实指出,在有限的时间内,OpenAI允许提出申请的Eevals用户提前访问GPT-4 API。

免费下载比特币软件

布罗克曼还谈到了GPT-4的上下文窗口,该窗口指的是模型在生成额外文本之前可以考虑的文本。OpenAI正在测试一种版本的GPT-4,它可以“记住”大约50页内容,是普通GPT-4“内存”的5倍,是GPT-3的8倍。

布罗克曼认为,扩展的上下文窗口会带来新的、以前从未探索过的用例,特别是在企业中。他设想了一款为公司打造的AI聊天机器人,它可以利用来自不同来源(包括各部门员工)的背景和知识,以一种非常内行但具有对话性的方式回答问题。

openai gpt4

这并不是一个新概念。但布罗克曼认为,GPT-4的答案将比目前其他聊天机器人和搜索引擎提供的答案有用得多。他说:“以前,模型根本不知道你是谁,你对什么感兴趣等。而拥有更大的上下文窗口肯定会让它变得更强,从而大大增强它能为人们提供的支持。”(小小)


返回网站首页

本文评论
安卓 恶意软件_Android Market出现新型恶意软件
【赛迪网讯】5月15日消息,据国外媒体报道,日前一种新型的恶意软件出现在谷歌的Android Marketplace上,并且隐藏在合法的应用程序背后。用户会被欺骗,从而下载恶意代码,目前已知...
日期:07-27
Remington雷明顿品牌为全球消费者和客户创造价值_雷明顿产品
  Remington雷明顿品牌隶属于品谱控股集团,品谱控股集团是Russell罗素1000 指数的成员之一,全球性消费品公司,提供不断扩大的领先品牌,为全球消费者和客户创造价值。   Rem...
日期:06-15
iPhone 14坐过山车误报“车祸”!官方回应让人无语
今年新推出的iPhone 14系列亮点并不算多,不过新的车祸监测功能还是非常受人关注的,经测试新功能能够在用户遭遇事故时紧急报警。然而,这一功能似乎过于灵敏,近日,海外有反馈称,多...
日期:10-11
撬动千亿市场,游戏底层公链SOG在发烫
  什么是SOG?   时至今日,游戏行业发展逐渐达到瓶颈期,目前传统游戏领域频繁出现暗箱操作、游戏核心数值被暗箱操作、玩家公平性被剥夺。针对传统游戏领域的痛点,Soul Gam...
日期:12-14
BitTitan与世纪互联蓝云携手助力Office 365在中国的用户增长
  BitTitan MigrationWiz®用户数据迁移套装方案升级版帮助中国IT专业人员和微软合作伙伴通过自动化的Office 365更快地将客户用户数据迁移到云端   中国,北京, 2019年5...
日期:02-20
东方明珠回应代理暴雪国服:不涉及与暴雪合作事项「暴雪在中国的代理」
2 月 8 日讯:据 21 财经消息,针对“代理暴雪国服”的传闻,东方明珠回应称,上市公司不涉及与暴雪合作事项,以公司官方信息披露为准。美版iphone选择运营商全球平板电脑市场份额美...
日期:02-08
数学学不好!要“对症下药”,阿尔法蛋大蛋2.0帮助精准找弱项(阿尔法蛋怎么辅导数学题)
  在大多数家长眼中,给孩子辅导数学就是梦魇,我们家也是如此。孩子今年上四年级了,数学那是一塌糊涂。老师教的跟不上,回家复习就跟看天书一样,给他买辅导书刷题没有用,报班补...
日期:07-14
stadia云游戏官网「外媒:Stadia云游戏亡于没人信任Google」
尽管英伟达 GeForce Now 和微软 Xbox Cloud Gaming 在云游戏市场吸引力相当高的关注度,但搜索巨头 Google 旗下的 Stadia 平台,还是于近日被揭示了最终的结局。7 月下旬,@Googl...
日期:10-05
传输速率更清晰 USB接口改用全新命名方式「usb各个版本传输速率」
中关村在线消息:近日,USB-IF机构宣布USB3.X和USB的命名将以全新的“USB+传输速度”的方式进行命名,即USB 5Gbps、USB 10Gbps、USB 20Gbps以及USB 40Gbps。据了解,USB-IF机构已经...
日期:10-05
产业年会信号明确:春潮涌动、价值重估,游戏行业步入下一阶段
声明:本文来自于微信公众号 游戏葡萄(ID:youxiputao),作者:以撒,授权转载发布。多年以后,游戏人回想起的2022年大概不会很美好——资本市场传来的寒气、大规模裁员的压抑、爆款缺...
日期:02-15
引领能源数字化变革 能链集团(车主邦/团油/快电)获德勤中国颁发“朝阳明日之星”
  11月13日,由德勤中国与中关村科技园区朝阳园管理委员会联合主办的“2019北京朝阳高科技高成长20强暨朝阳明日之星”颁奖典礼在北京市朝阳区举行,能链集团(车主邦/团油/快...
日期:12-19
最帅国产猎装车!极氪001高速自主领航辅助系统开启测试
近日消息,快科技从极氪汽车官方获悉,极氪携双车正式亮相CES2023展会,同时推出了ZEEK RxmobileyeNZP高速领航辅助驾驶系统,具备L4级智能驾驶能力车型即将落地美国。同时官方宣布...
日期:01-07
拉手网精英私奔窝窝团  股权激励成人才磁场
正当酷六员工无故被裁事件如火如荼之时,团购行业又爆出另一个人才流失的重磅炸弹:拉手网华东大区200多名精英全体跳槽。 有人戏称,这是拉手网骨干与窝窝团一场“私奔”。不过...
日期:07-28
直播间使用音乐要付版权费,试行付酬标准公布_直播电影版权费用
随着直播行业的蓬勃发展,互联网直播中使用音乐相关版权问题一直被社会关注。直播间使用音乐版权怎么付费?付多少费?一直缺乏具体的行业标准和参考依据。昨天(25日),中国音像著作权...
日期:07-31
微软 Edge 浏览器 Canary 版现已支持打开 Office 文档_文件已在microsoft edge中打开
  微软 Edge 浏览器正式版目前为 89 版本,每日更新的 Canary 预览版目前已经来到了 90.0.803.0 版。根据外媒 Techreader 消息,这款浏览器已经支持打开多种 Office 文档,此...
日期:07-16
分析师:苹果推迟至2023年初推出新款27英寸mini LED显示屏_iphone什么时候用mini led
10月8日消息,据国外媒体报道,显示屏供应链咨询公司分析师罗斯·杨(Ross Young)称,苹果已将带有mini LED背光的新款27英寸显示屏的发布时间推迟到2023年第一季度。据悉,这款27英寸...
日期:10-10
LG成立6G研究中心(lg经济研究院 北京)
  (原标题:LG成立6G研究中心 欲引领未来通信市场)   北京时间1月28日晚间消息,LG电子今日宣布,公司正着手实施6G通信技术的研发计划,以便引领未来市场。   LG已在位于韩...
日期:12-02
蚂蚁集团每年利润_阿里巴巴:蚂蚁集团为第一季度贡献5.55亿美元利润
讯 北京时间8月4日晚间消息,阿里巴巴(NYSE:BABA;HK:09988)今日发布了截至2022年6月30日的2023财年第一季度及全年财报(注:阿里巴巴财年与自然年不同步,从每年的4月1日开始,至第二年...
日期:08-05
拼多多2022年Q3营收355亿 Non-GAAP净利润同比大增295%「拼多多2020q4财报」
凤凰网科技讯 11月28日消息,拼多多发布2022年第三季度业绩报告。财报显示,拼多多三季度营收355亿元,同比增长65.1%;在美国通用会计准则下,拼多多归母净利润为105.9亿元,同比增长54...
日期:12-04
ios15 发热严重「发热、信号bug频出 沈义人吐槽苹果iOS 16:稳定性最差一代」
两周前,伴随着iPhone 14系列的上市,苹果也正式推送了iOS 16系统,这本来是一次大版本更新,带来了不少新功能,然而没等果粉享受各种新功能,最近吐槽iOS 16问题多的网友占了上风。就...
日期:10-04