您的位置:首页 > 互联网

研究显示 ChatGPT 4.0 在事实核查中优于谷歌 Bard、微软 Bing AI 等其他模型

发布时间:2023-07-18 23:27:25  来源:互联网     背景:

7月18日消息:大型语言模型(LLM)是自然语言处理(NLP)技术的进化,能够快速生成与人类写作相似的文本并完成其他简单的与语言相关的任务。自 OpenAI 发布高性能的 ChatGPT 之后,这些模型变得越来越受欢迎。

OpenAI,ChatGPT,人工智能,AI

傲软投屏有回音怎么回事

迄今为止,研究主要评估 LLM 的能力,例如创建写作流畅的文本、定义特定术语、撰写论文或其他文件以及生成有效的计算机代码。然而,这些模型在解决其他真实世界问题,包括假新闻和虚假信息方面也具有潜在的帮助。

威斯康星大学斯托特分校的研究员 Kevin Matthe Caramancion 最近进行了一项研究,评估迄今为止最知名的 LLM 能否检测新闻故事的真实性或虚假性。他在 arXiv 上发表的论文提供了有价值的见解,这可能有助于今后使用这些先进模型来对抗在线的错误信息

美股又创新高

Caramancion 告诉 Tech Xplore 说:「我最近的论文灵感来自于了解各种 LLM 在对抗错误信息方面的能力和局限性的需求。我的目标是通过一个受控模拟和已建立的事实核查机构作为基准,对这些模型的熟练程度进行严格测试,以辨别真实与虚构的能力。」

三星手机为什么放弃中国市场

Caramancion 表示:「我们使用 100 个经过独立事实核查机构核实的新闻项目作为测试套件,评估了这些大型语言模型的性能。我们将每个新闻项目在受控条件下呈现给模型,然后将它们的回应分类为「真实」、「虚假」和「部分真实/虚假」。根据与独立机构提供的核实事实相比较,测量了模型的有效性。」

随着互联网和社交媒体的迅速发展,不管信息是真实还是虚假,错误信息已经成为近几十年来的一个重要挑战。许多计算机科学家一直在努力开发更好的事实核查工具和平台,使用户能够验证他们在网上阅读到的新闻。

尽管迄今为止已经创建和测试了许多事实核查工具,但仍缺乏一个被广泛接受和可靠的模型来对抗错误信息。作为他研究的一部分,Caramancion 致力于确定现有 LLM 在解决这一全球性问题方面的有效性。

高通所有手机芯片发布时间

他具体评估了四个 LLM 的性能,分别是 OpenAI 的 ChatGPT-3.0 和 ChatGPT-4.0、Google 的 Bard/LaMDA 和微软的 Bing AI。Caramancion 给这些模型提供了相同的事实核查过的新闻故事,然后比较它们在确定故事的真实性、虚假性或部分真实/虚假性方面的能力。

Caramancion 表示:「我们对主要 LLM 的区分事实和虚构能力进行了比较评估。我们发现 OpenAI 的 GPT-4.0 表现最佳,这暗示了较新的 LLM 的进步。然而,所有模型都落后于人类事实核查员,强调了人类认知不可替代的价值。这些发现可能导致更加关注开发用于事实核查的人工智能能力,同时确保与人类技能的平衡、共生整合。」

Caramancion 进行的评估表明,ChatGPT 4.0 在事实核查任务上明显优于其他知名的 LLM。进一步对更多虚假新闻进行测试的研究可能有助于验证这一发现。

研究人员还发现,人类事实核查员仍然优于他评估的所有主要 LLM。他的研究凸显了需要进一步改进这些模型或将它们与人类工作者的工作相结合,如果要将它们应用于事实核查工作。

Caramancion 补充说:「我的未来研究计划集中在研究人工智能能力的发展,重点是如何利用这些进展,同时不忽视人类独特的认知能力。我们的目标是改进我们的测试协议,探索新的 LLM,并进一步研究在新闻事实核查领域人类认知和人工智能技术之间的相互关系。」


返回网站首页

本文评论
古尔曼爆料:苹果今年会推出15英寸MacBook Air
IT之家 1 月 9 日消息,根据彭博社马克・古尔曼(Mark Gurman)分享的最新消息,苹果在今年会推出屏幕尺寸更大的 15 英寸 MacBook Air,但不会推出采用 Apple Silicone 的 12 英寸 Ma...
日期:01-09
三星note21渲染图_Galaxy S22 Ultra渲染图曝光
  12 月 31 日消息,今天爆料人士 @evleaks 曝光了三星 Galaxy S22 Ultra 高清渲染图,预计是新配色,搭载了气泡状的摄像头阵列,以及 Note-esque 的平坦边缘。这一刻三星“Note...
日期:07-17
【秒懂知识库】如何鉴别手机屏幕的好坏?「如何辨别手机屏幕的好坏」
我们在选择手机的时候,屏幕素质是很多用户的第一诉求,屏幕作为唯一的图像出口,手机厂商每年也在不断迭代手机面板的素质,手机屏幕的选择同场要看分辨率、刷新率、触控采样率、屏...
日期:03-08
微博将于9月1日发布2022年第二季度财报_新浪微博2019年财报
查看最新行情   中国北京/2022年8月16日— 专供人们创作、分享和发现内容的领先社交媒体平台微博公司 (NASDAQ GS: WB; HKEX: 9898) 定于美国东部时间...
日期:08-22
从耿乐到马保力:同性社交软件 Blued的魔幻2020
  2020年疫情最严重的时期,憋坏了的基友们都在干啥?   答案可能是:打开小软件,看直播,打赏。   数据显示,社交隔离最严格的2020年第一季度,单个Blued用户直播娱乐平...
日期:03-27
Meta元宇宙「Meta高管:明年20%开支将被继续投入到元宇宙中」
12月20日消息,美国当地时间周一,Facebook母公司Meta首席技术官发文,宣布其在2023年将继续将总支出成本的20%用于Reality Labs,后者是Meta元宇宙计划的主要构成部分。ipad2017pro...
日期:12-20
新能源中型SUV 深蓝S7预售价16.99万「深蓝vol」
近日,深蓝S7作为一款新能源中型SUV即将于6月25日公布售价。目前,该车型已开启预订,预订价格区间为16.99-23.99万元,并计划在6月底交付。三星galaxys3安卓11深蓝S7采用了长安EPA1...
日期:06-22
台积电5nm每月产能_从台积电预期来看 他们5nm工艺四季度营收将超过26亿美元
10月21日消息,据国外媒体报道,台积电目前最先进的 5nm工艺,在今年一季度大规模投产,为苹果等客户代工最新的处理器,在他们三季度121.4亿美元的营收中,就有8%是来自于5nm工艺。从台...
日期:08-01
折叠屏这么好卖?三星称Galaxy Fold已售100万台_折叠屏手机三星Fold京东11.11正式首发!尽享超级百亿补贴!
  2019年11月8日,备受瞩目的三星GALAXY Fold终于登陆中国大陆市场,这款拥有颠覆现有设计的划时代手机产品,从发布之初就震惊了全球消费者。三星GALALXY Fold在展开之后可以...
日期:02-09
山东能源携手华为发布全球首个矿山领域商用人工智能大模型「华为 山东能源」
通信世界网消息(CWW)7月18日,山东能源集团(下称“山东能源”)、华为、云鼎科技联手发布全球首个商用于能源行业的AI大模型——盘古矿山大模型。这将解决人工智能在矿山领域落地难...
日期:07-18
识字课步骤_怎么教小孩识字?幼学中文“分课时法”超有效
  怎么教小孩识字?成为了很多新手妈妈面临的“世纪难题”之一。为孩子报幼教班,家长无法实时衡量具体效果,且费用昂贵;为孩子买各类识字绘本、识字帖在家学习,家长可以亲自...
日期:01-15
口腔溃疡越来越重「男子口腔溃疡一年暴瘦62斤 一查竟患罕见病 医生:小病也得注意」
日常生活中,我们每个人都有可能会出现一些不起眼的小毛病,不过不要小瞧它们,有可能就隐藏着巨大的祸患。华为mate50还会上市么据@白鹿视频 报道,近日在浙江杭州,徐先生就因为口腔...
日期:11-30
AMD新CPU冲上192核心384线程 无敌了「amd4核8线程cpu有哪些」
AMD Zen4家族的EPYC霄龙系列已经进行了基本的布局,为企业和数据中心提供了多个不同类型的处理器选择。首先是通用型的Genoa Zen4架构处理器,拥有96核心192线程。这款处理器适...
日期:07-05
抗“疫”进行时——迪普科技安全服务保障各行业IT系统
  疫情来势凶猛,举国众志成城。自疫情发生以来,迪普科技密切关注疫情发展,特成立疫情抗击应急保障支撑工作组,在原有响应体系上建立了应急工作机制,为打赢本次保卫战持续贡献...
日期:06-18
中国移动智慧家庭运营中心创新智能语音适老化产品,助力应对人口老龄化
通信世界网消息(CWW)人口老龄化是社会发展的重要趋势,也是今后较长一段时期我国的基本国情。《国家积极应对人口老龄化中长期规划》指出,要加大老年健康科技支撑力度,加强老年辅...
日期:05-27
microsoft edge隐私_Edge 隐私性最差?微软回应:数据用于产品改进
  近日,来自爱尔兰都柏林三一学院的计算机科学与统计学院的 Douglas J Leith 团队的一项研究结果指出:在其测试的六个浏览器中,Edge 和 Yandex 浏览器隐私性最差,Brave、Chro...
日期:10-11
历时15年 微软Office启用全新默认字体Aptos:这效果喜欢吗?
快科技7月14日讯,微软今日宣布,将以新的无衬线字体Aptos取代Calibri,作为Office套件如Word、Outlook、PowerPoint、Excel的默认字体。Aptos(曾用名Bierstadt)字体的灵感来自20世...
日期:07-14
解构隐私信息泄漏难题,数安行提出数据运营安全新理念(用户信息安全)
  近年来,随着全球信息化和数字化程度的不断加深,人类的生产生活方式正在发生深刻的变革,全球各行业都在加速数字化转型的进程。而作为时代高速发展的核心动力,“数据”...
日期:09-15
拉萨市主干道“一路绿灯” 千方科技打造高原数字化治理“样本”
  “最近几周,早晚高峰期间只要保持一定的行驶速度,一路遇到的都是绿灯,感觉顺畅多了!”近日,拉萨市出租车司机罗布桑珠在接受《西藏商报》记者采访时说。   “一路绿灯”...
日期:07-10
佳能数码相机官方网址「佳能数码相机官方网」
佳能数码相机是市场占有率非常高的一款数码相机品牌,其官方网站也是众所周知的,在这里,用户可以浏览官方展示的各种数码相机的型号、功能、特点等信息,也可以了解到佳能数码相机...
日期:05-30