您的位置:首页 > 互联网

Meta华人提出语言模型Shepherd 用于评估模型生成

发布时间:2023-08-15 19:06:47  来源:互联网     背景:

8月15日 消息:最近,Meta AI 提出了一种新的语言模型叫做 "牧羊人"(Shepherd),用于评估其他模型生成的文本,并给出改进建议。这个模型使用了约70亿个参数,并通过社区反馈和人工标注的数据集来进行训练。

顺丰快递无人机是自己研发的

"牧羊人" 模型的评估结果显示,在与其他竞争模型进行比较时,它的平均胜率为53-87%,远高于其他模型。此外,在人工评估中,"牧羊人" 模型的表现也优于其他模型,与 ChatGPT 相当。

该模型的特点之一是能够生成自然语言的反馈,包括总体判断、一般建议以及领域知识等。它可以识别文本中的问题,如事实性、逻辑错误、连贯性和一致性,并提出改进建议。

image.png

10.21日华为发布会

论文地址:https://arxiv.org/pdf/2308.04592.pdf

为了微调和评估 "牧羊人" 模型,研究人员创建了一个高质量的反馈数据集,包括社区反馈和人工标注的反馈。通过使用 GPT-4作为评估工具,并选择了6个涵盖广泛主题和推理技能的数据集进行评估。

研究人员发现,"牧羊人" 模型在批判模型生成方面的能力优于其他模型,尤其是在提供正确判断的反馈方面。同时,社区反馈和人工标注的反馈数据对模型的性能有不同的影响,社区反馈更多样化但非正式,而人工标注的数据信息量更大。

image.png

全新一代比亚迪元

总的来说,"牧羊人" 模型展示出了令人印象深刻的结果,在多个下游任务中表现优于其他模型。这一研究对于改进语言模型生成的可靠性非常有益。

语言模型的特点包括:

  • 能够生成连贯、有语境和语义的文本。

  • 能够识别问题,并提供改进建议。

  • 可以涉及领域知识,给出相关的建议。

  • 可以通过社区反馈和人工标注的数据进行微调和评估。

  • 在批判模型生成方面表现优于其他模型。

  • 在多个下游任务中的表现优于其他模型。

  • 对不同类型的任务都能提供反馈。


返回网站首页

本文评论
贴吧“2010全球人气榜”揭晓李宇春、李毅问鼎榜首
  1月4日消息,百度旗下全球最大中文社区贴吧发起的“全球明星人气榜”评选日前圆满落幕,选秀女皇李宇春凭借3.6亿的超高人气支持率成为本次评选最大的赢家,韩国组合“东方神...
日期:07-25
Firefox将获全新安全沙盒系统:C/C ++中太容易犯危险错误(firefox面临潜在的安全风险)
  Mozilla 将向 Linux 和 Mac 上的 Firefox 添加新的安全沙盒系统,这项名为 RLBox 的新技术通过将第三方库与应用程序的本机代码分离开来工作,防止恶意代码逃逸到第三方库...
日期:05-27
火箭发射成功!印度信心爆棚:再扔大招 将进行载人航天测试_印度发射火箭成功了吗
很显然,现在印度在航天飞行方面信心爆棚,其宣布将从明年2月开始为其首次载人航天进行一系列飞行测试。soul猫控印度空间研究组织载人航天飞行中心主任乌马马赫什瓦兰在于新德...
日期:10-31
新浪微博网页版「新浪&微博2023教育盛典优秀人物及机构提名启动」
  “风吹草不折,弱极而生刚”,经历了2022年的艰难探索、触底和转折,中国教育行业迎来了韧性重启的2023年。  AI算力算法数据应用不断突破创新,在教学、学习、测评等环节的逐...
日期:08-02
京东商城与红孩子厮杀,一家一户迎来发展良机
泉城在线讯  京东商城目前已经宣布进军母婴类商品,这意味着京东将于红孩子等进行殊死搏杀,在数码领域春风得意的京东商城必然在百货领域志在必得,国内B2C市场的竞 争越来越...
日期:07-29
JetBrains 发布 2020 年度亮点:IDEA 中国用户最多_JetBrains IntelliJ IDEA
  2月7日消息 著名软件开发公司 JetBrains 已发布 2020 年度亮点,数据显示,已有 1010 万名开发者使用 JetBrains 旗下开发工具。   在 2020 年客户增长方面,JetBrains 在...
日期:07-16
OPPO再次助力听障儿童救助,袁娅维唱响爱的分贝
  近日,OPPO Enco 耳机联合腾讯公益与北京爱的分贝公益基金会,邀请唱作人袁娅维与听障小朋友组建“听不见的乐队”,共同录制MV。旨在筹集公益善款,为听障儿童升级人工耳蜗体...
日期:07-16
玄武.即信融媒体管理平台一站式解决“采编发统” 开启主流媒体互融时代
  媒体融合 未触及本质   CTR曾对38家电视台、十大央媒的融媒体传播力进行了盘点,形成了CTR网络传播力评估体系。从数据中可以发现,有很多账号没有进行更新,也没有形成品...
日期:04-13
UPWAN智能网关试用来袭,走进梦想小镇
  近日,杭州商湾网络科技有限公司推出的新产品“UPWAN智能网关”开启了第二场园区宣讲会,基于10月第一场园区宣讲会的经验,为了给产品收集更多建议和意见,UPWAN智能网关第二...
日期:06-17
微软CEO纳德拉谈GPT-4:实现童年梦想,引领人工智能未来_微软ceo纳德拉同理心
6月17日 消息:近日,微软首席执行官萨蒂亚・纳德拉(Satya Nadella)在接受《连线》杂志的史蒂文・利维(Steven Levy)采访时,谈到了微软的人工智能计划以及他对生成式 AI 的看法。纳...
日期:06-17
机构预计今年全球半导体市场规模降至5800亿美元 明年仍将继续下滑
11月30日消息,据国外媒体报道,进入下半年之后,受消费电子产品需求下滑导致的半导体部件需求减少影响,去年同比大增26.2%的半导体市场,规模预计也会明显下滑。天猫的锦鲤大礼包研...
日期:12-01
oled屏幕的iPhone「有望用上OLED面板!曝苹果考虑为iPhone SE 4配备5.7英寸至6.1英寸屏幕」
据Macrumors报道,苹果尚未最终确定其计划中的2024年iPhone SE4的显示屏尺寸,显示器分析师Ross Young今天在与Super Followers分享的一条推文中表示。苹果正在考虑与屏幕尺寸和...
日期:11-05
高德地图国际版叫什么「高德即将上线国际图服务,初期即可覆盖全球超200个国家和地区」
7月26日消息,近日,高德地图正式宣布即将上线国际图服务,初期即可覆盖全球超200个国家和地区。高德地图ar导航连接360行车记录仪疫情下京东的企业战略高德集团总裁刘振飞表示,国...
日期:07-26
迪士尼玲娜贝儿头部被男子拍打 专家科普:内有钢架 可能造成脑震荡
1月7日,上海迪士尼度假区内,一名男性游客突然伸手拍打了玲娜贝儿”人偶的头部,受到不少网友指责。网传视频中,玲娜贝儿”人偶与工作人员一起前行,路边有不少粉丝正在与人偶互动,其...
日期:01-08
洞悉用户需求,ColorOS 7.2 带来更人性化游戏体验(coloros7.1好用吗)
  近日,电视剧《穿越火线》又一次引发大众对电竞行业的关注。剧中的主人公们在参加比赛时通常会自带鼠标键盘,以此改善游戏体验,提高游戏胜率。而在逐渐火热的手游领域里,各...
日期:07-15
她成抖音新晋顶流女网红!视频爆火,卖女装销售额几千万。_抖音女装网红排名
声明:本文来自于微信公众号运营公举小磊磊(ID:gongjulei),作者:运营公举小磊磊 授权转载发布。很多年轻人应该刷到过这条视频。一群年轻漂亮的女生在天幕下跳着舞,背景音乐响起...
日期:05-01
三星明年旗舰机确定!三星S23系列价格十分诱人!「三星手机s23」
三星今年的策略更加激进,虽然前几年的表现较为一般,但今年新机进度明显得到了快速提升,并且新机的设计也更加激进。从传统的全面屏到创新的折叠屏,三星的各类高端旗舰机可谓是全...
日期:09-24
Gurman:苹果将于 6 月 WWDC 推出多款新品  watchOS系 统将带来大更新
4月17日消息:彭博社 Mark Gurman 在其 PowerOn 时事通讯中撰文指出,苹果公司将于 6 月举办的全球开发者大会将是该公司历史上最关键的事件之一——这是一个预示后 iPhone 时...
日期:04-17
中国电信陈鹏:6G从愿景阶段进入“技术标准时间”_中国电信六大理念
通信世界网消息(CWW)日前,国际电信联盟(ITU)完成了《IMT面向2030及未来发展的框架和总体目标建议书》(以下简称《建议书》)。这成为了6G发展的里程碑,标志着6G愿景研究已取得基础共...
日期:08-02
用卖货思维运营产品月入300万,转型成品牌逻辑能让GMV翻倍吗?
声明:本文来自于微信公众号 楠开口(ID:nnvoice),作者:Sally楠,授权转载发布。最近收到一个品牌的电话咨询,我觉得他品牌成长的经历,是很多其他品牌都会经历的阶段,也是或早或晚需要...
日期:12-13