您的位置:首页 > 互联网

Salesforce新AI模型可改善数据分析 XGen-7B基准测试超越Meta的LLaMA-7B

发布时间:2023-07-04 15:01:40  来源:互联网     背景:

<script> var cid = "1539808".toString(); var czPay = localStorage.getItem('czpay'); if(czPay != null){ if(czPay.indexOf(cid)!=-1){ var pids = czPay.split(',') for(let i=0;i

7月4日 消息:随着对AI工具的需求增加,对能够完成更多任务的系统的需求也越来越大。

企业可以通过拥有像ChatGPT或Bard这样的聊天界面来受益,这些界面能够对冗长的文件进行摘要或筛选客户数据以获取见解。但要执行这些任务,模型需要经过大量数据的训练。而企业通常选择了更小、更具成本效益的模型,问题在于这些模型无法很好地处理这些任务。

像Meta的LLaMA、Falcon-7B和MPT-7B等开源模型,其最大序列长度约为2,000个token,使得它们难以处理像文件这样的冗长非结构化数据。

这也是Salesforce推出的一系列大型语言模型XGen-7B的原因,XGen-7B在长达8,000个token的序列上进行训练,因此更容易处理冗长的文档输入,总共可处理1.5万亿个token。

Salesforce的研究人员使用Salesforce内部的库JaxFormer以及公共领域的教学数据对这一系列70亿参数的模型进行训练。

与LLaMA、Falcon和Redpajama等开源模型相比,所得到的模型在性能上达到或超过了它们。

Salesforce的AI研究人员表示,使用Google Cloud的TPU-v4云计算平台,在1万亿个token上训练这个模型只需花费15万美元。

XGen-7B基准测试亮眼

Salesforce的模型在一系列基准测试中取得了令人印象深刻的成绩,在许多方面都超过了受欢迎的开源大型语言模型。

在对“Measuring Massive Multitask Language Understanding(MMLU)”基准测试进行测试时,XGen在四个测试类别中有三个类别取得了最高分,而且在加权平均分中也是最高的。只有Meta的LLaMA在人文学科方面的MMLU测试中比XGen得分更高。

image.png

在同一基准测试的零样本测试中,XGen取得了类似的结果,但在人文学科方面仍然不及LLaMA。

就整体零样本测试而言,XGen只在“TruthfulQA”基准测试中超过了其他模型。在包括ARC_ch、Hella Swag和Winogrande在内的基准测试中,Meta的LLaMA取得了更好的结果。

然而,在代码生成任务上,XGen在评估基准测试的pass@1指标上超过了LLaMA和其他模型,得分为14.20,而LLaMA只有10.38。

在长序列任务中,Salesforce的这个新AI模型表现最出色,在SCROLLS基准测试的QMSum和GovReport数据集上得分非常高。

image.png

不过,Salesforce的研究人员指出,由于XGen模型没有在相同的教学数据上进行训练,“它们不是严格可比较的”。

XGen-7B系列

Salesforce的研究人员创建了三个模型——XGen-7B-4K-base、XGen-7B-8K-base和XGen-7B-inst。

XGen-7B-4K-base能够处理8000亿个上下文token,它是在2,000个token,后来又是4,000个token上进行训练的。它以Apache-2.0许可发布,这意味着可以根据不同的许可协议分发派生作品,但所有未修改的组件必须使用Apache2.0许可。

image.png

XGen-7B-8K-base在之前提到的模型的基础上增加了3000亿个token,使其总的上下文理解能力达到了1.5万亿个token。这个模型也以Apache2.0许可发布。

XGen-7B-inst在公共领域的教学数据上进行了微调,包括databricks-dolly-15k、oasst1、Baize和与GPT相关的数据集。该模型在4,000个和8,000个token上进行了训练,仅用于研究目的。

为了训练这些模型,Salesforce的研究人员采用了两阶段的训练策略,每个阶段使用不同的数据混合。

团队解释说:“对于C4,我们使用C4流程处理了6个Common Crawl转储,并通过仅保留具有相同URL的文档中的最新时间戳,跨不同的转储去重了文档。我们训练了一个线性模型,将C4数据分类为类似于维基百科的文档和随机文档。然后,我们选择了前20%的类似于维基百科的文档。”

然后,将Salesforce和Hugging Face创建的代码生成模型Starcoder添加到支持代码生成任务。然后将Starcoder的核心数据与前一阶段的数据混合。

然后使用OpenAI的tiktoken对模型的数据进行token化,随后添加了连续空白和制表符的额外token。

虽然XGen的训练过程得到了一系列功能强大的AI模型,但也存在一些缺陷。Salesforce指出,该模型仍然存在幻觉问题。

有关XGen-7B的更多信息,Salesforce在其博客上发布了一篇详细的文章。模型的代码库可以在GitHub上找到,模型的检查点可以在Hugging Face上找到。

上下文至关重要

能够理解更长输入的模型对企业来说可能是一个巨大的优势。

Salesforce的研究人员表示,大量的上下文“使得预训练的语言模型能够查看客户数据并对有用的信息查询做出回应”。

对于聊天机器人应用来说,更多的上下文意味着更多的对话。Salesforce并不是唯一一个研究这一概念的组织。Anthropic是由OpenAI的前员工创办的新兴AI初创公司,最近扩大了其旗舰应用Claude的上下文长度。

Claude现在可以用于从多个冗长的商业文件或书籍中获取信息,用户可以询问有关数据的问题。

目前的模型在增加上下文长度方面存在困难。当ChatGPT和Bing的AI聊天等应用开始出现时,用户发现他们在单个对话中使用模型的时间越长,模型的回应变得越来越不稳定。这是由于模型无法处理较长的上下文长度,导致混淆和产生幻觉。

XGen-7B项目网址:https://blog.salesforceairesearch.com/xgen/

杨幂代言手机realme


返回网站首页

本文评论
网络视频通话服务商Tango先于Skype获微软WP支持
  尽管网络视频通话服务提供商Tango的规模远小于Skype,而且并非微软嫡系,但依旧先于Skype获得了微软Windows Phone芒果平台的支持。   虽然微软最近斥资85亿美元收购了Sk...
日期:07-24
Intel Arc显卡驱动升级 性能提升1.3倍_amd显卡驱动升级
Intel Arc锐炫显卡驱动最近有更新了,而且相当给力,尤其是游戏兼容性改善、性能提升的惊人幅度肉眼可见。Intel面向Arc锐炫显卡、锐炬Xe核显放出了最新驱动31.0.101.4514,驱动针...
日期:06-29
AVG:节日问候需注意,端午打折藏玄机
  随着中国传统节日端午节的临近,大家都开始筹划自己的3天小假如何度过,而公司的行政部门也开始为自己服务已久的客户和公司员工准备端午福利。依托网络的便利性和公司采购...
日期:07-28
微软在中国的数据中心_微软正在芬兰建造全新数据中心
  据 onMSFT 报道,去年早些时候,微软表示,它计划每年建造 50-100 个数据中心。而事实证明,该项目正在顺利进行,通过今天早些时候的公告,微软确认正在计划在芬兰南部建立一个新...
日期:07-18
英特尔 12 代 CPU 年底到来,LGA1700 大变样:预计大部分散热器无法再使用
  6 月 28 日消息 外媒 Igor'sLAB 的 gor Wallosek 透露了新的 LGA1700 主板插座的进一步细节,该接口将在今年晚些时候伴随第 12 代酷睿“Alder Lake-S”系列一同到来。...
日期:10-23
华为p4_华为p40换屏幕多少钱
近日,有关华为P4的消息引起了广泛关注。华为P4是一款全新的智能手机,它的亮相引起了众多消费者的热议。以下是对华为P4的相关信息进行整理:造型设计:从网传的实拍图来看,华为P4的...
日期:05-29
快手2022年第四季度财报:营收283亿元 同比增长15.8%
3月29日 消息:快手发布财报称,2022年第四季度营收283亿元,上年同期营收244.3亿元,同比增长15.8%,第四季度净亏损15亿元,上年同期净亏损62亿元。2022年总营收达942亿元,同比增长16....
日期:03-29
社交出海转舵做游戏,大佬们靠的是什么?「船舶转舵后对船舶产生哪些影响?」
声明:本文来自于微信公众号 游戏新知(ID:youxixinzhi),作者:鳗鱼,授权转载发布。社交曾是出海的热点战场,而像赤子城和雅乐这样的社交行业大佬则在游戏行业有另一番动作。这两家...
日期:03-16
百度推出AI入门必修课系列 7日打卡拿下强化学习(百度AI课程)
  风靡一时的《Flappy Bird》也算是虐遍人类玩家。游戏规则很简单,玩家在游戏时只需保持小鸟的飞行状态,并时刻躲避障碍物防止撞到即可。这个似乎“有些傻瓜”的游戏却让全...
日期:07-14
华为P50 Pocket新版月底发布:芯片换了 更便宜了「华为p50有芯片吗」
傍晚有消息称,华为P50 Pocket新版月底发布,在月底的华为还将举行一次发布会,其中的主角或将为“华为P50 Pocket new”。华为P50 Pocket new早先就已入网,有专家称新款可能在配置...
日期:10-06
上海一日料店烤2个鸽子蛋标价50元 网友:这是神仙蛋吗?「上海鸽蛋多少钱一个」
近日,一位美食博主在微博上晒出在一家日式烧鸟店消费后的账单,其中一份烤荷包蛋的价格却高达50元,让不少网友大吃一惊。rtx3080最低cpu除了“头”一串10元,“野菜串”40元之外,其...
日期:02-08
自制兔子烟雾加湿器 手工耿出新作:边骑边喷还能放音乐
马上就要进入农历兔年,坐拥数百万粉丝的网络红人手工耿,又整出了新活,堪称大制作。据其讲述,冬天比较干燥,需要进行加湿,但普通的烟雾加湿器使用起来比较麻烦,太累人,于是决定制作替...
日期:01-17
华为手机冲刺高端稳了:Mate 50卖爆「顶级华为冲刺销量」
根据Omdia最新数据显示,今年一季度和二季度,华为手机出货量分别为560万部和640万部。在国内智能手机市场,华为手机出货量大幅下滑,整体份额都在下滑。但预计这一情况会在四季度...
日期:09-30
京东供应链金融现状「京东供应链金融科技双11预计为中小微企业累计提额超160亿元」
10月28日消息,2022京东11.11期间,京东供应链金融科技以数智化供应链+供应链金融的“双链联动”模式,有效连接消费互联网和产业互联网,为中小微企业提供包括信用贷款、应收融资、...
日期:11-11
《惊奇队长》大热  用迅雷APP再度重温漫威经典(惊奇队长迅雷超清)
  今年的三月很不一样,因为《惊奇队长》全球上映,漫威迷们又沸腾了!片中大量的揭秘内容和彩蛋让人目不暇接,大呼过瘾。相信大家看完影片之后,第一件事就是打算借此机会重温一...
日期:04-20
17日:谷歌I/O将推Android 2.2等产品(谷歌正式发布Android 12)
  美国   pcworld.com:微软称Office 2010是Office软件中最简单的版本   微软称,Office 2010是这个软件中最具创新的和最容易使用的版本。用户很容易从以前的版本升级到...
日期:07-29
元宇宙时代来临,世优科技纪智辉给出、二、三代虚拟数字人边界的定义
2021 年成了当之无愧的元宇宙元年。科技圈、资本圈、文化圈、大企业的想象力都被“元宇宙”撩拨起来,纷纷发力布局。元宇宙也顺其自然的成为业界热门的下一代互联网平台。虚...
日期:08-01
18分钟扩容1万台云服务器,阿里云通过可信云虚拟云平台性能测试_云计算高可靠性
  7月27日,在可信云大会上,中国信息通信研究院发布了《虚拟化云平台性能评估方法》,同时,宣布了阿里云成为首个通过“虚拟化云平台性能测试(大规模)”的云厂商,并获得“...
日期:01-12
华云数据蝉联2019年中国互联网企业100强 排名上升(2019年中国互联网成长型企业20强)
      8月14日,由中国互联网协会、工业和信息化部网络安全产业发展中心(工业和信息化部信息中心)联合举办的2019年中国互联网企业100强发布会暨百强企业高峰论坛在京举行...
日期:07-11
小米年货节「小米年货节时间」
是一年一度的购物盛宴,旨在庆祝春节和新年的到来。这一节日通常在中国农历新年前后举办,可以享受到丰富多彩的促销活动和限时优惠。2022年,将于1月16日开始,至2月6日结束。在期...
日期:05-31