您的位置:首页 > 互联网

开源mod「开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用」

发布时间:2024-02-22 13:16:10  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

刚刚,谷歌杀入开源大模型。

支付宝apple专区赠icloud

开源领域大模型,迎来了重磅新玩家。

谷歌推出了全新的开源模型系列Gemma。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。

Gemma 官方页面:https://ai.google.dev/gemma/

本次发布包含两种权重规模的模型:Gemma2B 和 Gemma7B。每种规模都有预训练和指令微调版本。想使用的人可以通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。

当然,Gemma 也第一时间上线了 HuggingFace 和 HuggingChat,每个人都能试一下它的生成能力:

尽管体量较小,但谷歌表示 Gemma 模型已经在关键基准测试中明显超越了更大的模型,对比的包括 Llama-27B 和13B,以及风头正劲的 Mistral7B。

而且 Gemma能够直接在开发人员的笔记本电脑或台式电脑上运行。除了轻量级模型之外,谷歌还推出了鼓励协作的工具以及负责任地使用这些模型的指南。

Keras 作者 François Chollet 对此直接表示:最强开源大模型的位置现在易主了。

在 HuggingFace 的 LLM leaderboard 上,Gemma 的2B 和7B 模型已经双双登顶。

新的 Responsible Generative AI Toolkit 为使用 Gemma 创建更安全的 AI 应用程序提供指导和必备工具。谷歌还通过原生 Keras3.0兼容所有主流框架(JAX、PyTorch 和 TensorFlow),为 Gemma 提供推理和监督微调(SFT)的工具链。

在各家大厂和人工智能研究机构探索千亿级多模态大模型的同时,很多创业公司也正在致力于构建体量在数十亿级别的语言模型。而 Meta 去年推出的 Llama 系列震动了行业,并引发了人们对于生成式 AI 开源和闭源路线的讨论。

谷歌表示,Gemma 采用了与构建 Gemini 模型相同的研究和技术。不过,Gemma 直接打入开源生态系统的出场方式,与 Gemini 截然不同。谷歌也并未遵守在去年定下的不再开放核心技术的策略。

虽然开发者可以在 Gemini 的基础上进行开发,但要么通过 API,要么在谷歌的 Vertex AI 平台上进行开发,被认为是一种封闭的模式。与同为闭源路线的 OpenAI 相比,未见优势。

但借助此次 Gemma 的开源,谷歌或许能够吸引更多的人使用自己的 AI 模型,而不是直接投奔 Meta、Mistral 这样的竞争对手。

谷歌这次没有预告的开源,或许是想抢在 Meta 的 Llama3之前一天,毕竟此前有消息称 Llama 系列本周就要上新(让我们期待第一时间的评测对比)。

对职业索赔人说不

虽然才发布几个小时,但 X 平台上已经有不少用户晒出了使用体验。有位用户表示,Gemma -7B 速度很快,输出也很稳定,好过 Llama-213B。

在开源模型的同时,谷歌还公布了有关 Gemma 的性能、数据集组成和建模方法的详细信息的技术报告。在技术报告中,其他研究者发现了一些亮点,比如 Gemma 支持的词汇表大小达到了256K,这意味着它对英语之外的其他语言能够更好、更快地提供支持。

以下是技术报告的细节。

开源mod

Gemma 技术细节

总体来说,Gemma 是一个轻量级的 SOTA 开放模型系列,在语言理解、推理和安全方面表现出了强劲的性能。

技术报告链接:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

谷歌发布了两个版本的 Gemma 模型,分别是20亿参数和70亿参数,并提供了预训练以及针对对话、指令遵循、有用性和安全性微调的 checkpoint。其中70亿参数的模型用于 GPU 和 TPU 上的高效部署和开发,20亿参数的模型用于 CPU 和端侧应用程序。不同的尺寸满足不同的计算限制、应用程序和开发人员要求。

Gemma在18个基于文本的任务中的11个上优于相似参数规模的开放模型,例如问答、常识推理、数学和科学、编码等任务。

下图1为 Gemma(7B)与 LLaMA2(7B)、LLaMA2(13B)和 Mistral(7B)在问答、推理、数学和科学、编码等任务上的性能比较。可以看到,Gemma(7B)表现出了优势(除了在问答任务上弱于 LLaMA2(13B))。

接下来看 Gemma 的模型架构、训练基础设施、预训练和微调方法。

模型架构

Gemma 模型架构基于 Transformer 解码器,表1总结了该架构的核心参数。模型训练的上下文长度为8192个 token。

此外,谷歌还在原始 transformer 论文的基础上进行了改进,改进的部分包括:

  • 多查询注意力:7B 模型使用多头注意力,而2B 检查点使用多查询注意力;

  • RoPE 嵌入:Gemma 在每一层中使用旋转位置嵌入,而不是使用绝对位置嵌入;此外,Gemma 还在输入和输出之间共享嵌入,以减少模型大小;

  • GeGLU 激活:标准 ReLU 非线性被 GeGLU 激活函数取代;

  • Normalizer Location:Gemma 对每个 transformer 子层的输入和输出进行归一化,这与仅对其中一个或另一个进行归一化的标准做法有所不同,RMSNorm 作为归一化层。

训练基础设施

谷歌使用了自研 AI 芯片 TPUv5e 来训练 Gemma 模型:TPUv5e 部署在由256个芯片组成的 pod 中,配置成由16x16个芯片组成的二维环形。

对于7B 模型,谷歌在16个 pod(共计4096个 TPUv5e)上训练模型。他们通过2个 pod 对2B 模型进行预训练,总计512TPUv5e。在一个 pod 中,谷歌对7B 模型使用16路模型分片和16路数据复制。对于2B 模型,只需使用256路数据复制。优化器状态使用类似 ZeRO-3的技术进一步分片。在 pod 之外,谷歌使用了 Pathways 方法通过数据中心网络执行数据复制还原。

预训练

Gemma2B 和7B 分别在来自网络文档、数学和代码的2T 和6T 主要英语数据上进行训练。与 Gemini 不同的是,这些模型不是多模态的,也不是为了在多语言任务中获得最先进的性能而训练的。

为了兼容,谷歌使用了 Gemini 的 SentencePiece tokenizer 子集(Kudo 和 Richardson,2018年)。它可以分割数字,不删除多余的空白,并遵循(Chowdhery 等人,2022年)和(Gemini 团队,2023年)所使用的技术,对未知 token 进行字节级编码。词汇量为256k 个 token。

指令调优

谷歌通过在仅文本、仅英语合成和人类生成的 prompt 响应对的混合数据上进行监督微调(SFT),以及利用在仅英语标记的偏好数据和基于一系列高质量 prompt 的策略上训练的奖励模型进行人类反馈强化学习(RLHF),对 Gemma2B 和 Gemma7B 模型进行微调。

实验发现,监督微调和 RLHF 这两个阶段对于提高下游自动评估和模型输出的人类偏好评估性能都非常重要。

监督微调

谷歌根据基于 LM 的并行评估结果来选择自己的混合数据,以进行监督微调。给定一组留出的(heldout) prompt, 谷歌从测试模型中生成响应,并从基线模型中生成相同 prompt 的响应,并要求规模更大的高性能模型来表达这两个响应之间的偏好。

谷歌还构建不同的 prompt 集来突出特定的能力,例如指令遵循、真实性、创造性和安全性等。谷歌使用了不同的自动化 LMjudges,它们采用了多种技术,比如思维链提示(chain-of-thought prompting)、对齐人类偏好等。

格式化

指令调优模型使用特定的格式化器进行训练, 该格式化器在训练和推理时使用额外的信息来标注所有指令调优示例。这样做有以下两个目的,1)指示对话中的角色,比如用户角色;2)描述对话轮次,尤其是在多轮对话中。为了实现这两个目的,谷歌在分词器(tokenizer)中保留了特殊的控制 token。

下表3为相关格式化控制 token,表4为对话示例。

人类反馈强化学习(RLHF)

谷歌使用 RLHF 对监督微调模型进一步微调,不仅从人类评分者那里收集了偏好对,还在 Bradley-Terry 模型下训练了奖励函数,这类似于 Gemini。该策略经过训练,使用一个具有针对初始调优模型的 Kullback–Leibler 正则化项的 REINFORCE 变体,对该奖励函数进行优化。

与监督微调(SFT)阶段一样,为了进行超参数调优,并额外减轻奖励黑客行为,谷歌依赖高容量模型作为自动评估器,并计算与基线模型的比较结果。

评估

谷歌通过人类偏好、自动基准和记忆等指标,在广泛的领域对 Gemma 进行了全面的评估。

人类偏好评估

除了在经过微调的模型上运行标准学术基准之外,谷歌对最终发布的候选模型进行了人类评估研究,以便与 Mistral v0.27B Instruct 模型进行比较。

与 Mistral v0.27B Instruct 相比,Gemma7B IT 的正胜率为51.7%,Gemma2B IT 的胜率为41.6%。在测试基本安全协议的约400条 prompt 中,Gemma7B IT 的胜率为58%,而 Gemma2B IT 的胜率为56.5%。表5中报告了相应的数字。

自动基准评估

谷歌还在一系列学术基准上将 Gemma2B 和7B 模型与几个外部开源 LLM 进行了比较,如表6所示:

在 MMLU 上,Gemma7B 的表现优于相同或较小规模的所有开源模型,还优于几个较大的模型,包括 LLaMA213B。

手游传奇推广代理

然而,基准作者对人类专家表现的评估结果是89.8%, Gemini Ultra 是第一个超过这一阈值的模型,可以看到Gemma仍有很大的改进空间,以达到Gemini和人类水平的性能。

但 Gemma 模型在数学和编码基准测试中表现比较突出。在数学任务上,Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少10分。同样,它们在 HumanEval 上的表现比其他开源模型至少高出6分。Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型(CodeLLaMA 得分为41.4%,而 Gemma7B 得分为44.4%)。

记忆评估

谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力,具体而言,他们从每个语料库中采样10000个文档,并使用前50个 token 作为模型的 prompt。在此过程中,谷歌主要关注精准记忆,如果模型生成的后续50个 token 与文本中的真实后续文本完全匹配,则将该文本分类为已记忆。图2将评估结果与同等规模的 PaLM 和 PaLM2模型进行了比较,结果如下所示。

隐私数据

对大模型来说,隐私数据被记住的可能性是一件非常值得关注的事情。为了使 Gemma 预训练模型安全可靠,谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。

为了识别可能出现的隐私数据,谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。该工具根据隐私数据的类别(例如姓名、电子邮件等)输出三个严重级别。谷歌将最高严重性分类为敏感(sensitive),其余两个分类为隐私(personal),然后测量有多少存储的输出包含敏感或个人数据。

如下图3所示,谷歌没有观察到存储敏感数据的情况,但确实发现 Gemma 模型会记住一些上述分类为潜在隐私的数据。值得注意的是,研究中使用的工具可能存在许多误报(因为其只匹配模式而不考虑上下文),这意味着实验结果可能高估了已识别的隐私数据量。

在记忆数据量方面,如下图4所示,谷歌观察到大约会多出50% 的数据被记住,并且在数据集的每个不同子类别中几乎是一致的。

最后,谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性,结果如下表8所示。


返回网站首页

本文评论
智慧场景助益智慧城市落地 航班管家提供智慧出行服务_智慧出行系统
  基于新基建大背景,智慧场景服务行业范围不断扩大。5G、AI、云计算等技术的不断发展,推动智慧场景服务蓬勃发展。在未来,智慧场景服务将更加普及,更加人性化、智慧化与多样...
日期:07-10
日本海啸几级地震「日本7.4级强震后第一波海啸袭来 呼吁民众立刻撤离」
快科技1月1日消息,据国内媒体报道,日本气象厅消息,当地时间1月1日下午4点06分,日本石川县能登半岛接连发生三次强震,最高为7.6级,当地随即发布海啸预警。当地媒体报道称,目前日本石...
日期:01-01
特斯拉股票比苹果高「特斯拉已超过苹果成今年最受散户欢迎的股票」
12月22日消息,据国外媒体报道,尽管最近特斯拉股价一直在下滑,但这一历史性抛售反而推动了散户购买量激增。市场研究公司Vanda表示,特斯拉已超过苹果公司,成为2022年最受散户投资...
日期:12-22
苹果自动驾驶汽车去年加州路测里程增至72万公里 但与Waymo仍有不小差距
2月5日消息,据外媒报道,上月底,传闻已久的苹果汽车项目再度出现了遭遇波折的消息,推出时间由最初计划的2026年,调整为最快2028年推出,自动驾驶等级也有调整,由先前计划的L4,调整为有...
日期:02-06
英特尔重新定义PC市场 下注Medfield智能手机
作者:威廉 【赛迪网讯】北京时间5月23日,据国外媒体报道,业界对于英特尔公司在PC市场的未来计划有很多猜测,就目前英特尔公司的若干动作来看,该公司要重新定义PC市场。虽然该公...
日期:07-28
百度百家号内测“百家号AI助手” 提升创作者创作效率
10月20日 消息:百度旗下百家号宣布,百家号AI助手正在内测中,旨在用技术大幅提升创作者的创作效率。目前百家号AI助手已开启内测,创作者已可报名参加。此次能力升级主要有以下功...
日期:10-22
中国专利奖:再得1金奖,再获第1名「中国专利金奖含金量」
4 月 21 日,第二十四届中国专利奖预获奖项目结束公示,海尔智家凭借卡萨帝鉴赏家空调获得中国外观设计金奖。这是海尔智家揽获的第 12 个中国专利金奖,获奖总数再获行业第 一。...
日期:04-25
钉钉总裁叶军卸任Teambition法定代表人「钉钉 叶军」
9月29日 消息:企查查APP显示,9月26日,Teambition运营主体上海汇翼信息科技有限公司发生工商变更,钉钉总裁叶军卸任法定代表人、执行董事,均由傅徐军接任。企查查信息显示,该公司...
日期:09-30
NEC开始在华提供远程协同环境下的高效安全的文档管理共享服务
  NEC的PLM(产品生命周期管理,注1)软件“ Obbligato”可全面地管理设计图纸,规格书,零件表等产品技术信息。NEC将开始在中国提供该产品系列的共享文​​档管理模块“协作平...
日期:07-14
济南铁塔专题部署“两节一会”网络信息安全工作
通信世界网消息(CWW)为进一步筑牢网络安全防线,9月26日,济南铁塔以“零瘫痪、零泄漏、零窃取、零篡改、零渗透”为目标,专题部署中秋、国庆两节期间的网络信息安全工作,并对杭州亚...
日期:10-09
消息称百度文心一言首站将直接落地百度搜索
2 月 9 日讯:据新京报报道,知情人士透露,百度旗下的类ChatGPT应用“文心一言”上线后,首站将直接接入百度搜索,包括多答案回复、智能生成等。广汽集团2018年年报aurora无人驾驶i...
日期:02-09
阿里云推出AI视频生成工具Live Portait
8月17日 消息:阿里云最近在魔搭平台推出了一项新技术Live Portait,只要上传一张人脸照片,就可以用文字或语音控制,快速生成数字人AI视频!疯狂动物城迪士尼完工2021据了解,这项技...
日期:08-17
腾讯申请注册“QQ小店”商标「腾讯小店官网」
  天眼查App显示,8月23日,腾讯科技(深圳)有限公司申请注册多个“QQ小店”商标,国际分类涉及广告销售、通讯服务等,当前商标状态均为等待实质审查。大众点评 广告领智教育简介...
日期:09-13
市值被拼多多超越,抄底百度时候到了吗?_拼多多市值腰斩
  纵览整个企业生命周期,最难估值的是处于两端的公司——年幼公司能否兑现高增长承诺?衰老公司能否挺过日益恶化的经营状况,重现生机?不过,极少有公司会真正倒在舆论和公关...
日期:04-25
蚂蚁集团海外投资者「马来西亚最大独立投行与蚂蚁集团签署协议,将在马推出理财App」
  马来西亚最大独立投行肯纳格投资银行8月24日在官网发布声明,宣布同蚂蚁集团签署谅解备忘录,将借助蚂蚁的移动开发平台mPaaS推出理财应用程序Wealth SuperApp。  声明指...
日期:09-04
京东11.11晚会「京东春晚再添巨献 10套华为旗舰产品及AITO M9汽车带回家」
除夕夜8点,《2024年春节联欢晚会》将在中央广播电视总台隆重开启。作为春晚独家互动合作平台,京东将与中央广播电视总台携手为全球华人奉上一场富有文化内涵的“文化年夜饭”,...
日期:02-07
俄罗斯为什么不封推特「推特前雇员举报推特“易受外国政府利用”,扯上中俄」
【环球时报驻美国特约记者 英辰 环球时报记者 张旺】据美国有线电视新闻网(CNN)24日报道,被推特公司解雇的前安全主管佩特·扎特科向美国国会、司法部以及联邦监管机构举报称,推...
日期:09-28
华为发布首款纯电轿车智界S7!余承东:空间遥遥领先 比大更大_华为智选纯电动汽车
快科技11月9日消息,今晚华为智选车业务首款轿车智界S7正式发布。新车由华为和奇瑞联合打造,采用全新OneBox造型设计,车长4971mm,轴距2950mm,车宽1963mm。 智界S7拥有一体式车...
日期:11-10
抖音旗下公司申请注册房产品牌商标「抖音注册的公司名称」
11月15日 消息:企查查APP显示,近日,抖音集团旗下北京好房有幸信息技术有限公司申请注册多个“幸福筑房产”“秋禾房产”“秋禾不动产”商标,国际分类为金融物管,当前商标状态均...
日期:11-16
小米11ultra和华为mate50pro哪个好「9月安卓手机好评榜出炉:Mate50 Pro不敌小米12S Ultra排名第二」
今天,安兔兔发布了9月份的安卓手机好评榜,整合了整个9月份国内安卓手机的好评数据,具有一定的参考价值。在9月,小米12S Ultra以96.04%的高好评率蝉联第一,这充分说明了这款手机在...
日期:10-05