您的位置:首页 > 互联网

Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

发布时间:2024-05-20 09:58:00  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】GPT-4o发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta团队发布了混合模态Chameleon,可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V,刷新SOTA。

GPT-4o的横空出世,再次创立了一个多模态模型发展的新范式!

为什么这么说?

OpenAI将其称为首个『原生』多模态模型,意味着GPT-4o与以往所有的模型,都不尽相同。

传统的多模态基础模型,通常为每种模态采用特定的编码器或解码器,将不同的模态分离开。

然而,这种方法限制了模型,有效融合跨模态信息的能力。

官博介绍,GPT-4o是首个端到端训练的,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。

而现在,业界首个敢于挑战GPT-4o的模型现身了!

最近,来自Meta团队的研究人员发布了混合模态基座模型——Chameleon(变色龙)。

论文地址:https://arxiv.org/pdf/2405.09818

与GPT-4o一样,Chameleon采用了统一的Transformer架构,使用文本、图像和代码混合模态完成训练。

华为mate50pro颜色哪个最好

以类似文本生成的方式,对图像进行离散分词化(tokenization),最终生成和推理交错的文本和图像序列。

这种早期融合的方法,所有的pipeline从一开始就被映射到一个共同的表示空间,因此模型可以无缝处理文本和图像。

Chameleon生成的多模态内容

与此同时,这样的设计,为模型训练带来了重大的技术挑战。

对此,Meta研究团队引入了一系列架构创新和训练技术。

结果表明,在纯文本任务中,340亿参数Chameleon(用10万亿多模态token训练)的性能和Gemini-Pro相当。

在视觉问答和图像标注基准上,刷新SOTA,性能接近GPT-4V。

不过,不论是GPT-4o,还是Chameleon,都是新一代原生端到端的多模态基础模型早期探索。

GTC2024大会上,老黄描述了迈向AGI最终愿景的重要一步——各种模态互通有无。

下一个开源GPT-4o要来?

Chameleon的发布,简直就是对GPT-4o做出最快的反应。

有网友表示,token进,token出,简直无法去解释。

甚至还有人称,在GPT-4o诞生之后发布的非常扎实的研究,OOS将迎头赶上。

不过,目前Chameleon模型支持生成的模态,主要是图像文本。缺少了GPT-4o中的语音能力。

网友称,然后只需添加另一种模态(音频),扩大训练数据集,烹饪一段时间,我们就会得到GPT-4o...?

Meta的产品管理总监称,我非常自豪能够给予这个团队支持。让我们朝着让GPT-4o更接近开源社区的方向迈进一步。

或许用不了多久,我们就得到了一个开源版的GPT-4o。

接下来,一起看看Chameleon模型的技术细节。

技术架构

Meta在Chameleon的论文中首先表示:很多新近发布的模型依旧没有将多模态贯彻到底。

这些模型虽然采用了端到端的训练方式,但仍然单独对不同模态进行建模,使用分开的编码器或解码器。

如开头所述,这种做法限制了模型跨模态信息的能力,也难以生成包含任意形式信息的、真正的多模态文档。

为了改进这种缺陷,Meta提出了一系列混合模态的基座模型Chameleon——能够生成文本和图像内容任意交织在一起的内容。

Chameleon的生成结果,文本和图像交错出现

所谓混合模态基座模型,指Chameleon不仅使用了端到端的方式从头开始训练,而且训练时将所有模态的信息交织混合在一起,并使用统一的架构处理。

如何将所有模态的信息混合在同一个模型架构中表示?

答案还是token。

只要全部表示为token,就可以把所有所有模态的信息映射到同一个向量空间中,让Transformer无缝处理。

但是,这种做法会带来优化稳定性以及模型扩展性方面的技术挑战。

为了解决这些问题,论文相应地对模型架构进行创新,并使用了一些训练技巧,包括QK归一化和Zloss等。

同时,论文也提出了将纯文本LLM微调为多模态模型的方法。

图像分词器

要将所有模态全部表示为token,首先需要一个强大的分词器。

为此,Chameleon的团队在Meta之前一篇论文的基础上开发了一种新的图像分词器,基于大小为8192的codebook,将规格为512×512的图像编码为1024个离散的token。

文字分词器则基于谷歌开发的sentencepiece开源库,训练了一个同时含有65536个文本token与8192个图像token的BPE分词器。

预训练

为了彻底激发混合模态的潜力,训练数据也是将不同模态打散、混合呈现给模型的,既有纯文本、文本-图像对,也有文本、图像交错出现的多模态文档。

纯文本数据囊括了Llama2和CodeLlama所使用的所有预训练数据,共计2.9万亿个token。

文本-图像对包含了一些公开数据,共计14亿对、1.5万亿个token。

对于文本和图像交错的数据,论文特意强调没有包含来自Meta产品的数据,完全使用公开数据来源,整理出共4000亿个token。

Chameleon的预训练分两个单独的阶段进行,分别占总训练比例的80%和20%。

训练的第一阶段就是让模型以无监督的方式学习以上数据,第二阶段开始时,先将第一阶段得到的权重降低50%,并混合更高质量的数据让模型继续学习。

在模型扩展到超过8B参数和1T token时,训练后期会产生明显的不稳定问题。

由于所有模态共享模型权重,每个模态似乎都有增加norm的倾向,与其他模态竞争。

这在训练初期不会产生太大的问题,但随着训练的进行、数据超出bf16的表达范围时,就会有loss发散的现象。

研究人员将其归因于softmax函数所具有的平移不变性,这种现象在单模态模型中也被称为logit 漂移(logit drift)。

因此,论文提出了一些架构调整和优化方法来保证稳定性:

-QK归一化(query-key normalization):将layer norm应用于注意力模块中的query和key向量,从而直接控制softmax层输入的norm增长。

-在注意力层和前馈层之后引入dropout

-在损失函数中使用Zloss正则化

除了数据来源和架构,论文还大方公开了预训练所用的算力规模。

硬件型号为80GB内存的英伟达A100,7B版本并行使用1024个GPU训练了约86万个GPU小时,34B模型所用的GPU数量则扩大了3倍,GPU小时数超过428万。

作为曾经开源Llama2的公司,Meta的研究团队确实大方,相比连技术报告都没有的GPT-4o,这篇有数据有干货的论文可谓仁至义尽。

全面超越Llama2

具体的实验评估中,研究人员将其分为人工评估和安全测试,以及基准评估。

基准评估

Chameleon-34B使用了比Llama2多四倍的token进行训练后,在各种单模态的基准测试中都取得了惊艳的效果。

在纯文本任务生成中,研究人员将预训练(非SFT)模型的纯文本功能与其他领先的纯文本LLM进行比较。

评估内容包括,常识推理、阅读理解、数学问题和世界知识领域,评估结果如下表所示。

- 常识推理和阅读理解

可以观察到, 与Llama2相比,Chameleon-7B和Chameleon-34B更具竞争力。甚至,34B甚至在5/8的任务上超过了Llama-270B,性能与Mixtral-8x7B相当。

- 数学和世界知识

尽管进行了其他模态的训练,但两个Chameleon模型都表现出很强的数学能力。

在GSM8k上,Chameleon-7B的表现优于相应参数规模的Llama2模型,性能与Mistral-7B相当。

此外,Chameleon-34B在maj@1(61.4vs56.8)和Mixtral-8x7B在maj@32(77.0vs75.1)上的表现均优于Llama2-70B。

同样,在数学运算中,Chameleon-7B的性能超过Llama2,与Mistral-7B在maj@4上的性能相当,而 Chameleon-34B的性能超过Llama2-70B,接近Mixtral-8x7B在maj@4上的性能(24.7vs28.4)。

总体而言,Chameleon的性能全面超过了Llama2,在某些任务上接近Mistral-7B/8x7B。

在文本到图像任务中,研究人员具体评测了视觉问答、图像标注两项具体任务。

Chameleon在视觉问答和图像标注任务中打败Flamingo和Llava-1.5等模型成为SOTA,在纯文本任务中也和第一梯队的Mixtral8x7B、Gemini Pro等模型表现相当。

人工评估和安全测试

同时,为了进一步评估模型生成多模态内容的质量,论文也在基准测试之外引入了人类评估实验,发现Chameleon-34B的表现远远超过了Gemini Pro和GPT-4V。

相对于GPT-4V和Gemini Pro,人类评委分别打出了51.6%和60.4的偏好率。

下图展示了,对于一组多样化的、来自人类标注者的prompt,Chameleon与基线模型在理解和生成内容方面的性能对比。

618京东格力空调会降价吗

其中的每个问题,都由三个不同的人类标注回答,并将多数票作为最终答案。

为了了解人类标注者的质量,以及问题的设计是否合理,研究人员还检查了不同标注者之间的一致性程度。

表5是对20,000个众包提示和445个红队交互进行的安全测试,引发模型产生不安全内容。

与Gemini和GPT-4V相比,Chameleon在处理需要交错、混合模态响应的提示时,非常有竞争力。

从示例中可以看到,在完成问答任务时,Chameleon既能理解输入的文本+图像,也能为模型输出内容加上合适的配图。

并且,Chameleon生成的图像通常与上下文相关,这样一来,这种交错内容的输出对用户来说,极具吸引力。

贡献团队

论文最后,还放上了参与这项研究的贡献者。

包括预训练、对齐和安全、推理和评估、所有项目的参与者。

其中,*表示共同一作,†表示关键贡献者,‡表示工作流程负责人,♯表示项目负责人。

参考资料:

https://the-decoder.com/metas-chameleon-ai-model-blends-text-and-images-hinting-at-a-future-gpt-4o-rival/


返回网站首页

本文评论
分析师数据显示iPhone 14 Pro系列发货时间有缩短 但仍超过30天「iphone13pro实际发货周期」
10月10日消息,据国外媒体报道,苹果公司9月8日凌晨推出、次日晚8点开始接受预订、16日开始发货的iPhone 14系列智能手机,已进入了接受预购的第5周,升级明显的两款Pro版,市场需求依...
日期:10-12
高德地图设置充电桩「高德充电地图2.0全新升级:上线充电排队预测功能」
快科技2月6日消息,春节将至,高德携手国网e充电特别推出《春节假期电动汽车高速出行充电指南》。高德充电地图2.0全新升级,上线充电排队预测功能,提前预知高速充电排队情况,通过新...
日期:02-06
在微软成功收购前 伯克希尔哈撒韦大量减持动视暴雪股份_微软收购github战略
7月18日消息,据外媒报道,在微软成功收购动视暴雪之前,“股神”沃伦·巴菲特旗下的伯克希尔·哈撒韦大量减持动视暴雪股份。据报道,伯克希尔·哈撒韦最初持有动视暴雪股份,是押注...
日期:07-18
德邦快递是韵达吗_服务无休,中通韵达德邦三家快递公司宣布“春节不打烊”
  12 月 27 日消息,12 月 26 日,中通快递和韵达速递相继发布服务公告,宣布 2022 年“春节不打烊”,以满足节日期间的寄递需求,保障防疫和民生物资的畅通运输。此前,德邦快递已...
日期:02-25
截至9月底全国新能源汽车保有量1149万辆 占汽车保有量的3.65%_我国新能源汽车总保有量超过400万辆
10月8日消息,据公安部统计,截至2022年9月底,全国机动车保有量达4.12亿辆,其中汽车3.15亿辆;机动车驾驶人4.99亿人,其中汽车驾驶人4.61亿人。闫俊杰图片截至9月底,全国新能源汽车保...
日期:10-11
天猫退货免运费「天猫双11商家“退货运费险”可享保费8折」
10 月 24 日消息,今日晚 8 点,今年天猫双 11 预售将正式开始。记者了解到,从 10 月 24 日起至 31 日的天猫双 11 预售期,以及 10 月 31 日起至 11 月 11 日的天猫双 11 现货开卖...
日期:10-25
网址导航流量优势凸显 电商扎堆进驻114啦(网址导航流量在哪里买)
近年来网址导航凭借着其简单、便捷和工具化的特点广受网民欢迎,逐渐演变为网民上网的重要入口,也成就了Hao123、265、114la等数个知名网址导航巨头,在中国构建了全球独一无二...
日期:07-28
比亚迪2月新能源汽车销量122311辆 海外销量猛增_比亚迪2月新能源汽车销量122311辆 海外销量猛增的原因
快科技3月1日消息,比亚迪股份今日发布了2月份产销公告。数据显示,比亚迪2月新能源汽车销量122,311辆,上年同期为193,655辆;本年累计销量323,804辆,同比下降6.14%。华为海思计划而...
日期:03-02
《狂飙》爆火出圈!《孙子兵法》登顶淘宝热搜 发货要等25天
近日,电视剧《狂飙》火爆出圈,引起大家广泛关注,截稿前,该剧在豆瓣的评分已飙至9.1分,好评率高达92%。苹果诉三星知识产权案随着《狂飙》的火爆,《孙子兵法》等剧中元素也在现实中...
日期:01-29
美媒:中国汽车零部件制造商海外建厂加速“走出去”「中国汽车零部件出口」
4月11日消息,出于多重因素考量,中国汽车零部件制造商正面临外国客户越来越大的压力,要求他们在海外建厂。airpodspro2代提示不是你的怎么办美国特斯拉model y再涨价500美元据外...
日期:04-11
金山毒霸被指免费后仍暗中吸费(金山毒霸开始收费了)
  使用一款已宣布永久免费的杀毒软件,用户却发现仍在被悄悄扣使用费。昨天,多位用户向记者反映,自己没有使用金山杀毒软件,手机账单显示仍在被运营商代扣使用费,质疑金山网络...
日期:07-24
荣耀100 Pro体验:代际升级,艺术与科技的交融之美_荣耀l100
荣耀100 Pro体验:代际升级,艺术与科技的交融之美 通信产业网|2023-11-24 00:08:01作者:党博文来源:通信产业网【通信产业网讯】(记者 党博文)11月23日,荣耀100系列正式发布,作为数...
日期:11-29
Netflix上市_Netflix CEO拟通过独家内容东山再起
  北京时间10月25日晚间消息,美国视频租赁服务商Netflix CEO里德·哈斯廷斯(Reed Hastings)周一表示,要为用户提供独家、有价值的内容,以此重振公司业务。   哈斯廷斯周一...
日期:07-24
李彦宏:卷大模型没意义,卷应用机会更大
百度想做AI界的iOS或安卓作者丨瀚星封面来源丨摄图网美国《连线》(WIRED)杂志创始主编凯文·凯利(KK)在互联网圈子里有诸多头衔——硅谷精神之父、互联网预言家。这些头衔源自于...
日期:09-06
苹果暂时关闭法国17家门店「苹果回应法国宣布禁售iPhone 12:已提供证明 合规!」
快科技9月13日消息,今天是iPhone 15系列发布的日子,结果法国却恰巧对苹果进行了新的处理,宣布禁售iPhone 12。华为发布mate50系列官方给出的理由是,iPhone 12超过了当地无线电频...
日期:09-14
Win11下锐龙7000游戏性能变差?AMD回应:正在调查「锐龙1700单核性能」
AMD的锐龙7000上市已经有段时间了,性能评测也有国内外大量科技媒体、KOL及网友自己的实测,每家的结果都不尽相同,这本来很正常,但也有一些情况已经争议到AMD都要站出来说话了。...
日期:11-05
云计算给生活带来的便利「智见深度|云计算,躺着赚钱的时代过去了」
出品|网易科技数字星球作者|王慧贤编辑|丁广胜躺着赚钱的时代过去了。疫情三年,无言和静默似乎成了市场上的一种常态,就像没有人愿意直面惨淡的人生一样。企业需要清醒。哪怕很残...
日期:09-01
AI日报:Awaker 1.0写真视频击败Sora?Sora视频被指大量后期;苹果首款AI平板曝光;百万网友围观博主和AI“谈恋爱”
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。螺蛳粉都不合格吗新鲜AI...
日期:04-29
苹果 iOS 16 更新,天气 App 新功能盘点_ios天气预报最精准的app
IT之家 8 月 31 日消息,苹果在 iOS 16 中对天气应用进行了一些改变,包括新的通知类型,并增加了一些信息,从湿度、温度到能见度全方位为你提供服务。顺丰股票大涨此外,新版天气 Ap...
日期:09-09
ipadpro2020屏幕是oled 屏幕吗「iPad Pro 2024款屏幕大升级:苹果首次使用OLED」
快科技5月8日消息,据9to5Google报道,苹果将在明年推出配备OLED屏幕的iPad Pro,这是苹果第一次在iPad Pro产品线上使用OLED材质,取代目前使用的mini-LED面板。分析师指出,苹果之所...
日期:05-08