您的位置:首页 > 互联网

苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人

发布时间:2024-03-16 10:38:51  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。

今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在2024苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃10年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。

如此种种,苹果向外界传达了加注 GenAI 的决心。目前多模态领域的 GenAI 技术和产品非常火爆,尤以 OpenAI 的 Sora 为代表,苹果当然也想要在该领域有所建树。

今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达30B 参数的多模态 LLM 系列。

论文地址:https://arxiv.org/pdf/2403.09611.pdf

该团队在论文中探讨了不同架构组件和数据选择的重要性。并且,通过对图像编码器、视觉语言连接器和各种预训练数据的选择,他们总结出了几条关键的设计准则。具体来讲,本文的贡献主要体现在以下几个方面。

首先,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。

其次,研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。

最后,研究者构建了 MM1,一个参数最高可达300亿(其他为30亿、70亿)的多模态模型系列, 它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

具体来讲,预训练模型 MM1在少样本设置下的字幕和问答任务上,要比 Emu2、Flamingo、IDEFICS 表现更好。监督微调后的 MM1也在12个多模态基准上的结果也颇有竞争力。

fitbit sense什么时候上市

得益于大规模多模态预训练,MM1在上下文预测、多图像和思维链推理等方面具有不错的表现。同样,MM1在指令调优后展现出了强大的少样本学习能力。

方法概览:构建 MM1的秘诀

构建高性能的 MLLM(Multimodal Large Language Model,多模态大型语言模型) 是一项实践性极高的工作。尽管高层次的架构设计和训练过程是清晰的,但是具体的实现方法并不总是一目了然。这项工作中,研究者详细介绍了为建立高性能模型而进行的消融。他们探讨了三个主要的设计决策方向:

  • 架构:研究者研究了不同的预训练图像编码器,并探索了将 LLM 与这些编码器连接起来的各种方法。

  • 数据:研究者考虑了不同类型的数据及其相对混合权重。

  • 训练程序:研究者探讨了如何训练 MLLM,包括超参数以及在何时训练模型的哪些部分。

消融设置

由于训练大型 MLLM 会耗费大量资源,研究者采用了简化的消融设置。消融的基本配置如下:

  • 图像编码器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14模型;图像大小为336×336。

  • 视觉语言连接器:C-Abstractor ,含144个图像 token。

  • 预训练数据:混合字幕图像(45%)、交错图像文本文档(45%)和纯文本(10%)数据。

  • 语言模型:1.2B 变压器解码器语言模型。

为了评估不同的设计决策,研究者使用了零样本和少样本(4个和8个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2、TextVQA 、VizWiz 、GQA 和 OK-VQA。

模型架构消融试验

研究者分析了使 LLM 能够处理视觉数据的组件。具体来说,他们研究了(1)如何以最佳方式预训练视觉编码器,以及(2)如何将视觉特征连接到 LLM 的空间(见图3左)。

  • 图像编码器预训练。在这一过程中,研究者主要消融了图像分辨率和图像编码器预训练目标的重要性。需要注意的是,与其他消融试验不同的是,研究者本次使用了2.9B LLM(而不是1.2B),以确保有足够的容量来使用一些较大的图像编码器。

  • 编码器经验:图像分辨率的影响最大,其次是模型大小和训练数据组成。如表1所示,将图像分辨率从224提高到336,所有架构的所有指标都提高了约3%。将模型大小从 ViT-L 增加到 ViT-H,参数增加了一倍,但性能提升不大,通常不到1%。最后,加入 VeCap-300M (一个合成字幕数据集)后,在少样本场景中性能提升超过了1%。

  • 视觉语言连接器和图像分辨率。该组件的目标是将视觉表征转化为 LLM 空间。由于图像编码器是 ViT,因此其输出要么是单一的嵌入,要么是一组与输入图像片段相对应的网格排列嵌入。因此,需要将图像 token 的空间排列转换为 LLM 的顺序排列。与此同时,实际的图像 token 表征也要映射到词嵌入空间。

  • VL 连接器经验:视觉 token 数量和图像分辨率最重要,而 VL 连接器的类型影响不大。如图4所示,随着视觉 token 数量或 / 和图像分辨率的增加,零样本和少样本的识别率都会提高。

特斯拉 最安全

预训练数据消融试验

2020值得入手oled的电视

通常,模型的训练分为两个阶段:预训练和指令调优。前一阶段使用网络规模的数据,后一阶段则使用特定任务策划的数据。下面重点讨论了本文的预训练阶段,并详细说明研究者的数据选择(图3右)。

有两类数据常用于训练 MLLM:由图像和文本对描述组成的字幕数据;以及来自网络的图像 - 文本交错文档。表2是数据集的完整列表:

  • 数据经验1:交错数据有助于提高少样本和纯文本性能,而字幕数据则能提高零样本性能。图5a 展示了交错数据和字幕数据不同组合的结果。

  • 数据经验2:纯文本数据有助于提高少样本和纯文本性能。如图5b 所示,将纯文本数据和字幕数据结合在一起可提高少样本性能。

  • 数据经验3:谨慎混合图像和文本数据可获得最佳的多模态性能,并保留较强的文本性能。图5c 尝试了图像(标题和交错)和纯文本数据之间的几种混合比例。

  • 数据经验4:合成数据有助于少样本学习。如图5d 所示,人工合成数据确实对少数几次学习的性能有不小的提升,绝对值分别为2.4% 和4%。

最终模型和训练方法

研究者收集了之前的消融结果,确定 MM1多模态预训练的最终配方:

  • 图像编码器:考虑到图像分辨率的重要性,研究者使用了分辨率为378x378px 的 ViT-H 模型,并在 DFN-5B 上使用 CLIP 目标进行预训练;

  • 视觉语言连接器:由于视觉 token 的数量最为重要,研究者使用了一个有144个 token 的 VL 连接器。实际架构似乎不太重要,研究者选择了 C-Abstractor;

  • 数据:为了保持零样本和少样本的性能,研究者使用了以下精心组合的数据:45% 图像 - 文本交错文档、45% 图像 - 文本对文档和10% 纯文本文档。

为了提高模型的性能,研究者将 LLM 的大小扩大到3B、7B 和30B 个参数。所有模型都是在序列长度为4096、每个序列最多16幅图像、分辨率为378×378的情况下,以512个序列的批量大小进行完全解冻预训练的。所有模型均使用 AXLearn 框架进行训练。

他们在小规模、9M、85M、302M 和1.2B 下对学习率进行网格搜索,使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图6),结果是在给定(非嵌入)参数数量 N 的情况下,预测出最佳峰值学习率 η:

vivo iqoo系列推荐

通过专家混合(MoE)进行扩展。在实验中,研究者进一步探索了通过在语言模型的 FFN 层添加更多专家来扩展密集模型的方法。

要将密集模型转换为 MoE,只需将密集语言解码器替换为 MoE 语言解码器。为了训练 MoE,研究者采用了与密集骨干4相同的训练超参数和相同的训练设置,包括训练数据和训练 token。

关于多模态预训练结果,研究者通过适当的提示对预先训练好的模型在上限和 VQA 任务上进行评估。表3对零样本和少样本进行了评估:

监督微调结果

最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。

他们遵循 LLaVA-1.5和 LLaVA-NeXT,从不同的数据集中收集了大约100万个 SFT 样本。鉴于直观上,更高的图像分辨率会带来更好的性能,研究者还采用了扩展到高分辨率的 SFT 方法。

监督微调结果如下:

表4展示了与 SOTA 比较的情况,-Chat表示监督微调后的 MM1模型。

首先,平均而言,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。

其次,研究者探索了两种 MoE 模型:3B-MoE(64位专家)和6B-MoE(32位专家)。在几乎所有基准测试中,苹果的 MoE 模型都比密集模型取得了更好的性能。这显示了 MoE 进一步扩展的巨大潜力。

第三,对于30B 大小的模型,MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。与 LLaVA-NeXT 相比,MM1也取得了具有竞争力的全面性能。

不过,LLaVA-NeXT 不支持多图像推理,也不支持少样本提示,因为每幅图像都表示为2880个发送到 LLM 的 token,而 MM1的 token 总数只有720个。这就限制了某些涉及多图像的应用。

图7b 显示,输入图像分辨率对 SFT 评估指标平均性能的影响,图7c 显示,随着预训练数据的增加,模型的性能不断提高。

图像分辨率的影响。图7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。

预训练的影响:图7c 显示,随着预训练数据的增加,模型的性能不断提高。

更多研究细节,可参考原论文。


返回网站首页

本文评论
Google发布增强学习的实验性AI笔记本“NotebookLM”_chrome实验功能
7月18日 消息:Google 最近在 Google I/O 大会上发布了 NotebookLM,这是一个旨在增强学习和洞察力的实验性 AI 笔记本。NotebookLM 是一种独特的笔记本,旨在利用语言模型的能力...
日期:07-18
中国电信经日本海缆受损 13%出口带宽中断
  3月11日13时46分,日本东北地区发生地震。受此影响,中国电信经由日本至北美的日美海缆、PC1海缆在日本北茨城附近海域发生故障。   截至目前,中国电信至北美方向105G的互...
日期:07-26
槟榔口香糖兴起!公司5个月销售额超3000万元:号称“健康食品”「口味王槟榔一年的营业额」
今日消息,据新京报报道,槟榔衍生食品槟榔口香糖悄然兴起。经销商透露,一家以槟榔口香糖作为主推产品的公司,在过去5个月时间里,总销售额已达3000多万元。该经销商透露,这种槟榔口...
日期:10-16
神偷奶爸4内容简介「《神偷奶爸4》首支预告公开 格鲁又有了一个儿子」
照明娱乐旗下最受欢迎的动画系列,《神偷奶爸》迎来了第四部,《神偷奶爸4》首曝预告,揭开了新篇章。在这部新作中,主人公格鲁再度面临强大的敌人,不得不带领全家人共同战斗,以恢复...
日期:01-30
二舅会看病,但不治内耗
一加支持vooc闪充吗   来源:南风窗   作者/路迟   一夜间,朋友圈几乎都被“二舅”刷屏。一则《回村三天,二舅治好了我的精神内耗》的视频,让大家认识了一位身体落下了残疾...
日期:07-31
朵唯女性手机价格_朵唯手机市场价是多少
朵唯是一款定位于女性用户的手机品牌,其主打特色是外观精美优雅、功能多样,深受女性用户的喜爱。如果你想了解朵唯女性手机价格方面的信息,本文将为你提供详细的解答。华为mate...
日期:06-03
德勤报告:AI等没有道德技术标准可能会带来广泛负面影响
5月18日 消息:全球咨询和金融公司德勤 (Deloitte)的一项调查显示,高管们认识到,在没有道德技术标准的情况下运营的最大风险可能会产生广泛的负面影响,尤其是对他们的员工。该调查...
日期:05-18
工信系统防灾减灾应急预案「工业和信息化部:受灾区域公众通信基本恢复正常」
央视新闻记者从工业和信息化部了解到,甘肃临夏州积石山县发生6.2级地震后,工业和信息化部迅速组织甘肃、青海两省通信管理局以及中国电信、中国移动、中国联通、中国铁塔等企...
日期:12-19
OPPO多款机型率先升级Android 14 ColorOS:一加等随后_oppo升级了
近日,OPPO官方宣布多款机型已率先适配Android 14 ColorOS,并表示后续将加入更多机型。目前,适配机型包括公测版的OPPO Find N2、OPPO Find N2 Flip、OPPO Find X6 Pro和OPPO Fi...
日期:10-06
与时代同行,平安科技打造智慧医疗新生态_智慧医疗首推平安科技
  前不久,《中共中央国务院关于支持深圳建设中国特色社会主义先行示范区的意见》正式发布。《意见》指出,支持深圳建设5G、人工智能、生命信息与生物医药实验室等重大创新...
日期:12-21
7个月赚3500万,一个00后山寨明星的财富密码_内地00后明星
国产固态致钛 核心提示 曾经靠模仿顶流爱豆鹿晗走红的网红“鹿哈”,带货7个月收入3500万,山寨明星如何找到财富密码? 作者 | 高宇哲编辑 | 邢昀近日,23岁的抖音主...
日期:10-20
微软称Office 2010是Office软件中最简单的版本_microsoft office2013是什么软件
  5月17日消息,据国外媒体报道,微软称,Office 2010是这个软件中最具创新的和最容易使用的版本。用户很容易从以前的版本升级到这个最新的版本。   微软上个星期向企业推出...
日期:07-29
华为再掀技术风暴,石墨烯晶体管芯片引发全行业瞩目_华为向世界公布石墨烯晶体管专利
华为最新发布的石墨烯晶体管芯片专利,速度提高上千倍,再次在科技领域掀起了风暴。这一创新让业界为之震撼,华为似乎在芯片领域玩起了崭新的花样,以令人瞠目结舌的速度提升引发了...
日期:12-23
双11 战报「值得买科技双11战报:5分钟不到GMV破亿」
11 月 15 日消息,值得买科技集团近日发布 2022 年双 11 大促战报,数据显示, 11 月 10 日 20 点双 11 大促正式开始后,“什么值得买”仅用 4 分 57 秒便实现GMV破亿,用户活跃度进...
日期:11-16
齐心好视通发布完全国产化新品,引领视频会议升级新趋势
  11月28日,在京召开的2019齐心好视通国产化战略发布会上,齐心好视通携手众多产业链合作伙伴,盛大发布了国产化战略一系列计划,包括战略签约天津麒麟、天津飞腾、上海兆芯、...
日期:06-07
骁龙8gen3加独显芯片好吗骁龙8 Gen3加持 16GB+1TB组合 vivo-X Fold3 Pro再曝光
来源:中关村在线微软win11 正式版任务栏拖放功能小米13系列或提前发布2021年的苹果11是高通基带3月13日,根据安兔兔官方数据,一款型号为V2337A的vivo折叠屏新机出现在了安兔兔...
日期:03-14
老照片修复软件哪个好?推荐10款绝佳AI照片修复工具_老照片修复器
有很多高级的照片修复工具旨在修复、增强和恢复损坏或旧照片。这些工具通过去除划痕、瑕疵和灰尘,以及校正颜色、亮度和对比度级别来恢复照片的原始外观。近年来,人工智能 (AI...
日期:04-10
《古墓丽影》新作有消息了!全力开发 今年公布_古墓丽影有新作吗
作为游戏业界最知名的作品之一,《古墓丽影》全系列总销量现已接近1亿份,该系列12部正统作品和多部衍生作品。vivo最强旗舰手机据知情人士透露,研发《古墓丽影》新作的Crystal D...
日期:01-22
盲订售价区间30-40万元 「方程豹豹5成都车展开启预售」
【】8月25日消息,方程豹汽车旗下首款硬派越野SUV车型豹5今日正式亮相成都车展,并同时开启盲订,盲订售价区间为30-40万元,低于此前的预期。此外,首批盲订车主可享受1000元意向金抵...
日期:09-16
pp体育 聚体育_PP体育斩获体育大生意2018年“最佳体育媒体”奖
  北京时间1月7日,2018第五届体育大生意年度峰会暨颁奖盛典在北京举行。经过激烈的角逐,最终PP体育荣获“最佳体育媒体”奖。   作为影响力最大,最具权威性的评选活动,体...
日期:07-16