您的位置:首页 > 互联网

苹果AI震撼上线iPhone,进化版Siri却没有ChatGPT!47页技术报告揭秘自研模型

发布时间:2024-07-30 17:56:39  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】今早,所有开发者们被突如其来iOS18.1测试版砸晕了!没想到,苹果AI这就可以上手尝鲜了,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。

一大早,人们期待已久的苹果AI首个预览版,正式向开发者们推送了!

iOS18.1、iPadOS18.1、macOS Sequoia15.1三大系统中,全都植入了苹果AI的最新能力。

那些首批拿到iOS18.1测试版的用户,已经在欢呼雀跃,一波又一波的实测分享铺屏全网。

最新推出的预览版,包含了许多惊喜(速览版):

  • 全新Siri:唤醒时会在屏幕边缘亮起柔光;与用户交流,可在文本语音之间随意切换;说话者磕磕绊绊时,也能听懂指令;还可以回答有关苹果产品故障排除问题

  • 写作工具(Writing Tools):可在任何场景中,对文本改写、校对和总结摘要。(备忘录、文档、三方APP均可)

  • 专注模式(Reduce Interruptions):仅显示需要即刻看到的通知

  • 照片功能:用自然语言搜索照片,制作影片

  • 为邮件、信息和语音邮件转录生成人工智能摘要

此外,还有一些功能,苹果表示将在明年推出,包括ChatGPT集成、图像/Emoji生成、照片自动清理、具有屏幕感知的超强Siri。

顺便提一句,目前,iOS18.1测试版(包括iPadOS、macOS)仅限美国开放,国内还未上线。

而且,手机中也只有iPhone15Pro、iPhone15Pro Max支持新系统。

根据系统介绍,iOS18.1测试版占用的内存空间共15.44GB,其中iOS系统容量12.58GB,而苹果AI仅占用了2.86GB。

这是因为,苹果用在端侧设备上的模型,参数仅有30亿。

关于模型更详细的介绍,全都藏在了新鲜出炉的苹果AI技术报告中。

48页超长论文中,覆盖了苹果LLM的设计与评估,包括架构、数据管理、预训练和后训练的recipe、优化、功能适应、和评估结果。

论文地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

具体来说,苹果开发了两种全新基础语言模型,构成了苹果AI的核心:

一个是端侧模型AFM-on-device,大约有30亿参数,优化后可以在iPhone和其他终端设备上运行,具备更高效率和响应能力。

另一个是可以在苹果云服务器中运行的更大参数的模型,称为AFM-server,专为密集型任务设计,并使用私人云计算(Private Cloud Compute)的系统来保护用户数据。

还记得上个月的WWDC大会上,库克向全世界宣布了苹果AI的强大功用,让苹果全家桶得到了史诗级升级。

全网纷纷认为AI瞬间不香了,还是得看苹果AI。

一般来说,苹果通常会最先发布iOS18主系统。

却没想到,这次苹果竟在这么短的时间内,先将测试版送到首批开发者手中。

这一点,彭博社最新报道中指出,苹果打破一贯的软件发布节奏,是因为苹果AI还需要更多测试时间。

不知,首批尝鲜者们,都发现了哪些新大陆?

网友实测

苹果科技博主Brandon Butch第一时间,制作了展示iOS18.1测试版中苹果AI功能最全面的视频解说。

,时长15:52

再磕碜的话,都能和顺悦耳

他表示,苹果AI帮助自己找到了一种更好的方式,表达自己想说的话。

宾利可以定制吗

在消息界面中,输入框写下想说的话。

然后全选点击苹果AI按钮,就可以利用写作工具中的友好的,AI立刻将这段话的语气变得更加婉转。

再来看另一位网友,特意写了一句脏话,让AI改写后舒坦了许多。

语法错字校对

另外,Butch惊叹道,Grammarly已经被扼杀了,这才是真正的苹果AI。

就看下面这段话中,informutive拼写错误,what首字母没有大写,还有what do you think末尾应该是问号,而不是句号。

可以看出,苹果AI全都帮你纠正过来了。

还有邮件中苹果AI能力,听着就让人疯狂。

同样支持如上备忘录、信息中的写作工具的能力,包括校对、重写等等。

一封邮件的总结,会在最上面呈现出来。

苹果AI写作工具的动画效果非常苹果,比起模型回应时的密集标token流,一切显得那么平滑。

全新Siri,反应超丝滑

再看呼叫Siri的屏幕边缘效果,不得不说苹果你是最懂设计的。

再来看iPad版的Siri。

Humane的AI工程师,苹果前工程师测试Siri后称赞道,苹果AI速度非常、非常地快。

唤醒Siri,问一问埃菲尔铁塔有多高?它位于哪里?

苹果电信手机可以用移动卡吗

顺便再让它推送一些关于巴黎奥运会近期新闻,以及如何观看奥运会赛事。

不一会儿功夫,苹果AI都给解答了。

AI转录总结,重要电话内容不怕遗漏

此外,苹果AI还可以帮你将电话转录成笔记,记录下你所谈论的内容。

如果按下录音按钮,主叫方和受话方都会播放提示音,提示通话将被录音。

录音完成后,可直接行通知浮窗进入查看录音内容。

专注模式

使用苹果AI来自动分析通知内容,检测重要通知!

重要人的通知,就会pin在屏幕最下方。

照片搜索,吐槽不少

当然了,iOS18.1之所以最先推出,就是为了让开发者们多多测试,去发现报告问题,更好地改进苹果AI能力。

这不,一位YouTube博主在测试照片功能时,却发现Siri依旧智障。

博主最先问了一句,Siri向我展示2022年感恩节旅行的照片。Siri却回答:打开健康应用程序的次数....

然后,他再次重复了刚刚的问题,Siri,从照片中查找关于感恩节的照片。

搞笑的的是,Siri直接从互联网上搜索了一大堆感恩节相关的图片。

当他再次问道,Siri,向我展示去台湾旅行的照片,Siri将原话听成了关键词,从网上搜索了My Trip to Twaiwan。

然后他继续问,Siri依旧不知所云。

固执的博主,破碎的Siri,简直笑不活了.....

正如开头所述,能够把苹果AI装进终端设备,背后是来自团队自研的基础模型,在发光发热。

iPhone的AI革命:30亿参数装进口袋

具体来说,AFM是一款基于Transformer架构的仅解码器稠密模型。

其设计思路如下:

  • 共享输入/输出嵌入矩阵,减少参数的内存使用

  • 使用RMSNorm的预归一化,提高训练稳定性

  • 查询/键归一化,提高训练稳定性

  • 具有8个键值头的分组查询注意力(GQA),减少KV缓存的内存占用

  • 更高效的SwiGLU激活

  • 基础频率为500k的RoPE位置嵌入,支持长上下文

适配器架构

通过使用LoRA适配器,苹果的基础模型可以动态地根据当前任务即时专门化。

这些小型神经网络模块可以插入基础模型的各个层,用于对模型进行特定任务的微调。

为了促进适配器的训练,苹果还创建了一个高效的基础设施,使得基础模型或训练数据更新或需要新功能时,能够快速添加、重新训练、测试和部署适配器。

优化

由于需要满足用户的日常使用,因此团队采用了多种优化和量化技术,在保持模型质量的同时,显著减少了内存占用、延迟和功耗。

方法

在后训练阶段,苹果对模型进行了压缩和量化,平均每个权重低于4位。

量化后的模型通常会有一定程度的质量损失。因此,研发团队并不是直接将量化模型交给应用团队进行功能开发,而是附加了一组参数高效的LoRA适配器来恢复模型质量。

然后,各产品团队会通过从精度恢复适配器(accuracy-recovery adapters)初始化适配器权重,微调其特定功能的LoRA适配器,同时保持量化的基础模型不变。

值得注意的是,训练精度恢复适配器是样本高效的,可以看作是训练基础模型的迷你版本。

其中,在适配器的预训练阶段,只需要大约100亿个token(约占基础模型训练的0.15%)即可完全恢复量化模型的能力。

由于应用适配器将从这些精度恢复适配器进行微调,它们不会产生任何额外的内存使用或推理成本。

关于适配器的大小,团队发现秩为16的适配器在模型容量和推理性能之间提供了最佳平衡。

然而,为了提供更多的灵活性,苹果提供了一套不同秩的精度恢复适配器供应用团队选择。

量化

精度恢复适配器带来的另一个好处是它们允许更灵活的量化方案选择。

过去在量化大语言模型时,通常会将权重分成小块,通过对应的最大绝对值来规范每个块,以过滤掉异常值,然后在块的基础上应用量化算法。

虽然较大的块大小会降低每个权重的有效位数并提高吞吐量,但量化损失也会增加。为了平衡这种权衡,通常将块大小设置为较小的值,如64或32。

但在苹果的实验中,团队发现精度恢复适配器可以显著改善这种权衡的帕累托前沿(Pareto front)。

对于更激进的量化方案,更多的错误将被恢复。因此,苹果能够为AFM使用高效的量化方案,而不必担心模型容量的损失。

混合精度量化

每个Transformer块和AFM的每一层中都有残差连接。因此,不太可能所有层都具有相同的重要性。

基于这一直觉,苹果通过将某些层推向2位量化(默认是4位)来进一步减少内存使用。

平均而言,AFM设备上的模型可以压缩到每个权重大约3.5位(bpw)而不会显著丧失质量。

在生产中,苹果选择使用3.7bpw,因为这已经满足了内存需求。

评估结果

预训练

表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的结果,该测试在57个科目中进行5样本多项选择题回答。

表3和表4分别展示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基准上的结果。

可以看到,AFM预训练模型有着强大的语言和推理能力,从而为后训练和特征微调提供了坚实的基础。

后训练

人类评估

对于苹果AI的应用场景来说,人类评估更贴近用户体验。

为了评估模型的一般能力,团队收集了1393个全面的提示集。

这些提示可谓包罗万象,涵盖了不同类别以及不同难度级别,包括:分析推理、头脑风暴、聊天机器人、分类、封闭式问题回答、编码、提取、数学推理、开放式问题回答、重写、安全性、总结和写作。

图3展示了AFM与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT-3.5和GPT-4)的比较。

结果发现,人类评估者更偏爱AFM模型而不是竞争对手模型。

特别是,尽管AFM-on-device的模型尺寸小25%,但与Phi-3-mini相比,其胜率为47.7%,甚至超过了参数数量超两倍的开源强基线Gemma-7B和Mistral-7B。

与闭源模型相比,AFM-server也表现出了一定竞争力,对GPT-3.5的胜率超过50%,平局率为27.4%。

指令跟随

指令跟随(Instruction following, IF)是苹果团队对语言模型寄予厚望的核心能力,因为现实世界的提示或指令通常都很复杂。

这里,团队采用的公共IFEval基准,可以评估大语言模型在生成响应时能否精确遵循提示中的指令。其中通常包括对响应的长度、格式和内容等方面的具体要求。

如图4所示,AFM-on-device和AFM-server在指令级和提示级准确性上都表现出色。

此外,苹果团队还在AlpacaEval2.0LC基准测试上对AFM模型进行了基准测试,以衡量其一般指令跟随能力,结果表明其模型具有很强的竞争力。

工具使用

在工具使用的应用场景中,模型在收到用户请求和一系列带有描述的潜在工具列表后,可以通过提供结构化输出来选择调用特定工具,并指定工具名称和参数值。

团队通过函数调用的本地支持,使用AST指标在公共Berkeley Function Calling Leaderboard基准测试上对模型进行了评估。

如图5所示,AFM-server在整体准确性上表现最佳,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。

写作

写作是大语言模型最重要的能力之一,因为它能够支持多种下游应用,如改变语气、重写和总结。

团队在内部的总结和写作基准测试中评估了AFM的写作能力。并遵循LLM-as-a-judge的方法,为每个总结和写作任务设计了评分指令,并提示GPT-4Turbo为模型响应打分,评分范围为1到10。

如图6所示,AFM-on-device在与Gemma-7B和Mistral-7B的比较中表现出相当或更优的性能。而AFM-server则显著优于DBRX-Instruct和GPT-3.5,甚至与GPT-4不相上下。

值得注意的是,使用LLM评分会存在一些限制和偏见,例如长度偏见。

数学

在图7中,团队比较了AFM在数学基准测试中的表现。

其中,研究人员对GSM8K使用8-shot CoT提示,对MATH使用4-shot CoT提示。

结果显示,AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情况下,也显著优于这两者。

摘要功能

产品团队针对电子邮件、消息和通知的摘要制定了一套定制的指南、指标和专门的评分标准,用于评估摘要质量,采用各种开源、许可和专有数据集。

根据预定义的产品规范,如果任何子维度被评为差,则该摘要被归类为差。同样,只有当所有子维度都被评为好时,摘要才被归类为好。

图8显示,AFM-on-device+适配器的整体表现,要优于Phi-3-mini、Llama-3-8B和Gemma-7B。

安全评估

图9展示了人类评审针对模型违规的评估结果,数值越低越好。

可以看到,AFM-on-device和AFM-server在应对对抗性提示方面表现出很强的鲁棒性,违规率显著低于开源和商业模型。

图10则展示了人类评审对于安全评估提示的偏好。

由于可以提供更安全、更有帮助的响应,AFM模型再次拿下一局。

以上,是苹果AI模型的关键一瞥。

苹果AI能力,所有人究竟什么时候可以用得上?

每年,苹果会在秋季发布会上推出新品,iOS18初始版本将会随着iPhone16同时推出。

不过,人人都可体验那时,还需要等到10月。

参考资料:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776


返回网站首页

本文评论
“镰获心喜,风吹麦香” ,中国移动为夏收智慧“守望”!
通信世界网消息(CWW)夜来南风起,小麦覆陇黄。在中华大地上,从南到北,一台台大型联合收割机在金黄的麦田里来往穿梭,风吹阵阵麦香,一副“农忙”景象。沃野莽原麦浪黄,穗丰粒满待归仓...
日期:07-18
社交电商持续火热 小绿券手握好牌竞跑赛道
  近年来,网购发展迅速,伴随着传统电商的饱和,社交电商正在崛起。作为京东联盟合作伙伴,小绿券是当下最火热的社交电商导购创业平台,凭借着花更少的钱,分享更多的好物占领社交...
日期:03-23
盗版现象推动Unity亚太地区收入增长
  Unity Technologies于本周宣布,公司在亚太地区的营收与去年同期相比增长258.7%,并指出盗版行为提高了Unity工具在当地的市场需求。   Unity公司亚洲区总经理John Gooda...
日期:07-23
微软布道师「华为宣布推出开发者布道师计划:3年发展3000名布道师」
快科技6月24日消息,近日,华为开发者大会2024(HDC 2024)上,华为常务董事、华为云CEO张平安正式宣布推出开发者布道师计划。据悉,华为计划在未来3年内持续投入,发展包括高校教师、学...
日期:06-25
年轻博主都爱的纽扣麦克风!MOMA推出限量龙年款_纽曼麦克风202使用方法
能源企业数字化转型五大趋势随着 2024 年中国龙年的到来,作为中华骄傲的重要图腾,龙将成为今年送礼清单上引人注目的角色。而对于越来越彰显独特、有趣、创新个性的年轻博主们...
日期:01-16
腾讯云小微获首批知识图谱产品认证,加速AI交互能力升级
  1月8日,第一届知识图谱产业发展论坛在北京召开,中国电子技术标准化研究院在会上发布了首批知识图谱产品认证证书,其中,腾讯云小微的知识图谱构建平台、知识图谱应用平台获...
日期:07-10
点一杯奶茶什么意思「点1杯奶茶被采集87条个人数据 涉及多项个人敏感信息」
上海市消保委对上海29家有名气的奶茶店、快餐店进行了调查,发现一家网红奶茶连锁品牌每接到一个订单,就能生成87条数据。调查显示,这些店铺总共产生的数据已经超过100亿条。其...
日期:06-20
IDC二季度数据出炉,OPPO延续一季度势能上半年成中国市场第一_oppo一季度业绩
通信世界网消息(CWW)2023年7月27日,国际数据公司(IDC)发布的最新数据显示,2023年第二季度,中国智能手机市场出货量约6570万台,同比下降2.1%。上半年出货量约1.3亿台,同比下降7.4%。OP...
日期:07-27
新能源车换电池多少钱?比亚迪汉8万多 特斯拉13万_比亚迪汉新能源电动车多少钱
现阶段,新能源汽车相较于燃油车价格还是偏贵,这也与电池成本较高有关。对于车主来说,如果车辆出现问题,需要自费更换电池的话,那么购车和用车成本就会暴涨。中国高科技取暖器前段...
日期:12-12
三星的产业布局「探索前沿技术彰显产业链优势 三星手机持续为用户带来创新体验」
自2021年起,除苹果外的手机厂商纷纷进入到了折叠屏赛道,推出各类形态雷同、性能相仿的折叠屏手机产品,而随着消费者对于折叠屏产品的购买热情,也让这一赛道始终保持高速发展态势...
日期:07-22
华为k3v2_华为k3v2手机
华为K3V2芯片是华为公司自主研发的一款移动处理器,其核心架构基于ARM Cortex-A9架构,采用28纳米工艺。华为K3V2芯片为其旗下手机产品提供强劲的性能支持。该芯片集成了四核心A...
日期:05-31
视频网站忙“不务正业”:内容自制还是他制
  对于视频网站,日子还得照样过。   哪怕外面风大浪急。2010年12月8日优酷在美上市。无论是舍创业板而出海上市,还是其后三天股价的强势上扬,从每股12.8元的发行价一路追...
日期:07-26
高通发布骁龙XR2+ Gen 1旗舰平台:Meta Quest Pro VR头显首发「qualcomm xr2」
今天,高通正式宣布推出全新的旗舰XR平台:骁龙XR2+ Gen 1,Meta的VR头显新品Quest Pro宣布首发使用该芯片。华为耳机市场分析苹果11屏幕供应商是LG吗根据高通官网介绍,新的XR2+平...
日期:10-15
华为畅享60X绝妙体验圈粉多个年龄段用户 「买“充电宝”送超大屏鸿蒙手机」
4月17日,nova 11系列及全场景新品发布会正式召开,千元档位全新的畅享60X也在发布会现场惊艳亮相。整机续航突破7000mAh的华为畅享60X,凭借超大容量双电芯电池辅以长效护眼大屏,...
日期:09-17
微信视频号将发布付费订阅功能 提供包括评论区广告分成等功能_微信视频号订阅号
  讯 3月28日晚间消息,今日,2023微信公开课PRO·微信之约直播开讲。会上视频号公布了包括付费订阅功能与“原创权益”扶持等多项产品计划,未来将支持创作者设立付费内容专区,...
日期:03-29
HTTPS如何防止流量劫持?
  流量劫持总体来说属于中间人攻击(Man-in-the-Middle Attack,MITM)的一种,本质上攻击者在通信两端之间对通信内容进行嗅探和篡改,以达到插入数据和获取关键信息的目的。  ...
日期:01-24
全国首个科普联合会成立,每日互动参与发起
(原标题:全国首个科普联合会成立,每日互动参与发起) 国家科普能力的提升,全民科学素质的提高,与国家实现高水平科技自立自强、推...
日期:09-19
Windows11将以AI替代受欢迎的快捷方式
**划重点:**1. iqoo z5首发价特斯拉碳汇rx6800xt和rx6700xt游戏评测抖音平台商家规则...
日期:12-06
完美产品:减重的原则,你知道多少?_完美产品能减肥吗
  在减重过程中,我们要坚守的原则是:   1、 能量摄入不能长期低于基础代谢。因为当能量摄入低于基础代谢时(即极度节食),我们的身体会产生保护机制,通过降低基础代谢来降低...
日期:07-16
无接触智能配送背后的硬核产品——杰和工控整机AS20
  2020伊始,新冠病毒爆发,全国范围内的“抗疫”行动打破了人们正常的工作和生活节奏。近日,随着“抗疫”工作有条不紊的进行,疫情逐渐转好,复工潮来临了。企业复工后,大量线上...
日期:11-28