您的位置:首页 > 互联网

比Transformer更好的模型架构?Monarch Mixer更低成本取得更优表现

发布时间:2023-10-30 13:31:05  来源:互联网     背景:

要点:

1. Monarch Mixer (M2) 是一种新的模型架构,与传统的Transformer不同,它通过使用Monarch矩阵替代注意力和MLP,使之在语言和图像实验中以更低的成本取得了更优的表现。

2. Monarch Mixer 的关键创新点在于其次二次的复杂度,使其能够处理更长的序列和更高维度的表征,同时保持计算效率。

3. 实验证明,M2在各种任务上,包括语言建模和图像分类,能够与传统Transformer媲美,同时具有更高的硬件效率和更少的参数。

安卓库存机和新机的区别

iphone 14 pro max自动重启

10月30日 消息:近年来,Transformer模型在自然语言处理和计算机视觉领域取得了巨大成功,但它的高成本、复杂性以及依赖于注意力机制和多层感知机(MLP)等组件使得人们开始寻求替代方案。论文介绍了一种名为Monarch Mixer(M2)的全新模型架构,这个架构在序列长度和模型维度上都表现出次二次复杂度的特点,同时在现代硬件加速器上具有出色的性能。

论文地址:https://arxiv.org/abs/2310.12109

代码地址:https://github.com/HazyResearch/m2

华为mate30rs保时捷手机壳

Monarch Mixer(M2)的主要创新点在于它采用了Monarch矩阵,将传统Transformer中的注意力机制和MLP替代为更高性能的结构。Monarch矩阵是一种次二次结构化矩阵,能够支持更长的序列和更高维度的表示,同时保持计算效率。这个矩阵可以通过分块对角矩阵的积进行参数化,其计算复杂度与输入长度呈次二次增长关系,这使得M2能够在处理大规模数据时具有出色的性能。

百度音乐总监

实验结果表明,M2在多个任务上都能够媲美传统Transformer模型,包括非因果语言建模、图像分类和因果语言建模。与传统Transformer相比,M2不仅能够节省大量参数,还具有更高的硬件效率,这使得它成为一个有潜力的替代选择。

斯坦福大学和纽约州立大学布法罗分校的研究团队的工作为机器学习领域带来了新的思路,挑战了传统Transformer模型的优越性。他们的研究不仅探索了Monarch Mixer的理论基础,还进行了一系列实验来验证其性能。这篇文章的发表为机器学习社区提供了一个全新的研究方向,也让人们重新思考了在自然语言处理和计算机视觉任务中的模型选择。

总的来说,Monarch Mixer(M2)是一种具有次二次复杂度的新型模型架构,能够在不使用传统Transformer中的注意力和MLP的情况下,在自然语言处理和计算机视觉任务中表现出色。它的硬件效率和参数效率使其成为一个有望取代传统Transformer的新选择,为深度学习研究领域带来了新的思考。


返回网站首页

本文评论
微软 Edge 浏览器 Canary 版现已支持打开 Office 文档_文件已在microsoft edge中打开
  微软 Edge 浏览器正式版目前为 89 版本,每日更新的 Canary 预览版目前已经来到了 90.0.803.0 版。根据外媒 Techreader 消息,这款浏览器已经支持打开多种 Office 文档,此...
日期:07-16
小米Civi 3直接上16 1TB 明天发布_小米civi上手体验
今天小米宣布其最新款手机Civi 3将配备高达16GB内存和1TB存储容量。小米集团副总裁卢伟冰表示,这一硬件规格不仅超越了Pro级手机,也是小米Civi系列首次采用。在如此强悍的硬件...
日期:05-25
马斯克母亲:我在中国过得很开心 厦门南普陀寺很美_马斯克母亲节
梅耶·马斯克是特斯拉公司创始人埃隆·马斯克的母亲。她年过七旬,曾赢得过选美冠军,职业是模特。据香港《南华早报》网站3月28日报道,虽然梅耶·马斯克的知名度不会超过她的儿...
日期:03-31
以TT语音为推手,趣丸网络加速驱动电竞城市化发展
  随着电竞产业的崛起和电竞赛事的“出圈”,其商业价值、文化价值、社会影响力正快速提升。国内多个城市都认识到电竞作为一项新兴产业,对于提升城市形象、提振城市活力、...
日期:11-02
印尼伊布火山发生喷发:火山灰柱达1000米_印尼火山群
快科技12月17日消息,据媒体报道,当地时间12月17日19时02分,印尼北马鲁古省伊布火山喷发,火山灰柱达1000米,喷发持续时间为58秒。极氪家用充电桩火山喷发时,当地政府已经采取了紧急...
日期:12-18
网络视频低价时代结束 「美国流媒体服务普遍涨价」
互联网视频服务的低价时代正在结束。好莱坞媒体巨头们正涨价,使得互联网视频服务的价格已经与15年前的有线电视相当。今年秋季,美国一系列主要互联网视频服务的价格将从一年前...
日期:09-17
展现数字生活美丽新画卷  MWC上的中国移动展台惊喜不断「移动展览」
通信世界网消息(CWW)6月28日,2023年上海世界移动通信大会在上海开幕。中国移动展台围绕新型信息基础设施以及新型信息服务体系两大板块,用生动、立体的呈现形式,展示了中国移动在...
日期:06-28
好未来二季度净利润1500万美元 公司股价跌超11%_好未来第三季度财报
10月23日消息,好未来公布其截至2020年8月31日的2021财年第二季度未经审计财务报告。二季度,好未来净收入11.033亿美元,同比增长20.8%;归属于好未来的净利润为1500万美元,上年同...
日期:08-07
巨人网络首款游戏进军韩国市场(巨人网络公司游戏)
  9月29日下午消息,据韩国媒体报道,中国网游研发公司巨人网络把网页游戏《黄金国度》在韩国的独家代理运营权授予NCsoft,该游戏于昨日下午在韩国正式上线公测。这意味着,巨人...
日期:07-23
根治安卓杀后台通病!一加Ace 2 Pro 72小时后台保活41个应用「一加系统bug多」
快科技8月16日消息,一加Ace 2 Pro正式登场,该机最高配备24GB内存,是行业里内存最大的骁龙8 Gen2机型。为了充分发挥大内存的威力,一加Ace 2 Pro自研了内存基因重组技术。它针对...
日期:08-16
移动应用开发者寻机会 超三成年收入不足1万
“为手机生,为Pad死,为开发奋斗一辈子;吃厂商的亏,上谷歌的当,最后死在盈利上。” 去往会场的出租车上,看到这么一句,我笑了,不盈利还这么多人来? 此时,是4月28号,长城会举办的2011移...
日期:07-27
烟台海边现大量蝼蛄虾 网友:跟捡到几百万一样开心
近日,烟台的一海滩上出现了大量蝼蛄虾,引发了市民们的兴奋和赶海热情。通常人们会将烟台与美丽的海滩和新鲜的海鲜联系在一起,但这次的奇观却让人们惊喜不已。拍景的视频市民崔...
日期:08-31
上海要求手机点餐不得强制关注微信公众号:需有纸质菜单「上海的公众号」
快科技7月18日消息,目前,很多餐厅都有手机点餐的服务,对餐厅来说,手机点餐省了服务员人工点餐的环节,但对消费者而言却并不方便,比如手机点餐要强制关注微信公众号、手机点餐图片...
日期:07-18
「女性更喜欢的小米小折叠手机_预计年底亮相」「小米折叠手机2022」
来源:中关村在线特斯拉给员工的股份有什么用小米最近发布了一款名为MIX Fold 3的折叠屏旗舰手机,这款手机在功能和轻薄方面达到了平衡,是目前市面上综合实力最强的折叠旗舰之...
日期:09-06
榨干锂电池 48小时不断电 「真我GT」-Neo5 SE自带电源管理芯片「真我gt手机neo电池」
这段时间以来,除了各大品牌旗下的顶级旗舰外,陆续也有几款中端机型陆续亮相,还有部分机型正在到来的路上,比如已经有不少曝光的真我GT Neo5 SE。日前realme官方正式宣布,该机将于...
日期:09-18
三星在美国推出经过认证的翻新手机计划_三星官方翻新机官网
三星为其2022年旗舰产品线推出了“经过认证的翻新手机”计划,作为其促进智能手机可持续发展承诺的一部分。在美国销售的三款翻新手机是galaxy s22,galaxy s22+和galaxy s22 ul...
日期:04-22
中移动飞聊年底结束公测 10月推iOS版(中国移动飞聊)
  10月11日消息,据知情人士透露,中移动即时通讯产品“飞聊”公 测期将延续至今年年底,10月份即将推出包括iOS和Symbian V5在内的多个公测版本 。   据透露,中国移动飞聊预...
日期:07-23
ChatGPT通过谷歌Level 3入职测试:年薪18万美元offer“到手”
近一段时间,ChatGPT几乎成为了人工智能技术在大众面前的代名词,它能够与人聊天,帮助撰写演讲稿甚至论文,几乎无所不能。那么,ChatGPT究竟有多强?近日,谷歌进行了一次内部测试,结果显...
日期:02-07
华为王法:比特和瓦特的碰撞加速能源数智转型升级
通信世界网消息(CWW)7月6日,以“加速能源数智化,开启数实新篇章”的能源领域5G应用现场会在杭州召开。来自国家部委、中国信通院、中国移动、中国电信、中国联通,以及部分省份电...
日期:07-20
夫妻疑捡手机要报酬被拒:将失主摁地上 多少给点_小伙捡手机
9月9日消息,据媒体报道,疑似夫妇捡到男孩手机后索要报酬被拒,双方发生争执,女子将男孩摁倒在地后表示,必须给500块钱少一分都不行。其丈夫在一旁大喊:捡手机你说给三百二百,苹果手...
日期:09-10