您的位置:首页 > 互联网

谷歌软文「谷歌新方法突破长文本处理 AI-架构 Transformer 再进化」

发布时间:2024-10-09 16:14:12  来源:互联网     背景:

IT之家 10 月 9 日消息,科技媒体 marktechpost 昨日(10 月 8 日)发布博文,报道称谷歌公司推出了选择性注意力(Selective Attention)方法,可以提高 Transformer 架构模型的性能。

Transformer 架构简介

Transformer 是一种革命性的神经网络架构,由谷歌在 2017 年提出,主要用于处理序列数据,特别是在自然语言处理(NLP)领域。

Transformer 的核心是自注意力机制,允许模型在处理输入序列时捕捉词与词之间的关系,让模型能够关注输入序列中的所有部分,而不仅仅是局部信息。

Transformer 由多个编码器和解码器组成。编码器负责理解输入数据,而解码器则生成输出。多头自注意力机制使模型能够并行处理信息,提高了效率和准确性。

Transformer 架构模型挑战

余承东 五年内小米将消失

小米civi 1s发售价格

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下,由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度,这就导致随着上下文长度的增加,计算和内存需求呈指数增长。

现在解决这一问题的方法包括稀疏注意力机制(sparse attention mechanisms),它限制了标记之间的交互数量,以及通过总结过去信息来减少序列长度的上下文压缩技术。

不过这种方法是通过减少在注意力机制中考虑的标记数量达成的,因此通常以性能为代价,可能会导致上下文关键信息丢失。

谷歌内容

谷歌新方法

谷歌研究的研究人员提出了一种名为选择性注意的新方法,可以动态忽略不再相关的标记,从而提高 Transformer 模型的效率。

选择性注意力使用软掩码矩阵来确定每个标记对未来标记的重要性,减少对不重要标记的关注。

研究表明,配备选择性注意的 Transformer 架构模型在多个自然语言处理任务中表现出色,同时显著降低了内存使用和计算成本。

例如,在拥有 1 亿参数的 Transformer 模型中,注意力模块的内存需求在上下文大小为 512、1024 和 2048 个 tokens 时分别减少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基准测试中也优于传统 Transformer,对于较大的模型规模实现了高达 5% 的准确率提升。

选择性注意力允许构建更小、更高效的模型,在不损害准确性的情况下,显著减少内存需求。


返回网站首页

本文评论
RX 7900 XTX温度烧到110度 AMD终于回应了:请联系客服支持
AMD的RX 7900系列显卡不仅面临着性能不如RTX 4090/4080系列的争议,最近几天还因为Hotspot热点温度过高,甚至烧到110度的事引发了新的关注。热点温度之前不怎么被人注意,它不是G...
日期:12-31
容联七陌×品诺福利|打造智慧化福利管理服务系统_北京容联七陌科技有限公司
随着社会经济的发展和人们生活水平的提高,员工对于福利待遇的多元化、精细化要求日益提升,工会福利服务也开始向数字化转型,通过个性化的福利方案和技术化支持,提高服务的便捷性...
日期:09-22
MathVerse:全方位可视化数学基准,对多模态大型语言模型进行公平和深入的评估
划重点:iphone7双摄像头锐龙4700u参数国家标准生活垃圾分类标志规定了多少个垃圾分类标志小米手机怎样查看热点密码...
日期:03-26
中关村手机论坛_中关村手机报价大全吧
中关村是中国著名的电子信息产业集聚地之一,也是全球重要的电子信息产业基地之一。其中,是该地区手机产业的重要组成部分。本文将就的相关信息进行整理,探讨这一论坛对中国手机...
日期:05-28
预计8月正式上市 仰望U8越野玩家版亮相粤港澳大湾区车展_仰望汽车
【】6月16日消息,2023年粤港澳大湾区车展今日正式拉开帷幕,比亚迪旗下仰望品牌以独立展台参展,仰望U8越野玩家版以及纯电超跑仰望U9在本次车展亮相。仰望U8定位硬派越野SUV,外观...
日期:09-24
RTX 3060 Ti即将停产:疯狂杀价700元!赔本清库存
随着RTX 4060 Ti、RTX 4060马上登场,上一代的RTX 3060 Ti也步入生命末期,消息称即将停产,用几个月时间消化库存就没了。消化库存最简单直接的方法就是降价,但没想到这次如此暴力...
日期:05-15
“校园贷鼻祖”罗敏,洗不白了_校园贷创始人罗敏
作者:也之   他大概从来不明白自己为何遭年轻人反感。   差一点,趣店CEO罗敏就能和俞敏洪相提并论了。   最近,久久未在公众场合露面的罗敏,突然出现在抖音直播间里。他头...
日期:07-31
大反转!官方通报“胖猫”事件:姐姐操控舆论 小号曝光女方信息
21岁男子胖猫”在重庆长江大桥跳江身亡,引发广泛社会关注与争论。5月19日晚,重庆市公安局南岸区分局公布了江事件调查的详细结果,揭开了一系列谜团,也呈现了又一次大反转,令人唏...
日期:05-20
乐视网商标拍卖「乐视经典商标被拍卖?官方辟谣:卖的是“LE”,而非“Le”」
之前,有消息称,北京一中院定于今年10月10日至10月11日在京东网络司法拍卖平台,对乐视控股(北京)有限公司名下包括经典的“Le”、乐视手机“LeMobile”、乐视超级电视“UMax120”...
日期:10-01
成龙晒合影悼念鸟山明:没《醉拳》就没龙珠 龟仙人“程龙”与成龙同音
近日,《龙珠》作者、著名漫画家鸟山明因病去世,引发关注。今天下午,成龙发微博悼念:鸟山明先生,感谢你创造了那么多经典作品,它们会永远与世界同在,走好”。据悉,鸟山明生前很喜欢中...
日期:03-10
高通凭借Snapdragon Spaces的里程碑,加速构建开放的XR开发者生态系统
通信世界网消息(CWW)2023年5月31日,高通技术公司推出Snapdragon Spaces™ XR开发者平台全新特性,并展示公司构建跨终端XR生态系统的强劲势头,以创造一个真正开放的头戴式设备的...
日期:06-01
SUSE 发布最新版 Rancher,开放的可互操作性再升级「sustained release」
-SUSE 发布了 Rancher 2.7.2,性能、稳定性和安全性再上新台阶,带来了多项扩展性功能,有助于强化生态能力。-作为 Rancher 的商用企业订阅版,最 新版 Rancher Prime 可通过多项增...
日期:04-20
马斯克:人形机器人Optimus将使用FSD系统 数量超过特斯拉汽车
5月17日消息,美国当地时间周二,特斯拉2023年年度股东大会在该公司位于美国得州奥斯汀的工厂召开。该公司首席执行官埃隆·马斯克(Elon Musk)现场回答了股东诸多提问,包括Cybertru...
日期:05-17
三星s4怎么截屏「三星s4怎么截屏幕」
三星S4是一款非常经典的智能手机,其功能和性能一直备受用户的欢迎。然而,有时候我们需要截屏来捕捉当前显示屏幕的内容,以便后续查看或分享。那么,三星S4应该如何截屏呢?方法一:使...
日期:05-29
好饭不怕晚,出名不用喊 腾讯分付要来了!
  继蚂蚁花呗、京东白条之后,腾讯“分付”即将千呼万唤始出来。   背靠腾讯的分付可谓先声夺人,消息刚传出就引发了巨大的关注。随着分付的临近(预计今年四季度推出),有业...
日期:10-06
苹果AirTag 2爆料:集成于Vision Pro中 2024年上市_apple air2021
【CNMO新闻】苹果于2021年推出了AirTag,这是一款蓝牙跟踪设备,可以配合苹果设备的“查找”应用,追踪和查找重要的物品。近日有消息称,考虑到AirTag受欢迎程度不断提高。苹果正在...
日期:08-15
苹果谷歌在欧盟双双败诉-微晚报,OpenAI“草莓”大模型两周内发布_苹果谷歌之争
今日要闻一览:消息称OpenAI将在两周内发布“草莓”大模型 专注于推理消息称字节跳动正在探索AI耳机、眼镜等智能硬件 与豆包大模型联动“苹果店员工到华为店观看新品发布会”...
日期:09-11
苹果iOS 17公测版要来了:本月可更新_ios17.5
今天早些时候,苹果意外关闭了Apple Beta Software Program网站进行短暂维护,目前已经恢复正常运行。macbook air2020年新款通常,苹果对此类网站进行临时维护都是为了增加新内容...
日期:07-05
极氪001怎么样?车展“零距离”接触后有哪些真实想法?「极氪007官宣:将于12月下旬上市并开放试驾」
快科技12月7日消息,极氪官方针对旗下首款轿车007的一些问题进行了解答。小度收藏在哪里HTC虚拟现实据悉,极氪007将在今年12月下旬正式上市,上市后将正式启动门店试驾,而新车的内...
日期:12-07
京东健康上市港股涨超42% 市值超阿里健康_京东健康上市首日股价大涨
12月8日 消息:今天,京东健康正式在港交所上市,开售价为每股70.58港元。上市首日,京东健康股价大涨逾40%。截至发稿,京东健康股价涨42.25%,报价100.4港元,目前总市值为3139.59亿,超...
日期:08-01