您的位置:首页 > 互联网

YaRN:可高效扩展现有大模型的上下文窗口长度_yarn的web界面详解

发布时间:2023-09-08 17:16:14  来源:互联网     背景:

要点:

yarn的web界面详解

1、YaRN是一种计算高效的方法,可以扩展基于 transformer 的语言模型的上下文窗口,与以前的方法相比,它需要10倍更少的 token 和2.5倍更少的训练步骤。

2、YaRN利用了旋转位置嵌入(RoPE)来增强模型处理顺序数据和获取位置信息的能力,同时通过压缩变压器来扩展上下文窗口。

yarn的web界面详解

3、实验表明,YaRN只需要400个训练步骤就能成功实现语言模型的上下文窗口扩展,相比之前的方法降低了10倍的训练样本量和2.5倍的训练步骤。

9月8日 消息:大型语言模型在自然语言处理任务上的强大表现主要归功于模型所能捕捉的上下文信息。

Rotary position embedding(RoPE)增强了模型处理顺序数据和捕获序列中位置信息的能力。然而,这些模型必须超越它们所训练的序列长度进行泛化。

Nous Research、Eleuther AI和日内瓦大学的研究人员提出了YaRN (又一个RoPE扩展方法),该方法可以高效地扩展现有语言模型的上下文窗口长度。

yarn的web界面详解

项目地址:https://github.com/jquesnelle/yarn

RoPE使用复杂数旋转,这是一种有效的编码位置信息的旋转式位置嵌入,使模型能够在不依赖固定的定位嵌入的情况下有效地编码位置信息。这将帮助模型更准确地捕捉长期依赖关系。控制旋转参数是在模型的训练过程中学习的。模型可以自适应地调整旋转以最好地捕捉标记之间的位置关系。

扎克伯格财富缩水超1800亿

他们采用的方法是压缩变换器,它使用外部记忆机制来扩展上下文窗口。它们从外部存储库中存储和检索信息,使其能够访问超出其标准窗口大小的范围。已经开发了将记忆组件添加到转换器架构的扩展,使模型能够保留和利用来自过去标记或示例的信息。

他们的实验表明,YaRN成功地实现了具有仅400个训练步骤的LLMs的上下文窗口扩展,这是原始预训练语料库的0.1%,比25减少了10倍,比7减少了2.5倍的训练步骤。这使得它在没有任何额外推理成本的情况下高度计算高效。

总的来说,YaRN改进了所有现有的RoPE插值方法,并以无缺点和最小的实施努力替换PI。微调的模型在多个基准上保持了其原有的能力,同时能够关注非常大的上下文范围。未来的研究工作可以涉及内存增强,这可以与传统的自然语言处理模型结合使用。基于变换器的模型可以结合外部记忆库来存储与上下文相关的信息,用于下游任务如问答或机器翻译。


返回网站首页

本文评论
2023鼎捷软件生态伙伴大会成功举办 携手共享万亿市场
4月24日,“2023鼎捷软件生态伙伴大会”在苏州拉开帷幕。本次大会以“鼎聚生态力量 捷创数智未来”为主题,汇集300余位嘉宾参会,大会邀请了政府、机构领导,移动、联通、电信等运...
日期:04-27
电脑键盘保护膜_笔记本电脑键盘保护膜
是一种用于保护键盘的薄膜,是近年来广受欢迎的电脑配件之一。随着越来越多的人使用电脑,在日常使用中,键盘是最经常操作的部分之一,污垢和细菌也越来越多。的出现,不仅可以防止键...
日期:05-29
小娜再见!微软宣布:Win10、Win11将正式抛弃Cortana
快科技6月4日讯,微软日前宣布,将在2023年底停止支持Windows 10/11上的语音数字助理Cortana(小娜)。特斯拉model 3交付量按照微软的说法,今年晚些时候,Cortana将不再作为单独的Wind...
日期:06-04
百度地图“发热门诊地图”全国300余重点城市已上线,“出行管控消息”实时更新中
  近期,新型冠状病毒感染的肺炎疫情牵动人心,面对突发疫情,百度地图与国家卫生健康委员会政务新媒体平台健康中国携手合作,紧急上线“发热门诊地图”,公众可通过健康中国客户...
日期:04-25
中小网站价值洼地受认可 百度联盟构建绿色互联网生态圈
  在互联网过去十几年的发展历程中,数百万网站百舸争流。与门户、影视、游戏等行业的大网站相比,绝大多数的中小网站都默默无闻。随着网民区域性、垂直化趋势的演进,互联网...
日期:07-25
亚马逊Web服务云计算基础设施的网站和服务临时中断
  8月10日消息,亚马逊在北弗吉尼亚州的EC2(弹性计算云)服务周一晚上发生断网故障,使许多使用亚马逊Web服务云计算基础设施的网站和服务临时中断。   这次断网故障持续了大...
日期:07-22
苹果确认漏洞阻止了儿童的屏幕时间限制_苹果屏幕使用时间孩子几岁才停止
7月31日 消息:苹果确认存在漏洞,儿童能够绕过屏幕使用时间限制的设置。据《华尔街日报》报道,家长们发现通过家庭共享系统设置的一些屏幕使用时间限制无法正确保存数月。苹果...
日期:07-31
台积电7nm功耗「功耗直降30% 台积电2nm工艺曝光」
中关村在线消息:近日,根据国内媒体报道的消息,近日,台积电公布了2022年Q3季度业绩,同时也透露了最新的工艺进展,其表示3nm工艺的需求已经超过了预期,明年会满载量产,而2nm工艺也进度...
日期:10-21
谷歌母公司Alphabet发布二季度财报:净利润同比下降14%_谷歌母公司股价
iqoo电光蓝参数 查看最新行情   讯 北京时间7月27日凌晨消息,Alphabet(谷歌母公司)今天发布了该公司截至6月30日的2022财年第二季度财报。报告显示,Alphabe...
日期:07-31
禁用ChatGPT的队伍又添一大员!三星新政策限制工作中使用AI
银行、科技公司都害怕尝到信息泄漏的苦头,因此对人工智能谨慎远观。 财联社5月3日讯(编辑 马兰)据一份内部备忘录显示,三星本周推出了一项新政策,要求员工不得在工作场所使用Open...
日期:05-04
美股周一:特斯拉公布交付数据后跌超6%,阿里跌逾3%「美股特斯拉最新股价盘后交易」
4月4日消息,美国时间周一,美股收盘主要股指涨跌不一,道指和标指连续第四个交易日上涨。投资者对沙特及其OPEC+盟友周末意外宣布的石油减产做出了反应。道琼斯指数收于33601.15...
日期:04-04
b站有多少10万粉up_在B站,48天涨粉10万,如何达成?
  10万?100万?跻身百大UP主?哪个是你新一年在B站的发展目标?   2020年B站百大UP主名单已于日前公布,据卡思数据统计,除游戏、知识两大主流分区占比近1/3外,以美食、美妆...
日期:07-10
英两男子Facebook发表煽动骚乱言论获刑_德国facebook案
英国两名男青年因在社交网站“脸谱”上发表煽动骚乱言论于8月16日被判入狱4年。这是伦敦和英格兰其他城市上周发生骚乱和抢劫商店事件后,法官对肇事者做出的最严厉判决。 ...
日期:07-22
苹果今年还会出新的mini吗「外媒建议iPhone 15 mini回归,希望苹果一次发5款手机」
科技媒体 PhoneArena 出于对 iPhone mini 机型的热爱,正在发起一项投票,希望以此呼吁苹果带回 iPhone 15 mini,并且保留 iPhone 15 Plus。百度把谷歌挤出中国市场PhoneArena 认...
日期:12-26
技术咨询公司业务范围「技术咨询公司Cognizant推Neuro AI平台 ,促进企业采用生成式AI」
8月1日 消息:国际技术咨询公司 Cognizant 推出了一款名为 Neuro AI 的企业级平台,旨在帮助客户部署生成式人工智能。生成式人工智能是一种可以生成各种类型内容的人工智能技...
日期:08-01
蔚来在德国、荷兰、丹麦、瑞典开放ET7、EL7和ET5车型订阅服务_eT7蔚来
10月8日消息,北京时间10月8日0点,柏林当地时间10月7日18点,蔚来在德国柏林举办了NIOBerlin发布会。大会宣布,蔚来的三款最新车型:ET7、EL7和ET5,将通过订阅模式在德国、荷兰、丹麦...
日期:10-11
旅游业服务创新「飞猪推17项措施支持旅游业振兴」
12月12日,飞猪启动“你好,明天”计划,推出17项措施支持旅游业振兴。“接下来的复苏是一场全旅游行业的大接力。作为连接商家和消费者的桥梁,平台要倾尽全力,跑好我们这一棒。”飞...
日期:12-12
今天七夕节 科普:今年七夕为何“来得有点晚”?
8月22日,今天是一年一度的七夕节,又称牛郎织女节、七巧节、七姐节、女儿节、乞巧节、七娘会、七夕祭、牛公牛婆日、巧夕等,是中国民间的传统节日。2022年12月黄历不少网友发现,...
日期:08-22
马斯克脑子有问题「马斯克拒用Tik Tok:感觉它们的AI会探测我的大脑」
快科技8月25日,推特博主DogeDesigner昨日傍晚发文吐槽 TikTok,声称它在摧毁我们的文明”。雅迪e7缤钻版电动车怎么样配图显示,左图的专家”具有深厚的天文、数学、物理、哲学、...
日期:08-25
为提升性能 松下宣布推迟特斯拉4680电池的商业化生产_特斯拉电池是松下哪个型号的
5月11日消息,当地时间周三日本松下表示将推迟4680电池的商业化生产,计划在2024年4月至9月期间开始量产这种电池,原因是该公司目标为提高电池性能。更新ios14.7.1后相机用不了淘...
日期:05-11