您的位置:首页 > 互联网

波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键

发布时间:2023-08-19 15:49:41  来源:互联网     背景:


新智元报道

编辑:Lumina 润

三星j6plus参数

【新智元导读】鸭嘴兽 70B登上Hugging Face上的开源大模型榜一,变强的原因是采用优化过的数据集训练以及更高效的PEFT和独特的LoRA微调。

Hugging Face上的开源大模型排名榜又更新了,这次荣登榜一的是:鸭嘴兽(Platypus 2-70B)!


和现在抱脸开源榜单上大部分的模型一样,鸭嘴兽是来自波士顿大学的研究人员基于Llama2微调而来。

同时,鸭嘴兽的进步就像之前所有的开源大模型那样:在提升性能的同时,使用更少的计算资源和数据。

一个13B的鸭嘴兽模型可以在单个A100 GPU使用25k个问题在5小时内完成训练。


论文地址:https://arxiv.org/pdf/2308.07317.pdf

根据研究人员的论文描述,鸭嘴兽70B变强的原因主要是两点:

1. 编辑数据集:删除相似和重复的问题

2. 使用LoRA和PEFT对模型进行了优化,重点关注非注意力模块

而在检查测试数据泄漏和训练数据污染方面,鸭嘴兽也做出了自己的贡献,这为未来的研究提供了有价值的参考。

多快好省的鸭嘴兽

鸭嘴兽主要是通过在一个小而强大的数据集Open-Platypus上使用参数高效调整(PEFT)和LoRA中对非注意力部分的微调来改进模型的性能。

与一般专注于专业领域的模型在微调是耗时又昂贵不同,鸭嘴兽既做到了在总体上的模型性能提升,同时在特定领域的表现也很优秀。

在研究中发现,领域特定的数据集可以提高在所选任务类别上的性能。当与模型合并结合使用时,能够显著减少训练时间。

开源数据集

研究团队通过Hugging Face向公众开放了鸭嘴兽的数据集Open-Platypus:


Open-Platypus由11个开源数据集组成,主要由人为设计的问题组成,只有大约10%的问题由LLM生成,能够以最小的微调时间和成本实现强大的性能。侧重于提高LLM的STEM和逻辑能力。

同时,研究团队也对这些数据集进行了优化,这有助于缩小数据集并最大限度地减少数据冗余。

具体操作包括:

通过相似性排除的方法来最小化记忆,删除了所有逐字逐句的重复指令,然后删除了与训练集中其他指令的SentenceTransformers 嵌入具有80%余弦相似度的指令。

并且默认保留具有更详细答案的问题与答案对。因为较长的答案很可能对应更详细的解释和/或逐步解决方案。

解决数据污染

研究团队深入探索了开放式LLM训练集中的污染问题,并介绍了对鸭嘴兽数据进行过滤过程。

研究团队数据过滤的方法,其核心是确保基准测试题不会无意中泄漏到训练集中,这是为了防止测试数据的记忆对基准结果造成歪曲。

考虑到这一点,在确定是否应将问题标记为重复问题并从训练集中删除时,应留有余地。

在确定可疑问题时允许一定的灵活性,因为查询有多种措辞方式,同时,通用领域知识可能会阻止问题被视作重复。

为此,研究团队开发了以下启发式方法,用于指导人工筛选来自 Open-Platypus 的、与任何基准问题相似度大于 80% 的问题。

研究团队将潜在问题分为三类:重复、灰色区域和相似但不同。但为了谨慎起见,研究团队会将它们全部从训练集中删除。

1. 重复:

这些问题几乎是测试集问题的完全复制品,可能只有一个微小的词语变化或轻微的重新排列。

这是我们将之定义为“真正”的污染类别,如上表中泄漏问题的数量所示。这种情况的具体示例如下:


2. 灰色区域

这组问题被称为灰色区域,包括并非完全重复的问题,属于常识范畴。

虽然我们将这些问题的最终评判权留给了开源社区,但我们认为这些问题往往需要专家知识。

值得注意的是,这类问题包括指令完全相同但答案却同义的问题:


3. 相似但不同:

最后一类问题包括尽管具有较高的余弦相似性分数,但答案却截然不同的问题。

这通常可以归因于问题结构的细微变化,从而产生完全不同的答案。

下图中的第一个问题就是一个很好的例子,其中对旋转轴和象限定义的修改极大地改变了最终答案。


微调与合并模型

在完善数据集并对污染进行三重检查后,研究团队对模型进行了微调与合并。

方法主要是低秩逼近(LoRA)训练和参数高效微调(PEFT)库。

与完全微调不同,LoRA 保留了预先训练的模型权重,并在转换层中整合了秩分解矩阵。

高通骁龙6nm5g芯片怎么样

这可以减少可训练参数,并节省训练的时间和成本。

例如,鸭嘴兽的13B模型使用1个A100 80GB进行了5个小时的微调,70B模型使用4个A100 80GB进行了22个小时的微调。

而作为比较基准,斯坦福大学对Alpaca-7B 的全面微调是在8 个 A100 80GB 上进行的,并花费了3个小时。

研究团队对模型的微调最初主要针对的是注意力模块,如 v_proj、q_proj、k_proj 和 o_proj。

后来,研究人员转向了对gate_proj、down_proj 和 up_proj 模块的微调,与注意力模块相比,除了可训练参数小于总参数的 0.1% 时,微调这些模块模型的性能表现更好。

为了保持一致性,研究团队对13B和70B模型统一采用了这一方法,可训练参数分别为0.27%和0.2%。

唯一的差异在于这些模型的初始学习率。

研究团队的模型合并策略则旨在评估与Instruct和Beluga等广泛模型或Camel 等专业模型合并的协同效应。

研究团队发现,合并模型能够有效拓宽模型的知识基础,但选择何种模型进行合并,是广泛合并还是集中合并,在决定性能结果方面起着关键作用。

同时,模型合并的效果因测试的具体领域而异。

所有领域的性能提升和下降并不一致,意味着在最终确定合并之前进行特定领域评估的必要性。

鸭嘴兽排名第一

截止到今天的Hugging Face开源LLM排行榜数据,Platypus2-70B依旧稳坐第一,而它的变体也在众多LLM中排名前列。


而在13B的尺寸上,鸭嘴兽的表现也同样亮眼,以平均分63.96脱颖而出,成为13B模型的领跑者。


救火英雄魂归故里

Hugging Face的Open LLM排行榜

Huggingface的Open LLM排行榜目前是开源社区使用最多,同时也是参与模型最多的排行榜。

Open LLM排行榜使用Eleuther AI语言模型评估框架,这是一个在大量不同评估任务上测试生成式语言模型的统一框架,会在 4 个关键基准上对模型进行评估。

1. AI2 :针对科学问题的推理测试,共有25次测试。

2. HellaSwag:常识推理测试,但对大语言模型来说具有相当的挑战性,总共进行10次测试。

3. MMLU:用于测量文本模型的多任务准确性。该测试涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等,总共测试10次。

4. TruthfulQA:用于测试模型复制网上常见虚假内容的倾向。

整个测试框架都是开源的,网友可以直接在本地用这个框架测试模型,或者提交模型给Hugging Face来在线跑分。

全世界大大小小的模型都有机会打榜,成功登顶就可以标榜自己是世界第一。


一个韩国团队训练的开源模型,在被鸭嘴兽超越之前曾经是世界第一。他们就很自豪地将这个成果展示在公司主页最瞩目的地方。


Hugging Face的Open LLM排行榜,不仅能让技术人员客观对比模型的能力,还能给开源社区模型提供一个展示自己以获取外部资源,最终进一步发展的机会。

这也与开源社区的宗旨一致:

秉持高性价比的理念,允许各种改进模型的尝试,拥抱开放和共同进步.....

也许这就是开源社区如此生机勃勃的原因。

参考资料:

https://arxiv.org/abs/2308.07317


返回网站首页

本文评论
360杀毒再添小红伞引擎 “五核”版即将面世(360杀毒小红伞引擎要不要装)
  6月20日,中国最大的网络安全厂商360安全中心宣布与Avira达成深度合作,双方将在反病毒领域进行技术交流和联合研发。同时,360杀毒软件将在原有的“四引擎”基础上,集成Avira...
日期:07-30
最新!特斯拉在美遭起诉,被指虚假宣传自动驾驶技术「特斯拉自动驾驶事件赔偿」
据央视新闻,当地时间9月14日,特斯拉(TSLA,股价302.61美元,市值9482.2亿美元)公司在一项集体诉讼中被起诉,理由是其对自动驾驶进行虚假宣传。目前,美国加州北区地方法院已经受理这起...
日期:09-15
台积电3nm工艺或于2年内准备就绪 芯片性能有望翻番_台积电研发3nm
  台积电董事长刘德音(Dr. Mark Liu)证实,该公司的下一代 3nm 芯片制造节点,正在按计划推进之中。作为全球知名的芯片代工制造商,台积电当前正在建设 3nm 生产线,且有望明年转...
日期:07-16
大熊猫捡到游客的伞:还给撑开了_大熊猫下山偷笋被逮
7月10日消息,四川成都大熊猫绩笑成风成浪的院子里天降伞伞”,害得国宝们还以为是天降笋笋”,捡起来搂在怀里就不肯撒手,一不小心还给撑开了。万幸的是,伞被及时打捞上来。网友表...
日期:07-10
Foursquare同比增长3400%用户量超600万
  北京时间1月25日消息,美国地理位置服务提供商Foursquare周一宣布,该网站注册用户量已超600万,同比增长3400%。   该公司表示:“坦诚的说,2010年是疯狂的一年。”   Four...
日期:07-26
荣耀V40完美90帧《和平精英》揭秘,全新GPU Turbo X技术(荣耀v40能开90帧吗)
  不知你有没有注意过,近两年移动处理器性能提升有所减慢,深度层次的软硬件协同优化就尤为重要,荣耀GPU Turbo技术因此在行业中独树一帜。近日,荣耀官宣其新品V40将会具...
日期:07-10
中智行与上海智能网联汽车技术中心签署战略协议_上汽智慧车联
  (6月8日)近日,中国领先的无人驾驶公司、5GAI无人驾驶及智慧交通出行的倡导者和开拓者中智行与上海智能网联汽车技术中心签署战略合作协议。上海交通大学校长林忠钦、区委...
日期:07-14
高德地图启动暖春计划助力春运 联合670多家交管部门实时发布交通信息
1月12日消息,今日高德地图正式启动“暖春计划”,上线数字领航员小高老师安全导航语音、长途助手、一键报平安等服务,并联合全国各地670多家交警、交通管理机构,在高德地图实时发...
日期:01-12
华为新折叠屏手机曝光:本月发布 仅6000多元_华为下半年折叠屏手机
“华为P50 Pocket new”手机又传来新消息,新版的折叠屏手机将在本月发布,而价格方面也有惊喜,开售到手只要6000多元,还有赠品并且货源充足。联发科helio p22佛山2020年专利富豪...
日期:10-23
黑客利用Wi-Fi无人机远程渗透了金融公司内网_黑客利用免费Wi-Fi进行攻击的类型
本周早些时候,The Register 报道了今夏了一起无人机袭击事件。然而受害的私人投资公司却对此保持沉默,仅同意根据保密协议与安全人员展开探讨。据说当时网络管理员发现公司的...
日期:10-24
特斯拉对手:马斯克过度吹嘘自动驾驶 不用激光雷达别想实现「特斯拉自动驾驶为什么不用激光雷达」
凤凰网科技讯 北京时间11月2日消息,特斯拉CEO埃隆马斯克(Elon Musk)多年来一直在承诺,自动驾驶汽车即将问世。但是,他的对手、世界上最年轻的白手起家的亿万富翁奥斯汀拉塞尔(A...
日期:11-09
《向往的生活》第三季剧透:除了黄磊、何炅、彭昱畅 还有新人“小度”?
  终于,《向往的生活第三季》要在4月8日正式回归了,跟去年形式一样,明星们远离城市的喧嚣,一起拙守园田蘑菇屋,开始自给自足的生活。当然,本季人员也是做了一些调整,黄磊,何炅,彭...
日期:09-15
意大利拨款3000万欧元用于保护工人免受被AI替代的威胁「意大利给」
5月19日 消息:据路透社报道,意大利已拨出3000万欧元用于提高失业人员以及因自动化和人工智能而面临工作风险的人员的数字技能。苹果m2芯片比m1 pro强多少这笔资金是 Fondo pe...
日期:05-19
专注直播  微赞荣获砍柴网“火焰奖”2019年度企业服务创新奖
      1月16日,由前沿科技媒体砍柴网、新智派联合主办的“科技赋能·内容破界”2019年第七届中国互联网年度创新评选盛典“火焰奖”,经过业内专家评审、第三方数据调查机...
日期:11-03
红米k30s「红米K60或为双旗舰!配置将吊打小米12」
中关村在线消息:10月8日,据相关爆料,即将在明年第一季度发布的红米K60系列新机详细参数已经曝光,新机将采用双旗舰策略,两款机型均采用旗舰芯片,标准版搭载高通骁龙8+,Pro搭载高通骁...
日期:10-09
OPPO发布Watch 3系列等多款IoT新品 Heythings生态装机量近3亿_oppo iot产品有哪些
马化腾的身价多少亿欧珑香水全国门店520 告白神器小米ai音箱通话存储芯片未来趋势肥龙过江在线观看免费完整版乐视和小米电视三星手表处理器   讯 8月10日晚间消息,在今日...
日期:08-12
用再担心隐私泄露 ChatGPT将推出“隐身模式”
流行的聊天机器人ChatGPT引入了新的“隐身模式”,OpenAI将不会保存用户的对话记录,也不会将其用于改善其人工智能。新功能允许用户在设置中关闭“聊天记录和培训”,并导出他们...
日期:04-26
魏少军:中国半导体投资力度不足,应自立自强主动作为_半导体所魏大海
7月20日,2023世界半导体大会期间,国际欧亚科学院院士、清华大学微电子所原所长魏少军发言指出,半导体产业的发展离不开投资,目前中国半导体投资有了大基金一期、二期,加起来有340...
日期:07-21
罗永浩创业、李佳琦开播,“交个朋友”抖音一哥地位不保?「罗永浩加入抖音」
  3场直播累计观看量1.56亿!近期,淘宝“一哥”李佳琦低调返场带来了亮眼带货数据,让外界再次感受到头部主播IP的影响力,也掀起了大众对抖音“一哥”罗永浩的讨论:老罗去创业的...
日期:09-26
三星下一代折叠手机将于 7 月 26 日上市_三星下一款折叠手机是什么样的
7月6日 消息:三星今日官宣,将于7月26日19点举行Galaxy全球新品发布会,发布第五代折叠屏旗舰。我们可以从公布的图片上看到一款翻盖式可折叠手机,这应该就是备受期待的Galaxy Z...
日期:07-06