您的位置:首页 > 互联网

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

发布时间:2023-08-17 17:18:09  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

为了挑战 OpenAI 的 GPT-3.5和 GPT-4等闭源模型的主导地位, 一系列开源模型力量正在崛起,包括 LLaMa、Falcon 等。最近,Meta AI 发布了 LLaMa-2模型,被誉为开源领域最强的大模型,很多研究者也在此基础上搭建自己的模型。比如,StabilityAI 利用 Orca 风格的数据集对 Llama270B 模型进行了微调,打造出了 StableBeluga2,在 Huggingface 的 Open LLM 排行榜中也取得了不错的成绩。

最近,Open LLM 榜单的排行又发生了新的变化,一个名叫 Platypus(鸭嘴兽)的模型登上了榜首。

图片

概括地说,Platypus 同样是基于 Llama2微调。来自波士顿大学的作者使用了 PEFT 和 LoRA 以及数据集 Open-Platypus 进行优化。

图片

在一篇论文中,作者对 Platypus 进行了详细的介绍:

图片

论文地址:https://arxiv.org/abs/2308.07317

本文的贡献主要有以下几点:

  • Open-Platypus 是一个小规模的数据集,由公共文本数据集的精选子集组成。该数据集由11个开源数据集组成,重点是提高 LLM 的 STEM 和逻辑知识。它主要由人类设计的问题组成,只有10% 的问题是由 LLM 生成的。Open-Platypus 的主要优势在于其规模和质量,它可以在很短的时间内实现非常高的性能,并且微调的时间和成本都很低。具体来说,在单个 A100GPU 上使用25k 个问题训练13B 模型只需5个小时。

  • 描述了相似性排除过程,减少数据集的大小,并减少数据冗余。

  • 详细分析了始终存在的开放 LLM 训练集与重要 LLM 测试集中包含的数据相污染的现象,并介绍了作者避免这一隐患的训练数据过滤过程。

  • 介绍了对专门的微调 LoRA 模块进行选择和合并的过程。

Open-Platypus 数据集

目前,作者在 Hugging Face 上发布了 Open-Platypus 数据集:

图片

污染问题

本文方法优先考虑防止基准测试问题泄漏到训练集中,以避免仅通过记忆产生结果偏差。作者努力追求准确性的同时,也认识到标记重复问题时需要灵活性,因为问题的提出方式多种多样,而且会受到通用领域知识的影响。为了管理潜在的泄漏,作者精心设计了启发式方法,用于手动过滤 Open-Platypus 中与基准问题余弦嵌入相似度超过80% 的问题。他们将潜在泄漏分为三类:(1) 重复;(2) 灰色区域;(3) 相似但不相同。并且,为谨慎起见,他们将所有组别都排除在训练集之外。

重复

这几乎完全复制了测试题集的内容,可能只是稍稍改动了一下单词或稍作重新排列。根据上表中泄漏问题的数量,这是作者认为真正属于污染的唯一类别。具体例子如下:

图片

灰色区域

以下问题被称为灰色区域,包括并非完全重复、属于常识范畴的问题。虽然作者将这些问题的最终评判权留给了开源社区,但他们认为这些问题往往需要专家知识。需要注意的是,这类问题包括指令完全相同,但答案却同义的问题:

图片

谷歌pixel最新状况

小米12 pro最新跑分

相似但不相同

spacex一次火箭发射成本

这些问题的具有较高的相似度,但由于问题之间有着细微的变化,在答案上存在着显著差异。

图片

微调与合并

在完善数据集之后,作者将重点放在两种方法上:低秩近似(LoRA)训练和参数高效微调(PEFT)库。与完全的微调不同,LoRA 保留了预训练的模型权重,并在 transformer 层中整合了秩分解矩阵。这就减少了可训练参数,节省了训练时间和成本。起初,微调主要针对注意力模块,如 v_proj、q_proj、k_proj 和 o_proj。后来,根据 He et al. 的见解,过渡到 gate_proj、down_proj 和 up_proj 模块。除了可训练参数小于总参数的0.1% 时,这些模块均显示出了更好的效果。作者对13B 和70B 模型统一采用了这一方法,结果可训练参数分别为0.27% 和0.2%。唯一的差异在于这些模型的初始学习率。

富士康停电通知

结果

作者将 Platypus 与其他的 SOTA 模型进行了比较。根据2023年8月10日的 Hugging Face Open LLM 排行榜数据,Platypus2-70Binstruct 变体表现优于其他竞争对手,以73.13的平均分稳居榜首:

图片

值得注意的是,Stable-Platypus2-13B 模型以63.96的平均分成为130亿参数模型中的佼佼者:

图片

局限性

作为 LLaMa-2的微调扩展,Platypus 保留了基础模型的许多限制条件,并因其有针对性的训练而引入了特定的挑战。它共享 LLaMa-2的静态知识库,而知识库可能会过时。此外,还存在生成不准确或不恰当内容的风险,尤其是在提示不明确的情况下。虽然 Platypus 在 STEM 和英语逻辑方面得到了增强,但它对其他语言的熟练程度并不可靠,而且可能不一致。它偶尔也会产生带有偏见、攻击性或有害的内容。作者表示已经努力减少这些问题,但挑战依然存在,尤其是在非英语语言方面。

Platypus 可能会被滥用于恶意活动,这也是一个令人担忧的问题。开发人员应在部署前对其应用程序进行安全测试。Platypus 在其主要领域之外可能存在局限性,因此用户应谨慎行事,并考虑进行额外的微调以获得最佳性能。用户应确保 Platypus 的训练数据与其他基准测试集之间没有重叠。作者对数据污染问题非常谨慎,避免与在有污点的数据集上训练的模型合并。虽然经过清理的训练数据中确认没有污染,但也不排除有些问题漏掉了。如需全面了解这些限制,请参阅论文中的限制部分。


返回网站首页

本文评论
Stellantis美国伊利诺伊工厂将于将于明年2月停产并裁员1300人
12月12日报道,欧洲汽车制造商Stellantis发表声明称,该公司将于2023年2月份关闭其在美国伊利诺伊州的工厂,这将导致1350名员工被裁员,原因是电动汽车市场的成本不断上升。Stellan...
日期:12-12
联想erazer_联想erazer z500参数
是联想推出的一款游戏电脑品牌,尤其适用于喜欢玩游戏的玩家。此品牌产品结构紧凑、性能稳定、外形设计迷人等特点一直深受消费者的青睐。下面我们从性能、外观和游戏体验三个...
日期:05-31
假高考招生网站肆虐网络  应直接输入网址
当前,正是高考录取的关键时期,互联网上的招生信息铺天盖地,其间假冒招生网站泛滥,损害了广大考生的利益。瑞星安全专家指出,进入8月份以来,以假冒高校招生的钓鱼诈骗出现上升之势...
日期:07-22
上海一日料店烤2个鸽子蛋标价50元 网友:这是神仙蛋吗?「上海鸽子蛋多少钱一个」
近日,一位美食博主在微博上晒出在一家日式烧鸟店消费后的账单,其中一份烤荷包蛋的价格却高达50元,让不少网友大吃一惊。诺基亚官网手机商城除了“头”一串10元,“野菜串”40元之...
日期:02-09
共享单车手刹失灵发生事故责任「共享电动车刹车失灵 责任怎么划分?判决来了」
共享电动车为日常出行提供了极大的便利,但是一些车辆日常缺乏维护,用户在使用时,可能会出现意外伤害事故。如何判责,也成为用户和平台都需要关注的事。据报道,2022年某日晚,大学生...
日期:12-08
严重的熬夜现象「熬夜真凶找到了 近七成晚睡是因为手机」
中关村在线消息:熬夜已经成为了当代年轻人的标配,长期熬夜会使身体处于亚健康状态,最终导致多种疾病发生。调查显示,近七成晚睡都与一个东西有关,那就是手机。玩手机、追剧、打游...
日期:10-15
雅虎董事大卫-肯尼成CEO热门人选
雅虎董事大卫·肯尼   北京时间10月27日凌晨消息,刚刚卸任网络分发服务提供商Akamai总裁的雅虎董事大卫·肯尼(David Kenny)有可能成为雅虎新任CEO的热门人选。   此前...
日期:07-24
英特尔notebook_英特尔与PC厂商联合推出Ultrabook挑战iPad
(萧谔)北京时间6月1日消息,据国外媒体报道,周二在台北国际电脑展Computex大会上,英特尔公司宣布了Ultrabook系列 笔记本 ,新设备将平板电脑的轻薄设计与更快处理器结合起来。英特...
日期:07-28
荔枝第三季度营收5.65亿元 Non-GAAP净利润2750万元
11月16日消息,UGC音频社区荔枝今日发布2022年第三季度财报,财报显示,荔枝第三季度净营收为5.65亿元,同比增长12%;净利润为1980万元,去年同期则为净亏损3710万元;不按美国通用会计准...
日期:11-17
arm芯片厂商「英国芯片设计公司Arm宣布新任CFO」
  财联社9月27日电,英国芯片设计公司Arm当地时间周一宣布任命Jason Child为首席财务官(CFO)。Child拥有超过30年的高增长公司领导经验和全球金融职能扩展经验。Child将于2022...
日期:09-27
创造营2021和青春有你3公演曲目怎么免费听?当贝酷狗音乐分享高品质音乐
  这些天,《创造营2021》和《青春有你3》接连播出,新一轮的男团选秀又开始了。两档节目作为同一时期的主要竞争对手,每一季的播出都会引发网友的强烈对比,今年也不例外。...
日期:07-16
天猫养车首个生产性实训基地落地杭州「天猫养车培训」
12 月 5 日消息,阿里巴巴新康众产教融合示范基地近日落地杭州技师学院。该基地是天猫养车首个生产性实训基地,首个同时涵盖天猫养车产学研示范基地、新康众汽配供应链产学研示...
日期:12-06
谷歌侵权门「谷歌遭遇集体诉讼,被指窃取数亿美国人的网上数据用于训练 AI」
7 月 13 日消息,一项新的诉讼指控谷歌(Google)在未经用户知情或同意的情况下,窃取了人们的数据,用来训练其人工智能(AI)产品,如其聊天机器人 Bard。诉讼称,谷歌“秘密地窃取了数亿美...
日期:07-13
网上车市冲刺港交所今起招股,老虎证券打新通道即将开启(老虎证券港股打新)
  12月31日,网上车市启动公开招股。知名美港股券商老虎证券即将开启网上车市的线上申购通道,支持散户打新。   公开资料显示,网上车市拟发行2.04亿股股份,其中公开发售2040...
日期:07-16
北京通管局副局长王晖:必须要考虑AI技术开发和应用的安全问题「北京通信管理局领导班子」
通信世界网消息(CWW)在7月18日举办的2023中国互联网大会AI安全论坛上,北京市通信管理局副局长王晖称,人工智能技术的开发和应用必须要考虑到安全问题。近年来以大模型为代表的新...
日期:07-19
助力爆款 App Growing 直营电商版正式上线
  近年来下沉市场兴起,主打三四线城市的直营电商也获得了较多的发展与关注,集群化和专业化愈发凸显。随着直营电商发展的完善,流量红利在逐渐消失,广告主们面临着优胜略...
日期:11-27
微软:虽然不受支持的 PC 设备可使用 Win11 ISO 镜像手动安装,但无法获得后续更新
  8 月 29 日消息 微软将于不久后正式为用户推出 Win11 操作系统,关于新系统的要求大家应该都很熟悉了,微软目前正计划支持英特尔的第 8 代和 AMD 的 Ryzen 2000 系列芯片,...
日期:07-08
大容量、高能量密度的水系锌电池问世「锌锰电池能量密度」
IT之家 1 月 10 日消息,据中国科学技术大学网站,该校化学与材料科学学院陈维教授课题组设计了一种稳定的金属 / 金属-锌合金异质结界面层,实现了大面容量(200mAh / cm2)下无锌枝...
日期:01-10
努比亚 Z50S Pro 手机入网 搭载骁龙8Gen2领先版处理器_努比亚z5mini参数
7月11日 消息:努比亚 Z50S Pro 是一款备受期待的中高端智能手机,最近它已经通过了3C 认证,并且支持80W 有线快充。根据数码博主 @数码闲聊站的爆料,努比亚 Z50S Pro 内置了一颗...
日期:07-11
姚明12岁女儿最新身高曝光 网友:基因太强大!专家科普_姚明女儿10岁身高
据搜狐娱乐,日前有网友偶遇姚明一家三口外出就餐,出挑的身高随即引发关注。画面显示,姚明12周岁的女儿姚沁蕾身高似乎已追平妈妈。可查资料显示,2007年,姚明与女篮球员叶莉结婚,他...
日期:01-08