您的位置:首页 > 互联网

艾伦AI推出业界最大文本数据集,包含3万亿Tokens,超过Llama 2

发布时间:2023-08-22 19:49:26  来源:互联网     背景:

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



编译 | 香草
编辑 |李水青

智东西8月21日消息,艾伦AI研究所(AI2)于8月19日在其官方博客发布用于训练大型语言模型(LLM)的文本数据集Dolma,包含3万亿个Tokens(词例),是迄今为止最大的开放文本数据集。



▲按子集划分的Dolma数据属性概览

在AI竞争激烈的当下,大部分科技巨头都倾向于保守自家大模型开发的机密。AI2在博客中称,公司希望通过公开透明化其数据集及之后的大模型,帮助更多的研究者在此基础上进一步进行研究和开发等工作。

一、全透明构建700亿参数大模型,2024年推出

AI2由已故微软联合创始人兼慈善家保罗·艾伦(Paul Allen)于2014年成立,致力于开展高影响力的AI研究和工程,宗旨是“AI为人类共同利益服务”(AI for the common good)。2017年,AI2推出了孵化器项目AI2 Incubator,孵化出被百度全资收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等。

自2023年3月以来,AI2一直在着手创建一个开放的生成语言模型AI2 OLMo(Open Language Model),旨在促进大规模自然语言处理(NLP)系统的研究。AI2称将发布在整个项目中遵循的人工制品和记录流程,以透明和开放的方式构建OLMo。

OLMo将拥有700亿级别的参数规模,预计于2024年初完成。此次公布的Dolma,便是用于OLMo的数据集,其名称来源于“Data to feedOLMo’sAppetite”——为OLMo的“胃口”提供数据。

AI2认为理想的数据集应该满足开放性、代表性、规模性、可复现性以及风险规避性这五个标准。

像GPT-4、Claude这样的语言模型功能强大且用途广泛,但其训练数据却是保密的。AI2认为需要扭转这一趋势,让数据集可以免费使用并接受监督,也让其他研究人员有机会在此基础上建立更好版本的数据集。为了提供可复现的条件,AI2将公开在准备数据集过程中使用到的所有开发工具。



▲AI2统计的常见大模型相关属性,其中“?”表示未公开,“~”表示部分公开

尽管OpenAI和Meta等公司公布了用于构建语言模型的数据集的部分重要统计数据,但其中很多信息都被视为专有信息。除了阻碍审查和改进等原因之外,还有人猜测,这种封闭的方式可能是由于数据的获取不道德或不合法。

网络动态定价的优势

在AI竞争激烈的背景下,大部分公司倾向于保守其模型训练过程的秘密。但对于其他研究人员来说,这使得这些数据集和模型更加不透明,难以研究或复现。

二、保证Dolma数据集质量,AI2采取四项原则

在训练语料库时,可选择的数据非常多,其数据量几乎是一个天文数字。对此,AI2使用了四项原则来协助选择数据,分别是遵循现有做法、合理运用评估套件、倾向于协助实现核心研究方向的决策以及采取基于危害的方法来缓解风险。这四项原则内容如下:

首先,通过匹配用于创建其他语言数据集的方法,使更广泛的研究界能够利用Dolma来间接研究现有的或是正在开发的LLM。

其次,在做出直接影响其中一项任务的数据相关决策时,选择能够提高指标的干预措施。例如,Dolma中加入了维基百科文本,因为它能提高K-12(学前及中小学教育)科学知识任务的性能。

再次,并非所有数据集决策都与基准性能有关,例如添加包含代码的文档会降低许多文本基准测试的性能。AI2倾向于为其主动或前瞻性研究加入更有用的决策。

最后,通过与法律道德专家的交谈,根据其反馈评估了数据设计决策从而规避可能的风险。

三、业界最大公开文本数据集,3万亿Tokens超Llama 2

与市面上已经公开的数据集相比,Dolma主要有两点不同。首先,它比其他开放数据集规模大很多。



▲Dolma与其他公开数据集的属性对比

由表可见,除Dolma外,目前公开数据集中数据量最大的是RedPajama,为1.2万亿Tokens,被用于Llama的训练。相比之下,Dolma的数据量是其两倍多。此外,Llama 2训练所使用的数据集为2万亿Tokens规模,但并未公开。GPT-3训练使用的数据集规模为0.4万亿。

其次,它遵循AI2为AI人工制品制定的许可证ImpACT,该许可证的名称来自于AI2的四个核心价值观:影响力(Impact)、责任(Accountability)、协作(Collaboration)和透明(Transparency)。它将人工制品划分为低、中、高三个级别的风险,并规定了如何使用、安装和创建衍生品。

根据许可,研究人员须遵守:1、提供联系信息,并说明Dolma的预期用途;2、公开基于Dolma创建的任何衍生产品;3、遵循ImpACT分发衍生产品;4、不将Dolma用于一系列被禁止的用途,如军事监控或生成虚假信息。

结语:开放与透明为研究者提供新的探索空间

Nubia贴吧

AI2发布的Dolma数据集是迄今为止最大的开放文本数据集,为训练大型语言模型提供了巨大的资源。在遵循风险规避等准则的前提下,选取了尽量多来源和种类的数据,达到3万亿Tokens级别。

Dolma的公开透明化举措开创了大型数据集开源的先河,在竞争激烈的AI领域,鼓励其他研究人员在其数据集的基础上进行再研究和开发,有助于推动产业的开放性和合作性发展。

来源:艾伦AI研究所官方博客

橘子吃多了会变成橘子吗


返回网站首页

本文评论
如何搞定自学?雷军:知识不是线性的 前面不懂的跳过去「雷军是怎么教你的」
快科技8月14日消息,雷军年度演讲于今晚正式开讲,这次主题是成长,雷军将介绍改变他一生的决定。同时这次也是小米年中的新品发布会,预计会发布小米MIX Fold3、Redmi K60至尊版、...
日期:08-14
宝能造车梦破碎:烧了80多亿元的观致 如今沦为法拍车
观致汽车是宝能集团在六年前先后投资超80亿元控股的汽车制造公司,宝能实控人姚振华曾希望通过观致汽车实现自己的造车梦”,但如今,以观致汽车的现状来看,造车梦已很难实现”。特...
日期:02-05
惠普 CEO:人工智能将彻底改变个人电脑行业 创造一个新的 PC 类别「惠普现任ceo」
5月31日消息:惠普公司首席执行官 Enrique Lores 日前在接受 CNBC 的 Jim Cramer 采访时表示,人工智能将从根本上改变个人电脑行业,特别是对他自己的公司而言。Lores 表示:「我...
日期:05-31
微信公众号可以修改图片了 最多支持3张_微信公众号能改图片吗?
凤凰网科技讯 8月15日消息,微信公众号新增图片修改功能,用户可通过微信公众号的“修改”入口进入,可以看到提示“新增图片修改”。只需点击文章中需要删除或者替换的图片,就能修...
日期:08-15
iPhone13发售溢价「iPhone 14 Plus被指年度最不保值手机:一上市就破发」
10月9日消息,iPhone 14 Plus在10月7日正式开售,上市首日就破发了,渠道价降了3-400元,因此被称为年度最不保值手机。如果说iPhone 14 Plus是年度最不保值手机,那么同系列的iPhone...
日期:10-10
SEMI预计2022全球晶圆厂设备支出将抵近千亿美元的历史新高「全球晶圆代工市场规模」
周二的时候,SEMI 发布了最新一季的世界晶圆厂预测报告,推测本年度全球前端晶圆厂的设备支出将同比增长约 9%,达到 990 亿美元的历史新高。此外 SEMI 总裁兼 CEO Ajit Manocha...
日期:09-28
二手平台交易诈骗陷阱多,小心“官方客服”名义的诈骗短信_二手平台交易被骗报警
  随着网络的发展,大家习惯使用二手交易平台,或出售手边的闲置物品,或以优惠价格购入商品,“全新正品”、“真伪可查”、“包邮”等也成为二手交易平台商品的关键词。然而,一...
日期:01-25
小伙开兰博基尼没钱付过路费「男子借朋友兰博基尼上高速 一个不注意10多万没了」
借车有风险,借车需谨慎。特别是名贵的豪车,一旦出现事故,维修费用可能都会在数十万元。如果修不起的话,连朋友都没得做。华为nova7升级鸿蒙os10月26日 浙江丽水,G25长深高速龙庆...
日期:11-03
华为云信创_华云数据“信创+”生态发布 :赋能信创生态,成就信创伙伴
  ​信创是国家一项重要的发展战略,也是当今形势下国家经济发展的新动能。回顾信创产业的发展历史,从最早的国产化到2019年信创产业首次进入人们的视野,再到2020年,“新基建...
日期:01-11
工信部:加强产业技术攻关与知识产权协同联动_产业知识产权联盟建设指南
  记者 周頔  我国是世界第一制造大国,近年来转型升级步伐明显加快。如何推进制造业行业与制造业企业的知识产权能力建设?华为mate40pro限量销售  8月24日,在国家知识产...
日期:09-09
华为智慧屏电视频道「华为智慧屏视频功能大升级:整合B站、爱奇艺等17家视频平台」
随着版权时代的到来,以及各大视频平台纷纷开始推出各类自制剧集,想在一个平台上看完所有想看的视频成为了一件几乎不可能完成的事情。近日,华为宣布,华为智慧屏的视频功能将进行...
日期:12-13
专访荣耀赵明:两年储备打造毫米级折叠屏手机 它将取代直板手机
  新浪数码讯;7月18日下午消息,近期,荣耀年度旗舰产Magic;V2正式发布,荣耀CEO赵明在会后面对媒体,话题核心自然是产品本身,同时也提到了荣耀的一系列战略。  两年准备,新材料+...
日期:07-19
微软发布 Visual Studio Code Java 的 4 月更新:支持 Java 18,参数名称嵌入提示
  据微软博客发布,近期 Visual Studio Code Java 的 4 月更新发布。这次微软团队为你带来了许多关于基础开发体验的令人激动的更新,包括 Java 18 支持、参数名称的嵌入提示...
日期:06-18
腾讯产品矩阵「腾讯参与制定Vulkan矩阵扩展标准,推动机器学习加速计算发展」
随着人工智能技术的发展,机器学习应用场景越来越广泛,从智能语音助手到自动驾驶,从智能推荐到图像识别,都需要大量的计算资源来支持。而GPU作为一种高效的计算资源,越来越受到关...
日期:08-18
再见天涯社区,BBS时代终究已随风而去_天涯社区下架了
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。在如今这个抖音、快手、B站、知乎、小红书、微博几乎占满了我们上网冲浪大量时间的年景里,可能不...
日期:04-28
HTC预告推出新款小型Vive VR头显「htc vive摄像头」
当Meta和TikTok的所有者字节跳动为成为制造虚拟或增强现实硬件的高端社交媒体/元数据公司而战时,HTC正在提醒大家,它在游戏中也有一席之地。在没有提供任何额外细节的情况下,公...
日期:10-12
腾讯优图贾佳亚:AI进入产业应用时代,计算机视觉技术应用呈现三大趋势
  5月21日—23日,2019腾讯全球数字生态大会在昆明举行,在AI分论坛上,腾讯优图实验室联合负责人、腾讯杰出科学家贾佳亚发表了主题为“计算机视觉技术的应用和探索”的演讲,探...
日期:02-21
适合游戏的电脑_适合游戏的电脑品牌
现在的游戏越来越为人们所喜爱,而为了玩游戏,电脑配置也越来越重要。而需要具备哪些条件呢?首先是高配置。游戏所需要的显卡、处理器、内存、硬盘容量都需要更高的要求。在显卡...
日期:06-06
每日优鲜 破产_每日优鲜否认发布“资金断链无法正常经营”的通知
讯 8月1日下午消息,今日有媒体报道,每日优鲜发布了一则“资金断链无法正常经营”的通知。从流出的截图来看,这份通知显示,为了保障到供应商与消费者权益,公司已经尽最大能力,处理...
日期:08-02
360杀毒首度参加AV-C即获得认证
  北京时间4月13日,专业安全测试机构AV-Comparatives发布2011年第一期《杀毒软件手动扫描测试报告》。作为国产杀毒软件的唯一代表,360杀毒首次参加AV-C测试便表现不俗,成功...
日期:07-27