您的位置:首页 > 互联网

3万亿的开放数据集AI2 Dolma发布

发布时间:2023-08-22 15:15:11  来源:互联网     背景:

8月22日 消息:即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据,还为人工智能的发展开辟了新的可能性。

AI2Dolma 是一个开放的预训练数据集,包含3万亿个标记。它由 Allen AI 研究所创建,用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究,并提供一个透明和开放的平台。

image.png

项目地址:https://huggingface.co/datasets/allenai/dolma

Dolma 数据集包含了来自各种来源的文本,如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。

Dolma 的创建过程包括数据处理步骤,如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比,Dolma 采取了更多的透明度,提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布,并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。

特点:

1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集,包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。

2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证,可以供其他研究人员使用和研究,促进了整个研究社区的合作和发展。

3. 代表性:AI2Dolma 的数据集与其他语言模型数据集(无论是闭源还是开源)具有相似的来源和处理方式,确保了模型在广泛领域的能力和行为与其他语言模型一致。

4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的,其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。

当贝投影仪x3和f3

5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施,包括个人信息的删除、有害内容的过滤等,以最大程度地降低数据使用可能带来的风险。

6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据,但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言,从而满足不同语言背景下的研究需求。


返回网站首页

本文评论
从此次CES 2020看AMD追赶Intel还有多长的路要走?_amd ces 2021
  2020年的元旦刚一过,PC市场就硝烟弥漫,半导体行业两大上游厂商Intel和AMD在美国CES 2020上各自开了发布会,双方杀手锏那是层出不穷,各种明星产品争相斗艳,一时之间好不热闹...
日期:12-16
前瞻布局智能化转型,联想第一财季非PC业务占比提升至41.4%「联想2021财年」
通信世界网消息(CWW)今日,联想公布了截至2023年6月30日的2023/24财年第一财季业绩,营收903亿元,净利润13.3亿元,较去年同期营收与净利有所下降。但整体来看,在PC行业下行压力下,联想...
日期:08-17
全面赋能传统银行网点转型,MAXHUB全新方案惊艳2019中国国际金融展_2020年银行网点转型
  随着人工智能、云计算、大数据等技术发展,金融科技已成为金融机构的标配,特别是传统金融机构,比如银行网点等,都寻求通过金融科技来进行智能化升级。11月4日,MAXHUB受邀参与...
日期:05-13
谷歌公布新一代AI超算,称比英伟达A100更快、更节能「google ai lab」
4月5日消息,当地时间周二,Alphabet旗下的谷歌公开了一些新细节,展示了用于训练人工智能模型的超级计算机,称其比英伟达A100芯片的系统更快、更节能。谷歌公司设计了自己的定制芯...
日期:04-05
快手最新处置招嫖类账号50万+个、诈骗类账号63万_买卖快手号犯法吗
2月8日 消息:日前,快手发布了关于打击招嫖的治理公告和严厉打击诈骗类账号的公告第二期内容。据悉,本期平台共处置招嫖的类违规账号50万+个,共处罚诈骗类账号63万。快手表示,近...
日期:02-08
OpenAI 支持访问 GPT-4 的 ChatGPT Plus 付费服务停售_openpgp card
4月6日消息:ChatGPT 是目前最热门的生成性人工智能产品,各公司争相利用这一时髦的新人工智能技术。由于一项重大投资,微软可以直接使用 OpenAI 的产品,而且它正在将该技术投入...
日期:04-06
华为的模型「小公司玩不起 华为公布AI大模型开发训练成本:一次1200万美元」
快科技4月8日消息,AI人工智能最近几个月很火,各行各业都在谈论AI的作用,还有多家公司明确表态要搞自己的AI大模型,然而这一技术的门槛实际上很高,华为高管公布的数据显示,AI大模型...
日期:04-08
迎来“戴口罩识别”功能 华为 Mate 50 Pro正测试鸿蒙新版本_华为mate40pro戴口罩还能识别
据消息显示,华为 Mate 50 Pro正在测试鸿蒙 HarmonyOS 3.0.0.150版本,该版本将带来“戴口罩识别”功能。从图中可以看到,当Mate 50 Pro用户开启“戴口罩识别”后,设备将通过眼部...
日期:10-02
蓝城兄弟投资方_赤子城科技收购蓝城兄弟正式进入交割期
36氪获悉,蓝城兄弟发布公告,宣布此前与买方集团签署的私有化合并协议,获股东大会95.7%投票赞成通过,标志着公司私有化进入实质交割阶段。根据蓝城兄弟此前发布的13E-3公告,交割事...
日期:07-31
小米发布mi mix fold 3与显示屏下的相机_小米mix fold主摄
小米将于2022年夏季发布mi mix fold 3,可能的发布日期为7月。新机型最大的变化之一是内部屏幕使用了显示屏下摄像头,这也是小米首款使用该技术的可折叠旗舰手机。天猫双十一过...
日期:05-20
同心筑生态,前路共飞腾——飞腾CPU首届生态合作伙伴大会在京隆重举行!
  2019年12月19日,国内CPU研制领军企业天津飞腾信息技术有限公司(以下简称“飞腾公司”)在北京举办了主题为“同心筑生态,前路共飞腾”的生态伙伴大会。本届大会为飞腾公司...
日期:09-15
大学文化程度的人口「全国大学文化程度人口超2.18亿:高等教育比例近25%」
9月27日,国家教育部举办新闻发布会,介绍十年来教育改革发展的总体情况。据教育部发展规划司司长刘昌亚介绍,2021年,全国共有各级各类学校52.93万所,在校生2.91亿人;与2012年相比,学...
日期:09-29
Groupon Q1营收增1,475% 超谷歌初创期增速(谷歌2020一季度营收)
6月12日消息,据国外媒体报道,美国团购网站Groupon第一季度营收6.45亿美元,同比增长1,475%,远远超过了谷歌、亚马逊和eBay等传奇式增长的知名互联网公司创建头两年的增长水平。...
日期:07-30
没用的知识增加了!一图了解劳斯莱斯全部车型:最贵1.8亿「劳斯莱斯车价格最贵多少钱一辆」
快科技4月8日讯,作为汽车品牌里的顶级存在,劳斯莱斯一直都是很多人心中的梦,那么你知道劳斯莱斯都有哪些车型在售,它们价格又是多少吗?今日,有博主发表了一图流,可以帮助你轻松弄清...
日期:04-08
奇瑞小蚂蚁全铝车身的优缺点「全铝车身+四轮独立悬挂!奇瑞新款小蚂蚁发布:续航最高408km」
2月7日,奇瑞今日公布了奇瑞小蚂蚁2023款官图,新车将于2月10日上市,提供251km、301km、408km三种续航选择。外观设计方面,与现款车型没有太大变化,但在细节上做出变动升级,车辆车身...
日期:02-09
蔚来电动汽车最新新闻_蔚来9月共交付智能电动汽车10628台 同比增长125.7%
  10月1日消息,今日,蔚来公布2021年9月交付成绩。蔚来9月共交付智能电动汽车10,628台,同比增长125.7%;三季度,蔚来累计交付新车24,439台,同比增长100.2%,创季度交付数新高,连续6...
日期:07-17
中国对镓、锗相关物项实施出口管制,8月1日生效_我国镓的产量
通信世界网消息(CWW)7月3日,商务部、海关总署发布关于对镓、锗相关物项实施出口管制。满足相关特性的物项,未经许可,不得出口。出口经营者未经许可出口、超出许可范围出口或有其...
日期:07-04
夜爬泰山朋友圈「男子抖音晒夜爬泰山到井盖下躲风 景区回应:核实后会处罚」
最近春暖花开的天气非常适合出行旅游,尤其适合爬山,泰山作为五岳之首又火了一把,不少年轻人纷纷慕名而来。因为泰山历来有看日出的传统,所以很多游客都会选择深夜爬山,待到看完日...
日期:03-25
恒生指数收跌逾2%「恒生指数开盘跌0.07% 云音乐跌超2%」
查看最新行情 藏品分享宣讲会  讯 9月15日上午消息,香港恒生指数开盘跌0.07%。恒生科技指数跌0.34%。云音乐跌超2%,网易跌超1%,小鹏汽车跌近...
日期:09-15
3498 元起,vivo X60 系列正式开售:5nm 芯片 + 蔡司光学镜头_vivo蔡司影像展
  vivo X60 系列新机今日正式开售,搭载 Exynos 1080 处理器,采用 6.56 英寸 120Hz 屏幕,售价3498 元起。   vivo X60 系列搭载了 Exynos 1080 处理器,首发搭载 OriginOS,采...
日期:11-15