您的位置:首页 > 互联网

微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!_microsoft/ai-edu

发布时间:2024-09-07 13:41:25  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区 作者:AIGC开放社区,授权转载发布。

随着ChatGPT、Copliot等生成式AI产品的快速迭代,对训练数据的需求呈指数级增长,同时也是提升大模型性能的关键环节之一。

为了解决训练数据短缺和质量差的难题,微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Instruct。

论文地址:https://arxiv.org/abs/2407.03502

为了突破传统合成数据的拟合性、多元化性差等,AgentInstruct使用了一种创新性方法“生成教学”(Generative Teaching),并通过多种智能体共同协作自动完成数据转换、清洗、优化从而合成高质量数据。

AgentInstruct会先收集各种原始数据种子,例如,教科书章节、网络文章、代码片段等。这些种子作为后续数据合成的基础,为模型提供了丰富的信息来源。

然后通过Content Transformation Agents智能体将原始的种子材料转换成一种中间形式,这种形式简化了后续步骤中针对具体目标创建指令的过程。

例如,一个简单的文本段落会被转换成一个论点段落、会议记录转录内容、API列表等。通过转换过程使得原本无结构的内容变得更加有条理,同时也保留了原始材料的多样性和丰富性。

microsoft/ai-edu

在种子指令创建流程中,Instruction Creation Agents智能体会进一步处理这些经过初步转换的内容,创造出多样化的指令。

这些指令可以是要求模型执行某一特定任务的请求,例如,修改一段文字、编写一个故事、解释一个概念或是完成一个编码任务。

该阶段的目标是生成一系列具有挑战性且多样的任务,从而让模型在训练过程中接触到尽可能多的不同类型的任务。

为了进一步提指令的质量和复杂性,研究人员引入了指令细化流程,通过Refinement Agents智能体对指令进行深入的迭代优化,确保每一条指令都能够更加精准地达到预期的数据效果。

在细化的过程中,智能体首先提出各种可能的改进方案,旨在增加指令的复杂性、多样性和质量。例如,可能会提出修改指令中的某些部分,使得原本直接的问题变得更加间接,或者增加一些需要模型进行推理才能得出答案的元素。

英特尔第二季度财报

美团跌破3000亿是什么原因导致的?

然后再对改进后的方案进行一步优化,并且在语言表述上保持清晰和准确。智能体会仔细审核每一条建议的可行性和效果,然后以一种合理的方式整合到指令中。整个流程会反复进行迭代、优化,直到达到预期的合成数据规模和质量水平。

微软ai写代码

研究人员通过Agent Instruct自动生成了2500万个配对的高质量合成数据集,包含文本编辑、创意写作、编程、阅读理解等。然后再用生成的数据对Mistral-7b模型进行了训练、微调,开发了Orca-3模型。

微软ai作诗

在一系列基准测试中,Orca-3相比原来的Mistral-7b-Instruct的模型性能提升巨大。例如,在AGIEval上提升了40%,MMLU上提高了19%,GSM8K上进步了54%,BBH上提升了38%,AlpacaEval上提升了45%。同时,Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。


返回网站首页

本文评论
小米宣布大模型小爱全量升级:支持AI图片编辑、车外唤醒防御_小米小爱新品
快科技7月31日消息,日前,小米宣布小爱同学大模型小爱应用正全量升级,覆盖手机、平板、电视、音箱、汽车等核心品类,支持AI图片编辑、车外唤醒防御等功能。大模型小爱在不同设备...
日期:07-31
iPhone15系列销量同比下降4.5%,或与华为Mate60系列强势回归有关
10月16日消息,来自彭博社(Bloomberg)发布的最新分析报告显示,刚上市的iPhone15系列在中国市场的销量明显不如预期。该报告称,与去年同期的iPhone14系列相比,iPhone15系列上市后的...
日期:10-19
抖音宣布与腾讯视频合作 围绕长短视频衍生创作开展合作「腾讯短视频和抖音」
4月7日上午,抖音和腾讯视频宣布达成合作协议,双方将在长短视频联合推广、短视频二创等方面进行探索。根据协议,腾讯视频将授权抖音使用其拥有信息网络传播权及转授权权利的长视...
日期:04-07
长安汽车与华为合作的汽车什么时候上市「成立新公司!华为与长安汽车签署投资合作备忘录」
通信世界网消息(CWW)日前,华为与长安汽车在深圳签署了《投资合作备忘录》。经协商,华为拟成立一家新公司,聚焦智能网联汽车的智能驾驶系统及增量部件的研发、生产、销售和服务。...
日期:11-27
网友吐槽:月薪2万住不起汉庭如家 暑期酒店涨价凶猛_汉庭酒店是如家旗下的吗
近期,暑期旅游需求旺盛,导致酒店和机票价格上涨。网友纷纷吐槽称,月薪2万住不起汉庭和如家。一些连锁品牌酒店在热门地点的价格接近千元,甚至超过千元。梦三国2黄忠皮肤据携程等...
日期:08-07
让生成式AI应用学得广、说得准、记得住 Amazon,Bedrock上新多项新功能
【】7月17日消息,刚刚结束的亚马逊云科技纽约峰会,生成式AI仍然是重点。在会上,亚马逊云科技围绕其生成式AI三层架构中的中间层Amazon Bedrock和应用层Amazon Q生成式AI助手推...
日期:07-17
治好“李佳琦依赖症”_李佳琦医生
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬,授权转载发布。9月20日晚,在没有任何预热的情况下,李佳琦悄然复播,最终累计观看超6300万。当晚,业内是相当激动。有媒体...
日期:10-11
戴尔超薄笔记本_戴尔超薄笔记本电脑推荐
是一款高端、便携的电脑产品。其主要特点是超薄机身、高清屏幕和卓越性能。下面就来介绍一下这款笔记本的详细信息。苹果官方皮革保护壳材质抽油烟机智商税首先,的外观设计十...
日期:05-30
沃尔沃 混电「放缓纯电化步伐,重心转向插电混动,沃尔沃调整电气化战略」
【】9月5日消息,沃尔沃汽车近日宣布调整其此前公布的2030纯电化计划,新的规划更为温和且务实。根据更新后的计划,沃尔沃预计到2025年,插电混动和纯电动车型将占据公司全球销量的...
日期:09-06
如何看待程前事件?_程前说了一句什么话
来源:创业邦来源丨王智远( ID:Z201440)作者丨王智远图源丨图虫创意这两天,2023年风马牛年终秀,火了。为什么?这场活动会邀请圈内一些实干家、共同讨论当前社会、经济、文化趋势,给...
日期:01-13
复联6推迟上映!现用手机能看《复联5》「复联5什么时候上映中国」
中关村在线消息:10月12日,漫威新片《复仇者联盟6》宣布档期推迟,从原定的2025年11月7日变为2026年5月1日北美上映,晚了半年,离现在还有近4年。《复联6》的编剧为《洛基》《奇异博...
日期:10-28
360数科更名“奇富科技” 官方解释为何取此名「360数科最新资讯」
2月14日,360数科宣布更名为奇富科技”,将全面聚焦金融科技战略,帮助金融机构实现数字化转型。该公司表示,奇富科技的品牌含义为用先进科技,为社会创造财富”。怪兽充电股权结构奇...
日期:02-15
女子疯狂网上购物确诊帕金森 网友:开始怀疑我的手_女帕金森病人临终前症状
现在,我们可以随处看到快递驿站和快递柜,但是由于越来越多的人喜欢在网上购物,这些地方经常会出现排队等候和爆满的情况。然而,网上消费的行为不仅仅是购物这么简单,有些人可能只...
日期:04-12
华为HarmonyOS NEXT开发者预览版官网上线_华为开发者大会2021together官网
1月18日 消息:华为在鸿蒙生态千帆启航仪式上宣布,HarmonyOS NEXT开发者预览版官网正式上线。这一平台为开发者提供了软硬件全栈式线上服务,旨在帮助开发者更快速、更便捷地开...
日期:01-19
小米14来了?卢伟冰:新旗舰产品力很强很强 配置能把人吓坏_卢伟冰对小米的贡献
今天中午(11月18日),小米中国区总裁卢伟冰在微博表示:苹果更新14.1会丢失数据吗今天关于小米新旗舰的讨论好热闹,产品力很强很强在评论区与网友交流时,有粉丝提到别打谜语,直接放配...
日期:11-20
高铁大学生有优惠吗「高铁上大学生帮了11岁时的自己:仿佛时光倒流」
5月6日消息,据国内多家媒体报道,第一次坐高铁的小男孩,一路向邻座的男大学生问问题,男大学生全程耐心回答。法拉第未来是新能源车吗他表示,像是在和当年的自己对话,仿佛时光倒流,看...
日期:05-07
高通公布第四代骁龙座舱平台:小鹏X9、小米SU7、蔚来ET9等车型首批搭载
快科技1月10日消息,在昨日开幕的CES 2024展会上,高通公布了第四代骁龙座舱平台。据悉,为了满足汽车厂商打造独特、差异化、品牌化体验的需求,高通推出的第四代骁龙座舱平台支持...
日期:01-10
特斯拉新款Model 3曝光:0-100加速时间不足2.5秒
特斯拉新款Model 3 Performance高性能全轮驱动版车型的消息近日再度曝光,新车预计将于明年年中上市交付。根据消息,新款Model 3 Performance将采用与老款高性能全轮驱动版车型...
日期:10-22
oray贝锐科技「贝锐自研OrayOS系统官方答疑:支持哪些设备?异地组网是否免费?」
贝锐全新自主研发的OrayOS系统,专为路由器、IoT网关等设备设计,支持包括X86、ARM在内的多种硬件架构,并提供一体化的微服务。安装OrayOS后,除了可以获得功能强大的路由/网关和网...
日期:08-29
为K60 Ultra让路!Redmi K50至尊版顶配版不到2500元「k50j」
Redmi即将推出K60系列的旗舰产品K60 Ultra,该机已经获得入网许可,即将发布。有消息人士透露,这款手机即将由卢伟冰官宣。随着K60 Ultra的到来,上一代机型Redmi K50 Ultra的价格...
日期:07-15