您的位置:首页 > 互联网

AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点

发布时间:2022-11-28 11:08:06  来源:互联网     背景:

声明:本文来自于微信公众机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。

「人类的可贵品质在于寻求和追随真理。」——西塞罗

本周二,Meta 提出的人工智能 Cicero 成为了 AI 领域的热门新闻,通过和人玩在线版「外交」游戏,它锻炼了自己的技能成为高手,在玩过的不止一场游戏中排名前10%。

Cicero 结合了类似于 AlphaGo 的战略推理能力,和类似于 GPT-3的语言组织能力。在每场比赛中,它都会查看比赛状态,各位玩家的对话历史,从而预测其他玩家的。它能自行制定计划,并通过人类语言与其他玩家进行协调执行自己的策略,几乎没有人察觉出它是 AI。

对于人工智能业界,Cicero 的出现或许意味着一次突破。在纽约大学教授 Gary Marcus 最近的的一篇文章中,他表示:「Cicero 在很大程度上是一个奇迹,实现了迄今为止 AI 最深入和最广泛的语言和动作整合,以及前所未有的与人类进行复杂互动的能力。」

我们知道,Gary Marcus 在 AI 发展方向上的看法一直和 Meta 的 AI 主管 LeCun 针锋相对。这一次,Marcus 少见地对 Meta 的研究作了全面肯定评价,是什么让他放下成见?让我们看看这篇文章是怎么说的。

nvidia发布两款高端显卡

马库斯 · 图利乌斯 · 西塞罗(Cicero)是活跃于公元前106年到43年的罗马共和国晚期政治家、演说家和作家。两千多年后,他的历史和哲学重要性仍在被人们讨论。同名的计算机程序于11月22日在顶级学术期刊《科学》上被宣布,它是一个强大的人工智能系统,可以和人类玩策略。我们还无法在它出世仅三天后就对其影响作出定论,它或许也不会像西塞罗那样一直闪耀。

Diplomacy 是一种需要充分交流的复杂游戏,至少近五十年来一直被认为是人工智能面临的重要挑战。要想获胜,参与者不仅要懂策略,还需要结盟、谈判、说服、威胁,偶尔还得学会欺骗。因此,它给 AI 带来的挑战远远超出了下围棋、国际象棋等游戏的系统,或那些在不太复杂环境中进行对话的聊天机器人所面临的挑战。

毫无疑问,Cicero 实现的结果本身确实令人印象深刻。尽管 AI 尚未达到或接近世界冠军水平,但该系统能够将语言与游戏玩法相结合,在 Diplomacy 的在线版本中,在专业和业余混合人群中排名前10%,游戏和语言使用非常自然,以至于只有一名人类玩家怀疑它是机器人。

随之出现了很多问题:它是如何工作的?它对 AI 中其他持续存在的挑战有影响吗?它是否真的像 Meta AI 所声称的那样,是「构建掌握与人谈判、说服和合作技能的 AI 的突破」?对于一个可以在真实情况下与人类进行智能交互的系统来说,它的进步有多大?我们是否需要担心 Meta 已经建立了一个可以操纵人类以实现其统治世界目标的人工智能,正如我们的一位朋友发布的那样,也许这甚至是认真的?鉴于涉及欺骗策略,我们是否处于某种新兴的风险中?

值得称赞的是,Meta AI 已经发布了 Cicero 开源代码,以便研究社区可以开始探索这些问题:https://github.com/facebookresearch/diplomacy_cicero

对于 AI 算法来说,如果不首先检查系统的架构,总是很难回答有关影响的问题。事实证明,Cicero 的架构与近年来 AI 中讨论的大部分内容大相径庭。

首先你要认识到,Cicero 是一个非常复杂的系统。它的高级结构比精通围棋和国际象棋的 AlphaZero 或纯粹关注单词序列的 GPT-3等系统复杂得多。其中一些复杂性在流程图中立就能显现出来。尽管最近的许多模型都类似于数据输入、动作输出,中间有某种统一系统(比如 Transformer),但 Cicero 在任何学习或训练之前都进行了大量预结构化,并采用精心设计的定制架构分为多个模块和流,每个模块和流都有自己的特化。

而这只是复杂的开始。就评估其整体意义而言,Cicero 的许多最重要的特征在于隐藏在文章补充材料深处的细节。尽管这里的讨论旨在帮你省去大部分细节,但很明显,正确理解 Cicero 并回答这些问题不可避免地需要仔细分析。

Cicero 表现如何

Diplomacy 游戏由一系列回合组成。在每一轮中,首先所有玩家私下交流,一对一;他们可以建立秘密联盟、谈判条件等等。商议完毕后再同时公布。

图片

在每一步棋中,Cicero 都必须决定与谁交谈,谈的内容是什么,最后要采取什么行动。这些决定中的每一个都取决于当前的比赛状态,Cicero 要考虑的因素包括之前的比赛和交流历史,以及其他玩家在当前行动中对它说的话。

在这种情况下,做出正确的决定可能会变得非常复杂。如果你在玩 Diplomacy,你下一步应该做什么显然取决于其他玩家将要做什么,同样他们将要做什么取决于他们认为你将要做什么。更复杂的是,你可以(希望)通过他们所说的来衡量他们将要做什么,并且玩家之间还可以通过交流的来互相影响预判。但是,你要说什么终究是取决于你希望他们做什么,而这又回到了你要做什么的问题。

图片

支撑 Cicero 模型的核心理论是博弈论。博弈论最初于20世纪30年代发展起来,现在已经非常强大,它为 Cicero 模型提供了一个强有力的起点。博弈论在 Cicero 如何选择其策略方面起到了关键作用。Meta AI 早期一项在非语言简化版 Diplomacy 的工作中已经得到很好的验证和发展,令人印象深刻。

然而,博弈论本身是一种行动理论。根本不是一种语言理论。因此,Cicero 团队必须将博弈论策略选择与为纯语言任务(如翻译或问答)开发的自然语言技术相结合。将所有这些组合成一个协调的整体非常具有挑战性。坦率地说,Meta AI 团队的成功让我们印象深刻。

Cicero 在游戏中的架构可能不可避免地包含一系列高度复杂的交互算法。我们不打算在这里对其进行全面描述,但我们看到了两个关键要点。首先,Cicero 的整体架构并不是简单地从基础数据中自发产生的,而是一个包含许多活动部件的精巧工程结构,由不同类型的 AI 专家组成的广泛团队,结合概率分析博弈论精心设计而成。

第二个关键点是 Cicero 在做出决策时利用了许多不同类型的信息,包括:

  • 游戏的当前状态;

  • 之前所有历史动作和历史对话;

  • 语言模式知识,基于类似于 GPT-3的纯语言模型,这让 Cicero 知道如何合理回应其他玩家;

  • 了解语言与动作的关系,这让 Cicero 知道如何告诉盟友或潜在盟友它计划做什么;

  • 每条交流消息的间隔时间(以秒为单位)。

重要的是,尽管 Cicero 与人类对抗比赛,但它的运作方式与人类并不完全相同。例如,人类玩家可能会尝试对其他玩家的精神状态和交流互动进行分类。而 Cicero 在没有直接表述或表征这类想法的情况下设法取得了成功。

Cicero 是如何训练的

与几乎所有其他实用化的人工智能一样,Cicero 的构建也大量使用了机器学习技术。训练数据有许多不同的部分,其中一些涉及大量的劳动来创建。该系统最终依赖于四类定制数据,比人们在典型的深度学习系统中使用的要多得多,其中有相当数量的手工构建的数据(这在深度学习领域也很罕见),其中包括:

  • 在线平台上进行的125300场人类游戏的语料库(其中40400场包括对话,总共有12900000条单独信息);

  • 一个大型的语言模型,似乎是在数十亿个单词的基础上训练出来的,在游戏对话的语料库中进一步微调;

  • 数以千计的专家生成的注释,评估由初步版本的 Cicero 产生的信息的质量;

  • 大量的合成数据集,其中许多是手工构建的,用于训练各种模块。例如,为了训练排除无效信息的过滤器,他们创建了一个手工构建的无效信息集;另一个数据集训练了 Cicero,使其摆脱了错误计算棋盘上实体的倾向;还有一个数据集是为了提高其对否定句的理解,一个自我博弈的语料库被用来进行强化学习等等。

图片

有了这些精心设计的数据,系统需要学习语言中的信息在游戏行动方面的含义。例如,它需要学习 「你想在比利时支援荷兰吗?」这一连串的话语意味着在游戏过程中标记为「NTH S BEL」的行动。

为了做到这一点,Cicero 做了一个假设,即一般来说 A 和 B 之间的对话中的句子是指 A 和 B 在对话结束时进行的行动。该系统会在接下来的对话中寻找不诚实的说法。如果 B 在某一时刻对 A 说「你上一回合对我撒谎了」,那么这表明 A 在上一回合对 B 的陈述不应该被注释为 A 的实际行动。

把这些能力集合在一起,结果是惊人的。

范围及限制

Cicero 在许多方面都属于奇迹:它实现了迄今为止任何人工智能系统在动态世界中最深入和最广泛的语言和行动整合,还以前所未见的形式与人类成功进行了复杂的互动。

但它在如何做到这一点上也很引人注目。令人震惊的是,与许多时代潮流相反,Cicero 在很大程度上依赖于手工制作,包括数据集和架构。在这个意义上,它在许多方面更让人想起经典的「老式人工智能」,而深度学习系统往往结构化程度较低,对特定问题的定制程度较低。它比最近的人工智能系统存在更多的天性。

另外,值得注意的是,Cicero 的某些方面使用了神经符号的人工智能方法,如语言中的信息与行动符号表征的关联、对于对话结构的内在(先天)理解等等。

也就是说,我们并不清楚 Cicero 的特殊性有多大的可概括性。

据我们所知,Cicero 只在单一任务上进行了测试,这正是它精心设计的任务:Diplomacy。它不能立即应用于挑战,例如客户服务或指导家用机器人的行动,或者几乎任何其他事情。即使在 Diplomacy 的环境里,其范围也是有些局限的。

例如,人类玩家可能可以很好地应对另一个棋盘(例如1400年的欧洲地图),或是稍加修改的行动规则(例如部队可以通过空中旅行而不仅仅是陆地或海上)。而在 Cicero 中,却没有简单的方法来 「呈现」任何这样的规则或地图变化,而且其训练与描述标准 Diplomacy 棋盘行动细节的语言有很大的关系。

最好的假设是,如果你用其他规则玩 Diplomacy,系统会希望几乎从头开始重新训练。然而,并没有简单的方法来重新训练 Cicero。如果你想建立一个在20x20围棋棋盘上对弈的 AlphaZero 版本,那可以用很少的新的人力来完成,因为 AlphaZero 完全是在自我博弈中训练出来的。而对于 Cicero,你必须等到人类下了125000盘棋后再进行重新训练,然后才能继续进行实验。

这并不意味着将 Cicero 改造为其他任务的道路很容易。正如领域内经常出现的情况一样,关键问题是,Cicero 中使用的技术在多大程度上可以推广到涉及行动和社会互动的其他情况?如果我们想搭建一个 AI,在封闭和有限的 Diplomacy 环境之外与人进行一些复杂的互动,那么 Cicero 的执行架构、训练架构或通用方法论方法的哪些方面将是有用的?

这个系统很复杂,我们无法很有把握地预测这一点,但就目前的情况来看,我们认为通用化的前景有些有限。这种工作方式在其他问题上可能很有用,但如果将该系统应用于其他问题,例如桥牌等游戏中的竞价,或者为一个项目的团队谈判工作计划,或者计划婚礼,那么该架构的具体内容可能不会有太大的用处。

Cicero 的成功对一般的人工智能有什么启示?

Cicero 广泛使用了机器学习,但它并不是简单地制造更大的模型(所谓「扩展最大化」)的典型代表,也不是目前流行的「端到端」机器学习的观点——即单一的通用学习算法全面适用。在执行时,Cicero 由一系列独立的精心设计的模块组成,具有复杂的相互作用。在训练时,它利用了各种训练素材,其中有些是专家专门为 Cicero 搭建的,有些是用专家手动编写的程序合成的。

在 Cicero 发布的同一天,AACL 会议上就「NLP 是否不限于深度学习」这一话题进行了友好的辩论。Cicero 也许是在提醒我们,自然语言处理确实远不止于深度学习。

我们最后的收获是什么?我们了解到机器学习有价值已经有一段时间了,但如今机器学习经常被当作万能的溶剂,好像人工智能的其他部分无关紧要。而 Cicero 或许会改变这种计算方式。

原文链接:https://garymarcus.substack.com/p/what-does-meta-ais-diplomacy-winning


返回网站首页

本文评论
经济日报:智能网联汽车进入产业布局关键期_智能网联新能源汽车产业
  2022世界智能网联汽车大会室外展区。  新华社记者 任 超摄  随着数字经济加速融入,智能网联汽车已成为汽车产业创新发展的重要方向。工信部数据显示,今年上半年,具备组...
日期:09-28
6•25日正式首销!原来“大卫”也爱荣耀Earbuds 2 SE
  近日,千万粉丝红人@张欣尧zxy直播发起的荣耀Earbuds 2 SE耳机32小时超长续航不断电挑战,在众多网友的见证下圆满成功。此次挑战经过32小时的倒计时后,荣耀Earbuds 2 SE耳...
日期:09-25
iPhone 14 Plus京东降价1000 到手只要5999_iphone12京东降价
iPhone14Plus首发当日破发跌了500多元,到今天,京东联通等一些官方的自营店,已经可以5999元买到了!iPhone14Plus已经跌到了5000多元,很有可能iPhone14Plus出货几周后苹果便削减产...
日期:10-27
中国商飞宣布C919完成取证试飞,距离商业运营还有多久_中国商飞c919订单多少?
中国商飞官微8月1日宣布,国产大飞机C919完成取证试飞。C919大型客机是我国自行研制、具有自主知识产权的大型喷气式民用飞机,采用单通道窄体布局,座级158至168座,航程4075至5555...
日期:09-26
Grin开发基金再次收到50 BTC匿名捐赠,捐赠者是09-10年比特币“上古大神团体”
《Grin开发基金再次收到50 BTC匿名捐赠,捐赠者是09-10年比特币“上古大神团体”》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只A...
日期:08-01
百度智能计算峰会丨雅量商业智能创始人发表推动零售数字化主题演讲
  6月3日,百度云智峰会丨智能计算峰会召开,本次峰会发布了百度智能云AI新基建方面最新进展,并探讨如何通过AI等技术提升新基建运行效率等问题,峰会围绕智能新计算、绿色新基...
日期:09-01
华为发布 TDD 第三代 M-MIMO 产品和 FDD 超宽带多天线系列产品
  2 月 27 日消息,在本周召开的发布会上,华为无线网络产品线副总裁、首席营销官甘斌发布了华为无线最新产品与解决方案 ——TDD 第三代 M-MIMO 产品和 FDD 超宽带多天线系...
日期:07-17
营造清朗的网络环境_落实网络生态新规 共建清朗网络空间
  近年来,随着互联网的日益普及和移动化、社交化、智能化的发展,网络治理也面临许多新的课题。加强网络生态治理,是建立健全网络综合治理体系,培育积极健康、向上向善的网络...
日期:06-14
中芯国际利润率创新高:没有弯道式超车跳跃式前进_中芯国际盈利能力
  【编者按】   8月3日午间,国家市场监管总局发布通知称,针对汽车芯片市场哄抬炒作、价格高企等突出问题,对涉嫌哄抬价格的汽车芯片经销企业立案调查。数据显示,主力资金消...
日期:07-17
愿景基金2期投资尚未回本,软银为何还要再推新愿景基金?「软银愿景基金中国办事处」
  记者/李京亚  近日,据外媒报道,一位接近日本软银集团的人士表示,软银正在考虑推出第三支愿景基金,基金的规模尚未最终确定,可能在明年年初推出,也可能最终选择不推出。  ...
日期:09-29
谷歌 Google 搜索新变,支持用户删除手机号码、地址等内容信息(删除Google)
  5 月 2 日消息,据 MSPoweruser 报道,在政策允许 18 岁以下的任何人(或应监护人或父母的要求)要求从搜索结果中删除他们的照片之后,谷歌正在再次完善其政策集合。  近期...
日期:07-18
小微智能语音助手_AI语音助手广泛应用 腾讯云小微以技术驱动行业转型升级
  近期, 全球领先的研究顾问公司Gartner发布了《Competitive Landscape: Top Cloud-Based AI Services in China》报告。腾讯云小微作为中国市场的代表厂商之一入选该报告...
日期:07-16
赛博朋克2077累计销量「《赛博朋克2077》更新销量数据:已卖出2000万份」
  9月28日晚间,游戏公司CD Projekt官微宣布,《赛博朋克2077》累计销量突破2000万份。据了解,CD Projekt花了8年时间开发《赛博朋克2077》,成本高达12亿兹罗提(约合人民币17.28...
日期:10-01
“问天系列”数字藏品问世 趣链科技以区块链技术助力航天事业发展
据中国载人航天工程办公室消息,搭载“问天”实验舱的“长征五号B”遥三运载火箭,近日将在海南文昌航天发射场 101 工位发射升空,并与天和核心舱对接。作为目前全球自身长度和直...
日期:08-03
助力健身房挖流量,造品牌,促生意,青橙科技发布免费健身房小程序
  随着微信对小程序的资源倾斜,小程序坐拥的线上流量愈发庞大。过去一年,小程序服务超过1000亿人次用户,年交易增长超过600%,创造了超过5000亿的商业价值。   为了让更多...
日期:01-12
富士康多名员工跳楼事件追踪:精神危机是主因(富士康员工坠楼事件)
  5月11日,24岁的河南籍女员工祝某某在深圳龙华街道水斗新村一出租屋跳楼身亡,成为今年以来第八个跳楼的富士康员工。富士康员工为什么接二连三地选择轻生这些不幸者为什么...
日期:07-29
合同到期 暴雪将在中国大陆暂停多数游戏服务_暴雪暂停开发
11月17日 消息:近日,暴雪娱乐宣布,由于未能与网易续签授权协议,将暂停在中国的大多数暴雪游戏服务,包括《魔兽世界》《炉石传说》《守望先锋》《星际争霸》《魔兽争霸3:重铸版》...
日期:11-20
小米12S立减600 3000出头分期还免息「小米分期12期免息真的没有利息吗」
国庆已经过完,但手机市场的促销仍在继续,现在小米12S手机立减600元,现在到手只要3399元了,还有分期免息,赠品等活动,强劲的性能配合MIUI 13不错的调校,强强联手打造的小米12S手机有...
日期:10-09
苹果对日本投资超千亿美元 CEO库克参观芯片中心「美国苹果公司库克」
  财联社12月13日电,苹果公司周二表示,在过去五年中,该公司在其日本供应网络上投资了超过1000亿美元,首席执行官蒂姆库克访问了该国半导体行业聚集地。库克在周一表示,他访问了...
日期:12-13
“椰树四美”穿羽绒服直播跳操 不久后被网友要求换装
11月18日 消息:椰树集团又火了!11月15日晚,椰树集团四位“椰树女郎”在货拉拉直播间身穿羽绒服直播,一改此前备受争议的形象,并表示之前直播的内容引起一些讨论,希望大家不要有...
日期:11-19