您的位置:首页 > 互联网

全网大讨论:引爆OpenAI全员乱斗的Q*到底是什么?_qq全明星大乱斗

发布时间:2023-11-28 04:47:32  来源:互联网     背景:

机器之心报道

编辑:泽南、小舟

q版乱斗

强大到能威胁人类,所以不得不把自家 CEO 开了?

本周三,OpenAI 的宫斗随着山姆・奥特曼回归 CEO 大位而告于段落,不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道,是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼的。

最近几天,互联网上有关 Q* 的讨论前所未有的热闹。

据 The Information 本周四报道,由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术突破,使得他们能够构建一个名为 Q*(音同 Q star)的新模型。Q* 最关键的突破是它能够解决基本的数学问题。

又据路透社报道,Q * 模型引发了 OpenAI 内部的一场风暴,几名工作人员写信给 OpenAI 董事会,警告称这一新突破可能会威胁人类。这一警告被认为是董事会选择解雇山姆・奥特曼(Sam Altman)的原因之一。

让 AI 解决基本数学问题的能力听起来似乎没有很厉害,但实际上这代表着大模型能力的巨大飞跃。很多近期研究表明,现有模型很难在训练数据之外进行泛化。

越来越多的工程师和研究人员加入了对 Q * 的猜测和讨论之中。

据 Business Insider 报道,人工智能初创公司 Tromero 的联合创始人 Charles Higgins 表示:对抽象概念进行逻辑推理正是目前大模型真正面临的难题。数学涉及大量符号推理,例如『如果 X 大于 Y,Y 大于 Z,那么 X 大于 Z。』而现有语言模型不进行逻辑推理,只是拥有有效的直觉。

那么,Q * 模型为什么可以进行逻辑推理?它的名字暗示了这个问题的答案。

Q * 暗示其结合了两种著名的人工智能方法 ——Q-learning 和 A* 搜索。

q版乱斗

Q-learning 是人工智能领域的一个基本概念,它是一种无模型强化学习算法,旨在学习特定状态下动作(action)的价值(value)。Q-learning 的最终目标是找到一个最优策略,定义在每个状态下采取的最佳动作,从而随着时间的推移最大化累积奖励(reward)。

ChatGPT 开发者之一的 John Schulman 2016 年在一次演讲中提到过这个概念,引入 Q* 到优化策略中:

马斯克推特消息

所以在每个状态下,哪种行动能有最优奖励?

Bandit 问题可以利用贝尔曼方程来解决。

Q-learning 基于 Q 函数,即状态动作价值函数。在简单的场景中,Q-learning 会维护并更新一个 Q-table,更新规则通常表示为:

图源:https://twitter.com/BrianRoemmele/status/1727558171462365386

Q-learning 的关键是平衡探索(尝试新事物)和利用(使用已知信息)。简单来说,Q* 可以实现最优策略,这在强化学习等 AI 方法中是算法重要的步骤,有关算法能否采取最佳决策,找到正确解。通常,被称为Q Learning的行为不会指代对上下文的搜索,或者至少不会作为算法的高级名称。它通常用于指代贪婪行为的代理。

另外也有人认为,或许如果 Q 指代 Q Learning,那么 * 就是来自 A* 搜索。

A*(A-Star)算法是一种静态路网中求最短路径最有效的直接搜索方法,也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近,最终搜索速度越快。

这样的思路也很有趣。

最后,如果你想了解更多 Q-learning 的内容,可以参看强化学习之父 Richard S. Sutton 那本著名的《Reinforcement Learning: An Introduction》。

值得注意的是,OpenAI 为大模型训练使用的 RLHF 方法,旨在让模型从人类反馈中学习,而不是仅仅依赖于预定义的数据集。

人类反馈可以有多种形式,包括更正、不同输出的排名、直接的指令等等。AI 模型会利用这些反馈来调整其算法并改进响应。这种方法在定义明确规则或提供详尽示例的挑战性领域特别有用。有人猜测,这就是为什么 Q* 接受逻辑训练并最终能够适应简单算术的原因。

然而,Q-learning 算法对实现通用人工智能(AGI)能起到多大的作用?

首先,AGI 是指人工智能系统理解、学习并将其智能应用于各种问题的能力,类似于人类智能。Q-learning 虽然在特定领域很强大,但实现 AGI 必须要克服一些挑战,包括可扩展性、泛化、适应性、技能组合等等。

实际上,近年来涌现了很多尝试将 Q-learning 与其他深度学习方法结合的研究,例如将 Q-learning 与元学习结合,让 AI 学会动态调整其学习策略。

这些研究的确让 AI 模型有了能力上的改进提升,但是 Q-learning 是否能帮助 OpenAI 实现 AGI 还未可知。

PerplexityAI 的 CEO Aravind Srinivas 认为,Sutton 的文章《惨痛的教训》告诉我们,计算才是前进的方向。我们需要更多数据(不仅是参数)来有效地使用计算。如果我们最大限度地利用互联网上的数据,那就需要模型本身来生成下一个 token,即递归的自我完善:

那么这应该根本就不危险,正如以前计算机视觉研究中,对于图像数据进行翻转和裁剪以训练分类器一样。

也有人猜测,Q* 是 AlphaStar 式搜索 + LLM 的传说中的突破,它是很多 AI Lab 正在努力的方向。但考虑到 GPT-4 自验证 + 搜索此前一些尝试有限的提升,我们距离 AGI 还是很远的。

如果正如各路媒体所报道的,Q * 的突破意味着下一代大模型可以将支持 ChatGPT 的深度学习技术与人类编程的规则结合起来。这种方法可以帮助解决困扰当前大模型的幻觉问题。

这可能会是个重要的技术发展里程碑。在实际层面上,应该距离 AI 终结世界还很远。

我认为人们之所以相信 Q* 将通向通用人工智能,是因为从我们迄今为止所听到的情况来看,它似乎会将大脑的两侧结合起来,并且能够从经验中了解一些事情,同时仍然能够推理事实,Tromero 联合创始人 Sophia Kalanovska 表示。这绝对是离我们所认为的智能更近了一步,并且有更可能让模型能够产生新的想法,ChatGPT 则不然。

无法推理和创造新想法,仅仅是从训练数据中总结信息 —— 这被视为现有大模型的局限性,甚至对于参与这些方向研究的人来说,他们也在被框架所局限。

萨里学院人类中心 AI 研究所负责人 Andrew Rogoyski 认为,解决前所未见的问题是构建 AGI 的关键一步:就数学而言,我们知道现有的人工智能已被证明能够进行本科水平的数学运算,但无法处理更高级的数学问题。

然而,如果人工智能能够解决新的、看不见的问题,而不仅仅是反省或重塑现有知识,那么这将是一件大事,即使所涉及到的问题相对简单,他补充道。

并非所有人都对 Q * 可能带来的突破如此兴奋。著名 AI 学者,纽约大学教授 Gary Marcus 在他的个人博客上发表了一篇文章,对 Q* 所报道的功能表示怀疑。

OpenAI 的董事会可能确实会对新技术表示担忧…… 尽管有一些说法称 OpenAI 已经在尝试测试 Q*,但他们在几个月内彻底改变世界是不现实的,Marcus 表示。如果我每一个这样的推断(Q * 可能威胁人类)都能得到五分钱,我就会成为马斯克级别的首富。

图灵奖得主 Yann LeCun 在与 Geoffrey Hinton 讨论 AI 风险问题之余也点评了 Q*:

LeCun 认为:Q * 很可能只是 OpenAI 用规划取代自回归 token 预测的一种尝试。现在关于 Q* 的推测只不过是废话。

马斯克也参与了讨论,顺便还宣传了下自家模型。他表示,你们讨论的能力 Grok 都会有:

对于 Q*,OpenAI 仍然没有对外界的询问给予回应。

华为北斗卫星电话上市了吗

人们的讨论还在继续,或许在 OpenAI 下一个大模型发布之后,我们才能真正得到答案。

参考内容:

https://www.businessinsider.com/openai-project-q-sam-altman-ia-model-explainer-2023-11

https://twitter.com/BrianRoemmele/status/1727558171462365386

https://garymarcus.substack.com/p/about-that-openai-breakthrough


返回网站首页

本文评论
中国一季度汽车出口量超日本成全球第一_中国汽车的出口量逐年增长
【】5月17日消息,近日据中国汽车工业协会整理的海关总署数据,今年一季度,我国汽车出口量为107万辆,同比增长58.1%。而据日本汽车工业协会数据显示,日本一季度汽车出口95.4万辆。...
日期:09-28
799元起!小米手表S3发布:百变表圈随心拆换_小米手表表带更换教程
今晚,小米在新品发布会上正式推出了全新的小米手表 S3。这款手表搭载了一块1.43英寸AMOLED屏幕,具备326PPI像素密度和高达600尼特的亮度。但最引人注目的是它的“百变表圈”功...
日期:10-27
云图首次亮相金投赏,构建用户管理新增长模式
  随着数字营销时代的到来,数据价值越来越多的被重视和挖掘出来。10月14日,巨量引擎数字化商业增长引擎云图平台首次于金投赏年度盛会上正式发声,巨量引擎策略中台及行业解...
日期:12-25
灵活就业大势所趋,新一代HR-Tech如何进行数字化复合用工管理?
  「我父亲一生只做了一份工作,我的一生将做六份工作,而我的孩子们将同时做六份工作。」   2015年,在接受英国《卫报》采访时,美国共享汽车企业Zipcar创始人Robin Chase这...
日期:10-24
讯飞飞星计划「发展和安全并重,讯飞星火定义大模型行业落地应用三要素」
通信世界网消息(CWW)2023年8月15日,由国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布的《生成式人工智能服务管理暂行办法》(以下称《办...
日期:08-16
华为P50价格血崩 限时优惠730只要3758「华为p50价格高」
今年双十一,华为P50的价格杀疯了,限时优惠730元,还送华为66W超级快充,预估到手价仅需3758元,优惠力度非常大,错过购物节价格可能就回去了,想要购买的朋友千元要抓紧下手了。>>>点我...
日期:11-08
重回第一!华为吃饱,高通联发科跌倒,手机芯片要变天了_高通芯片供应华为
作者 | 云鹏编辑 | 心缘一方面,三方手机芯片巨头们有苦难言:高通被曝裁员、订单大幅削减,联发科也将明年的晶圆投片量大砍。郭明錤认为华为麒麟的回归可能会让高通2024年SoC出...
日期:10-11
国外讨债公司_8美元击垮出海讨债人
皓丽会议平板怎么下载软件小米note顶配版发布会题图 | 电影《甲方乙方》剧照   作者 | 周月明; 编辑 | 苗正卿   “因被扣除600万元,我经营4年的跨境独立站公司已经破产,...
日期:08-12
第三届数字安全大会正式召开,掀开数字安全的新篇章!「数字安全与信任高峰论坛」
通信世界网消息(CWW)2023年6月17日,第三届数字安全大会在北京隆重召开,本届大会以“风险驱动”为主题,由数世咨询、CIO时代联合主办,新基建创新研究院作为智库支持。本次大会吸引...
日期:06-19
安卓失速,降价过冬「安卓手机降价快」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者 | 王敏 编辑 | 向小园,授权转载发布。手机厂商们急了。最近“双11”大促,手机厂商们集体开启了大降价。一向价格稳定的...
日期:11-05
Intel Arc显卡必须打开此功能!否则性能白白损失1/4
Intel Arc A770、A750高端独立显卡终于来了,性能小胜RTX 3060,性价比则远超之,很快就会上市。Intel曾经多次建议,最好在10/11/12代酷睿平台上使用Intel Arc显卡,因为兼容性、性能...
日期:10-10
马斯克的星链计划,不单单是一个商业的事情?王建宇院士:我们要有自己的杀手锏
王建宇院士:空间互联网和商业航天 (来源:网易科技) 要把互联网搬到天上去,这是怎么回事?win11升级包12月22日,在2022网易未来大会的创新力论坛...
日期:12-22
法治日报:游戏防沉迷需严厉打击租售号等黑产
  作者|罗聪冉;编辑|宋胜男 李唯祎;罗琪  来源:法治日报  2022年8月30日,是“史上最严游戏防沉迷新规”出台一周年。过去一年,防沉迷成效显著,但也出现了诸如租售号黑产虽然...
日期:08-30
问界m5上市「假期爆单!问界新M7单日大定超2400台:华为高阶智驾遥遥领先」
快科技9月30日消息,9月12日,问界全新M7正式发布,共提供5款车型,起售价为24.98万至32.98万元。华为p60会是5g手机吗日前,问界汽车公布了中秋节战报,显示9月29日问界新M7大定量突破2...
日期:09-30
阿里云开源通义千问视觉语言模型Qwen-VL 具备多模态信息理解能力
8月25日 消息:阿里云旗下魔搭社区(ModelScope)宣布开源视觉语言模型Qwen-VL。据介绍,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解...
日期:08-25
安全厂商AVG推出2012版安全产品
  9月9日上午消息,捷克杀毒厂商AVG Technologies 正式宣布推出2012版AVG 安全软件。据悉,AVG 2012增添了新的防护技术,改进了计算机性能并加快了下载速度,因此相比之前所有的...
日期:07-22
“黑客”行为新量刑标准 传播病毒可判5年以上_恶意传播病毒最高可判死刑
  日前,最高人民法院和最高人民检察院联合发布《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》,针对传播病毒、制造病毒、进行网络攻击等黑客行为做出...
日期:07-22
国内 linux「中国Linux的逆袭之路,大崩溃到大翻盘,隐忍磨砺20年」
“陈棋德、苏哲、章文嵩、马涛、李勇、陈绪……没有一代人的努力会白费,为中国Linux奋进者们而歌。”作者 | 张进编辑 | 林觉民很多年前,拓林思作为一家事实上的中国公司,已经...
日期:04-20
华为手机mate60「华为Mate 60 Pro突然发布!张雪峰:昨天刚换的Mate 50」
快科技8月29日消息,谁能想到,没有一点预热、没有一点爆料,华为Mate 60 Pro今天就这么发布并开售了,售价6999元,华为官方商城开售即售罄,相当火爆。华为Mate 60 Pro的突然发布,让考...
日期:08-30
百度研究院发布2023年十大科技趋势预测「2020十大科技趋势最新消息」
1月5日消息,百度研究院发布2023年十大科技趋势预测,今年上榜的十大科技趋势涵盖了大模型生态、数实融合、虚实共生、自动驾驶、机器人、科学计算、量子计算、隐私计算、科技伦...
日期:01-05