您的位置:首页 > 互联网

刚刚,我们感受了一波最像人的国产AI,模型还是开源的

发布时间:2024-10-26 12:33:21  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心 作者:杜伟、蛋酱,授权转载发布。

今年5月,OpenAI 首次展示了 GPT-4o 的语音功能,无论是对话的响应速度还是与真人声音的相似度,都颇为惊艳。特别是它允许用户随时打断,充分感知到用户的情绪并给予回应。

大家突然发现,原来 AI 语音通话还能这么玩?

但由于种种原因,用户们等了好久才等到 OpenAI 开放 ChatGPT 的高级语音功能,目前仅 Plus 和 Team 用户可体验,且这些用户每天也有使用时长限制。

不过现在,国内用户也有了同样丝滑的实时语音交互应用,重点是:免费开放,无需等待。

10月25日,智谱清言宣布全量上线情感语音通话功能,任何用户都可以立即获得端到端情感语音体验。

对标 GPT-4o,智谱清言情感语音通话在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,情感语音通话提供了一个真人一般的对话伙伴,而不仅仅是一个文字的朗读者。

精通各种方言,比如这段北京烤鸭的介绍,那叫一个地道:

与此同时,智谱还重磅宣布,该功能背后的情感语音模型 GLM-4-Voice 同步正式开源。不久后,相关能力还将上线视频通话,为所有用户提供一个既能看又能说的 AI 语音助理。

开源地址:https://github.com/THUDM/GLM-4-Voice

自大模型浪潮兴起的两年来,AI 技术的发展日新月异,有时甚至超过我们的想象,让大家直呼科幻时代提前到来。

当然,这背后所代表的技术趋势也不断变化。比如在人类的想象中,Any-to-Any才是真正属于未来的人与 AI 交互方式。具体来说,AI 能做到接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。

如今,智谱清言的情感语音通话又一次推动了国产 AI 对标国际先进水平。

情感语音模型 GLM-4-Voice

rtx3070掉帧

上线即开源

自从去年的 GPT-4发布之后,领域内就一直在传 GPT-5的各种消息。但我们后来都知道,OpenAI 并未通过简单粗暴地增加模型参数来拓展智能上限,而是选择了两条路线分别开拓:一条是 GPT-4o 所代表的端到端多模态大模型的探索,一条是 o1所代表的关于推理 Scaling Law 的探索。

具体到 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,所有输入和输出都由同一神经网络处理。行业内认为,这是一种可以将音频直接映射到音频作为一级模态的技术方法,涉及 Token 化和架构等方面的研究,总体来说是一个数据和系统优化问题。

在这方面,智谱也已经有了一定的技术积累。智谱清言情感语音通话功能背后的 GLM-4-Voice,同样是一个端到端的语音模型。

与传统的 ASR + LLM + TTS 的级联方案相比,GLM-4-Voice 以离散 Token 的方式表示音频,实现了音频的输入和输出的端到端建模,在一个模型里面同时完成语音的理解和生成,避免了传统的语音转文字再转语音级联方案过程中带来的信息损失和误差积累,且拥有理论上更高的建模上限。

具体来说,智谱基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在12.5Hz(12.5个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。语音合成方面,智谱采用 Flow Matching 模型流式从音频 Token 合成音频,最低只需要10个 Token 合成语音,最大限度降低对话延迟。

预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标,分别基于文本预训练数据和无监督音频数据合成数据以适配这两种任务形式:

  • Speech2Text:从文本数据中,随机选取文本句子转换为音频 Token

  • Text2Speech:从音频数据中,随机选取音频句子加入文本 Transcription

GLM-4-Voice 预训练数据构造。

与传统的 TTS 技术相比 (Text-to-Speech),GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

新ipad发布旧的会降价吗

能够在情感的把握上做到如此精准,是因为 GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。为了支持高质量的语音对话,智谱设计了一套流式思考架构:输入用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令变化做出相应的声音变化,在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力,同时保证低延迟性(最低只需要输出20个 Token 便可以合成语音)。

GLM-4-Voice 模型架构图。

伴随着 GLM-4-Voice 的推出,智谱在通往 AGI 的道路上又迈出了最新一步。

一句指令自动操作电脑、手机

AutoGLM 同步上线

在情感语音通话全面开放的同时,智谱也宣布了另一项前沿成果:AutoGLM。

让 AI 像人类一样操作电脑和手机,是近期领域内的热点话题。以往这是一项颇具挑战性的任务,因为在此类场景下,AI 需要根据用户的要求拆解指令背后蕴含的步骤,感知环境、规划任务、执行动作,逐步完成任务。某种程度上说,这突破了大模型的常规能力边界,更加注重其工具属性。

很多大模型公司都在探索这一方向,锚定其为下一个 AI 前沿。基于大语言模型(GLM 系列模型)、多模态模型和工具使用(CogAgent 模型)等方面的探索,智谱已经在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果。

在智谱最新发布的 AutoGLM App 中,用户可以凭借一句指令让 AI 自动完成许多任务,比如阅读网页信息、电商产品购买、点外卖、订酒店、评论和点赞微信朋友圈等。目前,AutoGLM 已开启内测(暂时仅支持 Android 系统)。

在 AutoGLM App 发布之前,AutoGLM-Web 已经通过智谱清言插件对外开放使用。这是一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。

在 Phone Use 和 Web Browser Use 上,AutoGLM 都取得了大幅的性能提升。在 AndroidLab 评测基准上,AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约200% 的性能提升,大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。

我们知道,当代人工作和生活中的大部分事项都需要通过计算机和手机完成,一旦让 AI 学会像人类一样直接与计算机和手机端的软件交互,就能拓展出大量当前一代 AI 助手无法实现的应用。

面向 AGI,智谱这样规划技术路线图

从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具。基于GLM-4-Plus,智谱过去几年在多模态领域探索取得了一些阶段性成果:CogView 能让文字化作一幅幅画作,CogVideo / 清影(Ying)让文图生成一帧帧视频,GLM-4V-Plus 带来了通用的视频理解能力。GLM-4-Voice的出现让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。

虽然在产品矩阵上全面对标 OpenAI,但可以看出,在追求 AGI 终极目标的过程中,智谱 AI 慢慢展现出了一些不同于 OpenAI 的思考,比如对 AI 分级的思考,这也影响了这家科技公司所走的技术路线。

如果将 AI 的能力从低到高划分为 Level1-Level5,则从当前各家 AI 大模型来看,Level1语言和多模态能力、Level2逻辑与思维能力和 Level3工具使用能力成为了主流认知。因此,包括智谱在内的大模型厂商都在实现这些能力的路上一路狂奔。

智谱此次揭露了其面向 AGI 的路线图。除了单一模态的端到端大模型之外,智谱未来希望打造各种模态混合训练的统一多模态模型,不仅认知能力要比肩人类,还要与人类价值观保持一致,做到能力出众的同时要安全可控。

在 Level3阶段,智谱拿出了最新武器 AutoGLM,具备了更强大的全栈式工具使用能力,并越来越像人一样通过感知环境、规划任务、执行任务并最终完成特定任务。同时伴随着人机交互范式的转变,智谱也离其未来打造以大模型为中心的通用计算系统 GLM-OS 的目标更近了一步。

可以说,截止目前, 前三阶段的竞争大家都走得差不多,差别就在于更高阶段的 Level4和 Level5,OpenAI 探索的是 AI 自己能够发明创新并最终融入组织或自成组织。在这两个决定未来 AI 能力走向的关键阶段,如今的智谱有了更全面的定义和解读。

在智谱的愿景中,未来 AI 在 Level4不仅要具备发明创造能力,还要全方位地追求内省,具备自我学习、自我反思和自我改进能力;到了最终的 Level5,也就是实现 AGI,AI 的能力将首次全面超越人类,并开始向探究科学规律、世界起源等终极问题发起挑战。

与此同时,如果将 AI 与人脑做一个类比,AI 在多大程度上能够达到人脑水平呢?智谱认为,从目前大模型具备的文本、视觉、声音以及逻辑和工具使用能力来看,在未来相当长一段时间内将处于42%这个阶段。因此,想要达到最终的 AGI,持续深拓已有能力并解锁未知能力是关键。

AI 技术发展到今天,已经为我们展开了一幅美好画卷。在未来,由人类创造的强大 AI 将真正使大众受益,而智谱也是推动这一里程碑的重要参与者。


返回网站首页

本文评论
小米MIX Fold 4首创全碳架构:抗冲击性能提升至300%_小米mix fold深度测评
快科技7月19日消息,小米MIX Fold 4今晚如期而至,轻至226g,单边薄至4.59mm,折叠薄至9.47mm。据介绍,小米MIX Fold 4首创全碳架构,超大碳纤维使用面积转轴浮板、屏幕衬板和中板电池...
日期:07-19
国家广电总局回应电视套娃收费问题:已开始第一阶段治理工作
9月28日 消息: 在今日的国新办发布会上,针对电视“套娃”收费问题,国家广播电视总局表示,将分三个阶段全力推进治理工作。第一阶段,今年内逐步实现收费包压减40%,提升消费透明度...
日期:09-28
抖音吸粉500万,线下万人成团,这届导游在玩一种很新的旅行社_抖音导游网红
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松露,授权转载发布。寺庙游爆火后,越来越多的年轻人涌向了普陀山。这座位于浙江舟山东部的海岛,面积只有11.82平方公里,却是中...
日期:06-03
百度点石平台:数据智能服务生态助力企业数字化升级_智慧点石有限公司
  在全球数字经济浪潮下,几乎所有企业都意识到向数字化转型的重要性。但是绝大多数企业仍只是徘徊在数字化转型的十字路口,不知向左还是右。之所以会造成这种窘境,主要是因...
日期:03-09
雅迪电动车赞助全新概念综艺  洋溢不一样的青春风采_雅迪电动车品牌形象大使
  近日,爱奇艺自制综艺节目《青春的花路》迎来了官宣,并发布了概念海报。这档主打房车旅行的全新概念综艺,由新生代偶像范丞丞、朱正廷、王子异、小鬼、尤长靖、艾福杰尼...
日期:04-13
上半年业绩预增「预期今年上半年净利润同比增长65%至85%-禅游科技」
【】7月14日消息,禅游科技在港交所发布正面盈利预告,预期今年上半年本公司拥有人应占净利润同比录得大约65%至85%的增长,预期净利润增长主要是由于本集团游戏产品品质不断提升,...
日期:09-20
全面进入大屏时代,三星电视双十一家电购物狂欢进行中_三星双11有什么活动
随着消费者对于观影娱乐体验的要求愈发提升,大屏电视成为潮流趋势。据奥维云网(AVC)数据显示, 2024 年上半年,中国电视市场 75 英寸的产品零售量份额跃居首先。双十一购物节正在...
日期:10-24
监考老师失误怎么办「监考老师走错考场 交警狂飙送达 网友:老师比考生还紧张」
2024 年 6 月 7 日,江西新余的天空晴朗,阳光洒在每一位即将踏入高考考场的学生身上。然而,在这个紧张而重要的日子里,却发生了一个令人意想不到的小插曲。早晨 8 点 16 分,正当考...
日期:06-07
魏建军称“国产车没有核心技术 质量不如日本”这么说合适吗?_中国汽车没有核心技术
运营商财经网 李广艳/文近日,长城汽车董事长魏建军在接受媒体采访时公开表示:中国电动汽车没有核心技术优势,只有产业链处于领先地位,并且在质量上不如日系车,造假严重。此言论一...
日期:10-23
震旦办公打印|印量大,更优惠!「震旦打印机官网」
打印机打印 1 张的成本有多少您知道吗?在打印量大的情况下,成本不经意间就变得高昂。震旦深知您的需求,现推出多印多优惠活动:多款A3 机型任您选择,多速度段满足您的不同需求,只...
日期:06-07
落地为王,「大模型」走出发布会
声明:本文来自于微信公众号 深响(ID:deep-echo),作者:吕玥 亚澜,授权转载发布。大模型,大机遇。舆论喧嚣了几个月,有能力的企业都在抢占生态位。芯片层,英伟达凭借其GPU优势,成为Cha...
日期:04-21
微信 Windows PC 3.8.0版发布 支持图片文字提取_新版微信如何提取图片文字
11月3日 消息:近日,微信PC版向用户推送了3.8.0版本更新,在该版本中,新增了图片文章提取和翻译功能。此外,群主或群管理员可以将群里的消息置顶,邀请朋友进群时可以分享群里的聊天...
日期:11-10
华为享z「享界S9及华为新品发布会上热搜:享界S9售价将公布」
据悉,享界S9发布会今日将正式举行,届时将公布更多配置信息。华为消费者业务CEO余承东在7月8日的一日店长体验中,访问了深圳的华为旗舰店。在店内,他亲自向顾客展示了享界S9车型...
日期:08-06
四川牧民用北斗卫星放牛:没信号的高原轻松找到每一头牦牛_北斗放牧定位器价格
快科技11月18日消息,中国北斗卫星导航系统官方发文称,四川省阿坝藏族羌族自治州的牧民用北斗卫星放牛,再也不怕牦牛丢失了。开车撞路边拦据了解,该地区草原上生活着近两万头牦牛...
日期:11-18
索尼PS5无障碍控制器获得年度设计金奖
来源:中关村在线日前,日本索尼公司宣布其PS5无障碍游戏控制器Access获得年度优秀设计金奖。该控制器是一把高度定制化的“电子手柄”,拥有“多种可替换的按钮和摇杆帽”,让玩家...
日期:10-07
特斯拉Model Y成为1月份德国最畅销电动汽车
2月8日消息,据外媒报道,今年1月份,特斯拉ModelY成为德国最畅销的电动汽车。自从特斯拉进入德国市场以来,它在德国的销量一直在增长。2022年,特斯拉击败了其长期竞争对手大众汽车,...
日期:02-08
寒气逼人 PC厂商库存积压长达半年:好日子回不去了
今年下半年开始,全球PC市场又变天了,过去两年创造了10年来最大的增长,如今要下滑回去了,各大厂商面对的都是库存挤压的难题,最长的挤压了半年库存,光是清库存就要持续一两个季度,最...
日期:10-16
高速充电桩混动车占了一大半 电动车主吐槽:混动爹把快充干成了慢充
快科技10月3日消息,今天是国庆假期第三天,国内各地也迎来公路出行高峰,对新能源车来说,高速充电桩在节假日也成了稀缺资源,不少高速服务区都出现了排队充电的情况。而混动车辆因...
日期:10-03
网购高危预警:网购木马骗术升级部分杀毒软件失效(木马病毒专杀软件)
  5月19日最新消息,国内知名的互联网安全厂商金山网络发布网购木马高危预警,新型网购木马骗术全面升级,可能致使部分杀毒软件失效,网购用户的财产安全面临严重威胁。金山网络...
日期:07-28
小米1月14日新品「消息称小米14计划11月初发布」
9月13日消息,据悉,小米将于11月初发布小米14系列两款新机,产品定位对标iPhone15 Pro/Pro Max,日前已开始量产。据供应链相关人士透露,小米14全渠道备货订单量相比去年同期大幅增...
日期:09-15