您的位置:首页 > 互联网

换了30多种方言,我们竟然没能考倒中国电信的语音大模型_中国电信语音包是什么

发布时间:2024-05-27 18:14:35  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

不管你来自哪个城市,相信在你的记忆中,都有自己的家乡话:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒……

某种意义上说,方言不只是一种语言习惯,也是一种情感连接、一种文化认同。我们上网冲浪遇到的新鲜词汇中,有不少就是来自各地方言。

当然,有些时候,方言也是一种交流壁垒。

在现实生活中,我们经常会看到方言导致的鸡同鸭讲,比如这个:

如果你关注最近科技圈的动态就会知道,当前的 AI 语音助手已经能达到实时回复的水准,甚至比人类反应还快。而且,AI 已经能够充分理解人类的情感,自己也能表现出各种感情。

在这样的基础上,如果语音助手能够识别并理解每一种方言,就能彻底击破沟通壁垒,与任何群体无障碍进行语言沟通。

实际上,这件事已经有人做了:近日,中国电信人工智能研究院(TeleAI)发布了业内首个支持30种方言自由混说的星辰超多方言语音识别大模型,可同时识别理解粤语、上海话、四川话、温州话等各地方言,是国内支持最多方言的语音识别大模型。

比如在以下这个会议场景中,面对多种方言的输入,星辰超多方言语音识别大模型的识别准确率达到业界领先。

首先是来自广东公司的代表,使用了粤语发言:

很突然,下一位发言人就切换到了上海话:

而在接下来的四川方言和山西方言的对话中,星辰超多方言语音识别大模型也能准确识别并转换为文字记录:

与语音助手对话过的人都知道,针对普通话的语音识别准确率是相当不错的,但当面对重口音或者方言的时候,识别准确率会大幅下降,甚至张冠李戴。

为了解决这个问题,传统语音识别模型的处理方式是针对每种方言单独训练一个方言模型,这导致了同一个应用背后需要维护多个方言模型,且无法通过一个模型识别多种方言。然而后者恰恰是现实落地场景中最需要的。

一直以来深耕语音赛道的中国电信,决定挑战这一命题:打造一个更加通用的语音识别大模型。

30多种方言,大模型如何拿下?

让大模型一口气学会30几种方言,并没有想象中的简单 —— 挑战同样存在于数据、算法、算力方面。

一方面,因为方言数据量的稀疏,不利用其他方言数据中的共有信息而单独训练某个方言模型,效果往往不尽人意。

经过在语音领域多年的积累,TeleAI已经构建了超30种、超30万小时的高质量方言数据库,方言数据库在丰富性和高质量等层面均居于业内前列。高质量语音数据对研究者而言是一大利好,能够让模型更高效、系统地对方言进行整理归纳。更长远地看,构建高质量方言数据库,也是方言保护和研究的基础。

另一方面的挑战来自于语音识别技术。如何让用户与大模型对话就像和家人讲话一样自然,无需刻意切换普通话,无需提高音量、放慢语速,是工业界当前追求的新目标。

在中国电信 CTO、人工智能研究院院长李学龙带领下,TeleAI 自主研发了星辰语音识别大模型。团队首创蒸馏 + 膨胀联合训练算法,解决了超大规模多场景数据集和大规模参数条件下预训练坍缩的问题,实现80层模型稳定训练。同时,通过超大规模语音预训练和多方言联合建模,实现了单一模型支持30种方言自由混说语音识别。

星辰语音识别大模型也是业内首个开源的基于离散语音表征的语音识别大模型,通过从语音到 token 再到文本的建模新范式,将推理时语音传输比特率降低了数十倍。

凭借绝对领先的性能,星辰语音识别大模型此前已经在国际上斩获了多个国际权威赛事冠军。

比如,在权威国际语音顶会 Interspeech2024离散语音单元建模挑战赛的 ASR 赛道(Automatic Speech Recognition,自动语音识别)中,星辰语音识别大模型团队领先于约翰霍普金斯大学、卡内基梅隆大学、英伟达等国内外知名高校与企业,一举拿下赛道冠军。

京东金融618巅峰对决

团队在这场比赛中提出的系统方案极具特色:在训练时采用了三段式设计,包括前端预训练模型表征调整策略(Frontend Model)、表征提取与离散化过程(Dsicrete Token Process)以及多语种识别模型训练过程(Discrete ASR Model),而在推理阶段仅使用后两段过程。

其中的表征离散化方法,可以让模型在保留语音中任务相关信息的同时,去除其余不相关信息,达到降低语音推理传输比特率、减少内存使用、提升训练效率的目的,同时也为语音多任务(如 ASR、TTS、说话人识别等)统一模型构建、多模态模型建模、说话人隐私保护等方向提供了可能的解决方案。

在业内知名的多方言语音识别数据集 KeSpeech 任务上,星辰语音识别大模型以领先之前最优结果20% 的成绩打破纪录,实现了92.97% 的字准确率。在 NIST(美国国家标准与技术研究院)举办的低资源粤语电话 Babel 语音识别任务上,星辰语音识别大模型也取得了业内最优结果。

在常见的算力挑战方面,星辰语音识别大模型的研发团队同样具备优势。中国电信是国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。此外,中国电信陆续投产了京津冀智算中心、中南智算中心等多个满足大模型训练的公共智算中心。

基于这些优势条件,星辰超多方言语音识别大模型横空出世,打破了单一模型只能识别特定单一方言的困境。在多项基准测试中,星辰超多方言语音识别大模型表现出了极其优秀的能力:

中国电信语音套餐介绍

理解方言,对答如流

这才是合格的语音助手

在大模型技术兴起之前就广泛应用的语音助手、智能设备和客服系统,其用户体验高度依赖语音识别系统的准确率。很多海内外厂商都在这一赛道发力,但大家也会发现,在主流语种之外,使用人口达数亿级的中国方言却没有得到应有的关注,其场景价值被严重低估了。

长远来看,星辰超多方言语音识别大模型的超多方言能力可在非常广泛的社会生活场景中发挥价值。以语音交互频率较高的智能座舱场景为例,擅长各种方言的星辰超多方言语音识别大模型能够使系统更准确地识别和转录各种方言的语音输入,带来更自然流畅的交互体验,特别是在方言使用较为普遍的地区,减少鸡同鸭讲的误会。

从情感陪伴的角度看,大模型对方言的理解和精通,能够极大提升对话机器人类产品的陪伴质量,有效解决普通话不熟练的老年人等群体无法触达信息服务的问题。如同科幻电影《Her》中的情节,AI 能够给予人类超越真实世界中人际关系的高质量关怀。

电信智科,赞44

目前,星辰超多方言语音识别大模型已经在开始融入各行各业,积极探索新兴的应用场景。比如,星辰超多方言语音识别大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服系统试点应用,接入星辰超多方言语音识别大模型以后,万号智能客服秒懂30种方言,实现了日均处理约200万通电话;智能客服翼声平台接入星辰超多方言语音识别大模型的语音理解和分析能力,实现31省全覆盖,每天可处理125万通客服电话。

对于中国电信来说,还有一个非常重要的出发点:2023年之前,当人们谈大模型技术时,公益价值很少会被提及。但在2024年,这一价值越来越多地被看见。

大模型技术的应用将很大程度上推动对方言文化的保护。在我国的130多种语言中,有68种使用人口在万人以下,有48种使用人口在5000人以下,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说。语音大模型的参与,能够帮助记录和保护濒危方言,促进方言的传承和学习。对于包含大量方言内容的历史文献和档案,方言大模型还可以辅助进行数字化和整理工作,防止文化遗产的流失。

语音助手全面开卷

中国电信语音是什么

中国电信如何领跑大模型落地之战?

大模型之战已经持续一年半之久,行业目前有一个共识:随着大模型推理成本的大幅度下降,人们将迎来大模型应用的井喷期。

在海内外众多的大模型玩家中,中国电信是很特别的一位。在这个新阶段,相比于我们熟悉的科技企业,像中国电信这样的运营商在资源优势和业务方面更具优势。

一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。另一方面,中国电信有庞大的客户群体,以及丰富的2C、2H、2B 的信息服务业务,能够更快地推动人工智能大模型在各个领域的落地,形成新的经济增长点。这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。

在国内运营商中,中国电信是最早布局 AI 领域的一家,且坚持走科技创新、核心能力自主研发的发展路线。去年至今,从星辰语义大模型到星辰多模态大模型和星辰语音识别大模型,中国电信旗下的大模型始终保持着快速迭代,且完成了语义、语音、视觉、多模态的全模态大模型布局。

更让人打破对央企传统印象的是,中国电信还是大模型开源领域的重量级玩家。今年,TeleAI 陆续开源了7B、12B、52B 的星辰语义大模型。今年内,千亿级星辰语义大模型也将正式开源。

元宇宙虚拟主播

沿着近年来人工智能的技术发展趋势,我们可以看到,在实现通用人工智能的过程中,语音是关键的一部分,而语音识别是其中非常重要的一环。

但我们同样意识到,语音合成技术的成熟,将成为重塑各个语音助手场景的关键。据了解,TeleAI 还同步研发了让拟人更真人的超自然语音生成大模型,实现零样本声音复刻和拟人度对齐 GPT-4o,将在语音识别和生成应用水平上进一步突破,加速通用 AI 语音助手的落地应用。


返回网站首页

本文评论
抓包中情局特工后,是时候聊聊勒索黑客了!(安全局抓间谍)
  如今的网络世界,可谓谍影重重。美国中情局的特工们或许正焦头烂额地应对来自东方的盘问,勒索病毒领域的龙头老大们眼看形势愈发胶着,似乎是想捡个漏,此时也纷纷亮出了冷面...
日期:07-06
腾讯三季度收入1401亿元,净利润399亿元同比增1%__腾讯第三季度净利润
11月16日消息,腾讯控股(00700)发布2022年第三季度业绩。报告显示,腾讯第三季度营收1400.93亿元,同比减少2%,环比增加5%。毛利619.83亿元,同比减少1%,环比增加7%;公司权益持有人应占...
日期:11-28
民族药材界的明珠——千只眼
作者:姚国永显卡挖了一年多矿还能用吗中国传统医学历史悠久、底蕴深厚,担负着除病济世、造福百姓的重任,凝聚着中国人民和中华民族的博大智慧,为中华民族健康繁衍生息和文化传承...
日期:09-18
特朗普社交公司裁员连CTO都炒了 资金只能维持到9月
凤凰网科技讯 北京时间3月15日消息,知情人士称,由于仍在等待监管机构批准一项合并交易来提供财务生命线,美国前总统特朗普旗下社交媒体公司已经开始裁员。京东电器购物节是什么...
日期:03-15
史有才动情挥别:再见百度 感恩李彦宏
  挖贝网讯 24日,一封致全体员工的告别信为业界解读了百度副总裁史有才的去职心路。虽然此前业界对这位百度元老的离开有颇多猜测,在这封感性深沉的告别信中,史有才吐露心声...
日期:07-28
骂的越凶买的越狂 苹果iPhone14单机型京东自营销量破20万「iphone12销量火爆」
还记得9月份iPhone 14刚发布的时候可以说是骂声一片,“苹果摆烂、和iPhone13相比毫无改动、没有诚意等更新”,甚至乔布斯女儿都站出来吐槽iPhone 14没变化,而且开售没多久iPhon...
日期:11-09
三星即将宣布3nm以下工艺路线图 挑战硅基半导体极限(硅的极限工艺3nm)
  在半导体晶圆代工市场上,台积电TSMC是全球一哥,一家就占据了全球50%以上的份额,而且率先量产7nm等先进工艺,官方表示该工艺领先友商一年时间,明年就会量产5nm工艺。在台积电...
日期:05-10
数据显示8月底ChatGPT流量开始回升,主要是因为开学了
9月21日消息,根据第三方公司最新估计,人工智能聊天机器人ChatGPT的流量在整个夏季下降后重新上升,这可能与美国学校的课程安排直接相关。根据数据情报公司SimilarWeb的数据,上周...
日期:09-21
部分地区卖断货:国行PS VR2销量超出预期_psvr值得买吗
近日,索尼开始在PlayStation京东自营官方旗舰店上线国行PS VR2,售价4499元。今天,有用户发现,该产品在北京、上海、石家庄等地已经断货,显示为无货状态。显然,该产品在上述地区的...
日期:01-17
比4680更强 宁德重申麒麟电池一季度量产:10分钟快充 1000公里续航「4680电池续航能力800公里」
作为全球动力电池一哥,宁德时代在电池技术上准备了多条技术路线,去年发布了麒麟电池,比4680圆形电池性能更优秀,可轻松实现电动车1000公里续航,解决续航焦虑。麒麟电池的进展也是...
日期:02-09
三星The Frame画壁艺术电视评测 科技与艺术的完美融合
伴随着生活品质的不断提升,用户对于家中各种产品的要求也发生了很大改变。就拿电视来说,以往人们只追求大、追求震撼的画质及是否有面子。但如今,产品设计是否够亮眼、是否能同...
日期:09-20
禾赛科技预计将于2月9日正式登陆纳斯达克「禾赛科技最新消息」
凤凰网科技讯 2月8日消息,据IPO Boutique消息,禾赛科技预计将于2月9日(周四)正式登陆纳斯达克。上海禾赛科技股份有限公司总部位于中国上海市,是一家激光雷达技术公司,成立于2014...
日期:02-10
茶百道是哪个公司开的「茶百道上市 发行价每股17.50港元」
4月23日 消息:新茶饮巨头茶百道于4月23日正式在港交所挂牌上市,股票代码为2555.HK。其发行价为每股17.5港元。长春方正宽带怎么样 好不好用茶百道此次港股上市,全球发行股份总...
日期:04-23
AMD显卡德国销量狠狠压制NVIDIA!还便宜25%「amd显卡品牌排行」
德国玩家似乎对AMD有一种特殊的爱。无论处理器还是显卡,AMD在德国的销量都能力压对手。外媒总结了德国第一零售商MindFactory 2023年第3-19周(1月中到5月中)的显卡销量、价格...
日期:05-16
钧崴运动户外专营店怎么样「加码产能与研发,钧崴电子IPO上市募投项目符合公司战略规划」
随着电子信息产业的飞速发展,电子元器件制造业的升级变得尤为重要,它是所有电子产品的必要部件,也是智能时代中实现更多创新的关键。在这样的环境下,钧崴电子科技股份有限公司(以...
日期:03-28
「芳纶纤维磁吸设计 「iPhone」,15手机壳上架」
来源:中关村在线近日,苹果公司正式宣布,其2023秋季新品发布会将于北京时间9月13日凌晨1点举行。据官方发布的图片显示,iPhone 15系列手机壳将于9月6日开始预售,共有6个基本款可选...
日期:09-07
小红书代运营怎么收费「都2023年,还能做小红书代运营吗?」
声明:本文来自于微信公众号 江河聊营销(ID:jiangheliaoyingxiao),作者:江河Team,授权转载发布。代运营一个自带诈骗属性的三个字,提起代运营,骗子、坑人等关键词必出现,更有甚者直...
日期:06-30
大调整!iPhone 15 Pro Max或改名为iPhone 15 Ultra_iphone 11 pro max改12
【手机中国新闻】前不久,苹果发布了最新一代iPhone 14系列,目前新机已经开售,其Pro系列凭借“灵动岛”的设计俘获了一众果粉的心而大卖。从iPhone 11到14系列,苹果手机的Pro Max...
日期:09-26
对话360殷宇辉:政企安全防控保障,需深入到业务和信息流中
近日,360集团宣布,旗下政企数字协作平台360织语正式推出7.0版本(“织语7.0”)。据介绍,织语7.0主要遵循“极致连接、深度融合、闭环协作以及安全可控”16字产品理念研发设计,并面...
日期:07-31
英伟达对华态度「美国调查英伟达3款对华定制AI芯片:将检查每一个规格细节」
芯东西(公众号:aichip001)编译 | ZeR0编辑 | 漠影芯东西12月12日消息,据外媒报道,美国拜登政府正在与人工智能(AI)计算巨头英伟达就允许对华出售AI芯片进行讨论。美国商务部长吉娜...
日期:12-13