您的位置:首页 > 媒体评论

阿里“杀手锏”级语音识别模型来了!推理效率较传统模型提升10倍 已开源

发布时间:2022-12-23 02:00:45  来源:互联网     背景:

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

阿里达摩院,又搞事儿了。

这两天,它们发布了一个全新的语音识别模型:

Paraformer。

开发人员直言不讳:这是我们“杀手锏”级的作品。

——不仅识别准确率“屠榜”几大权威数据集,一路SOTA,推理效率上相比传统模型,也最高可提升10倍。

值得一提的是,Paraformer刚宣布就已经开源了。

手机数码科技(深圳)有限公司

语音输入法、智能客服、车载导航、会议纪要等场景,它都可以hold住。

怎么做到的?

Paraformer:从自回归到非自回归

我们知道语音一直是人机交互重要研究领域。

而当前语音识别基础框架已从最初复杂的混合语音识别系统,演变为高效便捷的端到端语音识别系统。

其中最具代表性的模型当属自回归端到端模型Transformer,它可以在识别过程中需逐个生成目标文字,实现了较高准确率。

不过Transformer计算并行度低,无法高效结合GPU进行推理。

针对该问题,学术界近年曾提出并行输出目标文字的非自回归模型。

然而这种模型也存在着建模难度和计算复杂度高,准确率有待提升的问题。

达摩院本次推出的Paraformer,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。

它属于单轮非自回归模型。

对于这一类模型,现有工作往往聚焦于如何更加准确地预测目标文字个数,如较为典型的Mask CTC,采用CTC预测输出文字个数。

但考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。

另外一方面,通过对比自回归模型与单轮非自回归模型在工业大数据上的错误类型(如下图所示,AR与vanilla NAR),大家发现相比于自回归模型,非自回归模型在预测目标文字个数(插入错误+删除错误)方面差距较小,但是替换错误显著的增加。

阿里达摩院认为这是由于单轮非自回归模型中条件独立假设导致的语义信息丢失。与此同时,目前非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与结论。

Paraformer是如何做的呢?

针对第一个问题,阿里达摩院采用一个预测器(Predictor)来预测文字个数并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量。

针对第二个问题,受启发于机器翻译领域中的Glancing language model(GLM),他们设计了一个基于GLM的 Sampler模块来增强模型对上下文语义的建模。

除此之外,团队还设计了一种生成负样本策略来引入MWER区分性训练。

最终,Paraformer由Encoder、Predictor、Sampler、Decoder与Loss function五部分组成。

核心点主要包含以下几点:

Predictor模块:基于CIF 的Predictor 预测语音中目标文字个数以及抽取目标文字对应的声学特征向量;

Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的Decoder来增强模型对于上下文的建模能力;

基于负样本采样的MWER训练准则。

效果SOTA,推理效率最高提10倍

最终,在学术界常用的中文识别评测任务AISHELL-1、AISHELL-2及WenetSpeech等测试集上, Paraformer-large模型均获得了最优效果。

在AISHELL-1上,Paraformer在目前公开发表论文中,为性能(识别效果&计算复杂度)最优的非自回归模型,且Paraformer-large模型的识别准确率远远超于目前公开发表论文中的结果(dev/test:1.75/1.95)。

在专业的第三方全网公共云中文语音识别评测SpeechIO TIOBE白盒测试中,Paraformer-large识别准确率超过98%,是目前公开测评中准确率最高的中文语音识别模型。

配合GPU推理,不同版本的Paraformer可将推理效率提升5~10倍。

同时,Paraformer使用了6倍下采样的低帧率建模方案,可将计算量降低近6倍,支持大模型的高效推理。


返回网站首页

本文评论
羊毛被 羽绒被 棉被_棉花被羽绒被羊毛被…什么被子最能温暖寒冬中的我?
渐渐入冬的夜晚,躺在床上,一句古诗弹幕般浮现在脑海里:布衾多年冷似铁,娇儿恶卧踏里裂。保暖的被子太重要了。问题是:你知道什么样的被子最保暖吗?在讲被子之前,有必要先说说保暖。...
日期:11-15
承诺更新至 2024 年 9 月,英伟达为 Kepler 显卡发布 WHQL 认证驱动更新 474.14
  12 月 21 日消息,面向 GTX TITAN、TITAN Z 和 TITAN Black 等 GeForce GTX 600 和 GTX 700 系列 Kepler 桌面显卡,英伟达近日推出了全新经过 WHQL 认证的图形驱动程序更...
日期:12-22
盲人怎么使用电脑和手机_手机、电脑能帮“盲人”看世界?但它们好用吗?
盲道破损、被占用的现象颇为常见,“不会是我们盲人自己铺的吧?”——这个初秋,脱口秀演员黑灯的表演,唤起了许多人对无障碍设施不完善的共鸣,许多人因此开始关心视力障碍人群。其...
日期:10-23
微软发布“Disable IE”特殊组策略:企业可自行决定停用IE时间
  9月16日消息,微软今年早些时候正式停止支持IE浏览器,并开始引导用户使用基于Chromium的新Edge浏览器。  微软最近发布了一份公告,称企业可以使用名为“Disable IE”的特...
日期:09-17
美国大厂纷纷裁员,互联网的故事要结束了吗?_大裁员的背后
【文/观察者网专栏作者 冷哲】几个月前马斯克宣称要收购推特开始,就好像推倒了第一块多米诺骨牌,后续的发展变得愈发剧烈了。最近一两周,推特的大裁员才刚刚落幕,Facebook的大裁...
日期:11-20
双十一销售额增长_销量持续下滑 双十一或成电视促销关键节点
近几年国内彩电市场的发展真的不太景气,年销量由2016年的5089万台,跌至2021年的3835万台,是近12年以来销量首度跌破4000万台,可见市场有多么萎靡。不过,各大电视厂商发布新品的热...
日期:11-10
开启全新支付方式!微信上线刷掌支付小程序「开启全新支付方式!微信上线刷掌支付小程序下载」
早在去年年末,腾讯就曾获批通过了一项专利,该专利展示了腾讯开发的一项掌纹识别设备。而在今年8月,腾讯又注册了“微信刷掌”“微信刷掌服务”“WePalm”等多个商标,分类涉及设...
日期:10-15
钉钉本周人数超过安全限制_超出无法正常用 钉钉项目免费使用人数上限缩减:7月实施
  6月29日消息,从钉钉官网获悉,由于产品策略调整,2022年7月1日起,钉钉项目(Teambition)将调整基础版免费使用人数上限为10人,若所在企业项目使用人数已超过10人,届时超出人员将无...
日期:02-17
多点冲刺IPO,张文中能等来“救命钱”吗?
张文中黄光裕的难题,张文中也逃不掉撰文 | 赵晋杰编辑 | 王靖谷歌应用商店里的软件来源 | 盒饭财经(ID:daxiongfan)当黄光裕只能靠着减持国美股票的方法,套现部分资金为员工补发...
日期:12-20
人工智能难成英特尔的救命稻草「英特尔 人工智能」
编辑 | 于斌出品 | 潮起网「于见专栏」作为一个曾经统治芯片行业长达三十年的企业,英特尔现在已经摔下神坛,三星取代英特尔成为了芯片行业销量和利润的双料冠军。英特尔公司已...
日期:09-02
重注“医疗”,腾讯会迎来新的增长曲线吗?_腾讯医疗健康上市
文|第七笔画来源|博望财经在腾讯内部,处于非核心位置的医疗业务,在最近一年左右,开始得到重视。腾讯正猛攻医疗业务。近日,鱼跃医疗发布公告称,全资子公司江苏讯捷医疗科技有限公...
日期:09-29
蒋尚义万字访谈原文:如何拿下苹果打败英特尔、关于中芯的杂音
台积电前研发老将,被半导体行业尊称为“蒋爸”的蒋尚义在今年3月接受美国“电脑历史博物馆”(CHM)的口述历史访谈全文释出,这也是蒋尚义自去年年底离职中芯国际之后,首度详谈背后...
日期:08-22
冬天一到 电动车又成你爹了
作者 | 王笑渔编辑 | 周到头图 | Teslarati这个冬天,瑞士的“电动爹”很可能要被禁止上路了。事情是这样的。据《每日电讯报》报道称,瑞士官员已经起草了一项限制电力使用的提...
日期:12-18
微软 Edge 浏览器 Dev 109 发布:改进侧边栏、WebView2、IE 模式等「新版edge浏览器兼容性站点」
  11 月 9 日消息,微软面向 Edge Dev 频道发布了新的功能更新,版本升级到 109.0.1481.0,带来了包括 Internet Explorer 模式的新开关,在新标签中打开侧边栏游戏的选项,以及 We...
日期:11-13
净利润大跌9成 朗姿困于“美人局”
出品 | 子弹财观作者 | 晴天编辑 | 蛋总自2016年从女装跨界到医美,朗姿股份围绕女性泛时尚消费进行布局的步履未停,但这一路走得颇为艰辛。8月16日,朗姿股份发布2022年上半年财...
日期:08-27
苹果iOS 16开发版推出Beta 6版「苹果6最新ios版本」
  【ITBEAR科技资讯】8月16日消息,今日,苹果iOS 16开发版推出Beta 6版,更新包为426.4MB,内部版本号为20A5349b。     在这次更新中,日历上的假日显示得更加直观,在日历上勾...
日期:08-17
台湾为什么造不好电动车?「台湾骑电动车的人多吗」
7年前,马斯克为了炫耀自家工厂,略带几分不屑地踩了一脚富士康:“相比手机,汽车工业非常复杂,你总不能去找富士康这样的供应商,告诉他‘给我造辆车’。”马斯克怎么也没想到,自己的...
日期:11-11
中国失去这个世界第一,我们需要担心吗?「绝对不能失去中国」
近日,联合国一项关于人口数量的预测引发广泛关注:印度人口数量将在明年4月中旬超过中国,成为全球第一人口大国。中国未来失去“第一人口大国”意味着什么?我们需要担心吗?中国VS...
日期:12-29
国产App最烦人的操作 又卷土重来了「App国产」
坏了,恶心人的骚操作又回来了。说起手机广告,大家应该都很熟悉了,这几乎是国产应用生态下的一大特色。首先是国内的厂商们,会给自家的安卓定制UI增加一些系统App和广告。为了不...
日期:10-31
“老虎”没肉吃 “狮子”没水喝「狮子老虎只吃肉吗」
摄影:IT时报 沈毅斌一边是双11线上电商促销活动如火如荼,而另一边,老牌家电零售企业国美、苏宁却一片寂静。打破这场寂静的不是销量,而是国美欠薪和苏宁亏损。10月28日,国美电器...
日期:11-15