您的位置:首页 > 互联网

语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品

发布时间:2017-02-19 12:12:01  来源:互联网     背景:

  8 月 31 日,Daniel Povey 以小米集团首席语音科学家的身份,正式推出了新一代 Kaldi。

  Daniel Povey 是语音识别领域的执牛耳者,他主要开发和维护的开源工具 Kaldi,是业界公认的语音识别框架的基石,他也被称为 Kaldi 之父。

  2019 年 Daniel 离任约翰霍普金斯大学语言和语音处理中心教职,在 Facebook、美团、滴滴、快手等一众互联网巨头抛来的橄榄枝中选择了小米,开始带领小米语音技术团队开发新一代 Kaldi。

  加入小米后,业界开发者对 Daniel 的研究动向一直高度关注。

  昨日 Daniel 亮相发布会现场,宣布新一代 Kaldi 完成了所有子项目的布局。他表示,“新一代 Kaldi 的目标不仅仅是赶上或者稍微领先现有语音识别库,而是要从根本上改变语音识别的实现方式。”

  据悉,经过近一年多的技术研发,Daniel 团队完成了所有模块的研发和更新,新一代 Kaldi 在 Librispeech 数据集上的词错率降到了 2.57%;通过全新代码库解决了 Kaldi 灵活性不足、体量过大等问题;作为核心部件的 k2,不仅可以用来做语音识别,也可以用来做手写文字识别等其他任务。

  兼容 PyTorch,提高识别精度

  Kaldi 集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,自 2011 年发布以来下载量超过了两万多次。无论是工业界还是学术界,几乎所有的语音团队都在使用 Kaldi 引擎来开发智能解决方案,包括 MIT、哈佛、清华、微软、谷歌、Facebook 等等。

  作为语音识别领域的“老前辈”,Kaldi 也急需更新迭代。

  Daniel 在媒体见面会上坦言,初版 Kaldi 的旧代码库已经难以满足机器学习发展的需求,用户需要更轻便、更灵活的源代码,也需要兼容 PyTorch 等主流框架的工具包。

  新一代 Kaldi 的研发工作从 2019 开始启动,去年已经完成了 k2 和 Lhotse 模块的研发工作。Daniel 还在 2020 MIDC 大会上进行了展示,不过当时 Icefall 模块还只是一个初步概念。今年研发团队进一步完善了 k2 和 Lhotse 模块, 并基于二者正式发布 Icefall 项目。

  Daniel 介绍说,与初代 Kaldi 相比,新一代 Kaldi 是一个全新的代码库,主要是由 C++、CUDA 写就;支持 Python 调用;后端也由 PyTorch 取代了此前的自定义代码。

  发布会现场,Daniel 团队不仅展示了如何使用 k2 和 Lhotse 来实现现有的各种不同的语音识别模型,如基于 Transformer/Conformer 的 CTC 和 LF-MMI 等,更着重展示了 k2 何以能从根本上改变人们实现语音识别的方式。

  “我们实现了多轮解码 (mutiple pass decoding) 的示例,以及我们称之为‘双向建模’(bidirectional modeling) 的模型”。Daniel 兴奋地表示,基于这种多层模型的优势,新一代 Kaldi 可以大大提高语音识别模型的建模能力,从而降低词错误率。目前,新一代 Kaldi 在 LibriSpeech 数据集上的词错误率为 2.57%。

  值得一提的是,Daniel 团队在 k2 中实现了所有的 FSA 操作的可导性,用户仅使用几十行代码就可以完成复杂的多层模型结构。同时,他们还为用户提供了极大的“自定义”空间,诸如在网络中加入 phone 的 embedding 信息,支持带置信度的识别等用户自己的各种想法都能够基于 k2 来实现。

  Daniel 表示,希望通过新一代 Kaldi,能为语音识别领域打开一扇崭新的大门。

  引入 Python,改善灵活性

  新一代 Kaldi 分为 Lhotse、Icefall 和 k2 三个部分,Daniel Povey 博士在发布会上表示,新一代 Kaldi 的独立设计是为了降低耦合性,方便用户使用。更重要的是,这样有助于扩展了组件使用的灵活性。

  例如,用作数据准备的 Lhotse,既可以用在 Icefall 项目里,也可以用在任意其他语音识别库里来处理音频和文本数据,

  Daniel 团队在发布会上介绍了 Lhotse、Icefall 和 k2 三个部分的更新细节。

  Lhotse 抛弃了传统的 shell 脚本,采用了更加方便易用的 Python 语言。通过通用且不失灵活性的接口设计,满足了包括语音识别,语音合成等多种语音任务的需求,方便用户基于 Lhotse 可以方便地实现针对自己特定任务的接口,操纵各种不同的音频元数据和文本。

  Lhotse 引入了 Audio Cuts 的概念,将训练数据自动地组织为一组组 Cuts,并基于这种表示,提供了 on-the-fly 的数据混合,裁剪,增强和特征提取等操作,从而在不影响数据处理效率的前提下,降低了数据存储所需空间。

  此外,Lhotse 还提供了很多公开数据集的数据处理脚本,用户可以直接使用这些脚本,来进行相关语音任务的数据处理工作,大大降低了用户在某个数据集上进行实验的前期成本。

  “相信在不久的将来,随着新一代 Kaldi 的推广和普及,Lhotse 甚至有可能成为语音领域使用最为广泛的数据准备工具。”Daniel 期待地表示。

  作为训练脚本的集合,同 Lhotse 一样,Icefall 也是一个纯 Python 项目。

  用过 Kaldi 的人都知道,Kaldi 里有大量的基于不同数据集的示例脚本,显著降低了用户的学习成本。

  但这同时也带来一个缺点:示例脚本集合太过庞大,代码耦合过于紧密,导致维护成本较高。

  考虑到这一点,Daniel 表示 Icefall 并不是对大量脚本的盲目集合,而是在提取公共组件的同时将不同数据集的示例脚本进行独立组织,以方便用户的学习和使用。

  此外,由于将数据准备部分单独放在 Lhotse 项目中,核心计算部分单独放在 k2 中,Icefall 项目只需要关注语音识别模型的结构定义部分,降低了整个语音识别过程的耦合性,方便了网络结构的复用。

  k2 是新一代 Kaldi 的核心。它的贡献在于,将加权有限状态转换器 (Weighted Finite State Transducers, WFST) 和相关算法无缝地集成到基于 Autograd 的机器学习工具包中,如 PyTorch(已完成支持)和 TensorFlow。

  WFST 是语音识别领域最为核心的数据结构,可以用来构建诸如“音标-> 词-> 句子”的状态转换概率图。

  支持 WFST 可导意味着我们可以做很多以前很难做到,甚至做不到的事情,如消除以往语音识别任务中训练跟解码过程不匹配的问题、多轮(可求导)的语音识别过程、在声学网络中嵌入任意辅助信息等。

  同时,k2 也支持很多现有的语音识别模型,如 CTC、LF-MMI、RNN-T 等。

  值得一提的是,去年 Facebook 发布了类似于 k2 的图网络建模 GTN 框架。与之相比,k2 实现了更多的 WFST 相关算法,并且能够高效地支持 GPU(GTN 目前只支持 CPU)。GPU 实现,意味着语音识别模型的训练速度更快,解码速度更高效。新一代 kaldi 的解码速度已经是实时的 300 倍左右。此外,k2 在语音识别的基础上,还可以应用于手写文字识别等其他 seq-to-seq 的任务。

  新一代 Kaldi 依然开源

  “新一代 Kaldi 或将在明年之前将全部应用到小米所有的智能语音产品中”,Daniel 向媒体表示。他说,新一代 Kaldi 能够适用各种场景的不同语音模型,如远近场语音唤醒、离在线语音识别、说话人识别等通用模型,以及口语评测、语种识别、语音情绪识别等。

  以小米小爱为例,“通过它,用户可以连接到各种各样的 AIoT 设备并与它们产生互动: 智能音箱、手机、电视、智能手表、儿童故事机、车载后视镜等。”

  不仅是小米,所有企业、开发者和普通用户都可以继续享受新一代 Kaldi 的核心技术。Daniel 表示,当初之选择加盟小米,也是因为小米承诺 Kaldi 可以继续作为开源项目。“小米是一家稳定的公司,重视开源开放,而且允诺我一直做开源项目,这对于我来说是最好的选择”

  Kaldi 从诞生之日起,就是一款开源语音识别工具包。Daniel 一直坚持开源工作,鼓励更广泛的用户自由使用、复制以及修改源代码,并推动智能语音技术的发展。

  新一代 Kaldi 依旧采用了高效的 C++ 代码实现。由于将 k2 的 C++ 代码都包装到了 Python, 模型的训练迭代都可以使用纯 Python 代码完成。

  Daniel 表示,基于 Icefall 中的示例脚本,开发者们可以很容易地基于自己公司产品的数据集进行修改,进而快速地搭建线上数据反馈和模型自动迭代更新的流程,这将大大缩短模型更新的周期。

语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品

  随着新一代 Kaldi 的发布和其在小米产品线的逐步落地,相信在不久的将来,小米将和其他公司一起,为普通用户带来更加完善的 AIoT 产品体验。

  关于 Daniel

  Daniel 可以说是语音识别领域的殿堂级人物。除了开发 kaldi 外,他还对语音识别做出了许多科学贡献,包括助力判别训练(现在称为序列训练)的早期发展等。从 1999 年发布语音识别研究成果以来,其论文被引用次数超过了 30000 次。也因如此,Daniel 从约翰斯・霍普金斯大学离职后,引发了全球科技巨头的一场人才争夺战。

语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品

  Daniel 在 2012 年加入约翰斯・霍普金斯大学,担任语言和语音处理中心任副教授。在此之前,他在 IBM 研究院、微软研究院从事计算机语音识别研究。

  2019 年 10 月,Daniel 正式加入小米公司,担任小米集团首席语音科学家。

Apple Face Mask

Apple Watch S6血氧


广汽 腾讯 移动出行

返回网站首页

杭州城市大脑停车系统智停平台


罗技电竞鼠标无线

京东借款起诉

ipad mini 6 比例

我国 IPv6 标准工作组正式成立
Windows Server 2022正式版全面推送:镜像发布下载

三星s20两边发绿


返回网站首页

本文评论
美国商务部新规正式发布 “有条件”允许美企与华为合作制定5G标准
  2020年6月18日,美国商务部工业和安全局(BIS) 在《联邦公报》上发布了新的临时最终规则,该规则对《出口管理条例》(EAR)(15 CFR第730-774部分)进行了修正,“实体清单”中由华为...
日期:07-14
抖音电商双11预售战报出炉:商品曝光同比增长2000%「2019年双十一销售额」
10月31日 消息:昨日晚间,抖音电商公布了首份双11预售战报。从10月24日预售开启,抖音双11好物节正式拉开序幕。抖音电商预售战报数据显示,截至10月27日24点,预售商品曝光量较去年...
日期:11-01
2020人工智能语义识别创新排行榜发布 虎博科技凭新一代智能搜索引擎入选
  近日,《互联网周刊》发布2020人工智能语义识别创新排行榜,虎博科技凭借基于NLP自然语言处理技术自主研发的新一代智能搜索引擎,与科大讯飞、阿里巴巴、华为等公司共同上榜...
日期:07-14
网购钓鱼真假难辨 金山毒霸三重防护保安全
  网购很便捷,网购也很危险,如果不小心掉进不法分子设下的陷阱,就会成为任人宰割的“肉鸡”,到头来“人财两空”。如图1所示,该网站显示为“淘宝网”,还通过周年庆巨奖诱惑网民...
日期:07-22
腾讯音乐第二季度营收69.1亿元 净利润同比增长3.5%_腾讯音乐营业额
facebook350亿滴滴名下全资子公司苹果的专利 查看最新行情   讯 北京时间8月16日凌晨消息,腾讯音乐(NYSE:TME)今日公布了该公司截至6月30日的2022财年第二...
日期:08-20
元宇宙火爆之下,区块链从理想照进现实_元宇宙的风口
声明:本文来自于微信公众号 孟永辉(ID:menglaoshi007),作者:孟永辉,授权转载发布。当人们一股脑地融入到元宇宙的赛道上,区块链总算是冷静了下来。现在,我们看到的是越来越多的「元宇...
日期:09-27
苹果 iPhone 14 / Pro 系列配色爆料:紫色将取代粉色和远峰蓝_iphone13pro远峰蓝色和石墨色对比
IT之家 8 月 31 日消息,一周后,苹果将为大家带来全新的 iPhone 14 和 iPhone 14 Pro 系列机型。Twitter 爆料者 @Jioriku 和 Naver 爆料者透露了一些关于新机的配色信息。基于...
日期:09-09
2021中国新经济企业500强榜单发布 腾讯、阿里、字节位列前三_2021年中国企业500强榜单发布
  中国企业评价协会发布了“2021中国新经济企业500强”榜单,腾讯、阿里巴巴、字节跳动位列前三。iphone 3秒pixel3xl隐藏刘海  榜单显示,2021年新经济500强榜单,较上年变化...
日期:10-09
日本导演拍中国抗疫纪录片_后疫情时代 | 日本纪录片导演探访中国产值暴涨企业
  前言    拍《后疫情时代》这件事,在亮叔心里憋了几个月。   那时 《好久不见,武汉》 上线后,记者问亮叔「接下来的拍摄计划?」。   「接下来的拍摄计划...还没有...
日期:07-16
极光:城市居民置业图鉴2020
  极光(Aurora Mobile, NASDAQ:JG)发布《城市居民置业图鉴2020》,回顾2019年全国房市表现,洞悉城市居民画像,展望未来找房趋势。   极光观点   房市回顾   2019年房市...
日期:12-16
骁龙8nm工艺「骁龙8 Gen2架构及频率曝光:性能提升10%」
9月28日晚消息,数码达人i冰宇宙给出消息,SM8550芯片也就是骁龙8 Gen2采用1+2+2+3架构,目前的CPU频率是2.84Hz、2.4GHz、2.4Ghz和1.8GHz。他透露,性能总提升提升10%,能效比不错。...
日期:09-30
小伙用竹子做无人机成本不到100元 能飞50米左右「不花钱自制无人机」
玩无人机的高手,一定经历过炸机阶段,为了减少炸机成本,有牛人直接用竹子造了无人机。10月29日,山东济宁,赵先生在家就地取材,用竹子做无人机,成功起飞,让人惊叹。天猫国际进口超市人...
日期:11-10
头戴式游戏耳机性价比之王非它莫属 倍思D05性能体验_500元头戴式耳机性价比之王
  现在市场上的游戏耳机也是非常多的,如果是PC端游戏用户,可以选择头戴式游戏耳机,头戴式耳机拥有更好的封闭性,隔音效果更好,尤其适合玩家在网咖或者家庭里面使用。如果是手...
日期:09-08
饿了么广告_饿了么为救中小餐厅包下80城4万块广告位:免费打广告
  4月13日,饿了么宣布在全国80个城市包下了近4万块户外广告、10万个酒店电视广告位和480万台互联网电视资源,全部免费开放给各地中小餐饮商家,帮他们播放广告。   作为阿...
日期:10-01
微软“飞帖”拜年,打开PC签收独一无二的新春祝福吧!
  拜年,在古时是一件大事。如果亲朋好友太多,难以登门遍访,就必须要亲手写上吉祥祝福语,差人带着“飞帖”去拜年,每到年关时节,各户人家的门前都会贴着一个红纸袋,上写“接福”...
日期:05-10
SK 创新将于 10 月分拆电池业务,新公司名称暂定 SK Battery(SK集团电池)
  8 月 4 日消息 根据日经新闻消息,韩国知名锂电池制造商 SK 创新(SK Innovation)近日宣布,计划分拆电池业务,使其成为一个独立的部门,以便更好地专注于快速增长的电动汽车市...
日期:12-26
就网购改版震撼上线 冲击购物导航新体验(您已进入网购模式,请放心购物)
  在互联网时代,只因为用户搜寻的需求,让搜索引擎和导航网站两大模式屹立不倒;而如今,正当网购发展得如火如荼的时候,又引爆了一种新的导航模式,这就是近两年来受到网购达人追...
日期:07-27
microsoft store和应用商店_微软应用商店正式向中国开发者开放
App Hub页面截图   新浪科技讯 10月19日上午消息,微软今天宣布,中国开发者从今天起可以通过App Hub(http://create.msdn.com)注册开发者账号并开始上传应用至微软应用商店...
日期:07-24
超高端智能手机占 2022 年第二季度智能手机总收入的一半_2021第二季度全球智能手机出货量前三
10月9日消息:根据Strategy Analytics发布的数据,超高端智能手机批发价在600美元及以上,占2022年Q2智能手机总收入的一半,略低于前两个季度。除了100-190美元 (批发) 的中端价位外...
日期:10-17
失去“灵魂”,电子烟还有戏吗?「电子烟没有电了」
声明:本文来自于微信公众号 深燃(ID:shenrancaijing),作者:唐亚华,授权转载发布。“电子烟国标”出台,电子烟迎来继网络禁售之后的最强监管。2022年10月1日,由国家市场监管总局会...
日期:10-14