您的位置:首页 > 互联网

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

发布时间:2020-07-07 18:49:19  来源:互联网     背景:

  人工智能技术的落地应用正在向各行业袭来。9月19日,百度地图“‘音’为有你,更有‘AI’”语音定制功能发布会召开,重磅推出全球首个地图语音定制产品。该功能科技范儿十足,用户只需在百度地图App上录制20句话,最快20分钟,即可生成个人完整语音包。换句话说,当你之后出行使用地图功能时,就可以用自己的家人甚至宝宝的定制化语音导航,十一旅游还可以听自己声音的景区解读。

(喊“小度小度”开启语音包录制)

  这是百度语音技术与百度地图的又一次重要融合,让普通大众都可以切身体验科技的酷炫。可体验的科技背后,依赖的是百度大脑全球领先的语音技术打造。AI的加持让地图语音包生产实现了从月级别到分钟级别的突破性进展,也重新定义了语音包的生产模式。那么百度地图国民级众多用户,大家都可以同时发起语音定制需求吗?百度语音如何实现在15分钟这么短的时间内合成定制语音包?为什么百度语音能够实现全球首个地图语音定制?

  现场,百度语音首席架构师贾磊揭秘了这背后的技术:“百度地图语音定制功能基于百度独创的风格迁移技术Meitron模型,其特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低,相信百度语音技术在AI时代拥有无限可能。”

(百度语音首席架构师贾磊)

  具体来说,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。Meitron技术能够实现个性化的声音跟共有声音空间信息的完美分离和完美重合再现,是个性化语音合成成功的关键。在今年的5月份,基于百度大脑的这一语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”。

  众所周知,语音合成技术发展已有数年,至今合成的工业级应用并不成熟,在百度地图这类国民级应用中实现定制化更属首次。此次百度语音技术“一骑绝尘”,推出全球首个地图语音定制产品,其背后的技术进步路径也再次向业界显露。

  从2012年起,百度把深度学习技术DNN技术用于语音搜索,是全世界最早把深度学习技术落地工业化产品的企业之一。到2019年1月,百度在世界范围内首次提出了截断注意力模型SMLTA。这是国际上第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。SMLTA实现从语音的声音信号到输出文字的直接映射,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,从而也让端侧的语音识别成为可能。目前,SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。从2012年DNN的深度学习技术落地百度语音搜索,到SMLTA技术率先解决注意力模型的线上使用问题,概括了百度的语音识别技术从跟随世界AI技术浪潮发展,到领跑世界的整个过程。

  端到端建模的注意力模型具有语言语音一体化建模的优势,识别率较高,同时在嵌入式场合具有很高的应用前景。因此,百度攻克的注意力模型的在线使用的技术难题,也是行业巨头纷纷投入精力研发的领域,但注意力模型一直从未在各大公司的主流产品上广泛使用过。百度公司目前是世界范围内,唯一一家全线产品均采用了基于注意力机制的端到端语音识别建模的高科技公司。

  除了语音识别领域的重大技术突破,在语音合成领域也是行业领先。

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

  从2016年开始,百度在基于深度学习的语音合成产品落地上持续发力,逐渐开始采用深度学习的离线参数合成、全面深度学习的EMPHASIS声学建模、Tacotron+WaveRNN的联合训练等新技术,最终逐渐开始获得行业领先的语音合成产品体验。百度的云端语音深度学习系统,是世界上第一个能在云端提供大规模WaveRNN实时语音合成服务的系统。

  百度语音信息流的一些音库,已经采用百度领先的在线实时合成WaveRNN技术。百度相对于学术界广泛研究的WaveRNN深度学习技术有一系列的创新。百度的WaveRNN语音生成过程是并行进行的。技术圈众所周知,RNN技术是单点递推的,只有计算完当前的音频点,才能计算下一个音频点。因此WaveRNN的技术本质是一个单点递推的串行过程,是不可并行的。所以在waveRNN技术付诸于线上部署的时候,通常由于计算时间较长、用户等待时间过长,无法线上实时使用。

中文语音合成最高水平,百度语音技术打造全球首款地图语音定制产品

  百度创新的并行WaveRNN技术,把一句话分成若干个音节,每个音节同时并行合成,从而实现了WaveRNN技术可以线上大规模使用。由于传统WaveRNN合成时候,会有一些的Badcase,比如个别音有一些丢音、爆音或者破音。百度创新了WaveRNN和tacotron模型联合训练的方法,比较好地解决了这一问题,使得WaveRNN的Badcase率大幅度下降。目前这套系统应该说代表了整个中文语音合成的最先进水平。

  相对于传统的语音合成,2016年以前,百度的线上语音合成是有两三个语音库,一男一女,都是新闻腔,并没有悬疑、有声,或是脱口秀。如今的语音合成技术,覆盖了从通用、新闻、有声书、评书、情感电台、北京话等方方面面。声音更加清晰、情感更加自然,多场景、多角色,风起云涌的合成系统提供了全方位的声音服务。

  除了语音合成技术本身,能够基于百度深度学习平台飞桨(PaddlePaddle)实现纯端侧的廉价GPU部署,也是百度地图语音定制功能得以上线的重要原因。逻辑也非常明了,一项技术的工业化应用除了顶级的算法,还要有算力的极大支撑。

  基于深度学习的定制化语音合成产品,需要大量的训练,大量的GPU做算力支撑。如果几百万人同时提出GPU需求,采用大服务器也很难应对。百度把深度学习部署到廉价的GPU卡上,一个GPU卡可能两千块钱,就可以做深度学习,而且是大规模分布部署,实现全景化服务,这也是个性化语音合成技术得以落地的核心和关键。

  一直以来,百度大脑语音技术对内支持语音搜索、信息流、智能音箱、输入法等核心产品,实现了前沿技术的突破与工业级应用的结合。就在上个月,百度智能音箱出货量跃升为全球第二,优质的语音交互能力成为其制胜王牌;今天,百度语音技术再次在地图场景中上线语音定制化产品,这不是第一次语音技术为百度地图赋能。百度语音技术多年的积累和沉淀或正进入爆发期。

小米11天玑920

精灵与萤火意志switch国行


Galaxy Note 10+ 5G

返回网站首页

苹果watch手表怎么配对

传化支付有限公司


天天快递助力贵阳修文猕猴桃“进城”
腾讯马化腾发起的“科学探索奖”首批50位获奖人出炉,每人在未来5年获300万元

返回网站首页

本文评论
二次元ai绘画生成器推荐:draft网站效果惊艳(附draft.art官网入口)「ai绘画工具」
今年以来,国内外都掀起了一阵AI绘画潮流,很多绘画小白都跃跃欲试想借助ai绘画创作出有趣的作品。小编发现,其中有不少网友对二次元ai绘画颇感兴趣,下文就跟大家分享一款使用效果...
日期:11-28
马斯克简介特斯拉「马斯克在特斯拉的27人“心腹团”,含中国高管」
撰文/ 张 鸥编辑/ 吴 静设计/ 师玉超来源/ CNBC,作者:Gabriel Cortes,Lora Kolodny,题图:Bobby Yip | Reuters近些年,商业领域风头最劲、话题度最高的人非埃隆·马斯克(Elon Musk)莫...
日期:09-27
库克称AR技术影响深远 没有AR将无法生活_AR的坏处
9月28日 消息:据报道,苹果公司CEO库克表示,AR(增强现实)技术对人们的生活具有深远的影响,将来没有AR简直没法生活。玩转苹果手表4虽然目前,AR在现实生活中的运用并未普及。但作为...
日期:09-29
北京网上挂号平台开通 360安全浏览器为安全挂号护航(360预约挂号网)
  近日,北京网上预约挂号平台(www.bjguahao.gov.cn)网站正式启用,首批30家市属二、三级医院的号源将通过这个统一平台进行预约,用户在五分钟之内就可完成网上预约挂号。为防止...
日期:07-22
如何成为抖音精选联盟供应商「抖音新增《【供应链管理平台】国内供应商入驻规则》」
10月8日 消息:10月6日,抖音发布关于新增《【供应链管理平台】国内供应商入驻规则》的意见征集通知,意见征集期为2022年10月6日—2022年10月13日。目前,供销平台仅向食品、生鲜...
日期:10-09
蔚来租赁服务「租金一月1万元!蔚来在欧洲四国“只租不卖” 李斌回应」
近日,蔚来在柏林举办NIO Berlin 2022活动,正式宣布开启在德国、荷兰、丹麦、瑞典四国市场的服务。iphone14或用旧芯片值得一提的是,针对欧洲四国市场,蔚来仅推出了租赁服务,意味...
日期:10-09
全世界最大的市场_这里是全球最赚钱的市场,也是最封闭的市场
  ;郑峻   网购人肉中国手机   Shubham;Mazumdar是硅谷洛斯阿尔托斯(Los;Altos)一名小有名气的医生。在工作之余,他的最大爱好就是数码设备,尤其是玩各种不同的智能手机,...
日期:08-17
Netflix在2022年第三季度推出了1026集原创剧集「netflix2021一月新剧」
DoNews10 月 13 日消息(郭睿琦)据Variety报道,根据华尔街公司MoffettNathanson的统计,Netflix在 2022 年第三季度推出了 1026 集原创剧集,打破了自己在单季度中的记录。联想小新p...
日期:10-15
苏宁物流的服务制胜论_苏宁是如何体现物流一体化的
  刚刚过去的2020年,注定是难以忘记的一年,这一年发生了太多,特别是年初及还在持续的疫情,整个物流行业记忆深刻。   疫情爆发初期,物流业克服重重阻碍,“抗疫保供”,疫情取得...
日期:07-10
评论:淘宝的“如意算盘”难免满盘皆输_如意算盘打翻了
  ■经济人之马红漫专栏   10月11日至12日,淘宝商城遭受历史上最大规模的一次抗议。据报道,3000余自称“淘宝商城小店家”者针对性围攻淘宝商城知名店铺,引发这轮“暴力攻...
日期:07-23
东京奥运会中国队频频传出振奋人心的好消息。用腾讯极光T2投影为中国健儿加油
  东京奥运会赛事一直以来都牵动着国民的心,中国队连续传出振奋人心的好消息,夺金时刻屏幕前的我们都在心底为中国运动员呐喊助威,一起为中国奥运精神喝彩!   在如今国...
日期:05-07
谷歌正研发折叠屏样机 但发布时间不明
  [摘要]谷歌Pixel手机系列产品研发负责人Mario Queiroz表示,谷歌对这一新产品的研发已经进行了一段时间,但他同时表示,并不认为目前有清晰的使用场景。这也意味着目前谷歌...
日期:07-27
义乌小商品火遍世界杯:市场份额近70%「义乌小商品走向世界」
11月14日消息,据央视网财经频道报道,每逢世界杯周期,身为世界超市”的义乌,总不会错过时机。据义乌体育用品协会估算,从卡塔尔世界杯32强的旗帜,到大力神杯的摆件和抱枕,义乌制造”...
日期:11-18
和合共生 DTS打造音频、图像新技术“一站式体验”
  转载自:CNMO手机中国   2月23日-25日,世界移动通信大会(Mobile World Congress,简称MWC)在上海新国际博览中心举办。作为全球最具影响力的移动通信领域展览会之一,时...
日期:07-16
微软:Win11 将减少磁盘占用,功能可以按需加载_win10减少硬盘占用
  9 月 20 日消息 Win11 将于 10 月 5 日面世,它带来了几个重要的设计变化,包括上下文菜单和通知中心的新设计。   据微软高管称,Win11 将减少各种预装 App 的磁盘占用。W...
日期:07-17
需求减弱苹果放弃增加 iPhone14 系列产量_iPhone13或大量减产
9月28日消息:据彭博报道,熟悉此事的人士透露,在预期的需求激增未能实现后,苹果公司正在放弃今年增加新iPhone产量的计划。消息人士说,苹果公司已经告诉供应商,阴水在今年下半年将...
日期:09-30
乔布斯如雷军所愿去世了_乔布斯死了没
10月6日消息,据国外媒体报道,苹果公司对外沉痛地宣布联和创始人斯蒂夫·乔布斯辞世,享年56岁。随后,国内智能手机小米手机创始人雷军发微博称,乔布斯去世太突然,但他活在每个人心...
日期:07-23
钱的区块链基金们都在投什么?_区块链买什么基金
《钱的区块链基金们都在投什么?》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:GrayscaleDigital...
日期:08-01
《极品飞车:不羁》预告片发布:首次放弃Xbox Oen/PS4平台_ps4极品飞车莱肯
就在刚刚,EA正式发布了《极品飞车》系列新作:《极品飞车:不羁》的首支宣传预告片,首次展示了游戏的画面、美术风格与特色玩法。纵观整支预告片,最为引人注目的莫过于该作与其他竞...
日期:10-08
京东黑五官宣黄景瑜,全“新”出发的“京东国际”与百亿补贴再续前缘
  京东11.11没抢到?黑五进口好物狂欢季来帮你,更何况还是全面升级后的那种。   今日,“京东国际”全新亮相媒体沙龙在京举行,京东集团副总裁,京东零售集团平台业务中心负责...
日期:01-19