您的位置:首页 > 智能设备

火山语音工具_妥妥媲美真人!火山语音发布超自然对话语音合成技术_网易科技

发布时间:2022-09-16 18:20:25  来源:互联网     背景:

(原标题:妥妥媲美真人!火山语音发布超自然对话语音合成技术)

  •  

数星星盼月亮,万千杰迷苦等6年,不久之前终于等到周董发新专辑啦!一经上线引爆全网讨论,就像这样:

亚马逊ceo杰夫贝佐斯辞职

正当大家沉浸在对那时青葱岁月的美好追忆时,发来上述这段音频的小伙伴表示:这段对话居然是语音合成的!

哈啰出行顺风车车主

提到“语音合成”,你脑海中可能会出现这样的种种:

  • 导航中种类丰富但语气机械的“前方路口左转”
  • 接电话时,对面笨拙无感情的“您好,这里是xx信用卡中心”
  • 视频网站上,十个解说视频九个声音相同,看到就想赶快划走的“注意看,这个男人叫小帅”…...

而如今直接颠覆了许多人的刻板印象,语音合成技术已经能做到像上面那段音频一样完美自然的效果了。这段音频的发布者,火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,为了更好地向大众解密里面的技术亮点,又提供了两段音频:

火山语音修正

这几句输入的文本完全相同,即 “南方菜系偏爱蘸料,例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ,但合成的音频效果却有明显差异,即第二段音频来源于火山语音团队本次上新的超自然对话语音合成技术。

回想一下人在日常表达时的状态,大脑处理信息是需要思考时间的。体现到语言上,人就会不由自主的出现一些犹豫、拖音、倒装,甚至是说了一半改口、结巴重复的情况,也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS中难以被捕捉还原。而这些细微之处的完美复现正是让声音真假难辨的奥妙之源,也是上述音频的奥秘所在。

具体来说,火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然,即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现,而且只需常规音库1/4数据,就可完美还原真人说话细微的韵律特点、发音口癖,让合成效果更加真实。有专业评测结果显示,火山语音的这项新技术与真人录音对比基本没有差距,难以被评测者分辨出来。此外这项技术目前已在视频配音、电话客服等多个场景投入应用,近日即将上线火山引擎语音技术官网对外露出。

三星GALAXY S6 edge

这么厉害的技术,究竟是怎么办到的?

据介绍,上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象(paralanguage),尽管这是人脑思考、表达过程中最真实的表现,但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模,所以在说话时的韵律还原度表现有限、过于“正确”。

基于上述难点,火山语音超自然语音合成技术分别从文本和语音建模两个层面进行突破,具体来说:

  • 在文本层面,火山语音采用了生成式的风格迁移模型,模仿真人说话的方式对文本进行可控的口语化转写,让文本更好地拥抱口语化,避免最终效果太过书面。
  • 在语音层面,团队则是通过文本分析模型的突破,在TTS的输入侧额外增加了副语言预测,模仿真人的发音特点来实现自然自发的语音效果。

值得一提的是,团队通过使用无监督特征的TTS建模方案,有效提高了模型的稳定性与表现力,仅仅使用常规音库1/4的数据规模,就可以实现十分自然多变的韵律效果,很赞吧?

致力文本口语化 让“拟真人表达”跃然纸上

文本作为语音合成技术的输入,其风格是否贴近真人的表达方式,是合成效果提升的第一步;但受限于根深蒂固的书写用语习惯,大多数合成前的文本并不够自然,或者需要投入大量精力不断调整,费时费力。为了解决此类问题,火山语音团队采用了两阶段方案并取得了不错的效果:

  • 阶段一:采用自监督方法,使用伪数据对口语化模型进行预训练,降低了数据量的需求;同时在模型中引入了指针网络结构,增强了文本可控性。
  • 阶段二:利用少量优质的人工标注数据,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化文本效果。

为了更好地还原真人,区别于传统的语音合成技术,火山语音在副语言建模和韵律多样性上也分别进行了深入研究。在副语言建模方面,团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模,并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性,表现更加自然真实。

副语言建模+韵律多样性可圈可点 语音真实感全面升级

“在韵律多样化的探究中,我们结合无监督表征学习技术,自主研发了高表现力的声学模型框架,通过发音、韵律、音色解耦等方式,不但降低了数据量的需求,实现对出现频率极低发音现象的高效建模;同时使用无监督表征特征并结合音素级别的基频、能量信息等,实现了韵律的自然多变,促成高质量对话语音生成。”火山语音团队总结道。

火山语音,字节跳动AI Lab Speech&Audio智能语音与音频团队,长期以来面向抖音、剪映、番茄小说、飞书等业务提供领先的AI语音技术能力及全栈语音产品解决方案,并通过火山引擎向外部企业开放技术服务。


返回网站首页

本文评论
十年磨一剑,TCL 85X9C IMAX私人影院完美展示《八佰》顶尖特效
  自全国院线复工以来,《八佰》毫无疑问是热度最高,同时也是争议最大的大片。虽然很多人对《八佰》的情节不满意,但它的美工、画面、战争场面却都达到了国产战斗片的一个新高...
日期:07-10
redmi note 10pro和note11pro对比_“体验小旗舰” 曝Redmi Note 12系列用天玑1000系芯片
  今天下午,博主数码闲聊站暗示,小米系有两款新机蓄势待发,率先发布的是Civi 2,搭载高通骁龙7处理器,随后亮相的是Redmi Note 12系列,搭载联发科1000系新平台。  传闻Redmi No...
日期:09-20
千人需求一机满足 谁是用户最喜欢的路由器_百兆路由器
  路由器究竟要什么样才是消费者心中的最爱?近日有媒体做了一个小调查,收集了1000余份调查问卷,其中消费者最喜欢的路由器标准有以下几点:百度的无人驾驶出租车  理想的路...
日期:07-26
vivo x fold是买256还是512划算「vivo X Fold+折叠屏与iQOO Neo7 SKU曝光,后者最高12+256GB存储」
IT之家 9 月 17 日消息,今年 4 月,vivo 推出了 vivo X Fold 折叠屏手机,售价 8999 元起。近日,vivo X Fold 迭代产品 ——vivo X Fold + 折叠屏手机已经现身工信部,并且有消息称...
日期:09-18
GMK NucBox 10 迷你主机发布:搭载 AMD R7 5800U,蓝色外壳
IT之家 12 月 4 日消息,GMK 推出了NucBox 10 迷你主机,采用蓝色外壳,搭载 AMD R7 5800U 处理器,首发价510 美元(当前约 3585 元人民币),将于 12 月中旬上市。该机支持最高 64GB 的...
日期:12-05
运营商和零售商称黑莓全键盘手机Q10销售低迷
 极米投影仪与坚果投影仪对比苹果与三星的专利权之争  网易科技讯 8月29日消息,据国外媒体报道,美国和加拿大的运营商高管和零售商透露,黑莓全键盘智能手机Q10上市以来销售...
日期:07-25
消息称谷歌正在打磨 Pixel 小屏旗舰手机,采用居中单孔直屏 + 家族式后置设计「谷歌pixel 3拍照怎么样」
  9 月 14 日消息,谷歌此前宣布将于北京时间 10 月 6 日 23:00 举行新品发布会,推出搭载 Tensor G2 处理器的 Pixel 7 / Pro 系列手机以及 Pixel Watch 智能手表等多款配件...
日期:09-15
红米redmi note11pro首发_卢伟冰预热新品:Redmi Note 12系列即将登场 双11爆款预定
  近日,小米集团中国区总裁卢伟冰发微博暗示,Redmi新品即将登场。二手三菱重工空调联想手机s90  此前博主数码闲聊站透露,Redmi Note 12系列将于10月份发布,这将是Redmi冲刺...
日期:10-12
荣耀Magic2入网工信部配置全揭晓:前后共六颗摄像头!「荣耀magic2后置摄像头像素」
  10月22日消息 今日上午,赵丽颖手持荣耀Magic2手机出镜,“官宣”荣耀Magic2“头号玩家”,并晒出了高清真机照。荣耀Magic2手机将会配备后置三摄,顶部为闪光灯,下面是三颗摄像...
日期:07-24
盘点这些年我用的iPhone,一名伪果粉的自我修养「学会这几招你的iphone还能战三年」
来源:中关村在线2022年投资苹果14系列4款机型和价格realme q3pro gtneo时间过得真快,苹果公司的iPhone14系列手机已经发布好几天了。...
日期:09-17
这才是真正的全面屏 国行三星S8终于支持导航栏隐藏「三星s8导航栏隐藏设置」
  三星自从Galaxy S8发布之后,就火得一塌糊涂。原因无它,那就是极高的全面屏设计,让千篇一律的手机市场中,带来一股清泉般的感受。这也是引起消费者疯狂购买的一个重要原因。...
日期:07-22
手机超薄模块化「可以换配件的模块化手机凉透了 但我很怀念它」
熟悉我们的差友都知道,托尼们特别喜欢捣鼓一些奇奇怪怪的电子产品。但说到手机这东西,总是有些缺憾:编辑部里面有功能机,有折叠屏,有三防机,还有各种山寨机,但唯独少了模块化手机。...
日期:12-31
苹果官网9月份的优惠活动_苹果日本启动跨年促销活动:最高返32000日元礼品卡
  和往年相同,苹果日本公司为庆祝新年宣布在 1 月 2-3 日举办为期 2 天的促销活动,符合条件的日本客户最高可以获得价值 32000 日元的苹果礼品卡。  IT之家了解到,日本地区...
日期:12-27
苹果中国终于将“五福一安”5W充电头抬下场:卖145元官网已售罄_苹果祖传五福一安
  “五福一安”是国内网友对苹果长期以来在快充上不思进取的幽默调侃,事实上,从iPhone 4开始到iPhone 11,苹果附赠的都是这样一款5V/1A充电头,只有iPhone 11 Pro机型才是18W...
日期:08-16
2019年全球智能手机的累计出货量_分析称2018年全球智能手机出货量有望近20亿
  台湾市场情报与咨询研究所指出,全球智能手机出货量预计将在2018年接近20亿——2012 - 2018年间的复合平均增长率达18.7%。在所有移动平台种,安卓继续稳居市场头把交椅,其20...
日期:07-25
打败iPhone 14 Pro Max!华为Mate 50 Pro销量逆天!「华为mate 50 pro 最新消息」
来源:中关村在线三星a80旋转三摄手机存量市场如何竞争苹果官宣9月15日举行发布会,iPhone 13来了9月的两大发布会分别是苹果和华为的舞台,在双方的手机开启预售之后,京东商城公...
日期:09-15
固态硬盘pcie4.0发挥全部性能「PCIe 5.0 SSD终于满血了!读写都是14GB/s、容量8TB」
相比于PCIe 4.0时代的快速推进,PCIe 5.0 SSD的确实有点慢,尤其是在消费级市场上,只听打雷、不见下雨。随着Intel、AMD平台的支持,下个月初的CES 2023,或许是爆发前的最后一站。威...
日期:12-21
首款哈苏联名折叠屏即将发布 基本确定为OPPO Find N2
  近年来,折叠屏成为了手机发展的新方向,各大手机厂商纷纷推出自家折叠屏机型。而OPPO为了跟上时代步伐也是推出了折叠屏机型OPPO Find N。不过,距离Find N推出已经过去了快...
日期:10-23
华为杨超斌:迈向5.5G,持续创新,开启5G产业新征程「华为5g总裁杨超斌」
[中国,深圳,2022年7月18日] “Win-Win 华为创新周”于7月18日在深圳开启,华为无线网络产品线总裁杨超斌发表了题为“迈向5.5G持续创新,开启5G产业新征程”的主题演讲。杨超斌表...
日期:07-31
依然1699元起?小米Max 3对比Max 2:配置七大升级「小米max2对比小米max3」
  小米Max 3将于明天正式发布。其实今晨,林斌已经公开了主要配置信息,现在就差价格和上市时间了。  作为一款主打大屏大电量的产品,Max 3究竟有哪些升级调整呢?  今天下...
日期:07-23