您的位置:首页 > 互联网

首创端云一体多情感模型 火山语音创新发布PortaSpeech 2

发布时间:2023-08-28 14:44:47  来源:互联网     背景:

(原标题:首创端云一体多情感模型 火山语音创新发布PortaSpeech 2)

火山引擎语音合成VTTS2.0版本正式发布,能力再升级!

高通什么时候发布5nm芯片

VTTS2.0版本采用火山语音团队全新自研的语音合成模型 PortaSpeech 2 (下文简称:PS2),由当下流行的基础模型架构 PortaSpeech原班人马打造。为满足各种业务场景和客户需求,PS2在第一代模型的基础上,着重对音质韵律、多情感、端云能力以及克隆等进行了大规模升级。经评测,PS2合成效果与真人录音相似度高达99.8%,其中离线合成不仅支持多情感多风格,品质也与在线合成呈现出高度一致性。

图1:社区开源版 PortaSpeech

首发离线多情感多风格 品质媲美在线实现无感切换

离线合成是指用户在无网状态下通过本地设备实时进行语音合成,具备实时性和隐私保护的优势,虽然这种离线方式消除了对网络连接的依赖,用户可以在任何时间、任何地点进行合成,但往往很难与在线合成相媲美。经过深入的训练与优化,PS2打破传统的单一化低品质的离线效果,具备了与在线合成的品质并具有多情感、多风格能力,让用户在无网、弱网状态下也能够享受到极致的语音合成体验。

作为业界首个支持多情感多风格的端云一体模型,PS2的端云侧同时兼具“三高”,即高品质、高一致和高性能。

PS2端侧能支持的情感、风格范围非常广泛,包括但不限于开心、悲伤、愉悦、抱歉、撒娇、鼓励等。

此外基于端云一体的架构设计和生成式蒸馏的训推策略,PS2的端云侧可同时兼具高质量和音质一致性,实现用户在端侧和云侧之间切换时几乎无感知;并且从各维度充分考虑了用户在不同场景下的需求,确保了端到云的效果在各个环节都能够保持高度一致。实际使用中,会根据用户的操作和网络状态选择最优模型进行语音合成,保障用户在任何环境下都能享受到流畅的语音合成体验。

为了最大程度提升PS2在资源利用率和性能方面的成绩,为用户带来更为稳定和高效的使用体验,火山语音团队在训练阶段,针对不同模型特点采用 Int8和 fp16量化训练,有效降低模型占用空间并为将来在多种硬件设备上提供高速推理能力奠定基础;在推理阶段,支持流式推理以降低处理首批数据时的延迟,提升系统响应速度和实时性,为用户带来更流畅的体验。性能评测如下表:

小米11需要加价买吗?

高度还原 在线合成与真人相似度高达99.8%

除了多重技术方向的创新升级之外,新晋的PS2模型在云端应用中也展现出了高品质的语音合成能力以及效果。无论是与真人录音相比较,还是与其他语音合成模型进行对比,PS2在各类场景中均有惊艳表现。

火山语音团队是如何实现如此惊艳的效果?

聚焦模型结构与训推范式创新 PS2带来合成技术新突破

「模型结构升级」模型结构方面,PS2引入了全新的中间声学表征、声学模型和声码器。相较于从前,PS2根据语音数据本身的特点,使用了更加精细的声学特征HiFiSpec。可以极大保留训练数据的音高、音频等细节信息,提高模型在音质和韵律的生成上限,使生成的语音音质更加清亮、饱满和稳定。

具体来说,PS2的声学模型根据HiFiSpec数据本身的特点,设计了兼具长短时依赖的编解码器,引入了基于隐韵律表征预测的对抗生成式神经网络;同时使用蒙特卡洛采样对隐韵律表征分布进行高精度和高效近似,允许其最大程度还原HiFiSpec的真实分布和多样性,使合成的语音更接近自然状态下的人类声音。声码器方面,PS2优化了音频波形分布拟合目标,同时借助HiFiSpec的高表达性,重现极致音色和音质效果。

图2:火山语音新一代 PortaSpeech 2模型框架图

「训推范式升级」训推范式方面,PS2推翻了以往语音合成模型预训练和微调的传统范式,转而采用新型自研教师-学生模型训练范式。为了更好地拟合真实的语音分布,PS2的教师模型会自动根据不同业务场景特性,动态结合类似GPT的上下文学习(In-context learning)和微调学习(finetuning)方法,快速完成新音色、场景和情感的训练。

为了实现极致的模型性能和尺寸,PS2还进一步提出了一种名为“生成式蒸馏”的方案。即完成训练的教师模型会将它学到的语音数据分布通过分布形状规整和长尾裁剪等方式,将最适用具体业务场景的语音分布传授给学生模型,从而允许学生模型在极小的模型参数下,生成的语音质量和韵律几乎与教师模型无异。此外,学生模型还可以完美继承教师模型的诸多能力,包括多语言和多情感等,可以胜任各种端上和端云混合场景。训练数据方面,除了火山语音内部录制的大量精品数据以外,PS2还使用万小时以上私有版权语音数据,借助高效先进的模型架构和训推范式,可以在仅有少量数据下实现表现力、情感和音色的迁移,满足绝大多数场景需求。

图3:生成式“教师-学生”模型蒸馏

火山语音团队正不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上,并助力多家行业头部企业实现AI语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。


返回网站首页

本文评论
dynabook Portégé X30L-K化身生产力轻尚引擎   906g羽量机身助力商务精英一飞冲天
dynabookPortégéX30L-K化身生产力轻尚引擎906g羽量机身助力商务精英一飞冲天集齐 906 克镁铝羽量机身,Intel第 13 代CoreP系处理器,13. 3 吋夏普IGZO液晶屏, 30 分钟快充40%...
日期:06-05
facebook改名meta「Meta旗下Facebook同意就数据隐私诉讼达成和解」
  据亚洲新闻台报道,一份法庭文件显示,Meta公司旗下Facebook(脸书)当地时间26日在美国旧金山联邦法院就其允许包括剑桥分析公司在内的第三方访问用户私人数据一事的诉讼达成原...
日期:08-28
5月国内市场手机出货量同比增长25.2% 出货量为2603.7万部_中国5月手机出货量
根据中国信通院网站近日发布的数据,5月份国内手机市场销售量达到2603.7万部,比去年同期增加了25.2%,其中,5G手机卖出了2016.9万部,比去年同期增加了13.7%,占总销售量的77.5%。华为...
日期:06-26
余承东:华为HI模式只剩长安阿维塔
4月3日消息,在本月举行的2023中国电动汽车百人会高层论坛上,华为智能汽车解决方案BU CEO余承东发言。余承东介绍了华为与车企合作的三种模式。一是零部件供应商模式,二是Huawei...
日期:04-03
加油站汽油泄露 员工竟用身体堵住:除了不能打电话 还有这些事项必须注意
7月25日消息,今日一则#加油机突发汽油泄露员工用身体堵住#的话题在社交平台引发热议。曝光的视频中,广东某加油站加油机发生汽油泄露,大量汽油涌出,员工用身体堵住喷口。有网友...
日期:07-25
中国送餐机器人落地意大利华人餐厅 引多家意媒关注_中国出现全球首家全机器人餐厅
  送餐机器人在国内已经不是什么戏新鲜事儿了,尤其是受疫情影响无数送餐机器人走向抗疫一线,做隔离区和非隔离区之间的配送,避免交叉感染。但在意大利送餐机器人还属罕见的...
日期:07-14
辛巴带货致榴莲涨价?市监局回应:不实消息「辛巴带货价格怎么样」
近日,有报道称带货主播辛巴被指垄断榴莲市场导致榴莲价格上涨,此事引发了网友热议。消息称辛巴整场直播的销售额达到8.3亿,光榴莲他就卖了150万单,超过3亿的销售额,因为这场直播...
日期:05-13
包凡×杨晓磊:投资最难的是跟自己斗,人不能活在经验里
  对话/杨晓磊   编辑/曹玮钰   包凡发现了问题。他说,做投资的几年间,自己的情商“变低了”,这或许让他本人都有点惊讶。以前做投行,不谦虚地讲,他称得上处理人际关系的...
日期:07-31
上半年国产手机出货量下降超25% 年轻人不爱换手机了?_2018年1到2月国产品牌手机出货量同比约下降了
文/记者 温婧 ; ; ; ;近日有数据显示,今年上半年,国内市场手机总体出货量同比下降21.7%,国产手机出货量下降25.9%。还有数据显示,年轻人换机周期拉长至31个月。年轻人为什么不爱...
日期:08-17
苏宁全民焕新节悟空榜:美的、海尔让位,格力空调再成霸主!
  有人曾开玩笑说,生活在南方,每到过夏天的时候,是空调让我们拥有了第二次生命!现在虽然还没到夏天,但未雨绸缪却很必须,不仅能错过空调销售安装的高峰期,且还能赶上比肩双11的...
日期:04-25
联想创投是什么公司「助力行业升级转型,联想初创企业中心和联想创投亮相BEYOND Expo 2023!」
第三届BEYOND国际科技创新博览会(BEYOND Expo 2023)于 5 月 10 日- 12 日在澳门威尼斯人金光会展中心举行,BEYOND Expo2023 在大会规模层次、参会嘉宾的影响力、参与企业的行业...
日期:05-11
百度发布超导量子计算机“乾始”、量子软硬一体解决方案“量羲”_网易科技
8月25日消息,今日,百度发布超导量子计算机“干始”,以及量子软硬一体解决方案“量羲”。据悉,“量羲”集量子硬件、量子软件、量子应用于一体,提供移动端、PC端、云端等在内的全...
日期:08-25
数据中心节能关键指标「节能审查趋严化,数据中心该如何应对?」
通信世界网消息(CWW)节能审查作为数据中心建设的重要前置条件,与环境影响评价及土地、规划等审查同等重要。本文结合2022年全国数据中心节能审查的公开数据,重点分析北京地区节...
日期:05-31
中国信通院“可信软件物料清单(SBOM)主题沙龙”成功召开
2023年4月3日,由中国信通院主办的“可信软件物料清单(SBOM)主题沙龙”成功召开。会上发布了首批产品维度可信软件物料清单能力评估结果,并邀请多位知名企业代表和技术专家围绕软...
日期:04-03
河南省疫情防控新闻发布会直播_防疫上云,亿联网络助力河南第四次疫情防控会议举行
  近期,全国疫情呈现多点发生、局部暴发的态势,疫情防控形势严峻,外防输入的任务艰巨繁重。亿联网络积极发挥云视频通信企业社会责任,助力河南省委召开新冠肺炎疫情防控工作...
日期:07-17
和老公旅游结束回家感言「网友旅行七天和老公吵了5次 网友直呼太真实了」
最近,有一篇名为《我不想再和老公一起旅行》的社交媒体帖子引起了网友的热议。作者在帖子中讲述了和老公七天旅行中五次吵架的真实情况,引发了广泛关注和讨论。帖子中的“吵点...
日期:05-05
抖音“最火”直播间,全是中年失意企业家_抖音揭秘各行各业的主播
声明:本文来自于微信公众号 微果酱(ID:wjam123456),作者:陈出木,授权转载发布。诸如李佳琦、薇娅一类的素人,通过直播带货缔造了财富神话。而在“失意”企业家的眼里,直播带货是新...
日期:10-12
世界气象组织警告:全球极端天气未来将成常态_全球极端天气频发
快科技8月19日消息,世界气象组织最新发出警告称,今年夏天持续席卷全球的极端高温天气,及其引发的干旱、山火等天气灾害将成为此后全球气候的普遍情况。ac米兰手机壁纸世界气象...
日期:08-22
降本增效的背后:华为云瑶光数字化经营实战_华为云助力企业数字化转型
  华为云瑶光(Alkaid)作为面向云、AI、5G时代的分布式云操作系统,承载未来“分布式、确定性、多维智慧”的云,致力于打造“极优、极简”的云上体验。   伴随华为云持续...
日期:01-08
支付宝补贴活动「支付宝给过万补贴招募达人,是“蹭流量”还是“新机会”?」
声明:本文来自于微信公众号 新播场(ID:New_bc),作者:阿力古,授权转载发布。但凡是个平台,现在都要来直播短视频领域分一杯羹?可以直播学理财、选基金,可以看NBA,也可以买东西,也可以...
日期:02-15