您的位置:首页 > 媒体评论

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

发布时间:2023-01-12 02:03:17  来源:互联网     背景:

只需3秒钟,一个根本没听过你说话的AI,就能完美模仿出你的声音。

是不是细思极恐?

这是微软最新AI成果——语音合成模型VALL·E,只需3秒语音,就能随意复制任何人的声音。

它脱胎于DALL·E,但专攻音频领域,语音合成效果在网上放出后火了:

有网友表示,要是将VALL·E和ChatGPT结合起来,效果简直爆炸:

看来与GPT-4在Zoom里聊天的日子不远了。

还有网友调侃,(继AI搞定作家、画家之后)下一个就是配音演员了。

所以VALL·E究竟怎么做到3秒钟模仿“没听过”的声音?

用语言模型来分析音频

基于AI“没听过”的声音合成语音,即零样本学习。

语音合成趋于成熟,但之前零样本语音合成效果并不好。

主流语音合成方案基本是预训练+微调模式,如果用到零样本场景下,会导致生成语音相似度和自然度很差。

基于此,VALL·E横空出世,相比主流语音模型提出了不太一样的思路。

相比传统模型采用梅尔频谱提取特征,VALL·E直接将语音合成当成了语言模型的任务,前者是连续的,后者是离散化的。

具体来说,传统语音合成流程往往是“音素→梅尔频谱(mel-spectrogram)→波形”这样的路子。

但VALL·E将这一流程变成了“音素→离散音频编码→波形”:

具体到模型设计上,VALL·E也和VQVAE类似,将音频量化成一系列离散tokens,其中第一个量化器负责捕捉音频内容和说话者身份特征,后几个量化器则负责细化信号,使之听起来更自然:

随后以文本和3秒钟的声音提示作为条件,自回归地输出离散音频编码:

VALL·E还是个全能选手,除了零样本语音合成,同时还支持语音编辑、与GPT-3结合的语音内容创建。

那么在实际测试中,VALL·E的效果如何呢?

连环境背景音都能还原

一加10pro

根据已合成的语音效果来看,VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位,而且还支持多种不同语速的选择,例如这是在两次说同一句话时,VALL·E给出的两种不同语速,但音色相似度仍然较高:

同时,连说话者的环境背景音也能准确还原。

除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是,VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E。

有网友已经在畅想它可以应用的地方了:

不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音。

当然,还可以用在有声书的录制上。

不过,VALL·E目前还没开源,要想试用可能还得再等等。

作者介绍这篇论文所有作者均来自微软,其中有三位共同一作。

一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等。

共同一作Sanyuan Chen,哈工大和微软亚研院联合培养博士生,研究方向包括自监督学习、NLP和语音处理等。

共同一作Yu Wu,微软亚研院NLP小组研究员,在北航获得博士学位,研究方向是语音处理、聊天机器人系统和机器翻译等。


返回网站首页

本文评论
差点搞崩英国市场,什么是LDI,这会是下一场雷曼危机吗?
近日,英国人赖以生存的养老金几近崩溃边缘,引发了一场市场巨震,吸引了投资者的广泛关注。由于用于抵押的英国国债价格暴跌,英国养老基金面临大规模追加保证金的要求,而抛售国债补...
日期:10-06
马斯克和推特ceo_解析马斯克的经商“秘笈”,他为何玩不转推特?
马斯克曾成功打造特斯拉、SpaceX凤凰网科技讯 北京时间12月19日消息,多年来,埃隆·马斯克(lon Musk)已经建立了一套行之有效的经商秘笈,借此创办了从特斯拉到SpaceX在内的公司...
日期:12-20
冬至都过了,北半球的日照越来越长,为什么天气却越来越冷了呢?
地球有一个非常有趣的四季交替循环,气温的截然不同让每个季节都有属于自己的独特风景。现在,我们已经清楚得知道出现这种情况的原因是地球的自转轴相对于它绕太阳公转的轨道倾...
日期:12-30
“一级市场宠儿一天浮盈140万!”赚钱就凭一张“黑嘴”?
涨停板抢庄、第二天高开就跑;低于发行价,100%认购即将上市新股!对于缺乏经验的投资者,是不是会怦然心动?是的,这可谓是最豪华、最完善的黑嘴坐庄产业链!从“头部券商知名高管”,到“...
日期:09-10
格力核心经销商倒戈 董明珠回应_格力集团是董明珠的吗
原标题:格力核心经销商倒戈 董明珠回应:不志同道合的人离开正常10月13日消息,据老板联播报道,今年以来,核心经销商“倒戈”事件频频将格力电器推上风口浪尖。苹果推出新召回计划...
日期:10-16
指环王中的龙族_看完龙族大战指环王 我发现流媒体的尽头还得靠“拼爹”
亚马逊和HBO这几天“打起来”了,观众们却进入了一场前所未有的狂欢。亚马逊巨资打造的经典IP《指环王:力量之戒》和HBO《权利的游戏》前传《龙之家族》在九月正式在流媒体会面...
日期:09-08
币圈马斯克被捕 揭露出币圈的荒诞与真实_马斯克暗示卖出比特币
2001 年,美国能源公司安然突然被爆出高管利用会计漏洞掩盖数十亿美元债务的丑闻,其股价从每股 90.75 美元迅速暴跌至不到 1 美元,这家拥有上千亿资产的超级公司在一年之间宣告...
日期:12-27
增收不增利 泡泡玛特需要面对的是一场硬仗「泡泡玛特的价值体现」
原标题:泡泡玛特,仓库爆了?谷歌正式发布Android12文丨游璃BT财经原创文章头图来源丨官网市场正在转为聚焦利润,而泡泡玛特则明显是个反面案例。2022年8月25日,泡泡玛特发布2022年...
日期:08-30
抖音头部主播都有谁_头部主播抖音“复出”,背后谁在操盘?
原文标题:《李佳琦、薇娅抖音“复出”,背后谁在操盘?》,头图来自:视觉中国自从停播后,薇娅、李佳琦消失在淘宝直播间,但在抖音上,“薇娅、李佳琦”已经“复出”带货了。在抖音上搜索...
日期:09-06
新加坡首富们在渡劫_新加坡富豪千金下海
文 | 好看商业,作者|周一围,编辑|安心在最新福布斯新加坡排行榜上,迈瑞医疗创始人李西廷以156亿美元身家蝉联首富,财富值与去年同期比基本“腰斩”。前首富Sea创始人李小冬身家只...
日期:09-30
钉钉小红点去不掉_钉钉内测一键清除小红点功能
  8月30日消息,此前的钉钉没有一键清除消息的功能,还有只要点进消息,状态就会改为已读,现在,一键清除消息功能,终于来了。  近期,钉钉开始内测一键清除小红点功能,长按消息按钮...
日期:08-31
韭菜园露营基地_“天价”露营 割2022年最后一波韭菜
深燃(shenrancaijing)原创作者 | 金玙璠编辑 | 魏佳国庆七天玩什么?许多人想到了露营。像喝秋天的第一杯奶茶一样,去奔赴秋天的第一场露营。今年国庆假期,长途旅行“冷”,近郊出游...
日期:10-05
拼多多砍一刀的真相_拼多多砍一刀挥向海外,动了谁的奶酪?
原标题:悄悄试水3年、持续挖阿里墙角,拼多多砍一刀挥向海外,动了谁的奶酪?撰文/石闻天编辑/彭箫恒题图/IC Photo在国内电商市场逐渐接近天花板之后,拼多多尝试在海外复制当年的爆...
日期:09-16
台积电2nm预计2025年量产 业界看好其领先三星和英特尔_台积电2nm量产时间
  9 月 12 日消息,据台媒《经济日报》报道,晶圆代工厂台积电 2nm 制程将于 2025 年量产,市场看好进度可望领先对手三星及英特尔。  台积电先进制程进展顺利,3nm 将在今年下...
日期:09-13
注意看 “小帅和小美”正在肢解电影「小美小帅胖哥是什么电影」
“注意看,这个男人叫小帅,他怀里的这个女人是小美,正当两人翻云覆雨的紧要关头,门口突然传来了佛波勒的声音。”你一定在地铁上、餐馆里、身边同事的抖音里,听到过这样的影视解说...
日期:11-17
拥抱理想的任正非 可以比谁都现实吗_拥抱理想的任正非 可以比谁都现实
作者 | 丸都山出品 | 虎嗅科技组头图 | 视觉中国8月23日,据第一财经报道,任正非于22日在内部论坛上签发了一篇关于《整个公司的经营方针要从追求规模转向追求利润和现金流》的...
日期:08-26
从8万小车到百万豪车 比亚迪用“仰望”终结仰望_比亚迪有百万的车吗
作者 | 周永亮编辑 | 靖宇继站稳 40 万市场后,比亚迪要进攻百万级豪车市场。1 月 5 日,比亚迪旗下的仰望品牌,发布了新能源硬派越野 U8 和纯电动性能超跑 U9,以及背后的「易四方...
日期:01-09
图森未来CEO遭罢免背后:是管理分歧还是行业两极化的集体焦虑?
最近,自动驾驶似乎陷入了“多事之秋”。先是L4自动驾驶明星独角兽ArgoAI官宣倒闭,接着小马智行被曝裁员,而近日自动驾驶第一股图森未来又将公司高层“内斗”搬上台面。或许谁也...
日期:11-16
特斯拉的人形机器人“炸弹” 或再造“蔚小理”_特斯拉机器人发文
图源:特斯拉3至5年后,数百万台人形机器人从特斯拉工厂下线,以低至2万美元的价格送往千家万户。“比汽车更便宜!”这是马斯克为其人形机器人Optimus(擎天柱)画下的蓝图,震动了机器人...
日期:10-15