您的位置:首页 > 互联网

喜马拉雅自研珠峰语音生成式大模型,实现5秒内“极速克隆”声音

发布时间:2023-10-31 18:56:41  来源:互联网     背景:

10月31日消息,2023云栖大会上,喜马拉雅展示其最新的自研语音技术成果,包括喜马拉雅珠峰语音生成式大模型和第二代智能语音交互系统。

据介绍,喜马拉雅珠峰语音生成式大模型,具备快速实现语音音色和风格定制的能力。这一技术支持丰富场景下的音色实时转换,为声音赋予了创造性的"变声"能力,宛如给声音涂上不同的“画皮”。此前,喜马拉雅珠峰实验室团队已通过AIGC方式创作了超过3.7万部有声书专辑,而AIGC作品的每日播放时长已超过250万小时。

电视机谎言真探


在云栖大会现场,喜马拉雅展示了其自研的珠峰语音生成式大模型。该大模型由喜马拉雅珠峰智人团队与西北工业大学aslp lab展开合作,基于自研框架,实现音频与文本在统一框架下的稠密训练,用于语音生成任务,能够实现语音风格和音色的zero shot的学习和迁移,实现风格和音色的任意组合,同时,喜马拉雅基于阿里云数据湖3.0构建的云原生大数据平台为语音大模型训练提供了海量高质量数据, 是喜马拉雅语音大模型不可或缺的“数据引擎”。

据喜马拉雅首席科学家、珠峰实验室负责人卢恒介绍,“喜马拉雅语音生成式大模型目前已经取得了显著的突破,在音色定制方面实现了5秒内的‘极速克隆’声音。通过极少量的数据,该模型能够克隆出具有90%相似度的基本音色,并在短短的10秒内快速生成定制音频。未来,这项技术在短视频创作、数字人配音、人机交互对话、名人IP复刻等领域有望发挥出巨大的潜在价值,有效解决商业场景中的沟通需求痛点。”

天猫单店破百亿

喜马拉雅珠峰实验室资深产品专家吕睿韬现场介绍到:该语音大模型采用基于语音向量和语义标记的新型语音编解码器,其中语音向量包含用于高保真语音重建的声学细节,而语义标记(LLM)则侧重于语言建模的语音的语言内容,最终实现高效生成最富有语言表现力和最高保真度的语音(对话)内容。应用场景上,该语音大模型可应用于语音内容生成、口语对话、语音音色实时转换、说话风格迁移、语音到语音跨语种翻译、说话人匿名化等各种任务。

苹果折叠iphone要来了尺寸达8英寸

下半年红米会发布什么千元机

喜马拉雅还将展示其第二代智能语音交互系统,这一系统以阿里云的“通义千问”大模型为基础,以喜马拉雅儿童形象代言人“波波”为中心,增强了他的自然连贯对话能力,凸显了“波波”这一IP形象的特征。该智能语音交互系统已通过喜马拉雅儿童APP和喜马拉雅提供服务,波波球为家庭亲子用户提供陪伴对话功能。(一橙)


返回网站首页

本文评论
微软 中国网络攻击「网络安全-“微软+OpenAI”联手的新一站」
北京时间3月29日早间消息,据报道,微软推出一款新的人工智能对话工具Security Copilot(安全副驾),能够帮助网络安全团队防止黑客攻击,并且在遭遇攻击后进行处置。微软最近发布了一...
日期:10-05
元宇宙赛道资本都在投啥?知名VC押注底层技术和泛娱乐「基金投资赛道」
  尽管元宇宙产业还在起步阶段,但资本界已开始关注这个赛道。  在2022世界人工智能大会(WAIC)同期,德勤中国联合GSMA举办了“元宇宙高峰论坛”,并在会上发布元宇宙系列白皮书...
日期:09-04
金立s10l手机壳「金立gn105手机套」
金立GN105是一款经典的手机型号,不论是性能、外观还是功能都经得起时间的考验。作为一款经典手机的配件,金立GN105手机套也非常受消费者的关注。首先,我们来看看金立GN105手机...
日期:05-31
调查显示近三成美国人生活离不开互联网(全世界都在用美国的互联网吗)
  美国的一项最新调查显示,美国人认为高速互联网是过去十年最具影响力、也是最无法离开的技术。   美国民意调查公司Zogby International的在线调查显示,在1950名成年美...
日期:07-25
网络p图软件_用“对抗生成网络”也可以 P 图,效果不输 Photoshop
  把人的眼睛变大、把嘴合上、转动眼珠:   质量如此逼真、一点糊图的痕迹都没出现 。   如果我不说,你知道这其实是对抗生成网络(Generative Adversarial Network,以下...
日期:01-24
小米13ultra最新消息「小米13 Ultra官宣散热提升300%」
小米13 Ultra官宣搭载自研环形冷泵散热技术,散热能力相比于传统VC提升300%,可以做到4K 60帧连续拍摄全程不掉帧。关爱儿童关心成长关注未来苹果手机 小米手表 esim...
日期:04-16
ChatGPT狂飙之下 云计算加速键启动?
集微网消息,ChatGPT一夜爆火,成为AI届的“流量收割机”。有观点认为,ChatGPT不仅是AI的成功,也是云计算的成功。AIGC(人工智能生成内容)有望开启云计算产业链新一轮景气周期。Chat...
日期:09-29
数字藏品如何成为下个“风口”? 欧科云链从行业出发进行专业解读
日前,相关部门印发了《关于推进实施国家文化数字化战略的意见》,为“文化+数字”战略提供“施工图”。伴随着区块链技术的发展、元宇宙概念的普及,全球NFT市场持续火爆,国内数字...
日期:08-01
刘畊宏出圈1年多后谈直播间流量下滑:流量涨跌是很正常的事情_刘畊宏在哪里直播
12月18日消息,据国内多家媒体报道,刘畊宏直播间被称之为世界上最大的健身房,出圈一年多后他谈起流量下滑,称流量涨跌是很正常的事情,他能控制的就是把内容做好。在去年4月份,刘畊...
日期:12-19
搭载“鸡血版”骁龙8Gen2 史上最强5G Soc 「iQOO」-11S或7月上市_骁龙8的手机
去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充上也堆料到极致,支持200W超...
日期:09-12
小米Redmi Note13 Pro宣布搭载第二代骁龙7s:2.4GHz主频_红米note7骁龙632
高通今日宣布推出第二代骁龙7s移动平台,该平台将取代骁龙7系列,组成更丰富的矩阵层级。同时,小米也宣布其Redmi Note13 Pro手机将搭载高通第二代骁龙7s处理器,该处理器采用4nm制...
日期:09-16
演唱会强实名后黄牛代抢生意火了 收费是票价的数倍_演唱会黄牛用的什么抢票软件
最近,“TFBOYS十周年演唱会”成为热门话题,引发抢票狂潮,超过400万人参与预约,票务平台一开售就售罄,成功率只有0.008%。据了解,这次TFBOYS十周年演唱会的票价从580到2013元不等,要...
日期:07-25
大众CEO之后 苹果奔驰等公司CEO也计划访华「大众汽车集团CEO」
2月13日消息,据外媒报道,在春节期间,由保时捷CEO升任大众汽车集团CEO五个月的奥博穆(Oliver Blume)来到了国内,在为期多天的行程中走访合资企业,畅谈未来发展,共绘未来蓝图,加速转型...
日期:02-14
鲨客电动拖把好用吗_科技真的改变生活!Shark鲨客电动拖把C3mini拖地一点不累人!
  凭心而论,拖地在所有的家务中算是实实在在的伤身体吧。拖地前要干净的把整屋扫一遍,再湿哒哒的把地板擦一遍,再拧水费劲的擦干....弯腰、拧水这样的动作弄久了对腰部真的...
日期:03-23
奔驰车主加完油将钱扔地上 女员工含泪捡起:双方回应还原事情真相
春节期间四川遂西高速某服务区加油站内,一辆黑色奔驰车把油钱扔”在地上驾车离开,加油员蹲下含泪捡起,监控拍下了这一幕。iphone中国销量 全球市场占比华为p60手机外观视频显示...
日期:01-29
华为WATCH 4新款智能手表官宣、号称“捅破天”_华为智能手表4g版怎么样
5月9日消息,华为已经官宣了将于5月18日正式召开夏季全场景新品发布会,今天,华为官宣了智能穿戴新品——华为WATCH 4系列。在宣传海报上,有“腕变宇宙”的宣传语,并配上多个星球,或...
日期:05-09
知乎小说故事「知乎成全网最大的短篇故事生产基地:付费阅读分成超10亿元」
快科技12月11日消息,知乎创始人、董事长兼CEO周源在演讲中首次披露,知乎付费阅读业务已累计向创作者分成超10亿元。周源表示,目前知乎内容场景涵盖付费阅读、职业教育、营销服...
日期:12-11
百度chatpt叫什么 百度chatpt文心一言怎么使用_baiduxinwen
百度推出的人工智能聊天机器人“文心一言”(英文名为ERNIEBot),是一款为中文语言环境优化的智能聊天平台,其在 2023 年 3 月正式向公众开放使用。三星a60手机电池百度chatpt叫什...
日期:10-30
红魔8+128够用吗「红魔8S Pro系列首发骁龙8Gen2领先版+24GB运存 售价3999元起」
7月5日消息,红魔8S Pro系列今天发布,首发8 Gen2领先版+LPDDR5X+UFS4.0的芯片组合,售价3999元起。红魔8S Pro系列首发高通骁龙8 Gen2领先版+LPDDR5X+UFS4.0的芯片组合。CPU主频...
日期:07-05
云南移动采购非金属防鼠光缆:预估3312皮长公里
  1月14日消息 日前,云南移动启动2019-2020年非金属光缆采购项目,以满足2019年全省16个地市分公司城域传送网络、传输接入段、数字家庭三个项目的非金属防鼠光缆建设需求,以...
日期:04-16