您的位置:首页 > 互联网

在OpenAI引领的多模态时代,专注语音的ElevenLabs如何生存?

发布时间:2024-02-22 00:38:42  来源:互联网     背景:

声明:本文来自于微信公众号 阿尔法公社(ID:alphastartups),作者:阿尔法公社,授权转载发布。

2024年2月,OpenAI的视觉大模型Sora横空出世,这是一个历史性的里程碑,视觉生成领域将有一次大的技术和商业革命。

在Sora发布几天后,AI语音创业公司ElevenLabs为Sora的演示视频完成了精准匹配的配音,AI视频“以假乱真”的制作链条实现了闭环。这些视频利用他们即将上线的AI Sound Effects功能制作,该功能可以让用户输入Prompt自动生成声音。

中国舞龙表演,敲锣打鼓人声鼎沸(视频:Sora,音频:ElevenLabs)

2022年创立的ElevenLabs在6个月时间内连续获得两轮融资,在2024年1月的8000万美元B轮融资中,它的估值增长了10倍,达到了11亿美元。

在A轮和B轮的两轮投资中,领投方都是a16z、前GitHub首席执行官Nat Friedman和前苹果人工智能领导者Daniel Gross。A轮的参投方包括Instagram联合创始人Mike Krieger、Oculus联合创始人Brendan Iribe、DeepMind及Inflection AI联合创始人Mustafa Suleyman;B轮投资的参投方包括SV Angel、红杉资本、BroadLight Capital和Credo Ventures。

ElevenLabs的联合创始人兼CEO Mati Staniszewski表示:“新融资将用于继续构建ElevenLabs尖端的声音人工智能研究中心,并推出一系列产品,以支持特定市场垂直领域,如出版、游戏、娱乐和对话应用。”

如果您对人工智能的新浪潮有兴趣,有见解,有创业意愿,欢迎扫码添加“阿尔法小助理”,备注您的“姓名+职位”,与我们深度连接。

来自波兰的创始人用文本-语音模型实现声音克隆

诺基亚2720翻盖手机能用支付宝吗

ElevenLabs由前谷歌机器学习工程师Piotr Dabkowski和前Palantir部署策略师Mati Staniszewski(CEO)在2022年创立,他们是童年的好友,出生和成长于波兰,都在英国完成了大学教育。其中Mati Staniszewski毕业于帝国理工大学,曾经两次创业,而Piotr Dabkowski的本科和硕士分别毕业于牛津和剑桥大学。

当新一轮AI浪潮萌芽时,他们决定一起创业,基于对儿时外国电影配音低劣质量的“痛苦回忆”,这对搭档决定搭建一个由人工智能驱动的高质量音频平台,于是ElevenLabs诞生了。

在初期阶段,ElevenLabs凭借文本到语音模型Eleven Multilingual引起大众注意,这个模型能合成听起来自然的英语AI声音。随后,该模型扩展到Eleven Multilingual v1和v2,引入了对更多语言的支持,包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语等。

同时,ElevenLabs还开发了一个产品—声音实验室,用户可以在其中克隆自己的声音或生成全新的合成声音(通过随机采样声音参数)。这使他们能够将自己选择的文本,如播客剧本,转换成他们偏好的声音和语言的音频内容。

ElevenLabs创始人Mati Staniszewski在接受采访时表示:“ElevenLabs的技术结合了上下文意识和高压缩技术,以提供超逼真的语音。该公司的专有模型不是一句句地生成语句,而是建立在理解单词关系的基础上,并根据更广泛的上下文调整语音输出。它也没有硬编码的特征,这意味着它可以在生成语音时动态预测数千种声音特征。”

根据Market US的数据,音频类工具的全球市场规模在2022年为12亿美元,预计到2032年将接近50亿美元,复合年增长率高于15.40%。

ElevenLabs具有AI时代创业公司的组织特征,在B轮融资时,它的团队仅包括40名远程工作人员,获得新融资后,他们计划将团队逐渐扩展到100人。

广告伞上面的字如何去了

连续两轮领投ElevenLabs的投资机构a16z表示:“我们坚信生成式人工智能工具将彻底改变创意套件—通过让专业人士创作出更多高质量的内容,释放更多创造力,并且由于工具更易于使用、更直观,使得大量全新的创作者得以赋能。我们很高兴能加入ElevenLabs董事会,并与Nat Friedman和Daniel Gross共同领投他们。”

ElevenLabs创始人Mati Staniszewski总结道:“我们的雄心依然不变—通过打破语言和沟通障碍,改变我们与内容的互动方式。我们正在构建尖端技术,使内容跨越语言和声音,让每个人都能与重要的信息和故事建立联系。我们到目前为止的进展证明了我们敬业的团队和投资者的价值,虽然这仅仅是我们旅程的开始,但我们共同在塑造无障碍和沟通未来的道路。”

模型之外,可靠性和可控性是赢取客户的关键

对于影视,游戏,媒体等行业的开发者和创意工作者,将高质量的声音融入他们的作品一直是耗时且成本高昂的。

虽然文本转语音(TTS)技术已经存在了几十年,但是此前的技术合成的语音呆板且合成感重。想要获得个性化和清晰的语音,仍然需要专业设备,专业配音演员,例如大部分游戏设计师只能负担得起主要角色的配音演员,所以让非玩家角色保持沉默。

ElevenLabs致力于改变这一现状,通过其专有的语音合成、声音设计和克隆技术,让每个程序都拥有声音。通过几次点击,他们的先进语音AI基础模型能够生成听起来极其接近人声的语音,具有适当的停顿、语调和呼吸节奏。用户甚至可以从30秒的音频片段中克隆自己的声音。

Eleven Multilingual基础模型

ElevenLabs的技术基础是先进语音AI基础模型,它被命名为Eleven Multilingual,在2023年8月,它被升级到V2版本。ElevenLabs分析了人类语音的标记,构建了新的机制来理解上下文和在语音生成中传达情感,以及合成新的、独特的声音。

通过Eleven Multilingual v2,当文本输入到ElevenLabs的文本到语音平台时,新模型可以自动识别近30种书面语言,并以前所未有的真实性生成这些语言的语音。这些语言包括了世界上被使用最多的语言,当然也包括中文。

不但可以用文字生成语音,还可以语音生成语音

它的语音合成(SPEECH SYNTHESIS)产品包括一系列强大功能。

Text to Speech和Speech to Speech都是针对普通个人用户的,其中Speech to Speech是新推出的功能,它可以让用户在声音稳定性,声音清晰度和声音风格上进行调节。

在Voice Lab中声音克隆,仅需很短的样本,就能克隆用户的声音,并且很快就能听到结果。不过这是一个收费功能,它同样分个人版和专业版。

Projects则是一个针对专业用户和商业/机构用户的功能,它能够支持更长的文本和精确编辑,用户可以用它制作有声书等面向商业化的作品。目前这个功能的客户包括了Storytel、《华盛顿邮报》、莱茵邮报、Curio等。

Dubbing是与影视行业更贴近的,它能够自动为视频/音频配音,并能够快速翻译,因为Eleven Multilingual V2模型的能力,它能够支持29种语言。

针对更专业的用户,它还有Dubbing Studio,让用户可以对配音进行更精细的控制和制作。

针对企业客户,ElevenLabs也有自己的API,方便这些客户将AI音频能力嵌入自己的产品和应用中。例如此前我们详细介绍过的Inworld(请参考:融资5000万估值5亿美元,智能助手的先驱用AI让游戏NPC拥有情感和记忆|AlphaFounders),就利用ElevenLabs的产品为自己的AI NPC增添了声音功能,让玩家的沉浸感更强。此外,ElevenLabs也与电影制作人Nik Shaw合力打造动漫作品,与Y7联手制作科幻电影 。

客户与商业模式

ElevenLabs在商业化上是个人用户和企业客户两手抓的策略。

针对个人用户,它有免费的服务引流(目前已经有超过百万的注册用户),然后针对不同专业程度的个人用户收费,推出了Starter(每月1-5美元),Creator(每月11-22美元),Independent Publisher(每月99美元)三档收费。

针对企业用户,有Growing Business(每月330美元)和Enterprise(按需定制收费)。它会按照功能和用量来区分不同等级的会员。

车辆自燃谁赔偿

在2023年,扩大了B2B方面的商业投入和合作。目前在出版、游戏、媒体和垂直对话式AI公司等领域积累了不少标杆客户。

出版领域:Storytel、《华盛顿邮报》、《莱茵邮报》、Curio

对话式AI:FlowGPT、SimpleTalk AI、Ollang、VoiceDrop、Vana

媒体与娱乐:Wondershare Filmora、Futuri Media、TheSoul Publishing

游戏行业:Paradox Interactive、网易、Inworld

用安全措施和语音库市场应对争议

ElevenLabs目前是AI音频领域的领头羊,它也面临着最大的争议,这争议主要来自两个方面。

第一是担心不法分子利用ElevenLabs的技术作恶,例如克隆名人的声音然后伪造视频或音频发布一些类似暴力威胁、种族主义等有争议的内容。而且目前ElevenLabs生成的声音也能通过银行的声音验证。

ElevenLabs对此的应对是引入一系列安全措施,例如将声音克隆限制在付费账户中,禁止反复违反其服务条款的用户。他们还一种新的AI检测工具,能够检测上传的音频样本中是否包含来自ElevenLabs的AI生成内容。

第二是有人担心ElevenLabs抢了配音演员的饭碗,就像好莱坞的演员担心被AI视频生成抢饭碗一样。ElevenLabs的应对是推出语音库市场(Voice Library marketplace)。

语音库市场为用户提供一个安全的平台,让他们能够从自己的 AI 版本声音中获得收入。用户可以创建他们的专业 AI 语音副本,进行验证,并通过语音库分享。当其他用户使用这些经过验证的声音时,原始创作者将获得报酬。

多模态模型和大公司会把ElevenLabs们拍在沙滩上么?

当OpenAI的GPT-4V出现后,各种多模态AI模型涌现,Sora的出现,也让越来越多的人认为多模态模型是走向AGI(通用人工智能)的正确道路。那么随着多模态模型支持的模态越来越多,单一模态的AI语音模型会不会失去存在的价值?

从技术上看,多模态可能比单一模态好,但是从商业上却不一定,因为单一模态在可控性和成本上会比多模态更好些(至少在近几年),这给了创业者们创业空间。

此外,AI语音虽然不像AI视觉那样“光鲜”,但它仍有众多的应用场景。例如影视配音(文首已经展示),游戏配音,有声书,新闻,播客,会议转录等。

所以ElevenLabs其实有不少竞争对手,例如Papercup、Deepdub、Acapela、Respeecher和Voice.ai等创业公司,以及Amazon和OpenAI这些领先公司。那么面对资金更充足,人才更集中的Amazon和OpenAI,ElevenLabs会被"拍在沙滩上"么?

领先的公司要在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是有点突破就摊大饼,把应用都做完。这一点,在之前的文章中就分析过(请参考:ChatGPT创业:狮子和土狼一起奔向光明|投资人说)。

ElevenLabs有自己的模型,有针对个人和大公司的产品,还有语料库市场经营生态。目前AI的商业格局还未定局,这种既掌握底层技术又拥有商业场景的公司,会在未来的发展中拥有自己的一席之地。


返回网站首页

本文评论
福布斯2023全球区块链50强:蚂蚁、百度、腾讯等上榜_公布2021年全球区块链50强榜单
2月8日讯:今日,福布斯发布2023全球区块链50强,蚂蚁、百度、腾讯等中国企业上榜。乐视tv 售后中望3d是cad吗一加6和6Tamd适合办公还是玩游戏...
日期:02-08
周鸿祎马云_周鸿祎:人工智能最后的底线必须是人
讯 7月27日上午消息,2022年新智者大会正式启幕,360集团创始人周鸿祎在其官方微博发文感谢组委会邀请,并表达自己对AI武器的看法。周鸿祎称,当年阿西·莫夫在讲“机器人三原则”...
日期:07-31
Capcom预计手机游戏将为其贡献三成利润_游戏年产值
  10月21日下午消息,日本游戏开发商Capcom预计,手机游戏在该公司营业利润中的占比几年内将达到30%。   作为《生化危机》系列游戏的开发商,Capcom今年5月预计,在截至明年3...
日期:07-24
iPhone 15 Pro用户电池健康度下降过快 突如其来_ios15电池容量掉的飞快
据一位用户反映,其使用的iPhone 15 Pro在不到一个月的时间里,电池容量已衰减至99%。此前有报道称,最新款的iPhone 15系列手机可能存在电池健康度下降过快的问题。据悉,这些手机...
日期:10-15
人民日报评论:守护好1.91亿未成年人上网的清朗空间
  作者 |;张近山  随着互联网快速普及,越来越多未成年人通过网络获取信息、学习娱乐、交友互动。日前发布的《2021年全国未成年人互联网使用情况研究报告》显示,2021年我...
日期:12-12
紫光展锐领导层「紫光展锐重要人事变更:马道杰被任命为董事长」
6月27日消息,紫光集团旗下核心企业紫光展锐今天公布了一条重要人事变更。紫光集团任命集团执行副总裁马道杰任紫光展锐董事并选派其为紫光展锐董事长。华为基站和移动基站原...
日期:06-27
斗鱼回应监管进驻:将深入开展内容整改等工作_斗鱼新政策
5月9日 消息:针对网信部门派出工作组进驻斗鱼的报道,斗鱼官方回应称,将积极配合湖北省互联网信息办公室工作组的检查和指导,认真按照监管要求深入开展内容整改等工作。京东生鲜...
日期:05-09
苹果再失一高管 效力23年的老将被Roblox公司挖走「roblox 新闻」
12月1日消息,据国外媒体报道,在苹果设计团队工业设计副总裁埃文斯·汉基(Evans Hankey)确认将离职之后,苹果又将失去一位高管,在公司效力23年,长期担任领导职务的约翰·斯托弗(John...
日期:12-03
直播带货爆火 机构双11抢主播:时薪千元招不到人「直播带货秒杀」
近几年,电商直播飞速发展,直播带货成了大大小小商家新的营销方式,随着双11预售的开启,带货主播也成了香饽饽,但即使时薪涨至千元,薪资涨5倍,双11仍然一播”难求。有媒体报道称,一家...
日期:10-29
华为 新车「华为新车爆单,紧张的不只有理想」
定焦(dingjiaoone)原创作者 | 温故编辑 | 方展博华为Mate系列手机火爆之后,华为新车问界M7也火了。从9月12日上市至今,不到一个月的时间,问界新M7的大定量超过5万辆,其中在国庆假...
日期:10-10
三星嘲讽苹果 iPhone 14 没有创新_苹果13无创新
IT之家 9 月 2 日消息,苹果将于下周正式发布 iPhone 14,但相比 Pro 系列几乎可以说是 iPhone 13 Pro 系列换壳,似乎仅有内存、处理器有些变化,至少目前来看很难出现什么创新或新...
日期:09-27
北京丰台一考生:成绩在意料之中,奖励却是意外之喜!
  7月25日,北京市高考成绩正式公布,家住北京丰台的孙同学第一时间查到的自己的成绩,总分536分,高出预估分数30分之多,给了她一个大大的惊喜。然而惊喜不止于此,下单仅仅16分钟,...
日期:07-14
中文在线:拟1.38亿元收购罗小黑IP运营公司寒木春华51.04%股权「罗小黑在线39」
6月28日 消息:中文在线发布公告称,拟与北京寒木春华动画技术有限公司(运营“罗小黑”系列IP)及其原股东签署《股权转让协议》,以1.38亿元的对价收购寒木春华51.0414%的股权。a9...
日期:06-29
全国门店联动陪伴精彩出游,荣耀五一嗨购狂欢活动启动在即_荣耀手机五一搞活动吗
节至人间欣向荣,作为春节之后首个小长假,2023年五一出行量井喷,旅游景点火爆已板上钉钉。荣耀将于4月29日-5月3日发起“五一出游 荣耀相伴”主题嗨购狂欢活动,集齐“出游首发站...
日期:09-17
马斯克“坑煞”中国友商_马斯克 骗
作者:普子胥出品 | 网易科技《态℃》栏目组“今年一季度或许是汽车行业、新能源汽车行业最困难、最有挑战的时期。”在2月6日的媒体沟通会上,蔚来联合创始人兼总裁秦力宏表示,...
日期:02-08
OriginOS Ocean发布会邀请函鉴赏 磁流体丝滑无比
今天,中关村在线编辑部受到了来自vivo发出的OriginOS Ocean发布会邀请函。邀请函礼物是一个非常有创意的磁流体瓶子,它是一种新型的功能材料,既具有液体的流动性又具有固体磁性...
日期:11-02
马斯克撂挑子后 盘点谁可能上任推特CEO_马斯克新推特
凤凰网科技讯 北京时间1月16日消息,推特老板埃隆马斯克(Elon Musk)已表示,他会辞去推特CEO,但前提是得找到一个“足够傻”的人来接任这份工作。根据知情人士提供的消息,马斯克似...
日期:01-16
王者荣耀都抄袭了哪些游戏,证据是什么?「AI界新晋王者被曝抄袭、作弊、做假,脸都丢光了」
(id:SouthReviews)原标题 | 他们抄袭,作弊,做假,却宣称超越作者 | 南风窗记者 朱秋雨编辑 | 向由排版 | 菲菲AI大模型大战在2023年爆发后,AI创业者不免感到有些心灰意冷——不管自...
日期:12-20
载亿万富豪失踪潜艇氧气不足32小时:乘客存活率仅1%_潜艇缺氧事故
6月21日消息,美国一艘泰坦尼克”号残骸观光潜艇于6月19日被曝失联。据悉,失踪潜艇是美国海底勘探公司海洋之门”为一项旅游观光项目所设计,内有5名乘客,目前已经确认英国亿万富...
日期:06-22
喜讯!曙光中标中国移动分布式块存储产品集采
  近日,中国移动公布2020年至2021年分布式块存储产品集中采购中标候选人名单。这是自2017年以来,中国移动组织的第二次通用分布式块存储集采,吸引了国内多家知名厂商参与投...
日期:07-14