您的位置:首页 > 互联网

声音类 AI 产品的创业探索「声音产品开发与制作」

发布时间:2023-07-31 16:08:08  来源:互联网     背景:

声明:本文来自于微信公众号 AI新智能(ID:alpAIworks),作者:Stars,授权转载发布。

机器与人类交互的最直接方式无非就三种,视觉、触觉和听觉。大语言模型满足了视觉上对文字的交互,而听觉就需要语音模型来补齐了。

1关 闭 当 前

找到AI新赛道

随着大语言模型的技术日趋成熟,寻找新的增长点,探索未完全开发的AI市场成为了一个必然的趋势。

其中,人类与机器之间的交互无疑是一个重要的方向。

声音类 ai 产品的创业探索报告

图1目前部分国产大语言模型列表

机器与人类交互的最直接方式无非就三种,视觉、触觉和听觉。

大语言模型满足了视觉上对文字的交互,而听觉就需要其它类型的AI来补齐了。

声音产品有哪些

在听觉方面,声音创作类AI作为语音领域的一个细分方向,近年来发展迅速,不断有新的应用场景被开发出来。

声音AI的研究可以追溯到20世纪90年代,早期很多工作集中在语音识别和语音合成等基础技术上。

进入21世纪后,随着深度学习在语音识别和语音合成方面的广泛应用,声音AI的能力得到了极大提升。现在不仅可以做到非常准确的语音转文字和文字转语音,而且可以学习并模拟特定人物的声音特征。

这无疑大大拓宽了AI的应用范围。

2

一款声音类AI的创业探索

在语音创作工具领域,大饼AI变声是一个典型的在声音方面的AI探索案例。

2021年,毕业于卡内基梅隆大学的凌天格创立了上海格子互动信息技术有限公司(以下简称格子互动),并在同年就开发出第一款应用“ HALO 剧本杀”。顾名思义,这款应用是一个专注于线上剧本杀的应用。

格子互动通过将各类优秀剧本和DM(剧本杀主持人)资源整合起来,迅速收获了一批忠实用户。格子互动也获得源码资本种子业务“源码一粟”的种子轮投资。

声音产品开发与制作

图2“Halo有戏”官网截图

在拥有了一个稳定收入来源和声音数据源后,格子互动启了它的野心征途:“大饼AI变声”,正式走向了声音类 AI赛道。

通过前期剧本杀应用的长期积累,格子互动获得了大量的DM的优质干声(指仅有人声不含其它杂音的声音)。在拥有了数字资源后,格子互动就着手于将资源变换为实际可利用的 AI模型。将干声训练为了一个个可供使用的语音模型。

声音类 ai 产品的创业探索论文

由此格子互动便推出了大饼AI变声,其主要功能就是一个多功能的语音转换工具。它能够实时地把输入的人声,转换成不同风格的语音输出,实现语音的变声效果。

这对于需要频繁配音的内容创作者来说,可以极大地提高内容产出效率。

目前来看,大饼AI变声未来可以通过定制化声音模型训练提供定制化的变声服务,将定制化模型变为商业化主要道路。同时降本增效,持续技术投入,将模型定制成本逐渐降低,以此快速实现商业化。

3

拓宽声音AI的应用视野

语音转换或者说变声仅仅只是声音AI的冰山一角。摆脱了“变声”这一单一方向后,语音内容生成语音生成类 AI会有更大的发展空间。

语音生成类 AI的发展,可以赋能大量与人声相关的行业,大幅提升效率,增加成果转化速度。

1.有声书

有声书类别中,人类配音目前最大的优势就是情感的丰富性和角色的多样性和音色的多变性。然而人工录制有声读物仍需要人工朗读与校对,各项成本都不会因为边际效应而降低。而 AI配音则可以快速产出内容,文字量甚至可以达到500万字/天。目前,喜马拉雅等传统听书软件已经纷纷下场开始了这项业务内容。

2.网络视频快速配音

在短视频快速发展的当下,有大量的AI配音视频的产生。如魔音工坊等平台更有完整的 AI配音方案辅助完成一期短视频。AI配音提升了视频的产出效率,作者只需要准备好合格的文案就可以快速产出内容。同时避免了观众对于某一个特定视频博主声音的依赖性,能够更长期的稳定运营一个频道。

3.虚拟主播

虚拟主播行业是近几年诞生的新兴直播种类。主播常以一种虚拟二次元形象出现。在视觉效果上,主播已不需要实际露脸,而是以自身的独特设定(例如萌化动物,某种独特性格)为基础完成每次直播。但是目前的直播中缺少了重要的声音因素,使得角色设定中缺少了一部分内容。而当下的 AI变声搭配 AI语音生成就可以很好的解决这一问题,加强了主播的娱乐性。

4.游戏内配音

与虚拟主播类似的就是游戏了。但是不同的是游戏行业不需要实时的语音变化,而是需要更精细的调节。不论是任何独特的角色设定和背景故事,都可以使用 AI提供专属的、唯一且稳定的音源。不仅提高了游戏的沉浸感,还能够大幅提升配音音源的稳定性。AI配音的出现极大降低了由于配音的不确定性带来的风险(如配音演员更替、演员受伤、声线变换等等),降低了运营风险。

声音产品有哪些

图3由ElectricNoir创作的互动型小说,语音均由AI录制

总的来说,声音AI不再局限于单一的“变声”,而能够广泛应用于内容创作的各个方面,大幅提升效率并打开更多创作可能性。这将推动语音AI技术在各创意产业中的深入应用。

但是目前来看,AI语音生成仍然有情感缺失等不足。而且在面对汉语这类有多音字词的语言时,生成语调与换气等仍有较大的问题。

目前各类云已提供了基于云上的文本到语音(Text-to-Speech, TTS)系统,从微软的Azure到国内的阿里云腾讯云都有这方面的服务。

除此之外,语音生成技术都有开源的开源方案和完备的论文支撑。这意味着后入局的企业必须要双管齐下,努力扩大自身的技术护城河的同时,通过商业互补建立起数字资源围栏。

4

声音类AI的风险

在找到了语音生成类 AI的基础商业方向之后,风险控制就成了开发中的重要一环。目前语音生成 AI仍有很多风险敞口。

1.误导信息传播:因为语音生成AI可以创造极其逼真的人声,有可能被用于制造假新闻或深度伪造(Deepfakes),为了传播误导性信息或进行欺诈活动。

2.侵犯隐私:语音生成AI需要大量的语音数据进行训练。如果这些数据没有得到适当的处理和保护,可能会侵犯个人隐私。

3.冒名行骗:高级的语音生成AI可以模仿特定的人的声音,这可能被用于冒充他人进行欺诈。

4.就业影响:随着语音生成AI的应用越来越广泛,一些需要人类声音的行业(例如:广播、旁白、语音合成等)可能会受到影响,导致就业机会的减少。

5.伦理和道德问题:例如,使用某人的声音(尤其是未经其同意)进行语音合成可能涉及到伦理和道德问题。

6.安全问题:随着语音生成技术的发展,很可能会出现新的安全问题,例如语音驱动的身份验证系统可能会遭到攻击。

在国内需要着重控制风险,尤其是诈骗风险。应适时掌握法律动态发展,根据法律法规要求快速调整应用。应考虑与语音内容审核结合,对用户生成内容进行审查后,再提供发布服务。

新款iphone se防水吗

5

文末总结

在走过了长期的“互联网+”生态后,“AI+”可能可以成为下一个业务的增长点。

企业可积极布局AI赋能业务,与时俱进把握发展机遇。

声音AI+游戏,AI+影视,AI+阅读,AI+直播,通过声音类AI还可以赋能多种业务,极大提升业务效率降低方案实施成本。

通过声音AI可以赋能大量产业,提升产业效能。


返回网站首页

本文评论
朱晓彤卸任特斯拉北京销售公司法人 仍任董事长
凤凰网科技讯 1月30日消息,天眼查App显示,近日,特斯拉汽车销售服务(北京)有限公司发生工商变更,Xiaotong Zhu(朱晓彤)卸任法定代表人、经理,由王昊接任。目前,朱晓彤仍担任该公司董事...
日期:01-30
广电总局:全国高清播出电视频道已达431个_全国广播电视网
  3月2日消息 根据国家广播电视总局的消息,截至目前,全国各级播出机构经批准高清播出的电视频道已达431个。   在431个高清播出的电视频道中,中央广播电视总台在境内播出...
日期:09-23
深圳校服穿着规范「深圳校服出防晒服版 网友:广东就是这么贴心」
最近,深圳校服品牌"青青世界"推出了一款特别版中学校服,该款校服轻薄透气,抗皱防泼水,并且还具有防晒功能。据悉,防晒衣校服的防紫外线指数达到UPF50+,并且帽子可以收纳在衣领里面...
日期:03-13
央视记者王冰冰性感「央视美女记者王冰冰时隔10月首更视频:古装美如画中仙」
4月5日消息,央视美女记者王冰冰更新了自己B站账号吃花椒的喵酱”最新一期视频,上次更新还是去年6月,已经过去10个月了。据了解,这是央视频和王冰冰合作拍摄的《国之大雅二十四节...
日期:04-05
抖音称外卖服务仍在试点 相关商标已注册完成「外卖注册哪类商标」
凤凰网科技讯 2月7日消息 天眼查App显示,北京字跳网络技术有限公司已成功注册多枚“抖音心动外卖”商标,国际分类包括教育娱乐、通讯服务、社会服务等,以上商标均申请于2021年7...
日期:02-09
三星i9001固件升级包下载「三星 i9001」
三星i9001是一款面向中高端市场推出的智能手机,采用了Android操作系统。其外观时尚,性能优异,备受用户喜爱。下面我们来了解一下三星i9001的详细信息。外观方面,三星i9001采用了...
日期:05-30
国内旅游支付宝「五一出境游提速 支付宝“扩容”卷起各国商家迎客」
4月28日 消息:据东南亚媒体报道,“五一”黄金周前,列名联合国非物质文化遗产名录的“新加坡小贩中心”已全面接入蚂蚁集团Alipay+技术链接的多个电子钱包。不仅中国内地支付宝...
日期:04-28
三星移动硬盘「Mac三星移动硬盘」
是由三星公司推出的一款高速传输、大容量存储、便携轻巧的存储设备,旨在满足用户在移动办公和娱乐方面的需求。以下是关于的相关信息。1. 大容量的存储容量有多种规格可供选...
日期:05-31
苹果凭借着 iPhone 业务,2022 年鲸吞了 85% 的全球智能手机利润「iPhone手机利润」
IT之家 2 月 4 日消息,根据市场调查机构 Counterpoint Research 公布的最新报告,2022 年第 4 季度全球智能手机出货量为 12 亿台,同比下滑 18%,是自 2013 年以来表现最糟糕的第...
日期:02-04
百度健康针对确诊患者推出专属义诊通道 提供7*24小时在线响应
12 月 15 日消息,百度健康针对确诊患者推出专属义诊通道,提供7* 24 小时在线响应,及时解答患者问题。用户通过百度APP搜索“问医生”就能找到专区入口。考虑到各类用户的差异化...
日期:12-15
凡客vancl官网_凡客CPS模式受站长认可 VANCL联盟荣获最佳收益奖
  近日,著名电子商务公司凡客诚品的网站联盟获得了在上海召开的第一届“金成果”效果营销论坛“最佳站长收益奖”。据悉,此奖项代表了VANCL网站联盟获得了各大站长的认可,被...
日期:07-29
疯狂小杨哥1亿买楼后成立供应链管理公司_疯狂的小杨哥是哪个公司的
11月10日 消息:近日,网红疯狂小杨哥斥资1.03亿在合肥买楼,建三只羊全球总部的消息引发关注。团购分析报告董明珠怎么还不退休企查查APP显示,11月8日,合肥小杨臻选供应链管理有限...
日期:11-15
Matt Cutts 就 Bing 搜索成功率远高于 Google 做出回应
  来自Hitwise的统计不仅显示了Bing正在蚕食Google的市场份额,更要命的是他们说Bing和Yahoo的搜索成功率都远远高于Google,据他们对美国地区的统计,Bing和Yahoo的搜索成功率...
日期:07-26
3G门户4年衰落:转型平台遇阻 上市梦无期
前言:腾讯科技连续推出策划《大败局》系列文章,讲述国内互联网创业失败案例,剖析创业风险以及行业死亡率背后的悲剧根源。同时希望能警醒创业者,为不屈者助威!《大败局》系列: ht...
日期:07-30
万达电影:已将AI应用于游戏产品广告宣传的素材制作_万达电影海报
5月18日 消息:在最近的业绩说明会上,万达电影透露,公司的游戏业务已将人工智能技术应用于游戏产品广告宣传的素材制作。这些素材包括角色和场景的图片以及视频素材。在保持整...
日期:05-18
点外卖美团还是饿了么「实测抖音点外卖“问题不少” 挑战美团饿了么“任重道远”」
  文|新浪财经 张俊  继2021年后,抖音入局外卖的消息再度袭来。  但新浪财经实测发现,目前抖音的外卖到家服务还面临着几个问题,一是商家太少,可选的餐厅十分有限;二是可选...
日期:02-09
自主创新中国云|客户看安超OS:全国产化云产品让我感到十分放心
  过去的三四十年间,IT 业经历了多次重大的变革,这包括 20 世纪七八十年代从大型机向小型机的转移、九十年代服务器/客户机架构的普及,以及 21 世纪初Web和移动互联网的兴...
日期:06-03
梅赛德斯奔驰智能互联续费「梅赛德斯-奔驰将推1200美元年费订阅服务 能让电动汽车加速快一点」
11月25日消息,据国外媒体报道,在汽车行业,以订阅服务的形式提供汽车功能是一种颇有争议的做法,梅赛德斯-奔驰就是一家尝试这种做法的汽车制造商。据外媒报道,梅赛德斯-奔驰即将推...
日期:11-30
种草营销可衡量、可优化?小红书推新“手段”「小红书app种草式市场营销策略分析」
凤凰网科技讯 2月23日消息,小红书在上海举办WILL商业大会。针对营销行业面临的流量打法失效所带来的问题,小红书CMO之恒提出“产品种草”的新解法,即通过口碑传播产品的价值,提...
日期:02-25
谷歌推出Chrome浏览器用户追踪屏蔽广告工具_谷歌浏览器关闭广告拦截器
  北京时间1月25日早间消息,谷歌将推出一款工具,帮助Chrome浏览器用户屏蔽广告主的追踪行为。   广告主经常会通过追踪用户的浏览习惯来发布精准广告,而这款名为“Keep My...
日期:07-26