您的位置:首页 > 互联网

全球首度引入AI!腾讯AVS3P10引领语音通信变革

发布时间:2024-07-03 20:55:38  来源:互联网     背景:

通信世界网消息(CWW)在信息时代的浪潮中,实时语音通信的质量和效率始终是人们追求的重要目标。腾讯主导的新一代实时语音编码标准AVS3P10的诞生,为这一领域带来了突破性的进展,开启了语音通信的全新篇章。

编码器有多重要?腾讯为何要自研AVS3P10标准?AVS3P10标准的出现将为行业带来哪些影响?近日,通信世界全媒体记者采访到了AVS工作组的几位专家,详细介绍了AVS3P10的技术创新与产业价值。

AVS3P10的诞生之路

30多年前,国际电联ITU对理想中的远距离通讯的定义:哪怕两个人在地球的两端,隔着这么远,希望能够彼此听见对方的内容,且延迟能够在40毫秒以内。然而,直到现在也没有很好地解决这个问题,一个重要原因就是编码器。

对此,腾讯会议天籁实验室专家研究员、AVS3-P10标准Editor肖玮表示,语音通信中的关键技术之一是语音压缩,而传统编码器在低码率下难以保证高质量的语音传输,这成为了行业面临的挑战。为了在保证用户优质体验的前提下,实现低码率下的高质量语音编码,同时解决低算力和鲁棒性的问题,腾讯开启了新的编码器研发之旅。

AVS3P10标准并非一蹴而就,而是腾讯多年来持续研发和探索的结晶。早在多年前,腾讯就已经开始了相关的内部研发工作,并在多个应用场景中进行了实践和优化。

“最初,腾讯与AI Lab合作建立了基线,并不断进行优化。”肖玮激动地介绍,经过努力,即使在低至5.9K的码率下,也能实现四点几分的高质量语音效果。这一成果为将技术推向产品线奠定了基础。

过去几年,这一方案已在腾讯会议、QQ的语音通话场景应用,展现出了出色的稳定性和音质表现。无论是在复杂的网络环境中,还是在高速移动的交通工具上,都能让用户获得清晰、流畅的音频通信体验。

然而,腾讯并未满足于此,为了推动行业的共同发展,决定将这一技术标准化。从2023年3月的提议,到经历多轮会议的审议、测试和验证,AVS3P10标准逐渐完善,并于2024年6月完成标准化工作,即将正式发布。这一过程中,腾讯展现出了强大的技术实力和高效的推进能力,被AVS工作组评价为做到了标准制定速度最快,标准交付质量最高,测试得到充分好评。

5G乃至未来更强的通信技术发展,带来了更丰富的带宽资源,但在现实情况中总是会有弱网情况的出现,通过高效的编解码技术可以为这些技术带来更可靠有效的基础支持、抗性提升,针对不同网络条件下保障实时通信的稳定性。

吉田ps5试驾视频

创新引入AI,弱网也能开会、语音

在日常的视频会议、网络通话和游戏连麦等场景中,复杂的声学环境、设备性能和网络信号等因素常常影响用户体验。AVS3P10标准致力于在同等带宽资源下提供更好的声音质量,在保持音质的同时降低带宽消耗。

rx系列显卡涨价

九十千米等于多少

腾讯云副总裁、腾讯会议天籁实验室主任商世东介绍,作为全球首个系统性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,AVS3P10的表现达到国际一流水准。仅需现有主流标准1/3的编码码率,就能实现同等清晰的音质。

AVS3P10标准之所以能够实现如此出色的性能,其核心在于将AI与传统技术深度融合,它将经典信号处理与最新的深度学习技术紧密结合,打破了传统香农定律的性能极限。

具体而言,通过语音信号建模,AVS3P10能够提取最核心的特征参数并进行编码。在发送端,利用深度学习网络预测语音中的本征信息,经过压缩传输后,在接收端通过深度学习网络生成最终的波形。与传统信号处理方法相比,AVS3P10系统性地引入人工智能技术,只需提取更少的本征信息就能恢复高质量语音。

这种“码率”和“算力”的置换关系,使得在保证高质量的前提下,AVS3P10能够以更低的码率实现高效的语音编码。在同等网络条件下,其发生网络拥塞的概率更低,在网络不佳时表现出强大的竞争力,如降低卡顿率,提升通话的流畅度和清晰度,适应更多复杂的场景。

在实际测试中,AVS3P10标准表现出色。肖玮介绍,无论是在单声道还是立体声编码场景,都能达到4.0以上的MOS分,实现了6kbps下的高质量通话,媲美行业现有主流标准OPUS在20kbps的质量。其自带的丢包隐藏能力在网络不佳时优势明显,能够有效提升通话的流畅度和清晰度。

优势显著,AVS3P10引领行业创新

“AVS3P10实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准是当前业界的最高水平,体现了腾讯在语音处理、人工智能技术创新和用户体验方面的实力,将为用户带来更好的体验”,AVS工作组指出。

相对传统标准,AVS3P10的不同之处和优势主要体现在以下几个方面:

抓住“重点”:传统音频编码技术只会按照物理规则提取音频的所有特征参数,再进行数据压缩,需要占用近20kbps才能保证高水平音频质量。Penguins引入了深度神经网络,提前进行海量学习(语音建模)。在编码时能“抓住重点”(音频最核心特征参数),并根据重要性智能分配码率。如此一来,既保证了音频传输质量,又降低了网络带宽需求。

提前“对齐”:音频传输需要先编码(压缩)再解码(解压),如果只在编码时进行重点区分和码率分配,解码后的声音依然会失真。Penguins的深度学习网络同时在编解码两端进行联合训练,并就“重点内容”提前“对齐”。在解码时,AI也能做到心中有数,从而预测并重建音频信号的细微结构,并还原为最接近原始音频的波形。

懂得“变通”:Penguins并非纯靠自学(数据驱动),而是懂得借助前辈(传统编码器)的成功经验(领域知识)来提高学习效率。在选择深度神经网络时,Penguins也懂得“变通”,模型不是越大越好,知道“小个子”才更适合自己。当大数据、大算力不再是“刚需”,便极大摆脱了对手机性能的依赖,即便在中低端手机上也能顺畅运行。

AVS3P10标准的制定为我国在音视频编码标准领域增添了重要的成果。AVS作为国内多媒体领域的重要标准化组织,其发展对于打破国际专利的制约、推动我国音视频产业的自主发展具有重要意义。腾讯主导的AVS3P10作为AVS标准的第三代,进一步推动了我国在该领域的发展。

对于用户而言,意味着在各种网络环境下,包括2G弱网环境,都能享受到清晰流畅的语音通话。无论是在电梯、地库、隧道等信号薄弱的地方,还是在高速移动的交通工具上,线上会议和语音通话不再受到卡顿和模糊音质的困扰,极大地提升了用户体验。

对于行业来说,AVS3P10标准为语音通信技术树立了新的标杆,推动了行业的技术进步。作为全球首个系统性引入人工智能的低码率高质量语音编码标准,它为其他企业和研究机构提供了新的思路和方向,促进了整个行业的创新发展。

对于腾讯自身,AVS3P10标准的成功研发和标准化进一步提升了其在语音处理和人工智能领域的技术地位和影响力。

总之,腾讯新一代实时语音编码标准AVS3P10的诞生是语音通信领域的一个重要里程碑,它将以其卓越的技术性能和广泛的应用价值,为人们的生活和工作带来更加便捷、高效、清晰的语音通信体验,引领行业走向更加美好的未来。


返回网站首页

本文评论
制裁苹果公司「被裁决要和“1566名开发者”对簿公堂,苹果动议遭英国法院拒绝」
4 月 13 日消息,1566 名英国开发者去年 7 月指控苹果存在垄断行为之后,苹果公司提交动议要求法官驳回此案,不过这项动议遭到了法官的拒绝。原告:寺库库支票怎么开通东英吉利大学...
日期:04-13
平台卷剧衍综,雷声大雨点小
图片来源@视觉中国文 | 犀牛娱乐,作者 | 方正,编辑 | 朴芳最近“剧衍综”又成了香饽饽。不同以往的是,这轮各大平台都很默契地把剧集衍生综艺的项目开发“前置”,当剧衍综被完全...
日期:09-13
分类分级是推动平台互联互通的关键一步(互联网平台分类分级指南(征求意见稿))
作者:陈兵;;责编:任绍敏   分类分级规范体系与新《反垄断法》结合,能提升平台经济反垄断监管效能。   8月1日起,新《反垄断法》正式施行,其在总则部分增加第9条规定“经营者...
日期:08-19
信通院廖运发:加快终端创新,推动卫星通信普及_廖运周简介及最后结局
通信世界网消息(CWW)在华为发布首款支持双卫星通信功能的Mate 60Pro+之后,“手机直连卫星”成为移动终端行业的一个热门话题,不少消费者对卫星手机寄予新的期望。htcvr最新设备...
日期:11-10
windows10的功能更新,版本20H2安装失败「Windows 11 22H2再出问题 微软确认Windows Hello被更新损坏」
在今天的"Windows 11 22H2这次搞坏了什么"的节目中,下一个登场的是Windows Hello认证系统。根据微软的最新公告,用户在使用Windows Hello登录时可能会遇到问题,如人脸识别、指...
日期:10-14
三星印度制造「印度政府这手,三星、苹果和中国厂家都郁闷了……」
作者:耿直哥据多家印度媒体报道,有来自印度政府内部的消息称,为了推广印度本土的导航系统“NavIC”,减少对于美国的GPS导航系统的依赖,印度官方正准备要求所有在印度售卖的手机必...
日期:10-06
7.7亿参数,超越5400亿PaLM!UW谷歌提出分步蒸馏,只需80%训练数据|ACL 2023
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。【新智元导读】LLM不实用,小模型蒸馏才是现实的大模型应用路线,全面领先微调技术!土豪请无视。。。大型...
日期:10-08
小米徕卡滤镜「徕卡超大杯首次进军海外!小米13 Ultra登陆欧洲:售价1499欧超iPhone」
快科技6月12日消息,小米13 Ultra终于登陆欧洲市场了,这是小米的徕卡超大杯首次进军海外市场,售价达到了1499欧元(约合1.1万元人民币)。推荐一个投影仪根据海外官网显示,小米13 Ult...
日期:06-13
iQOO散热背夹2 Pro秒速制冷降温,首销限时229元「iqoo散热背夹怎么样」
4 月 25 日,iQOO全新一代散热背夹,iQOO散热背夹2 Pro正式全面开售。用户在vivo官网、京东、天猫、拼多多、抖音、快手等渠道的线上商城,以及前往iQOO线下专卖店、电竞馆、各大...
日期:04-25
傲视群雄!腾格尔 x 沙一汀 三国杀周年庆主题曲燃炸上线
  亿万爱,乐一起!转眼流年,《三国杀》陪伴玩家们走到了又一个周年的节点。为了庆祝《三国杀》的周年,与万千玩家分享快乐,游戏内不仅有每日周年庆礼包、元宝树多倍暴击、商城...
日期:12-20
邮政快递投送范围「国家邮政局:邮政快递业累计投放可循环快递箱(盒)978万个」
10 月 14 日消息,国家邮政局今日举行 2022 年第四季度例行新闻发布会,介绍邮政快递业绿色发展“9917”工程进展情况。截至 9 月底,全行业采购使用符合标准的包装材料和规范包装...
日期:10-20
年末电信诈骗套路大盘点!这些诈骗陷阱一定要小心_电信诈骗需谨慎
  年末岁初一直是电信诈骗高峰期,网上稍微搜索一下,就能发现各类种类繁多的诈骗新闻。   实际上自2000年以来,随着我国固定电话、手机、网络等通信工具的普遍应用,虚假信...
日期:10-27
逆水寒手游光线追踪体验逆水寒手游光线追踪技术 库克现身北京Apple三里屯店
来源:中关村在线微软word怎么保存图片3月23日下午,苹果公司 CEO 蒂姆·库克突然现身位于北京 Apple 三里屯门店,参与当日店内举办的“Today at Apple:逆水寒手游与光线追踪”体...
日期:03-24
Google发布最强文生图大模型Imagen 2_文生图片
DoNews12月15日消息,近日,Google 推出其最先进的文生图大模型 Imagen 2,可提供与用户提示词紧密结合且一致的高质量、逼真的输出图像。Google 的增强模型 Imagen 2 是利用 Goog...
日期:12-15
海南一居民家中出现五爪金龙:经鉴定 该动物为水巨蜥_五爪金龙叫什么
1月13日消息,据国内多家媒体报道,海南一居民家中发现一只疑似蜥蜴的动物。经过专家鉴定,该动物为水巨蜥,属于国家一级重点保护野生动物,目前这只水巨蜥被捕获并移交给相关部门,其...
日期:01-14
拥抱短视频,下一个是谁?(拥抱你离去短视频)
  2010年招行在国内率先推出iPhone版手机银行,开启了金融工具的移动互联网时代。此后,各大银行及金融机构纷纷上马金融App项目。比如,平安银行基于自身业务的多元化布局同时...
日期:07-16
美团无人机上海首条常态商用航线落地金山,可提供“3公里15分钟达”服务
4月27日消息,美团无人机与百联股份旗下百联金山购物中心达成合作,双方以百联金山购物中心为起点的上海首条无人机常态化商用航线正式启用,为周边居民提供“3公里15分钟达”的配...
日期:04-27
手游“渠道服”,迎面撞上熊孩子
题图来自:视觉中国做过运营、投放职位的互联网人,多少都曾经向客户、同事甚至自己的大老板不厌其烦地解释“虽然这几十个app都是咱们的,但它们‘不一样’”。手机各大门派站稳...
日期:09-25
瑞幸活了,但把咖啡市场往死里卷_瑞幸咖啡活过来了
声明:本文来自微信公众号“商业数据派”(ID:business-data),作者:黄小艺,授权转载发布。这个冬天,咖啡市场有点热。高傲如星爸爸,近期也开始在抖音、饿了么、美团等平台打起价格战,...
日期:11-27
AI从来不是少数人的无限游戏_ai从来不是少数人的无限游戏吗
声明:本文来自于微信公众号 光子星球(ID:TMTweb),作者:吴坤谚,授权转载发布。力大飞砖卷研发,到向下竞低卷价格,全球视野下的大模型与生成式AI已然走过创新扩散的兴趣阶段,行至社会...
日期:06-18