您的位置:首页 > 互联网

腾讯多媒体实验室夏珍:视频画质增强的现状、应用、未来

发布时间:2023-04-24 21:58:10  来源:互联网     背景:

  全真互联时代,音视频技术内核不断更新迭代,LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍,与大家分享画质增强技术的一些前沿探索和应用研究,在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力,以及在腾讯视频和云游戏中能带来画质增强的技术。

  来自腾讯多媒体实验室的夏珍,一直从事视频处理技术的相关研究与应用,希望分享的内容能给到大家一些帮助,也借此机会向各位同行学习。

  本次分享的主题是《画质增强的前沿应用》,内容包括三部分:一是画质增强技术现状,第二部分是画质增强技术的前沿应用,第三部分是画质增强技术的趋势。

  一、画质增强-现状

  下面将从三方面介绍画质增强技术。

  当时做PPT时还是 22 年 8 月份,当时最火的概念应该是4K/8K超高清、VR、3D等是人们热议的话题,不管是学界还是工业界都是高热点,在这些前沿技术应用里,画面分辨率、细节已达到非常高清的程度,制作内容也达到很高标准,甚至很多显示屏已经超过人眼能分辨的极限。

  然而实际生活中,在不同的终端、场景和应用里,相信大家都遇到过以下情况:比如为了视频时画面更清晰,给父母买了像素很高的相机,然而最终呈现的画面依然模糊不清,或是参加线上会议时,经常出现画面模糊,又或是看剧时画质很差。大家会疑虑:内容为什么没有预期的清晰?

  导致画面不如预期的因素有很多,包括硬件条件、网络带宽、编码方式、原始素材等,在这样受限的场景下,如何提升用户体验的主观感受呢?

  提升画质是摆在很多应用场景下绕不开的命题,画质增强包括哪些技术?又分别能解决什么问题呢?下文将从三个维度进行分析,当然从信号处理的角度有更多维度去评估,比如频域等就不进一步展开了。

  首先对于时域维度,即大家理解的时间维度上,他主要解决的视频连续播放时在时域上干扰人眼的信号,在实际场景中会有运动不流畅、画面抖动和时域噪声等问题,所以在时域上会出现对应的解决方案,比如插帧、视频去抖动、时域降噪等。

  左侧的哈士奇在转动时会出现卡顿,通过帧率上采样可以使其更流畅。右侧上方是带噪声的影片,下方通过视频降噪算法优化后,画面噪声减少很多。

  空域,即从空间的维度上,大家能遇到的大部分问题也是在这个维度上,它主要是提升人眼主观感受的画质,播放时比如模糊、噪声、失真、低分辨率等常见问题,所以在空域上有种类繁多的增强算法,大家都熟知的算法,超分辨率、去压缩失真、细节增强、去划痕等。上方左图存在许多块,编码压缩失真的问题、右图通过优化后获得了更好的画面效果。下方左图包括许多划痕和噪点,右图通过AI去划痕算法后极大改善了画面的画质。

  色域,即从颜色的维度上,人眼对色彩是非常敏感,色彩畸变或黑白画面在很大程度上会影响用户的主观感受,在色域上增强技术分SDR域和HDR域的算法,比如SDR2HDR、色彩增强、暗场景增强、HDR增强等算法,都是对色彩进行处理的算法。

  上方的图像经过HDR转换后,色彩及色域都更加丰富。下方的图像通过AI自动上色,使得画面丰富度和人眼主观感受有明显提升。

  二、画质增强-前沿应用

  接下来会从两方面介绍画质增强的前沿技术,一个是不太考虑算力但对效果有极 致要求的经典影像修复技术,另一个是非常考验算力的终端超分技术。

  2. 1 经典影像修复

  这是 2022 年多媒体实验室修复李苦禅老人经典影像的画面,可以看到其中有很多影响主观质量的因素,包括划痕、雪花点、噪声、失真、模糊、色彩等问题。

  这一页总结了影像修复中常见的问题,包括划痕、霉斑、噪声、低分辨率、模糊等,而经典影像修复包含以下几个主要步骤:胶片物理修复、胶转磁,数字修复和优化,最后的上映或保存。

  在经典影像修复的过程中,腾讯多媒体实验室积累了深厚的技术和实践经验,形成一套较完整的基于AI的影像修复技术流程,主要分四个大的模块,包括智能分析、画质修复、画质增强和智能转码。

  智能分析:对视频进行智能分析,提供包括帧级、场景级和视频级不同粒度的分析,包括画面复杂程度、运动程度、噪声程度、失真程度、色彩丰富度等分析,用以指导后续画质修复和画质增强技术能力的自动化使用。

  画质修复:结合了智能分析模块的信息,选取最 佳模型对视频进行修复,包括去压缩失真、视频降噪、人脸修复、去划痕等技术能力。

  画质增强:根据智能分析模块的信息,合理选择最 佳的算法和参数,包括视频超分辨率、色彩增强、细节增强、AI自动化上色、暗场景增强、帧率上采样等算法,经过这样处理后得到完整修复的视频。比如老的影片大部分是15fps或分辨率是720*468,此时画质增强模块会默认开启超分辨率和帧率上采样,对其进行插帧,从而使得影片在大屏播放时呈现出更好的效果。

  智能编码:为了更好地进行传输和播放,结合腾讯多媒体实验室最核心的编解码能力,通过最 佳人眼视觉的编码方式对视频进行转码压缩,在保证视频主观质量情况下,对视频进行最小质量的转码输出。

  这是多媒体实验室“光影焕新”经典影像修复的主要架构,从架构上分为应用层、解析层、分析层、处理层、支持层和封装层。架构上会将智能分析的主要能力放在这一层,然后结合解析层的结果去指导处理层算法的自动化处理,底层也会根据服务器不同采用不同的底层架构,比如GPU服务器会用TRT做统一的深度学习推理库,而如果在CPU架构上则会转换成OpenVINO和其他能力,最后在封装层,根据用户的需求选择对应的码流。

  当然在近年的研究和积累过程中,也遇到了非常多的问题和难题,比如去划痕在影像修复中很重要,但在业界研究是个很小众的问题,我们在数据集、算法和模型上都是从零开始构建,比如超分虽然不断有新的进展,但实际场景中适用性都不好,只能针对不同场景开发不同级别的模型。

  以去失真生成模型研究为例,首先去失真生成模型解决了什么问题?在经典影像中不同于常见的视频,比如左图放大的画面,因为受限于经典影像拍摄的年代、拍摄硬件、存储等因素,导致画面存在严重破坏画质的问题,比如噪声、编码失真、模糊等等问题,之前的研究过程是先进行去压缩失真、降噪等处理再通过后面的超分辨率、细节增强等算法增强细节,但后面发现在前面进行去压缩失真和降噪等处理已经把细节都丢失了,后面的超分、细节增强很难恢复细节恢复,基于这个问题开发了去失真生成模型,主要解决的是在去压缩失真的同时对细节进行增强和生成,只有两个能力在一个模型里才能在去掉失真的同时生成更丰富的细节。

  作为近年对超分辨率研究工作的延伸,腾讯多媒体实验室提出一种高效的失真生成模型。首先模型需要有处理复杂失真的能力,因此在数据集制作中参考现有SR模型的降质过程结合经典影像数据集的特点,尽可能还原经典影像中失真的类型和生成方式,数据集上会采用多种视频编码方式、多种上下采样方法,多种模糊和噪声方式进行数据生成。

  模型分为三个模块,对齐模块、AR模块和判别器模块。对齐模块是将前后两帧进行特征对齐,经过性能分析发现,隐式的可变性卷积方式相对显性的光流对齐模块要更高效。AR模块是进行去失真和细节生成能力,最后经过判别器,判别器模块不同于单帧的判别,会提取当前帧空间信息和时域帧间的信息。为实现更高效的目的,采用前后两帧作为对齐帧,网络采用残差结构,光流和AR模块只需要关注特征部分,裁剪模型中对模型影响较小的层。

  右图不仅修复了很严重的噪声、失真和模糊等问题,比如画面中噪声、背景的抖动和模糊的问题,同时对细节比如人脸、衣服纹理和植物的细节做了很好的生成,做到真正的高清呈现。

英伟达q1季度营收

  2. 2 端侧-高效超分

  云游戏在中国市场成为越来越受关注的云和游戏结合的新模式。而随着云游戏的发展,编解码在云游戏中的应用逐渐得到体现,云游戏也逐渐从满足编解码性能和画质上进入更多拓展阶段,因为云游戏将算力从用户手机转移到服务器上,所以服务器、带宽的成本压力非常巨大,现阶段各公司在“降本增效”上下足了功夫,如何利用视频技术在保证画质体验不变的情况下,节省服务器和带宽成了一个重要课题,比如云游戏需要1080p/30fps才能保证基础体验,而现在使用了超分,只需要在服务器渲染540p/30fps的流,推到本地手机后再通过手机算力进行超分到1080p,实现节省带宽和服务器成本的目的。

  接下来介绍腾讯多媒体实验室在云游戏中端侧超分的研究,端侧超分也会应用在腾讯视频中以达到降低成本的目的,端侧超分也是正在研究中的内容,因此提出来和大家一起讨论学习。

  首先介绍超分在云游戏中遇到的难点,一个是云游戏对延时相比直播、视频通话要求更高,增加算法影响游戏的体验,二是云游戏大分辨率、高帧率画面,对算法性能要求非常高,三是云游戏终端分布广泛,包括PC、Mac、TV、手机等复杂场景适配困难。

  基于以上的难点,腾讯多媒体实验室在模型上下了很大功夫,并基于之前积累的算法经验,提出了“化繁为简”的模型方案,但“简”并不简单。

  首先利用残差结构,利用有限网络结构学习尽量多的参数,同时通过蒸馏方案,在中间层的学习中利用导师网络进行指导,第三重参数化,因为性能因素网络层数不够,便利用重参数思想训练复杂的网络,在推理时合并算子达到简化的目的。

  经过多次优化,在windows和android上测试了一些不同结构的方案,基本上能达到超分后1080p/30fps的要求,左边的客观指标是在windows端对比传统bicubic和某个竞品的方案,从vmaf/psnr/ssim指标上都显著优于竞品和传统方案,当然这些客观指标其实并不能反映主观质量。

  图中可以看出,右图自研超分方案相对于竞品在文字上边缘更细腻、完整,纹理上更细腻和真实,这也是超分需要达到的真实效果。当然方案还在不停优化中,还有很多可优化的点,也希望能和大家一起讨论和学习。

  三、画质增强-未来

  未来的技术发展列了以下四个方向,一个是作为AIGC的基础组件,比如在文生图、文生视频等方向上,画质增强能节省生成时间,生成更大更清晰的图像和视频;第二个是3D方向,比如在人脸建模方向上使用超分后能大幅度提升建模的效果;第三个是上文提到的移动端部署,随着手机性能不断提升,GPU、NPU等逐渐普及后,以前在移动端很难实现的能力也能在移动端落地了,比如云游戏的超分就能达到降本增效的目的,这个场景也可以用在点播、直播等场景中。第四点是画质技术本身应该朝着符合人眼真实度方向发展,比如AI上色怎么能还原以前真实的色彩,人脸修复能否更自然等。

  以上是本次的分享,谢谢!如有问题请与腾讯多媒体实验室联系,了解更多信息。


返回网站首页

本文评论
趣店的反噬效应:十天掉粉14万,傅首尔贾乃亮被迫致歉
作者/丰收   被网友骂了一周,为趣店预制菜站台的明星们终于撑不住了。《奇葩说》辩手傅首尔和明星贾乃亮双双致歉。   网友质疑傅首尔和贾乃亮为曾搞校园贷的趣店站台,就...
日期:07-31
推特是美国哪家公司的「推特并入X公司 网友:这是要打造美版微信?」
推特公司据当地时间4月4日提交给法院的文件显示,已被直接并入一家名为X公司的母公司。此前马斯克曾表示,收购推特将加速超级应用“X”的开发。早在当地时间4月11日,马斯克发布...
日期:04-13
雅虎是不是弄了广告平台雅视_雅虎担忧广告事业恶化影响收购
  待价而沽的雅虎正面临核心广告业务疲软的窘境。广告巨擘宏盟媒体集团旗下媒体公司PHD总裁Craig Atkinson表示,过去一年来,该公司雅虎平台广告支出仅持平或略有下降。  ...
日期:07-24
女生上班通勤4小时坐10趟地铁 网友称这是地狱级打工模式
最近,上海一位女生名叫亦亦(化名),每天上班通勤需要花费4小时,乘坐10趟地铁。她介绍道,因公司搬迁,本来只要1小时的单程通勤现在变成了2小时。早上10点开始上班,每天8点出门,经过5次...
日期:02-08
社会工程学在网络安全中的崛起:快捷方式竟成黑客“钓鱼”工具!
  日常工作中,电脑桌面和开始菜单中的快捷方式对于大家来说并不陌生,点击之后就可进入相应的应用程序。由于快捷方式自身不是可执行文件,多数情况只起到了跳转作用,同时在大...
日期:01-08
天猫超级发布会打造“超级不眠夜” 创意直播推介20大新物种
  随着618消费狂欢日渐临近,在各大品牌及电商平台积极“备战”的当口,天猫又再次以一场超级发布会吸足了眼球。   6月13日晚,天猫超级发布会来到了著名的上海麦金侬酒...
日期:07-14
寺库“奢侈”光环不再,Prada冻结财产、股价低位、客诉增多
作者/陆涵之   近日,天眼查App显示,普拉达时装商业(上海)有限公司与上海寺库电子商务有限公司相关仲裁程序中的财产保全文书公开。   文书显示,普拉达公司申请冻结上海寺库公...
日期:08-02
三亚十一月机票「去哪儿:十一期间三亚机票平均支付价超800元」
9 月 28 日消息,昨日 12 时起,三亚全面恢复各类生产生活秩序。去哪儿数据显示,临近十一,国庆期间飞往三亚的国内航线机票预订量增幅明显, 9 月 27 日预订量较一周前增长 5 倍。机...
日期:09-30
顺丰国际货运机场「你的顺丰快递更快了 亚洲专业货运机场货运航线正式运行」
来自鄂州花湖机场消息,11月27日凌晨4时21分,一架由深圳宝安机场起飞的全货机平稳降落在鄂州花湖机场;卸货完毕,这架飞机将迅速装载快件,于清晨6时20分返航。标志着鄂州花湖机场货...
日期:12-04
微软7月起Azure云平台入库数据传输实现免费(azure部署)
(小贝)北京时间6月23日消息,据国外媒体报道,微软日前宣布,从今年7月1日起,Azure云服务平台的所有入库数据传输都将实现免费。微软通过博客宣布,无论是“高峰时段”还是“非高峰时...
日期:07-30
千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?「b站过千万的up主」
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-08
360荣获2011中国企业微创新百强冠军
  10月28日,2011中国企业微创新100榜在京颁布,360公司成为本届2011中国微创新高峰论坛中最大的赢家。360不仅荣获2011中国微创新企业百强冠军,360董事长周鸿祎还在微创新企...
日期:07-24
快手38节:短视频订单量同比增长209%
3月10日消息,近日,快手电商正式发布2023快手38节大促战报。数据显示,今年38节期间(3月1日-8日),快手商家GMV增长迅速,订单量同比去年提升40%,品牌GMV同比去年提升125%,短视频订单量同...
日期:03-10
真的,抖音外卖全国18城上线了丨亿邦独家_抖音外卖平台
声明:本文来自于微信公众号 亿邦动力(ID:iebrun),作者:廖紫琳,授权转载发布。万亿外卖江湖,美团饿了么王座未稳,抖音微信加速杀入,大战一触即发。亿邦动力独家获悉,截至3月5日,抖音又...
日期:03-07
防御小行星撞地球「NASA明天将实施首次行星防御测试,用航天器撞击小行星」
(观察者网讯)在距离地球1100万公里远的地方,美国国家航空航天局(NASA)一台历经十个月太空之旅的“行星防御测试器”即将向一颗小行星发起撞击,开启世界首次“行星防御任务”的实...
日期:09-27
目前我国新能源汽车总保有量超过「截至9月底全国新能源汽车保有量1149万辆 占汽车保有量的3.65%」
10月8日消息,据公安部统计,截至2022年9月底,全国机动车保有量达4.12亿辆,其中汽车3.15亿辆;机动车驾驶人4.99亿人,其中汽车驾驶人4.61亿人。魅族18骁龙870版本联想小新pro16新款20...
日期:10-09
Metaverse降临,谁将带领我们触碰真实「虚拟世界」?_metaverse 游戏
  曾有创投圈预言,元宇宙是继移动互联网后,下一个20年级的创新巨浪。  科技公司纷纷涌入,巨头如脸书改名meta(缩写自metaverse),将布局元宇宙的雄心直接写在脸上;游戏、社...
日期:02-14
出海圈“顶流”玩家的幕后引擎:揭秘茄子科技的技术逻辑(出海领军者就推茄子科技)
  不久前,国内某大型视频网站“崩了”登上热搜。大批追剧用户被迫从“别人家甜甜的恋爱”回到现实,展开了浩浩荡荡的奔走相告,催促该产品尽快修复bug。一直以来,中国头部互联...
日期:04-13
特斯拉仍在大量招聘Cybertruck生产相关人员 有28类职位在招聘
3月9日消息,据外媒报道,特斯拉2019年11月份推出的Cybertruck电动皮卡,未能如他们最初的计划在2021年年底到2022年年底量产,但他们在推进在今年晚些时候量产。而从外媒最新的报道...
日期:03-09
环境物联网、种植物联网、金鸽科技研发的工业级物联网硬件终端研发
  深圳市金鸽科技专注工业物联网软硬件研发14年,提供多达220款工业级物联网硬件终端,以及快速高效低成本的工业物联网云平台定制开发。深圳市金鸽科技是国内外少数自身具...
日期:07-16