您的位置:首页 > 人物动态

腾讯音视频实验室杰出科学家刘杉:AVS已经成为编解码领域不可忽视的力量

发布时间:2022-07-16 07:02:12  来源:互联网     背景:

  2017年12月28日,由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知名高校、研究所的学者和研究员受邀出席。

  腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。在会上,她分享了视频编解码领域技术介绍和编码标准变迁。她说近些年中国的数字音视频编解码技术标准工作组(AVS)做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

  以下是刘杉演讲全文。

腾讯音视频实验室杰出科学家刘杉:AVS已经成为编解码领域不可忽视的力量

  非常高兴也非常荣幸来到这里跟大家做一个分享。我今天分享的主题是“视频编解码和标准化”。

  在分享之前,我简单介绍一下我自己。跟刚才两位嘉宾的背景稍稍不一样,我是来自工业界的博士,之前在一家公司工作过,做过研究、也做过产品。如果在座有同学想了解一下博士在工业界的心路历程,欢迎大家找我分享。

  我们有视频编解码的传输,也包括前处理和后处理等等比较宽泛的项目,近几年我们聚焦在视频编解码的制定标准,也是今天我跟大家分析的内容。我大概在上个月加入腾讯的音视频实验室。

  言归正传,今天分享的主题包括两个部分,一个部分是标准,另外一部分是编解码。

  我先讲一下视频编解码的国际标准,后面花一点时间讲一下音视频实验室的成果和场景。

  我觉得知道为什么要做一件事对任何一个项目来说都是至关重要的。之所以要做视频这件事,因为视频的数据量是非常非常大的,大到什么程度呢?举个简单的例子,有一部电影,这个电影是两个小时的电影,视频编解码背景的同学可不可以告诉大家,这个视频如果不压缩是多大?

乐视 乐1s

  我们大家一起来做一个快速算术,1980×1080,2小时20分钟,如果不压缩是3BT。如果我们买一个移动硬盘。你的手提电脑,如果不压缩,大概可以装两部这样不压缩的电影。如果不压缩,我们需要传输的带宽是很大的。我花了一分钟的时间来做这个数学,这件事情不是重要的,而是必要的。一件事情如果是必要的,我们就要去做。

  我们要了解什么是视频。简单讲,视频就是一组图片,但是它不是一组单独的图片,而是有运动关系的图片,我们要抓住两个点,运动关系和图片。

  基本上基于这两个基本点可以分两类,一类是针对图片压缩的,另外一类是运动路径、运动补偿和一些相关技术。

  我们对色度做一个处理,这件事对博士来说完全没有什么技术含量,下面有技术含量的是transform,我们在这里面最常用的是DCT,最近的标准里面也开始引入了DST。还有其他的一些还在探讨之中。

  右上角是Example quantization matrix,我们做压缩的看到这个会很兴奋,因为我们看到很多很多的0,看到后面的数据我们会更加兴奋,因为会有更多连续的0,这是为下一步做准备。下一步是Entropy Coding,是一种无损压缩方式,可以把这个压缩的更小。

  刚才分享了几种针对图像压缩的技术,我们可以有一个最简单的架构图,这张图是就是最简单的架构图。

  我们又回到刚才讲的什么是视频,视频就是运动关系和图片。图片方面我们已经讲了,下面我们要看一下运动关系这部分。

  我们真正在做编解码的时候,不像很多领域那样做的,在主流的里面我们还是用块状的方式,所以对于运动补偿方面有很多相关技术,比如说预测单元的划分,运动矢量图本身的划分,我们真正在标准制定的时候,关于运动补偿的这一大块,通常都是划分成很多个小的技术分组来具体讨论它相关的各个运动子级、技术子级和细节。

  通过刚才图片压缩和运动关系的分析,我们可以得到一个简单的示意图,我们可以看到它包括了压缩模块、运动补偿模块。

骚扰电话(360)

  刚才给大家看的是最简单的,是我们之前的,经过这二三十年的努力和变化,现在就变得好了很多,有更多模块,也有更多技术细节。这是近期HEVC和H.265的Video Encoder,待会儿我会再详细讲这个标准。

  花了几分钟时间,在座各位已经是视频编解码的专家了,我们可以讨论下一步了。

  我们讨论Video Coding Standards,如果没有一个出入口或者大家都接受的密码本这样的东西,Apple、Orange就没有办法进一步的分级出来,这就是我们需要全世界人民都接受的标准。

  接受标准不是一个人、两个人都说了算的东西,它是有一套标准组织和严格的流程。有两个历史比较久的标准阻止,其中第一个是ITU,在它下面有一个工作小组是在ITU下面负责研究视频编解码的技术和制定它的标准。第二个标准组织是ISO/IEC MIPEG。他们有一个MPEG,是在ISO、IEC下面研发视频编解码的技术,制定它的标准。还有一个公司是AOM,制定视频编解码标准。还有一个标准组织我没有写,但是我觉得也是非常重要的,AVS,是我们国内的标准阻止。近些年AVS做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

  观察从过去到现在的标准,我们可以看到,1984年ITU已经出来了第一个标准,H.120,具体长什么样子我也没有见过,因为稍微有一点早。到1990年推出了H.261,这个已经是被大家广泛使用的。1993年ISO、IEC交替的出了MPEG-1 Part2。在1995年出了H.262,这个标准是ISO、IEC两个组织共同制定的。我不知道在座多少同学用过DVD,DVD这个格式我们小时候用了很久,DVD这个格式就是用了MPEG-2 Part2,很多电视节目也是用的MPEG-2 Part2。2003年有了H.264,像HD、DVD这些格式都是用这个,很多新的节目也都是开使用H.264。又过了大概十来年,出了一个H.265/HEVC,它也是我们认为比较好的。无论是从MPGE Part2恩到H.264还是H.265,它都是翻倍了的。

  下面花一点时间讲一下HEVC。HEVC在2007年左右开始预言,各个公司怎么有新的视频编解码的技术,到2010年1月份,这个标准组织觉得我们有希望,所以就做了一个标准。2014年全世界各个公司、学校和研究机构,全世界的工程师、科学家坐在一起做评估,出台了一个标准,又过了艰苦的努力,在2013年出台了Version1。2014年出版了Version2。2015年出版了Version3和3D。2016年又出了Version4。制定标准是一个蛮艰苦的过程,努力的工作一般来说回报都是不错的,HEVC的标准获得了第69届的艾美奖,工程师们也可以参加一下这种颁奖,蛮有意思的。参加这种活动的人只有十几个,但是这套标准积累了上千个工程师和科学家、研发人员的努力。

  这个地方是HEVC Block Diagram,H.265比之前做了很多改进,由于今天时间有限不太会讲的很具体,因为每一个技术又是一个新的讲座。

  做过264的同学都知道,另外一个重要的模块是运动关系,我们做了更多技术,包括更多预测单元和Coding,很多都有新的更新。265比264的时代有更多Modes以后,做了很快技术的提升。

  Deblockin Filter,之前像263这种都是后处理的模式,264做了一个稍微革新性的,265也做了改进,我们在266会有更新的改进。

  我们标准有一系列的数据,大家不能拿来自己比较,这个是426×240的,但是现在很少人看这样的,如果单单把HD拿出来,这个HD sequences,我们264可以到40-45。我们做视频、视觉或者图像的同学都知道,数据是一回事,有时候科学是另外一回事。Subjective是67% class B sequences,49%for class C sequences。

uber董事长

  做标准的人是永远不会停下来的,标准这个事情是一代一代可以永远做下去的。我们进行266的预言,266的预言大概在2013年、2014年很多公司就开始了,2015年10月的时候,ISO、IEC、ITU这几个相爱相杀的组织说要一起做,就一起进行预言,大概又过了两年时间的共同研究,他们说又有信心可以做一个标准,所以标准组织又发了一个通知,明年公司、学校、科研人员又要坐在一起讨论,在未来两三年时间里面我们又要努力工作,做下一代的新的标准。

  刚才讲我们做了很多预言,我们有这么多编解码的工具。我们看到4K和2K的情况,我们已经有35%的Coding game,我们有一定的信心可以做下去。这是一个起点,不是一个终点,在未来两三年里面,我们会进一步把coding game的数据做大,把另外那个数据降低,带给大家更好的体验。

  这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。

  下面我用简单一两分钟时间介绍一下我们音视频实验室的场景,让大家看一下我们的工具和比较有意思的事情。

  因为我们要落地场景,所以实质性要求很高,这是在工业中进行的测试,比如说降噪,一个物体可移动的很快,它可以转、颜色有改变,或者它是不是会掉下来,都有预测的。我们的TPG会进行图像压缩和解决方案。

什么豆豆兼职

  还有语音的前处理,我个人不是语音专家,但是我们实验室有很多语音方面的专家,我们音视频实验室分论坛,语音背景的同学可以过来跟语音专家进行深度交流。我们还有一些比较有意思的语音方面的demo,因为这边效果不太好,demo效果在分论坛会有演示,欢迎大家来看我们的音效。

火星情报局是原创节目吗

  我们还在探索跟AI相关的课题,AI的语音降噪和分离,包括AI的语音美化。我们不仅只美化样子,还要美化声音,这是全方位的美化。还有AI辅助的音视频的质量评估等等。

  这些是音视频实验室近期的成果和应用场景。这就是今天的分享,非常感谢大家。


返回网站首页

本文评论
专访联想杨元庆:刘军回归是我去年做得最正确的决策「杨元庆在联想的股份」
联想集团董事长兼CEO杨元庆(右)   郭晓光 发自美国拉斯维加斯  1月10日上午消息,联想在美国拉斯维加斯发布了一众新品,其中VR成为整场发布会的重点。发布会后,联想集团董...
日期:07-16
李彦宏:百度2013年建首个研究院(李彦宏的百度世界)
  近日,百度创始人李彦宏在百度2012内部年会上发表主题演讲,透露2013年将建立百度历史上第一个研究院,初期关注于Deep learning(深度学习)技术,并已有计划邀请这个领域中全球...
日期:10-13
李彦宏“互联网加速淘汰产业行业”观点触发教育界群体思考
百度创始人李彦宏佳能G11价格索尼新机渲染图flash12月31日  百度创始人李彦宏近日在2013百度联盟峰会与网站站长的分享中提出,中国互联网正加速淘汰传统产业,每一个传统产业...
日期:10-28
乐视电视不死,官方预告新品“Zero65”_乐视zero65电视深度评测
  9月21日,乐视控股持有的乐融致新股权将被正式进行司法拍卖,该公司在2018年估值最高为270亿元,而现在乐融致新全部股权估值只有18亿元左右。苏宁易购双十一战报三星平板2016...
日期:07-22
任正非谈5g技术不会被超越_任正非谈5G:本身只是个工具,不存在安全问题
  8月23日消息 近日华为创始人任正非在深圳接受了美联社采访。在采访中除了对华为目前的现状以及未来可能的发展状况进行讨论外,任正非还同记者就5G安全问题以及美方施压进...
日期:07-17
商汤科技汤晓鸥:原创AI技术的发展需要三大核心要素_商汤科技 ai
特斯拉model s plaid百公里加速  【网易智能讯8月30日消息】为期三天的2019世界人工智能大会(以下简称:WAIC 2019)在上海正式拉开帷幕。商汤科技创始人、香港中文大学教授...
日期:07-17
孙正义已赴韩国 三星和SK财团可能竞购Arm_韩国sk集团和三星集团
  软银集团董事长孙正义本月初已前往韩国与三星、SK两大集团会面,三星集团副会长李在镕更透露,将针对收购Arm提出报价。  据BusinessKorea报道,Arm一直是三星潜在并购标的,...
日期:10-09
罗永浩回答:为何坚果Pro能成锤子最火爆的手机?「罗永浩说锤子手机比苹果好」
  锤子坚果Pro发布已经近2个月,但热度依旧不减。在刚刚过去的京东618活动中,坚果Pro在1500到2000元档位产品中一举斩获单品销量冠军,在6月10日锤子品牌日当天,锤子也取得了京...
日期:07-16
贾跃亭又被打脸!法拉第未来前CTO称10月就已离职_贾跃亭的法拉第未来上市
  据外媒报道,法拉第未来(Faraday Future)前CTO乌尔里希-克兰茨(Ulrich Kranz)今日发表如下声明,澄清了自己从该公司离职的事情。  克兰茨称,“法拉第未来最近发布了一则新...
日期:07-16
京东张晨鼓励大学生创业实践:经历就是一种财富「创业实践案例课程 京东怎么创业成功的」
  “京东举办智能硬件挑战赛,核心目标是为了培养大学生的创新创业精神。有了这样的实践,大学生在走出校园之后能做出更适合自己的选择。” 京东集团高级副总裁张晨在京东杯...
日期:07-14
腾讯云纪顺友:云,成功游戏背后的支点
  3月17日下午,在第10届TFC全球移动游戏大会——TFC精品游戏发行之道论坛上,腾讯云计算公司副总裁纪顺友带来了主题为《腾讯云——成功游戏背后的支点》的精彩分享。他认为,...
日期:07-14
罗永浩:37000人,5月15号,2款产品,1次革命「罗永浩1月15号发布会」
  老罗又再微博放预告了,今天老罗这样表示,“37000人,5月15号,2款产品,1次革命。”骁龙中端5g芯片云服务 华为三星手机过热  什么意思?解读一下,5月15号,自然没有疑问,就是锤子...
日期:07-16
腾讯COO任宇昕:连接时代的开放格局应用宝红码连接传统企业和互联网
  “连接”是2014年GMIC大会上被腾讯COO任宇昕提到最多的关键词,同时,他表示应用宝红码有效的连接了传统企业和互联网,有效的连接了优质APP和用户,引领移动互联网时代APP推广...
日期:07-14
众盟数据CEO广宇昊受中国传媒大学邀请开讲新零售
  新时代需要新人才,新人才需要新知识。作为中国传媒行业的黄埔军校,中国传媒大学始终走在传媒教育的前列。为了帮助广大学子开阔眼界,掌握商业新趋势和新实践,中国传媒大学联...
日期:07-16
苹果CEO库克:做好眼前事 不求身后名
  北京时间11月22日晚间消息,苹果CEO蒂姆·库克(Tim Cook)近日在接受CNN采访时表示,苹果正在开发自动驾驶汽车软件系统。  库克称:“我们正在研发自主系统,要说明的是,只是软...
日期:07-22
他让沥青砼路面减薄1厘米寿命却成倍延长_公路工程常用沥青中,性能更加优越,耐久性
  记天津市亨益晟泰筑路材料科技有限公司杨志伟LG卷轴屏电视  如果现在的路面“薄”了1厘米会怎么样?肯定有人担心路面不结实或是易损。相反,北辰区一家公司联合多所大学...
日期:07-17
安卓之父梦想破灭:他最终没能抵达乔布斯的高度_安卓创始人 与乔布斯
suv蔚来es6oppo手机家长助手  前不久业内有消息人士透露,离开谷歌三年之久的安卓之父安迪•鲁宾正在考虑变卖自己创建的科技公司Essential Products,而在此之前,鲁宾取消了其...
日期:07-22
陈育新看微商:新商业文明机会在哪里
  2015年以来,微商一直是社会和媒体关注的焦点。同时也是品牌商、从业者青睐的热门行业;相关资料显示,15年上半年微商从业人数突破千万。纵观2015年上半年微商发展的整体趋...
日期:07-14
安沃传媒CEO王旭东:已完成B轮融资_安沃传媒 王旭东
  5月10日消息,国内移动广告平台安沃传媒CEO王旭东今日在接受搜狐IT专访时,透露已完成二轮融资,但未透露更多融资细节。  安沃传媒CEO王旭东  安沃传媒2010年8月成立,去年...
日期:11-19
威盛电子董事长陈文琦出席2018世界VR产业大会
  2018年10月22日北京讯——威盛电子董事长兼首席执行官陈文琦先生于2018年10月19日出席于江西南昌举办的2018世界VR产业大会,并发表主旨演讲,与现场来宾分享5G、AI、区块链...
日期:07-22