从.JPG到.AVI：视频编码最强入门科普

2018-09-19 11:12

从.JPG到.AVI：视频编码最强入门科普

本文作者：小枣君。

大家好，我是小枣君。

作为一名屌丝创业者，前几天我追了一部美剧。剧名大家可能都听过，就是《硅谷》。

剧里主要讲述的，是一群美国硅谷年轻人的创业故事。我觉得挺好看的，一口气追完了（貌似后面还会更新）。同为创业者，对里面的剧情非常有感触。

今天这篇文章，并不是打算写剧评，而是和剧中男猪脚的创业项目有密切的关系。

男猪脚理查德是一个技术宅，他发明了一个很强的算法，可以将视频文件的体积大大压缩，并且并不损失视频质量。这个算法受到了所有投资人的关注和追捧，大家都争相给他投资。

中间的狗血故事略过不表，到这部剧的后期，理查德的压缩算法，甚至延伸到“分布式计算”领域，要构建一个“New Internet”。

更甚至，他们还利用自己的压缩算法，搞起了区块链，发行了自己的虚拟货币（魔笛手币）。

为什么一个压缩编码算法，能有这么强大的能量？为什么视频压缩技术这么受追捧？图像视频压缩到底是什么工作原理？

这，就是我们今天要讨论的话题。

如今我们所处的时代，是移动互联网时代，也可以说是视频（多媒体）的时代。

从快播到抖音，从“三生三世”到“延禧攻略”，再从微信视频通话，到支付宝人脸识别，我们的生活，被越来越多的视频元素所影响。

而这一切，离不开视频拍摄和制作技术的日益强大，更离不开通信技术的飞速进步。

试想一下，如果还是当年的56K Modem拨号，或者是2G手机，你还能享受到现在动辄1080P甚至4K的视频体验吗？显然是不可能的嘛。

除了视频拍摄技术和网络通信技术之外，我们能享受到视频带来的便利和乐趣，还有一个重要因素，就是视频编码技术的突飞猛进。

说视频之前，先要说说图像。

图像，大家都知道，是由很多“带有颜色的点”组成的。这个点，就是“像素点”。

像素点的英文叫Pixel（缩写为PX）。这个单词是由 Picture(图像) 和 Element（元素）这两个单词的字母所组成的。

电影《像素大战（Pixels）》，2015年

像素是图像显示的基本单位。我们通常说一幅图片的大小，例如是1920×1080，就是长度为1920个像素点，宽度为1080个像素点。乘积是2,073,600，也就是说，这个图片是两百万像素的。

1920×1080，这个也被称为这幅图片的分辨率。

分辨率也是显示器的重要指标

那么，我们经常所说的PPI又是什么东西呢？

PPI，就是“Pixels Per Inch”，每英寸像素数。也就是，手机（或显示器）屏幕上每英寸面积，到底能放下多少个“像素点”。

这个值当然是越高越好啦！PPI越高，图像就越清晰细腻。

以前的功能机，例如诺基亚，屏幕PPI都很低，有很强烈的颗粒感。

后来，苹果开创了史无前例的“视网膜”（Retina）屏幕，PPI值高达326（每英寸屏幕有326像素），画质清晰，再也没有了颗粒感。

像素点必须要有颜色，才能组成缤纷绚丽的图片。那么，这个颜色，又该如何表示呢？

妹纸们都知道，颜色拥有无数种类，光是你们的口红色号，就足以让我们这些屌丝瞠目结舌......

在计算机系统里，我们不可能用文字来表述颜色。不然就算我们不疯，计算机也会疯掉的。在数字时代，当然是用数字来表述颜色。

这就牵出了“彩色分量数字化”的概念。

懂绘画的童鞋一定知道，任何颜色，都可以通过红色（Red）、绿色（Green）、蓝色（Blue）按照一定比例调制出来。这三种颜色，被称为“三原色”。

在计算机里，R、G、B也被称为“基色分量”。它们的取值，分别从0到255，一共256个等级（256是2的8次方）。

所以，任何颜色，都可以用R、G、B三个值的组合表示。

RGB=[183,67,21]

通过这种方式，一定能表达多少种颜色呢？256×256×256=16,777,216种，因此也简称为1600万色。而3个8次方，等于24，因为，这种方式表达出来的颜色，也被称为24位色。

这个颜色范围已经超过了人眼可见的全部色彩，所以又叫真彩色。再高的话，对于我们人眼来说，已经没有意义了，完全识别不出来。

那么，如果是RGB方式，一个像素点需要占用多少bit？3个2的8次方，一共是24bit。请记住哈，下面会用到。

好了，刚才说了图像，现在，我们开始说视频。

所谓视频，大家从小就看动画，都知道视频是怎么来的吧？没错，大量的图片连续起来，就是视频。

衡量视频，又是用的什么指标参数呢？

最主要的一个，就是帧率（Frame Rate）。

在视频中，一个帧（Frame）就是指一幅静止的画面。帧率，就是指视频每秒钟包括的画面数量（FPS，Frame per second）。

帧率越高，视频就越逼真、越流畅。

有了视频之后，就涉及到两个问题，一个是存储，二个是传输。

而之所以会有视频编码，关键就在于此：一个视频，如果未经编码，它的体积是非常庞大的。

以一个分辨率1920×1280，帧率30的视频为例。

1920×1280=2,073,600（Pixels 像素）

每个像素点是24bit（前面算过的哦）

也就是每幅图片2073600×24=49766400bit

8 bit（位）=1 byte（字节），所以，49766400bit=6220800byte≈6.22MB。

这是一幅1920×1280图片的原始大小，再乘以帧率30，也就是说，每秒视频的大小是186.6MB，每分钟大约是11GB，一部90分钟的电影，约是1000GB。。。

吓尿了吧？就算你现在电脑硬盘是4TB的（实际也就3600GB），也放不下几部大姐姐啊！

不仅要存储，还要传输，不然视频从哪来呢？

如果按照100M的网速（12.5MB/s），下刚才那部电影，需要22个小时。。。再次崩溃。。。

正因为如此，屌丝工程师们就提出了，必须对视频进行编码。

什么是编码？

编码，就是按指定的方法，将信息从一种形式（格式），转换成另一种形式（格式）。

视频编码，就是将一种视频格式，转换成另一种视频格式。

编码的终极目的，说白了，就是为了压缩。

各种五花八门的视频编码方式，都是为了让视频变得体积更小，有利于存储和传输。

我们先来看看，视频从录制到播放的整个过程，如下：

首先是视频采集。通常我们会使用摄像机、摄像头进行视频采集。限于篇幅，我就不打算和大家解释CCD成像原理了。

采集了视频数据之后，就要进行模数转换，将模拟信号变成数字信号。其实现在很多都是摄像机（摄像头）直接输出数字信号。

信号输出之后，还要进行预处理，将RGB信号变成YUV信号。

前面我们介绍了RGB信号，那什么是YUV信号呢？

简单来说，YUV就是另外一种颜色数字化表示方式。

视频通信系统之所以要采用YUV，而不是RGB，主要是因为RGB信号不利于压缩。

在YUV这种方式里面，加入了亮度这一概念。

在最近十年中，视频工程师发现，眼睛对于亮和暗的分辨要比对颜色的分辨更精细一些，也就是说，人眼对色度的敏感程度要低于对亮度的敏感程度。

所以，工程师认为，在我们的视频存储中，没有必要存储全部颜色信号。我们可以把更多带宽留给黑—白信号（被称作“亮度”），将稍少的带宽留给彩色信号（被称作“色度”）。于是，就有了YUV。

YUV里面的“Y”，就是亮度（Luma），“U”和“V”则是色度（Chroma）。

大家偶尔会见到的Y'CbCr，也称为YUV，是YUV的压缩版本，不同之处在于Y'CbCr用于数字图像领域，YUV用于模拟信号领域，MPEG、DVD、摄像机中常说的YUV其实就是Y'CbCr。

YUV（Y'CbCr）是如何形成图像的

YUV码流的存储格式其实与其采样的方式密切相关。（采样，就是捕捉数据。）

主流的采样方式有三种，YUV4:4:4，YUV4:2:2，YUV4:2:0。

具体解释起来有点繁琐，大家只需记住，通常用的是YUV4:2:0的采样方式，能获得1/2的压缩率。

这些预处理做完之后，就是正式的编码了。

前面我们说了，编码就是为了压缩。要实现压缩，就要设计各种算法，将视频数据中的冗余信息去除。

当你面对一张图片，或者一段视频的时候，你想一想，如果是你，你会如何进行压缩呢？

对于新垣女神，我一bit也不舍得压缩…...

我觉得，首先你想到的，应该是找规律。

是的，寻找像素之间的相关性，还有不同时间的图像帧之间，它们的相关性。

举个例子，如果一幅图（1920×1080分辨率），全是红色的，我有没有必要说2073600次[255,0,0]？我只要说一次[255,0,0]，然后再说2073599次“同上”。

如果一段1分钟的视频，有十几秒画面是不动的，或者，有80%的图像面积，整个过程都是不变（不动）的。那么，是不是这块存储开销，就可以节约掉了？

是的，所谓编码算法，就是寻找规律，构建模型。谁能找到更精准的规律，建立更高效的模型，谁就是厉害的算法。

通常来说，视频里面的冗余信息包括：

视频编码技术优先消除目标，就是空间冗余和时间冗余。

接下来，小枣君就和大家介绍一下，究竟是采用什么样的办法，才能干掉它们。

以下内容稍微有点高能，不过我相信大家耐心一些还是可以看懂的。

视频是由不同的帧画面连续播放形成的。

这些帧，主要分为三类，分别是I帧，B帧，P帧。

I帧，是自带全部信息的独立帧，是最完整的画面（占用的空间最大），无需参考其它图像便可独立进行解码。视频序列中的第一个帧，始终都是I帧。

P帧，“帧间预测编码帧”，需要参考前面的I帧和/或P帧的不同部分，才能进行编码。P帧对前面的P和I参考帧有依赖性。但是，P帧压缩率比较高，占用的空间较小。

P帧

B帧，“双向预测编码帧”，以前帧和后作为参考帧。不仅参考前面，还参考后面的帧，所以，它的压缩率最高，可以达到200:1。不过，因为依赖后面的帧，所以不适合实时传输（例如视频会议）。

B帧

通过对帧的分类处理，可以大幅压缩视频的大小。毕竟，要处理的对象，大幅减少了（从整个图像，变成图像中的一个区域）。

如果从视频码流中抓一个包，也可以看到I帧的信息，如下：

我们来通过一个例子看一下。

这有两个帧：

好像是一样的？

不对，我做个GIF动图，就能看出来，是不一样的：

人在动，背景是没有在动的。

第一帧是I帧，第二帧是P帧。两个帧之间的差值，就是如下：

也就是说，图中的部分像素，进行了移动。移动轨迹如下：

这个，就是运动估计和补偿。

当然了，如果总是按照像素来算，数据量会比较大，所以，一般都是把图像切割为不同的“块（Block）”或“宏块（MacroBlock）”，对它们进行计算。一个宏块一般为16像素×16像素。

将图片切割为宏块

好了，我来梳理一下。

对I帧的处理，是采用帧内编码方式，只利用本帧图像内的空间相关性。

对P帧的处理，采用帧间编码（前向运动估计），同时利用空间和时间上的相关性。简单来说，采用运动补偿(motion compensation)算法来去掉冗余信息。

需要特别注意，I帧（帧内编码），虽然只有空间相关性，但整个编码过程也不简单。

如上图所示，整个帧内编码，还要经过DCT（离散余弦变换）、量化、编码等多个过程。限于篇幅，加之较为复杂，今天就放弃解释了。

那么，视频经过编码解码之后，如何衡量和评价编解码的效果呢？

一般来说，分为客观评价和主观评价。

客观评价，就是拿数字来说话。例如计算“信噪比/峰值信噪比”。

搞通信的童鞋应该对这个概念不会陌生吧？

信噪比的计算，我就不介绍了，丢个公式，有空可以自己慢慢研究......

除了客观评价，就是主观评价了。

主观评价，就是用人的主观感知直接测量，额，说人话就是——“好不好看我说了算”。

接下来，我们再说说标准（Standard）。

任何技术，都有标准。自从有视频编码以来，就诞生过很多的视频编码标准。

提到视频编码标准，先介绍几个制定标准的组织。

首先，就是大名鼎鼎的ITU（国际电信联盟）。

1865年5月17日，为了顺利实现国际电报通信，法、德、俄、意、奥等20个欧洲国家的代表在巴黎签订了《国际电报公约》，国际电报联盟（International Telegraph Union ，ITU）也宣告成立。

随着电话与无线电的应用与发展，ITU的职权不断扩大。

1906年，德、英、法、美、日等27个国家的代表在柏林签订了《国际无线电报公约》。

1932年，70多个国家的代表在西班牙马德里召开会议，将《国际电报公约》与《国际无线电报公约》合并，制定《国际电信公约》，并决定自1934年1月1日起正式改称为“国际电信联盟” ，也就是现在的ITU。

ITU是联合国下属的一个专门机构，其总部在瑞士的日内瓦。

ITU下属有三个部门，分别是ITU-R（前身是国际无线电咨询委员会CCIR）、ITU-T（前身是国际电报电话咨询委员会CCITT）、ITU-D。

除了ITU之外，另外两个和视频编码关系密切的组织，是ISO/IEC。

ISO大家都知道，就是推出ISO9001质量认证的那个“国际标准化组织”。IEC，是“国际电工委员会”。

1988年，ISO和IEC联合成立了一个专家组，负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组，就是大名鼎鼎的MPEG，Moving Picture Expert Group（动态图像专家组）。

三十多年以来，世界上主流的视频编码标准，基本上都是它们提出来的。

ITU提出了H.261、H.262、H.263、H.263+、H.263++，这些统称为H.26X系列，主要应用于实时视频通信领域，如会议电视、可视电话等。

ISO/IEC提出了MPEG1、MPEG2、MPEG4、MPEG7、MPEG21，统称为MPEG系列。

ITU和ISO/IEC一开始是各自捣鼓，后来，两边成立了一个联合小组，名叫JVT（Joint Video Team，视频联合工作组）。

JVT致力于新一代视频编码标准的制定，后来推出了包括H.264在内的一系列标准。

压缩率对比

视频编码标准的发展关系

大家特别注意一下上图里面的HEVC，也就是现在风头正盛的H.265。

作为一种的编码标准，相比H.264有极大的性能提升，目前已经成为最新视频编码系统的标配。

最后，我再说说封装。

对于任何一部视频来说，只有图像，没有声音，肯定是不行的。所以，视频编码后，加上音频编码，要一起进行封装。

封装，就是封装格式，简单来说，就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中。再通俗点，视频轨相当于饭，而音频轨相当于菜，封装格式就是一个饭盒，用来盛放饭菜的容器。

目前主要的视频容器有如下：MPG、VOB、MP4、3GP、ASF、RMVB、WMV、MOV、Divx、MKV、FLV、TS/PS等。

封装之后的视频，就可以传输了，你也可以通过视频播放器进行解码观看。

好啦！额滴神啊，终于介绍完了。。。

其实，小枣君之所以要做视频编码这么一个看似和通信无关的“跨界”专题，是有原因的。

以前我上大学的时候，就有一门专业课程，叫图像识别，当时是我们学校的王牌专业，属于计算机系。那个时候我并不明白，图像识别到底是什么，为什么“画画”这种事情，会归为“计算机类”。

后来，我才明白，所谓的“图像识别”，就是让计算机看懂图像。怎么样才能看懂呢？就是把图像数字化。

图像变成了数字，计算机就能从中找到规律，也能对它进行分析。

这么多年过去了，图像识别取得了非常大的发展。我们渐渐发现，摄像头开始“认脸”了，停车场开始“看懂”车牌了，生活开始变得不一样了。

更没有想到的是，机器学习和AI人工智能也因此迅速崛起，开始对传统技术发起挑战。

前段时间很火的谷歌“你画我猜”程序，就是AI结合图像识别技术的一个“人机交互”经典案例。

运算速度足够快，存储空间足够大，学习数据足够多，计算机可以海量分析图像和视频数据，寻找其中的规律，构建模型。如果这个AI足够强大，就能做出反应和处理。

在电影《鹰眼》里，也描绘到这样的一个场景：强大的AI大脑，控制全球的视频摄像头，还有所有的计算机系统、武器系统，可以随时在全球范围内，找到想找到的人，并且干掉他。电影《速度与激情6》里，也有类似的场景。

电影《鹰眼》，2008年

除此之外，还有3D视频、VR/AR等，也都是和图像视频密切相关的应用。

总而言之，这是一个非常有前途的技术领域，值得深入进行研究。也许，我们一直在寻找的5G爆款应用，就和视频有关呢！

本文作者：小枣君。

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

别打CALL，打钱修改

确定

5人赞赏