多媒体技术教程ch3.docx
- 文档编号:9689190
- 上传时间:2023-05-20
- 格式:DOCX
- 页数:87
- 大小:97.77KB
多媒体技术教程ch3.docx
《多媒体技术教程ch3.docx》由会员分享,可在线阅读,更多相关《多媒体技术教程ch3.docx(87页珍藏版)》请在冰点文库上搜索。
多媒体技术教程ch3
第三章多媒体数据压缩
3.1
数据压缩的
基本原理和方法
3.2
数据压缩的基本原理和方法
•压缩的必要性
音频、视频的数据量很大,如果不进行处理,计算机
系统几乎无法对它进行存取和交换。
例如,一幅具有中等分辨率(640×480)的真彩色
图像(24b/像素),它的数据量约为7.37Mb/帧,一个
100MB(Byte)的硬盘只能存放约100帧图像。
若要达到
每秒25帧的全动态显示要求,每秒所需的数据量为
184Mb,而且要求系统的数据传输率必须达到184Mb/s。
对于声音也是如此,若采用16b样值的PCM编码,采样速率选为44.1kHZ,则双声道立体声声音每秒将有176KB的
数据量。
3.3
数据压缩的基本原理和方法
•视频、图像、声音有很大的压缩潜力
信息论认为:
若信源编码的熵大于信源的实
际熵,该信源中一定存在冗余度。
原始信源的数据存在着很多冗余度:
空间冗
余、时间冗余、视觉冗余、听觉冗余等。
3.4
数据冗余的类型
空间冗余:
在同一幅图像中,规则物体和规则背景
的表面物理特性具有相关性,这些相关性的光成像
结果在数字化图像中就表现为数据冗余。
一幅图象中同一种颜色不止一个象素点,若相邻的象素点
的值相同,象素点间(水平、垂直)有冗余。
当图象的一部分包含占主要地位的垂直的源对象时,相邻
线间存在冗余。
3.5
数据冗余的类型
时间冗余:
时间冗余反映在图像序列中就是
相邻帧图像之间有较大的相关性,一帧图像
中的某物体或场景可以由其它帧图像中的物
体或场景重构出来。
音频的前后样值之间也同样有时间冗余。
若图象稳定或只有轻微的改变,运动序列帧间存
在冗余。
3.6
数据冗余的类型
信息熵冗余:
信源编码时,当分配给第i个码元类的比特数b
(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即
达到其压缩极限。
但实际中各码元类的先验概率很难预知,
比特分配不能达到最佳。
实际单位数据量d>H(S),即存在
信息冗余熵。
视觉冗余:
人眼对于图像场的注意是非均匀的,人眼并不能
察觉图像场的所有变化。
事实上人类视觉的一般分辨能力为
26灰度等级,而一般图像的量化采用的是28灰度等级,即存在
着视觉冗余。
3.7
数据冗余的类型
听觉冗余:
人耳对不同频率的声音的敏感性是不同
的,并不能察觉所有频率的变化,对某些频率不必
特别关注,因此存在听觉冗余。
其它冗余:
包括结构冗余、知识冗余等。
3.8
数据压缩技术的性能指标
节省图象或视频的存储容量,增加访问速
度,使数字视频能在PC机上实现,需要进行视频
和图象的压缩。
有三个关键参数评价一个压缩系统
压缩比
图象质量
压缩和解压的速度
另外也必须考虑每个压缩算法所需的硬件和
软件。
3.9
数据压缩技术的性能指标
1.压缩比
压缩性能常常用压缩比定义(输入数据和输出
数据比)
例:
512×480,24bit/pixel(bpp)
输出15000byte输入=737280byte
压缩比=737280/15000=49
3.10
数据压缩技术的性能指标
2.图象质量
压缩方法:
无损压缩(图象质量不变)
有损压缩
有损压缩:
失真情况很难量化,只能对测试的图象进行估
计。
模拟图象质量的指标:
信噪比、分辨率、颜色错,但必须在
观察了实际图象以后。
3.11
数据压缩技术的性能指标
3.压缩解压速度
在许多应用中,压缩和解压可能不同时用,在不同
的位置不同的系统中。
所以,压缩、解压速度分别估计。
–静态图象中,压缩速度没有解压速度严格;
–动态图象中,压缩、解压速度都有要求,因为需实时地从摄像机或
VCR中抓取动态视频。
3.12
数据压缩技术的性能指标
4.硬软件系统
有些压缩解压工作可用软件实现。
设计系统时必
须充分考虑:
算法复杂-压缩解压过程长
算法简单-压缩效果差
目前有些特殊硬件可用于加速压缩/解压。
3.13
数据压缩方法分类
•根据解码后数据与原始数据是否完全一致可以分为
两大类:
•一类是熵编码、冗余压缩法,也称无损压缩法、无失真压
缩法
•二是熵压缩法,也称有损压缩法、有失真压缩法。
•从“熵”损失角度分为无损压缩和有损压缩两种:
•无失真压缩,又称熵编码。
由于不会失真,多用于文本、
数据的压缩,但也有例外,非线性编辑系统为了保证视频
质量,有些高档系统采用的是无失真压缩方法。
•有失真压缩,又称熵压缩法。
大多数图像、声音、动态视
频等数据的压缩是采用有失真压缩。
3.14
数据压缩方法分类
•从信息语义角度分为“熵编码”和“源编码”两种:
•熵(平均信息量)编码(EntropyCoding)
•熵编码是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术。
它是
基于平均信息量的技术把所有的数据当作比特序列,而不根据压缩信息的
类型优化压缩。
也就是说,平均信息量编码忽略被压缩信息的语义内容。
•熵编码分为:
重复序列消除编码(含:
消零、行程编码)、统计编码等。
•源编码(SourceCoding)
•源编码的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内
容等。
源编码比严格的平均信息量编码的压缩率更高。
当然压缩的程度主
要取决于数据的语义内容,比起平均信息量编码,它的压缩比更大。
•源编码主要分为:
预测编码、变换编码、向量量化等。
3.15
数据压缩方法分类
RunLengthCoding
EntropyCoding
Statistical
Coding
Huffman
Arithmetic
Prediction:
DPCMandDM
SourceCoding
Transformation:
FFT、DCT
Layered:
Sub-band、Sub-
samplingandBitPosition
VectorQuantization
HybridCoding
JPEG、MPEG、H.261、
DVI、Intel-Indeo
3.16
常用数据压缩方法的基本原理
1.统计编码
方法是:
识别一个给定的流中出现频率最高
的比特或字节模式,并用比原始比特更少的比特数
来对其编码。
即就是,频率越低的模式,其编码的位数越多,
频率越高的模式编码位数越少。
若码流中所有模式
出现的概率相等,则平均信息量最大,信源就没
有冗余。
3.17
常用数据压缩方法的基本原理
(1)行程编码(RunLengthCoding)
是最简单、最古老的压缩技术之一,主要技术是检测
重复的比特或字符序列,并用它们的出现次数取而代之。
该方法有两大模式:
一是消零(消空白),二是行(游)程(run
length)编码。
消零(或消空白)法
将数字中连续的“0”或文本中连续的空白用一个标识符
(或特殊字符)后跟数字N(连续“0”的个数)来代替。
如数字序列:
742300000000000000000055
编码为:
7423Z1855
3.18
常用数据压缩方法的基本原理
行程编码法
任何重复的字符序列可被一个短格式取代。
该算法适
合于任何重复的字符。
一组n个连续的字符c将被c和一个特殊的字符取
代。
当然,若给定字符仅重复两次就不要用此方法。
任何
重复4次或4次以上的字符由“该字符+记号(M)+重复次数”
代替。
例如数字序列:
Name:
..........CR
编码为:
Name:
.M10CR
3.19
常用数据压缩方法的基本原理
(2)LZW编码
LZW算法在压缩文本和程序数据的压缩技术中唱主
角。
它的压缩率高,压缩处理所化费的时间比其它方式要
少。
LZW编码时,首先将原始的数据分成多个条纹,每个条纹都单独进行压缩。
LZW算法基于一个转换表或字串表,它将输入字符映
象到编码中,使用可变长代码,最大代码长度为12位。
LZW算法中的字串表对于每个条纹都不同,并且不必
保留给解压缩程序,因为解压缩过程中能自动建立完全相
同的字串表。
实际上,它是通过查找冗余字符串并将此字
符串用较短的符号标记替代的压缩技术。
3.20
常用数据压缩方法的基本原理
(3)哈夫曼编码
1952年Huffman提出了对统计独立信源能达到最小
平均码长的编码方法,也即最佳码。
最佳性可从理论上证
明。
这种码具有即时性和唯一可译性。
该编码是常见的一种统计编码。
对给定的数据流,计
算其每个字节的出现频率。
根据频率表,运用哈夫曼算法
可确定分配各字符的最小位数,然后给出一个最优的编
码。
代码字存人代码表中。
3.21
常用数据压缩方法的基本原理
Huffman编码的优缺点
优点:
当信源符号概率是2的负幂次方时,
Huffman编码法编码效率达到100%。
一般情况
下,它的编码效率要比其它编码方法的效率高,是
最佳变长码。
缺点:
Huffman码依赖于信源的统计特性,
必须先统计得到信源的概率特性才能编码,这就限
制了实际的应用。
通常可在经验基础上预先提供
Huffman码表,此时性能有所下降。
3.22
常用数据压缩方法的基本原理
(4)算术编码
算术编码把一个信源集合表示为实数线上的0到1之间的一个区间。
这个集合中的每个元素都要用来缩短这个区间。
信源集合的元素越多,所
得到的区间就越小,当区间变小时,就需要一些更多的数位来表示这个区
间,这就是区间作为代码的原理。
算术编码首先假设一个信源的概率模
型,然后用这些概率来缩小表示信源集的区间。
新子区间的起始位置=前子区间的起始位置+当前符号的区间左端×前子区间长度
新子区间的长度=
前子区间的长度×当前符号的概率(等价于范围长度)
最后得到的子区间的长度决定了表示该区域内的某一
个数所需的位数。
3.23
常用数据压缩方法的基本原理
•[例]设英文元音字母采用固定模式符号概率分配如下:
字符aeiou
概率0.20.30.10.20.2
范围[0,0.2][0.2,0.5][0.5,0.6][0.6,0.8][0.8,1.0]
•设编码的数据串为eai。
令high为编码间隔的高端,low为编码间隔
的低端,range为编码间隔的长度,rangelow为编码字符分配的间隔
低端,rangehigh为编码字符分配的间隔高端。
初始high=1,low=0,range=high-low,一个字符编码后新的low和
high按下式计算:
·low=low+range×rangelow
·high=low+range×rangehigh
(1)在第一个字符e被编码时,e的rangelow=0.2,rangehigh=0.5,
因此:
low=0+1×0.2=0.2
high=0+1×0.5=0.5
range=high-low=0.5-0.2=0.3
此时分配给e的范围为[0.2,0.5]。
3.24
常用数据压缩方法的基本原理
•[例]设英文元音字母采用固定模式符号概率分配如下:
字符aeiou
概率0.20.30.10.20.2
范围[0,0.2][0.2,0.5][0.5,0.6][0.6,0.8][0.8,1.0]
•
(2)第二个字符a编码时使用新生成范围[0.2,0.5],a的rangelow=0,
rangehigh=0.2,因此:
low=0.2十0.3×0=0.2
high=0.2+0.3×0.2=0.26
range=0.06
范围变成[0.2,0.26]。
(3)对下一个字符i编号,i的rangelow=0.5,rangehigh=0.6,则:
low=0.2+0.06×0.5=0.23high=0.2+0.06×0.6=0.236
即用[0.23,0.236]表示数据串eai,如果解码器知道最后范围是
[0.23,0.236]这一范围,它马上可解得一个字符为e,然后依次得到惟
一解a,即最终得到eai。
3.25
常用数据压缩方法的基本原理
2.预测编码(PredictionCoding)
预测编码是指利用前面的一个或多个信号对下一个信
号进行预测,然后对实际值和预测值的差进行编码。
DPCM与ADPCM是两种典型的预测编码。
3.26
常用数据压缩方法的基本原理
(1)差分脉码调制(DPCM)
PCM(PulseCodeModulation),原始的模拟信号经过
时间采样,然后对每一样值进行量化,作为数字信号传输
。
DPCM不对每一样值都进行量化,而是预测下一样值,并量化实际值和预测值之间的差。
DPCM是基本的编码方法之一,在大量的压缩算法中
被采用,比如JPEG的DC分量就是采用DPCM编码的。
3.27
常用数据压缩方法的基本原理
举例说明DPCM编码原理:
设DPCM系统预测器的预测值为前一个样值,假设输
入信号已经量化,差值不再进行量化。
若系统的输入为{0
121123344…},则预测值为{0012112334…}
,差值为{011–1011010…},差值的范围比输入样值
的范围有所减小,可以用较少的位数进行编码。
3.28
常用数据压缩方法的基本原理
(2)自适应差分脉码调制(ADPCM)
为了进一步改善量化性能或压缩数据率,可采用
自适应量化或自适应预测的方法。
只要采用了其中的任一种自适应方法,均称为ADPCM。
自适应预测
预测参数的最佳化依赖于信源的统计特性,要得
到最佳的预测参数是一件繁琐的工作。
而采用固定的预测参数往往又得不到好的性能。
为了既能使性能较佳,又不致于有太大的工作量,可
以将上述两种方法折衷考虑,采用自适应预测。
3.29
常用数据压缩方法的基本原理
具体方法是:
预测参数仍采用固定的;但此时有多组预
测参数可供选择。
这些预测参数根据常见的信源特征求得。
编码时具体采用哪组预测参数根据信源的特征来自适应的确
定。
为了自适应的选择最佳参数,通常将信源数据分区间编
码,编码时自动地选择一组预测参数,使该区间实际值与预
测值的均方误差最小。
随着编码区间的不同,预测参数自适
应的变化,以达到准最佳预测。
3.30
常用数据压缩方法的基本原理
系数集系数1系数2
例如,Microsoft的
ADPCM采用二预测参数
,提供7组预测系数,如右
表所示。
编码时,根据选
定的准则(如最小均方误差
准则),每个编码区间自动
地选取一组最佳的参数。
02560
1512-256
200
319264
42400
5460-208
6392-232
3.31
常用数据压缩方法的基本原理
自适应量化
根据信号分布不均匀的特点,系统
具有随输入信号的变化而改变量化区间大小,
以保持输入给量化器的信号基本均匀的能力
,这种能力称为自适应量化。
3.32
常用数据压缩方法的基本原理
3.变换编码(TransformationCoding)
在变换编码时,初始数据要从初始空间或时
间域进行数学变换,变换为一个更适于压缩的抽象
域。
该过程是可逆的;即使用反变换可恢复原始数
据。
如将时域信号变换到频域,因为声音、图像大
部分信号都是低频信号,在频域中信号的能量较集
中,再进行采样、编码就可以压缩数据。
3.33
常用数据压缩方法的基本原理
变换本身是可逆的,因而其也是一种无损技术。
然而
,为了取得更满意的结果,某些重要系数的编码位数比其
他的要多,某些系数干脆就被忽略了。
这样,该过程就成
为有损的了。
数学家们已经构造了多种数学变换。
除了傅里叶变换
外,还有余弦、Hadamard、Haar、KarhunenLoeve变换
。
最实用最常用的数学变换是离散余弦变换(DCT)。
3.34
常用数据压缩方法的基本原理
典型的变换编码系统框图:
信源变变换域量化存储或
采样传输序列换编码
变换编码系统压缩数据的三个步骤
反变
再现译
填
序列换码
零
3.35
常用数据压缩方法的基本原理
(1)最佳变换(K-L变换)
数据压缩主要是去除信源的相关性。
若考虑到信号存在于
无限区间上,而变换区域又是有限的,那么表征相关性的统计
特性就是协方差矩阵。
当协方差矩阵中除对角线上元素之外的各元素都为零时,
就等效于相关性为零。
所以,为了有效地进行数据压缩,常常
希望变换后的协方差矩阵为一对角矩阵,同时也希望主对角线
上各元素随i,j的增加很快衰减。
因此,变换编码的关键在
于:
在已知X的条件下,根据它的协方差矩阵去寻找一种正交
变换T,使变换后的协方差矩阵满足或接近为一对角矩阵。
3.36
常用数据压缩方法的基本原理
当经过正交变换后的协方差矩阵为一对角矩
阵,且具有最小均方误差时,该变换称最佳变换,
也称Karhunen-Loeve变换。
可以证明,以矢量信
号的协方差矩阵的归一化正交特征向量所构成的正
交矩阵,对该矢量信号所作的正交变换能使变换后
的协方差矩阵达到对角矩阵。
3.37
常用数据压缩方法的基本原理
(2)离散余弦变换(DCT变换)
如果变换后的协方差矩阵接近对角矩阵,该类变换称
准最佳变换,典型的有DCT、DFT、WHT、HrT等。
其中
,最常用的变换是离散余弦变换DCT。
DCT是从DFT引出的。
DFT可以得到近似于最佳变
换的性能,但DFT的运算次数太多,且需要复数运算。
DCT从DFT中取实部,并可用快速余弦变换算法,因此大
大加快了运算。
同时其压缩性能十分逼近最佳变换的压缩
性能。
所以,DCT在图像压缩中得到了广泛的应用。
3.38
常用数据压缩方法的基本原理
4.分析合成编码
通过对原始数据的分析,将其分解为一系列
更适合于表示的基元或者从中提取出更有本质意义
的参数,编码仅对这些基本单元或者特征参数进
行,而解码时则借助于一定的规则或者模型,按照
一定的算法将这些基元或者参数再综合成原始数据
的一个逼近。
3.39
常用数据压缩方法的基本原理
矢量量化
量化编码按照一次量化的码元个数,可分为标量量化
和矢量量化两种。
对数字化后的数据或PCM数据(样本
值)一个一个地进行量化,称为标量量化。
而将这些数据
分组,每组K维矢量,再以矢量为单元逐个进行量化,称其
为矢量量化。
矢量量化是标量量化的多维扩展。
3.40
常用数据压缩方法的基本原理
标量量化中可在随机变量X出现概率比较高的间隔
内,选择较小的判决间隔,而在其他区域内选择较大的间
隔,这样可以以较小的量化均方误差进行量化。
矢量量化基于语义编码,其基本思想是采用非线性量
化器,即对空间频率及能量分布较大的系数分配较多比特
数;反之分配较少的比特数,从而达到压缩的目的。
3.41
常用数据压缩方法的基本原理
小波变换编码
小波变换是一个线性变换,能够将一个信号分解成对
空间和时间、频率的独立贡献,同时又不失原信号所包含
的信息。
经过小波变换后的图像能量很集中,便于对不同
的分量作不同的处理,达到较高的压缩比。
3.42
常用数据压缩方法的基本原理
分形编码
分形编码是一种模型编码,它利用模型的方法,对需
要传输的图像进行参数估测。
分形的方法是把一幅数字图
像,通过一些图像处理技术,如颜色分割、边缘检测、频
谱分析、纹理变化分析等等,将原始图像分成一些子图像
。
子图像可以是简单的物体,也可以是一些复杂的景物。
然后在分形集中查找这样的子图像。
分形集实际上并不是
存储所有可能的子图像,而是存储许多迭代函数,通过迭
代函数的反复迭代,恢复出原来的子图像。
表示这样的迭
代函数一般只需几个数据即可,这就达到了很高的压缩比
。
3.43
常用数据压缩方法的基本原理
子带编码
利用带通滤波器组把信号频带分割成若干子频带,然
后分别处理。
通过等效于单边带调幅的调制过程,将各子
带搬移到零频率附近以得到低通表示后,再以奈奎斯特速
率对各子带输出取样,并对取样值进行通常的数字编码。
恢复时,将各子带信号解码并重新调制回其原始位置,再
将所有子带输出相加就可得到接近于原始信号的恢复波形
。
它的复杂度与变换编码差不多,但客观质量高、主观效
果好。
3.44
音频的压缩
3.45
音频的压缩
音频频率范围
低频声音(Infra-sound):
0Hz-20Hz
人类听觉频率范围的声音:
20Hz-20kHz
高频(Ultrasound):
20kHz-1GHz
超声波(Hypersound):
1GHz-10THz
不同音频的带宽
电话语音:
200Hz-3.4kHz
调幅广播:
50Hz-7kHz
调频广播:
20Hz-15kHz
宽带音响:
20Hz-20kHz
3.46
音频压缩编码的基本方法
音频压缩方法
无失真压缩有失真压缩
Huffman编码
波形编码参数编码混合编码
行程编码
全频带编码
PCM
DPCM
线性预测LPC
矢量和激励线
性预测VSELP
ADPCM
多脉冲线性
预测MP-LPC
子带编码
自适应变换编码ATC心理学模型
码本激励线
性预测CELP
矢量量化
3.47
电话质量的语音压缩标准
ITU—TS建议的语音压缩的标准
G.711:
采用PCM编码,采样速率为8kHz,量化位数为
8bit,对应的比特流速率为64kbit/s。
G.721:
ITU建议的G.721将64Kbps的比特流转换为32Kbps
的流,它是基于ADPCM技术。
每个数值差分用4位编码,
其采样率为8kHz。
3.48
电话质量的语音压缩标准
G.723:
G.723是一种以24Kbps运行的基于ADPCM的有
损耗压缩标准。
其音质不如非压缩的G.711PCM标准以及
基于SB—ADPCM的G.722标准。
G.723.1和G.723.2用于
H.324标准。
G.728:
它的比特率为16Kbps,带宽限于3.4kHz。
其音质
比G.711或G.722差得多。
它
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 教程 ch3