mmch03XSJpptConvertorWord文档格式.docx
- 文档编号:5139769
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:21
- 大小:28.50KB
mmch03XSJpptConvertorWord文档格式.docx
《mmch03XSJpptConvertorWord文档格式.docx》由会员分享,可在线阅读,更多相关《mmch03XSJpptConvertorWord文档格式.docx(21页珍藏版)》请在冰点文库上搜索。
摩擦音:
/f/v/d/t/s/z/f/v/r/h/w/j/
破擦音:
/tF/dV/ts/dz/tr/dr/
舌侧音:
/l/
按声带震动与否为:
清音:
/p/t/k/f/W/h/s/F/tF/
浊音:
/b/d/g/m/n/N/v/T/z/V/dV/r/w/j/l/
第三章话音编码
图3-01浊音段的波形举例,音节周期大约8ms
图3-02浊音段的功率谱密度(powerspectraldensity,PSD)
清音(unvoicedsounds)
清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的。
图3-04清音段的功率谱密度举例
图3-03清音段的波形举例
.爆破音(plosivesounds)
爆破音是在声道关闭之后产生压缩空气然后突然打开声道所发出的音。
某些音不能归属到上述三种音中的任何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。
声道的形状和激励方式的变化相对比较慢,话音在短时间周期(10~30ms)里可以被认为是准定态(quasi-stationary)的短时平稳随机过程。
话音信号具有高度周期性,这是由于声门的准周期性的振动和声道的谐振引起的。
话音编码器就是企图揭示这种周期性,减少数据率又尽可能不牺牲声音的质量。
话音编译码器
三种话音编译码器
波形编译码器:
话音质量高,数据率高
音源编译码器:
数据率很低,合成话音音质有待提高
混合编译码器:
使用音源编译码技术和波形编译码技术,数据率和音质介于之间
图3-05普通编译码器的音质与数据率
1.波形编译码器
波形编译码的想法:
不利用生成话音信号的任何知识而试图产生一种重构信号,波形与原始话音波形尽可能一致。
这种编译码器的复杂程度比较低,数据速率在16kb/s以上,质量相当高。
低于这个数据速率时,音质急剧下降。
脉冲编码调制(pulsecodemodulation,PCM):
最简单的波形编码,仅仅是对输入信号进行采样和量化。
典型的窄带话音带宽限制在4kHz,采样频率是8kHz。
如果要获得高一点的音质,样本精度要用12位,它的数据率就等于96kb/s,这个数据率可以使用非线性量化来降低。
量化
【例】可以使用近似于对数的对数量化器(logarithmicquantizer),使用它产生的样本精度为8位,它的数据率为64kb/s时,重构的话音信号几乎与原始的话音信号没有什么差别。
这种量化器在20世纪80年代就已经标准化,而且直到今天还在广泛使用。
在北美的压扩(companding)标准是μ律(μ-law)
在欧洲的压扩标准是A律(A-law)
它们的优点是编译码器简单,延迟时间短,音质高。
但不足之处是数据速率比较高,对传输通道的错误比较敏感。
DPCM/ADPCM
预测技术:
从过去的样本来预测下一个样本的值,根据是认为在话音样本之间存在相关性。
差分脉冲编码调制(differentialpulsecodemodulation,DPCM):
对预测的样本值与原始的样本值之差进行编码。
如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始话音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值。
DPCM对幅度急剧变化的输入信号会产生比较大的噪声,可使用自适应的预测器和量化器进行自适应差分脉冲编码调制(adaptivedifferentialPCM,ADPCM)改进。
国际电信联盟-远程通信标准部ITU-TSS制定了数据率为16,24,32,40kb/s的ADPCM标准。
频域法波形编译码器
频域法波形编译码器(frequencydomainapproach)。
PCM/DPCM/ADPCM是时域的编译码
SBC是频域
在子带编码(sub-bandcoding,SBC)中,输入的话音信号被分成几个频带(即子带),变换到每个子带中的话音信号都进行独立编码,例如ADPCM。
在接收端,每个子带中的信号单独解码之后重新组合,然后产生重构话音信号。
优点
每个子带中的噪声信号仅仅与该子带使用的编码方法有关系。
比较重要的子带信号,编码器可分配比较多的位数来表示它们,于是在这些频率范围里噪声就比较低。
对于其他的子带,由于对听觉感知的重要性比较低,允许比较高的噪声,于是编码器就可以分配比较少的位数来表示这些信号
自适应位分配的方案也可以考虑用来进一步提高音质。
SBC复杂度
子带编码需要用滤波器把信号分成若干个子带,这比使用简单的ADPCM编译码器复杂,而且还增加了更多的编码时延。
即使如此,与大多数混合编译码器相比,子带编译码的复杂性和时延相对来说还是比较低的。
自适应变换频域波形编码
自适应变换频域波形编码(adaptivetransformcoding,ATC)。
使用快速变换(例如离散余弦变换)把话音信号分成许许多多的频带,用来表示每个变换系数的位数取决于话音谱的性质,获得的数据率可低到16kb/s。
2.音源编译码器
音源编译码的思想:
从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。
声码器(vocoder):
针对话音的音源编译码器。
在话音生成模型中,声道被等效成一个随时间变化的滤波器,叫做时变滤波器(time-varyingfilter),它由白噪声(无声话音段)激励,或者由脉冲串(有声话音段)激励。
需要传送给解码器的信息就是滤波器的规格、发声或者不发声的标志和有声话音的音节周期,并且每隔10~20ms更新一次。
声码器的模型参数既可使用时域的方法也可以使用频域的方法确定,这项任务由编码器完成。
特点
这种声码器的数据率在2.4kb/s左右,产生的语音虽然可以听懂,但其质量远远低于自然话音。
增加数据率对提高合成话音的质量无济于事,这是因为受到话音生成模型的限制。
尽管它的音质比较低,但它的保密性能好,因此这种编译码器一直用在军事上。
混合编译码
混合编译码的思想:
企图填补波形编译码和音源编译码之间的间隔。
波形编译码器虽然可提供高质量的话音,但数据率低于16kb/s的情况下,在技术上还没有解决音质的问题;
声码器的数据率虽然可降到2.4kb/s甚至更低,但它的音质根本不能与自然话音相提并论。
AbS编译码器
时域合成-分析(analysis-by-synthesis,AbS)编译码器
使用与线性预测编码(linearpredictivecoding,LPC)相同的声道线性预测滤波器模型,试图寻找一种激励信号使其产生的波形尽可能接近于原始话音的波形,而不使用两个状态(有声/无声)的模型来寻找滤波器的输入激励信号。
AbS由Atal和Remde在1982年首次提出,命名为多脉冲激励MPE(multi-pulseexcited)编译码器,
结构图
编码器
(b)译码器
图3-06AbS编译码器的结构
工作原理
编码器工作原理
AbS编译码器把输入话音信号分成许多帧(frames),一般每帧长度为20ms。
合成滤波器的参数按帧计算,然后确定滤波器的激励参数。
AbS编码器是一个负反馈系统,通过调节激励信号u(n)可使话音输入信号s(n)与重构的话音信号~s(n)之差为最小,也就是重构的话音与实际的话音最接近。
这就是说,编码器通过“合成”许多不同的近似值来“分析”输入话音信号。
译码器工作原理
在表示每帧的合成滤波器的参数和激励信号确定之后,编码器就把它们存储起来或者传送到译码器。
在译码器端激励信号馈送给合成滤波器,合成滤波器产生重构的话音信号。
3.2脉冲编码调制(PCM)
PCM的概念
脉冲编码调制(pulsecodemodulation,PCM)是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。
图3-07PCM编码框图
PCM的框图
输入是模拟声音信号,输出是PCM样本。
“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;
“波形编码器”可暂时理解为“采样器”,“量化器”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。
声音数字化的步骤
采样:
每隔一段时间间隔读一次声音的幅度
量化:
把采样得到的声音信号幅度转换成数字值。
量化可归纳成均匀量化和非均匀量化,采用的量化方法不同,量化后的数据量也就不同。
因此,可以说量化也是一种压缩数据的方法。
均匀量化(线性量化)
采用相等的量化间隔对采样得到的信号作量化。
量化误差(量化噪声):
量化后的样本值Y和原始值X的差e=y-x。
图3-08均匀量化
缺点
用这种方法量化输入信号时,无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。
为了适应幅度大的输入信号,同时又要满足精度要求,就需要增加样本的位数。
但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。
为了克服这个不足,就出现了非均匀量化的方法,这种方法也叫做非线性量化。
非均匀量化
对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。
这样就可以在满足精度要求的情况下用较少的位数来表示。
声音数据还原时,采用相同的规则。
量化的算法
非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为u律压扩(companding)算法,另一种称为A律压扩算法。
图3-09非均匀量化
μ律压扩
u律(u-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中,按下式确定量化输入和输出的关系:
x为输入信号幅度,规格化成
;
sgn(x)为x的极性;
u为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比,取100≤u≤500。
由于u律压扩的输入和输出关系是对数关系,所以这种编码又称为对数PCM。
具体计算时,用u=255,把对数曲线变成8条折线以简化计算过程。
详细计算请参看信号处理教材。
A律压扩
A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中,按下式确定量化输入和输出的关系:
0≤|x|≤1/A
1/A<
|x|≤1
x为输入信号幅度,规格化成-1≤x≤1;
sgn(x)为x的极性。
A为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比。
PCM
A律压扩的前一部分是线性的,其余部分与u律压扩相同。
具体计算时,A=87.56,为简化计算,同样把对数曲线部分变成折线。
详细计算请看信号处理教材。
对于采样频率为8kHz,样本精度为13位、14位或者16位的输入信号,使用u律压扩编码或者A律压扩编码,经过PCM编码器之后每个样本的精度为8位,输出的数据率为64kb/s。
这个数据就是CCITT推荐的G.711标准:
话音频率脉冲编码调制(PulseCodeModulation(PCM)ofVoiceFrequences)。
3.3PCM在通信中的应用
PCM编码早期主要用于话音通信中的多路复用。
一般来说,在电信网中传输媒体线路费用约占总成本的65%,设备费用约占成本的35%,因此提高线路利用率是一个重要课题。
复用
频分多路复用(frequency-divisionmultiplexing,FDM)
把传输信道的频带分成几个窄带,每个窄带传送一路信号。
【例】一个信道的频带为1400Hz,把这个信道分成4个子信道(subchannels):
820~990Hz,1230~1400Hz,1640~1810Hz和2050~2220Hz,相邻子信道间相距240Hz,用于确保子信道之间不相互干扰。
每对用户仅占用其中的一个子信道。
这是模拟载波通信的主要手段。
时分多路复用
时分多路复用(time-divisionmultiplexing,TDM)
把传输信道按时间来分割,为每个用户指定一个时间间隔,每个间隔里传输信号的一部分,这样就可以使许多用户同时使用一条传输线路。
这是数字通信的主要手段。
【例】话音信号采样频率f=8000Hz,采样周期=125us,称为1帧(frame),每帧容纳的话路数有24路和30路两种规格。
图3-1024路PCM的帧结构
24路制的重要参数
每秒钟传送8000帧,每帧125us。
12帧组成1复帧(用于同步)。
每帧由24个时间片(信道)和1位同步位组成。
每个信道每次传送8位代码,1帧有24×
8+1=193(位)。
数据传输率R=8000×
193=1544kb/s。
每一个话路的数据传输率=8000×
8=64kb/s。
30路制的重要参数
16帧组成1复帧(用于同步)。
每帧由32个时间片(信道)组成。
每个信道每次传送8位代码。
数据传输率:
R=8000×
32×
8=2048kb/s。
每一个话路的数据传输率=8000×
二次复用
时分多路复用(TDM)技术已广泛用在数字电话网中。
群(group):
也称为数字网络的等级,反映PCM信号复用的复杂程度。
PCM通信方式发展很快,传输容量已由一次群(基群)的30路(或24路),增加到二次群的120路(或96路),三次群的480路(或384路)。
图3-11二次复用示意图
图中的N表示话路数,无论N=30还是N=24,每个信道的数据率都是64kb/s,经过一次复用后的数据率就变成2048kb/s(N=30)或者1544kb/s(N=24)。
在数字通信中,具有这种数据率的线路在北美叫做T1远距离数字通信线,提供这种数据率服务的级别称为T1等级,在欧洲叫做E1远距离数字通信线和E1等级。
T1/E1,T2/E2,T3/E3,T4/E4和T5/E5的数据率如表3-02所示。
数据率
表3-02多次复用的数据传输率
美国
数字网络等级
T1/E1
T2/E2
T3/E3
T4/E4
T5/E5
64kb/s话路数
24
96
672
4032
总传输率(Mb/s)
1.544
6.512
44.736
274.176
欧洲
1
2
3
4
5
30
120
480
1920
7680
2.048
8.448
34.368
139.264
5600
日本
1440
6.312
32.064
97.728
3.4增量调制与自适应增量调制
1946年发明DM系统,后来的自适应增量调制ADM系统采用十分简单的算法就能实现32kb/s~48kb/s的数据率,而且可提供高质量的重构话音,MOS评分可达到4.3分左右。
增量调制(DM)
增量调制也称△调制(deltamodulation,DM),是一种预测编码技术,是PCM编码的一种变形。
PCM是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力
DM是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成“0”和“1”这两种可能的取值之一。
DM
如果实际采样信号与预测采样信号之差极性为“正”,则用“1”表示;
相反则用“0”表示,或者相反。
由于DM编码只须用1位对话音信号进行编码,所以又称为“1位系统”。
DM波形编码的原理如图3-12所示。
纵坐标表示“模拟信号输入幅度”,横坐标表示“编码输出”。
用i表示采样点的位置,x[i]表示在i点的编码输出。
输入信号的实际值用yi表示,输入信号的预测值用y[i+1]=y[i]±
∆表示。
假设采用均匀量化,量化阶的大小为△。
波形编码
图3-12DM波形编码示意图
采样点i=0处,输入信号y0=0,预测值y[0]=0,编码输出x[0]=1。
采样点i=1处,预测值y[1]=∆,实际输入信号大于预测值,x[1]=1
采样点i=4处,预测值y[4]=4∆,实际输入信号大于预测值,x[4]=1
问题
增量调制器的斜率过载(slopeoverload):
开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化。
一般当输入信号的变化速度超过反馈回路输出信号的最大变化速度时,就会出现斜率过载。
原因是反馈回路输出信号的最大变化速率受到量化阶大小的限制,因为量化阶的大小是固定的。
增量调制器的粒状噪声(granularnoise):
在输入信号缓慢变化部分,即输入信号与预测信号差值接近零的区域,增量调制器的输出随机交变的“0”和“1”。
这种噪声是不可能消除的。
避免斜率过载就要加大量化阶Δ,但这又会加大粒状噪声;
减小粒状噪声就要减小量化阶Δ,但又会使斜率过载更加严重。
这就促进了对自适应增量调制(adaptivedeltamodulation,ADM)的研究。
自适应增量调制(ADM)
使增量调制器的量化阶Δ能自适应,也就是根据输入信号斜率的变化自动调整量化阶Δ的大小,以使斜率过载和粒状噪声都减到最小。
几乎所有的方法基本上都是在检测到斜率过载时开始增大量化阶Δ,而在输入信号的斜率减小时降低量化阶Δ。
【例】宋(Song)在1971描述的自适应增量调制技术中提出:
假定增量调制器的输出为1和0,每当输出不变时量化阶增大50%,使预测器的输出跟上输入信号;
每当输出值改变时,量化阶减小50%,使粒状噪声减到最小,这种自适应方法使斜率过载和粒状噪声同时减到最小。
ADM
【例】连续可变斜率增量调制(continuouslyvariableslopedeltamodulation,CVSD):
使用较多的另一种自适应增量调制器,由格林弗基斯(Greefkes)1970提出。
基本方法是:
如果连续可变斜率增量调制器(continuouslyvariableslopedeltamodulator,CVSD)的输出连续出现三个相同的值,量化阶就加上一个大的增量,反之,就加一个小的增量。
3.5自适应差分脉冲编码调制
ADPCM
G.711使用A律或μ律PCM方法对采样率为8kHz的声音数据进行压缩,压缩后的数据率为64kb/s。
为了提高充分利用线路资源,而又不希望明显降低传送话音信号的质量,就要对它作进一步压缩,方法之一就是采用ADPCM。
APCM
3.5.1自适应脉冲编码调制(APCM)的概念
APCM(adaptivepulsecodemodulation)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。
瞬时自适应:
量化阶的大小每隔几个样本就改变。
音节自适应:
量化阶的大小在较长时间周期里发生变化。
改变量化阶大小的方法
前向自适应(forwardadaptation):
根据未量化样本的均方根值来估算输入信号电平,以此确定量化阶大小,并对其电平进行编码作为边信息(sideinformation)传送到接收端。
后向自适应(backwardadaptation):
从量化器刚输出的过去样本中来提取量化阶信息。
由于后向自适应能在发收两端自动生成量化阶,所以它不需要传送边信息。
前向自适应和后向自适应APCM的基本概念,如图3-13所示。
图中的s(k)是发送端编码器的输入信号,sr(k)是接收端译码器输出的信号。
APCM方块图
图3-13APCM方块图
(a)前向自适应
(b)后向自适应
DPCM
3.5.2差分脉冲编码调制(DPCM)的概念
DPCM(differentialpulsecodemodulation)是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。
原理:
根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。
与脉冲编码调制(PCM)的不同:
PCM直接对采样信号进行量化编码,而DPCM对实际信号值与预测值之差进行量化编码,存储或者传送的是差值而不是幅度绝对值,这就降低了传送或存储的数据量。
此外,它还能适应大范围变化的输入信号。
原理
se(k-1):
对s(k)的预测值,而不是过去样本的实际值。
差分信号d(k)=离散输入信号s(k)-预测器估算值se(k-1)。
DPCM系统实际上就是对这个差值d(k)进行量化编码,用来补偿过去编码中产生的量化误差。
DPCM系统是一个负反馈系统,采用这种结构可以避免量化误差的积累。
重构信号sr(k)是由逆量化器产生的量化差分信号dq(k),与对过去样本信号的估算值se(k-1)求和得到。
它们的和,即sr(k)作为预测器确定下一个信号估算值的输入信号。
由于在发送端和接收端都使用相同的逆量化器和预测器,所以接收端的重构信号sr(k)可从传送信号I(k)获得。
DPCM方块图
图3-14DPCM方块图
ADPCM
3.5.3自适应差分脉冲编码
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- mmch03XSJpptConvertor