数字媒体及其应用.docx
- 文档编号:12712420
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:18
- 大小:262.66KB
数字媒体及其应用.docx
《数字媒体及其应用.docx》由会员分享,可在线阅读,更多相关《数字媒体及其应用.docx(18页珍藏版)》请在冰点文库上搜索。
数字媒体及其应用
第三章数字媒体及应用
学习目的:
理解GB2312,GBK和GB18030三种汉字编码标准的内容、关系与应用,熟悉中文文本准备的方法;熟悉图像在计算机中的表示;掌握声音获取的方法与设备;熟悉视频压缩编码的几种标准及其应用。
学习重点:
中西文编码、图像、声音在计算机中的表示。
学习难点:
中西文编码、视频压缩编码标准。
5.1文本与文本处理
文字:
一种书面语言,由一系列称为“字符”(character)的书写符号构成。
文本(text):
文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。
组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
文本在计算机中的处理过程:
文本的准备(例如汉字的输入),文本编辑,文本处理,文本存储与传输、文本展现等,根据应用的不同,各个处理环节的内容和要求可能有很大的差别。
一、字符的编码
1.西文字符的编码
字符集:
常用字符的集合。
西文字符集:
由拉丁字母、数字、标点符号及一些特殊符号组成。
字符的编码:
字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
字符代码表:
字符集中不同字符的编码互相区别,构成该字符集的代码表。
ASCII字符集和ASCII码
美国标准信息交换码(AmericanStandardCodeforInformationInterchange):
使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。
基本的ASCII字符集共有128个字符。
96个可打印字符(常用字母、数字、标点符号等)和32个控制字符。
特殊字符的ASCII码有空格(32)、A(65)、a(97)、0(48)。
标准ASCII码是七位的编码,但字节是计算机中最基本的处理单位,故以一个字节来存放一个ASCII字符。
每个字节中多出来的一位一般保持为“0”,在数据传输时可用作奇偶校验位。
扩充ASCII字符集:
标准ASCII字符集只有128个不同的字符,在很多应用中无法满足要求。
按照ISO2022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为1的8位代码(十进制数128~255),称为扩展ASCII码。
2.汉字的编码
(1)GB2312-80汉字编码
《信息交换用汉字编码字符集·基本集》(GB2312-80)
组成:
第一部分:
字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。
第二部分:
一级常用汉字,共3755个,按汉语拼音排列。
第三部分:
二级常用字,共3008个,按偏旁部首排列。
区位码:
GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。
每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。
每个汉字的区号和位号分别用1个字节来表示,
如:
“大”字的区号20,位号83,区位码是2083
用2个字节表示为:
0001010001010011。
国标交换码:
为了避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(即二进制00100000)。
经过这样处理得到的代码称为汉字的“国标交换码”(简称交换码)。
因此,“大”字的交换码是:
0011010001110011。
机内码:
把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。
这种高位为l的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。
如:
“大”字的内码是:
1011010011110011(B4F3)
高位字节(7位):
qqqqqqq=>0qqqqqqq(区号)
低位字节(7位):
wwwwwww=>0wwwwwww(位号)
例如:
“啊”
区位码:
1601=>1001H0001000000000001
国标码:
3021H<=1001H
+2020H0011000000100001
机内码:
B0A1H<=3021H
+8080H1011000010100001
(2)GBK汉字内码扩充规范
问题:
GB2312-80只有6763个汉字,使用时功能不够。
解决方法:
1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。
组成:
21003个汉字,883个图形符号。
应用:
操作系统——Windows95以上简体中文版,采用GBK代码,并提供了多种输入法和字体
应用软件——Office95以上简体中文版本提供GBK码的检索和排序
互联网应用——许多网站的网页使用GBK代码,但目前还不是所有搜索引擎都支持GBK汉字文本的搜索
(3)UCS/Unicode与GB18030汉字编码标准
优点:
编码空间极大,能容纳足够多的各种字符集(13亿字符)。
缺点:
4字节的字符编码使存储空间浪费严重。
克服:
在UCS/Unicode编码空间中,把第1和第2字节均为“0”的一个子空间(称为基本多文种平面BMP),作为UCS/Unicode的子集来使用,记作UCS-2。
UCS-2是双字节编码,共有字符49194个,其中包括:
欧洲及中东地区使用的拉丁字母、音节文字;各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号;中、日、韩(CJK)统一编码的汉字。
二、文本的准备
文本信息的输入方法:
人工输入:
通过键盘、手写笔或语音输入方式输入字符。
特点:
速度慢、成本高,不适合需处理大批量文字的应用。
自动输入:
将纸介质上的文本通过识别技术自动转换为文字的编码。
特点:
速度快,效率高。
文字的自动识别分为:
印刷体识别和手写体识别。
1.汉字键盘输入
由于汉字字数很多,无法使每个汉字与西文键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就称为汉字的“键盘输入编码”。
好的汉字键盘输入编码方案的特点:
易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。
汉字的输入编码与汉字的内码是不同范畴的概念。
使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。
汉字输入编码方法的分类:
(1)数字编码:
使用一串数字来表示汉字的编码方法,例如电报码、区位码等。
缺点:
难以记忆,不易推广。
(2)字音编码:
一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。
缺点:
同音字引起的重码多,需增加选择操作。
(3)字形编码:
将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码等。
缺点:
编码规则不易掌握。
(4)形音编码:
吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少
缺点:
不易掌握。
2.非击键式的汉字输入方法
三、文本的分类与表示
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。
由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。
使用计算机制作的数字文本,根据用途分为:
简单文本、丰富格式文本和超文本三类。
1.简单文本(纯文本)
简单文本(plaintext):
是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。
这种文本通常称为纯文本或ASCII文本,在PC机中的文件后缀名是.txt
特性:
呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别和处理不能插入图片、表格等,不能建立超链接
2.丰富格式文本
3.超文本
线性文本:
传统的顺序式阅读。
超文本(hypertext)的阅读方式:
通过链接、跳转、导航、回溯等操作实现跳跃式阅读。
超文本的结构:
节点(node)和节点包含的内容。
超链(hyperlink):
链源和链宿。
超媒体(Hypermedia):
超文本中的节点不单是文本节点,还包含图形、图像、声音或动画节点,这种基于多媒体信息结点的超文本,有时也称为“超媒体”。
四、文本处理
1.文本编辑
文本编辑的主要功能:
对字、词、句、段落进行添加、删除、修改等操作。
字的处理:
设置字体、字号、字的排列方向、间距、颜色、效果等;段落的处理:
设置行距、段间距、段缩进、对称方式等;页面布局的处理:
设置页边距、每页行列数、分栏、页眉、页脚等。
“所见即所得”(WhatYouSeeIsWhatYouGet,简称WYSIWYG):
一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。
2.文本处理
文本处理内容:
字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换;词语排序,词语错误检测,文句语法检查;自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换;文本压缩,文本加密,文本著作权保护;关键词提取,文摘自动生成,文本分类;文本检索(关键词检索、全文检索),文本过滤;文语转换(语音合成),文种转换(机器翻译);篇章理解,自动问答,自动写作等。
3.常用文本处理软件
(1)面向通信的文本处理软件
(2)面向办公的文本处理软件
典型软件:
MS-Office、WPS2000、永中Office中的文本处理软件。
(3)面向出版的文本处理软件
典型排版软件:
方正集团公司的“飞腾”排版软件、美国Adobe公司的PageMaker和PDFWriter。
(4)面向网络信息发布和电子出版的文本处理软件
5.文本的展现
文本输出:
在屏幕上显示文本,用打印机打印文本等操作。
文本输出过程:
首先要对文本的格式描述进行解释,然后生成文字和图表的映像(bitmap),最后再传送到显示器或打印机输出。
文本阅读器:
承担上述文本输出任务的软件,也称为浏览器。
它们可以是嵌入在文本处理软件中的一个模块,如微软的Word,也可以是独立的软件,如Adobe公司的AcrobatReader,微软公司的IE等。
5.2图像与图形
图像按生成方法分类:
从现实世界中通过数字化设备获取的图像,称为:
取样图像(sampledimage)、点阵图像(dotmatriximage)、位图图像(bitmapimage)——简称图像(image)。
计算机合成的图像(syntheticimage),称为:
矢量图形(vectorgraphics),简称图形(graphics)。
一、图像的获取
1.图像的数字化
图像的获取(capturing):
从现实世界中获得数字图像的过程。
图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤:
取样、分色、量化。
2.数字图像获取设备
设备:
从现实世界获得数字图像过程中所使用的设备通称为数字图像获取设备。
设备的功能:
将现实的景物输入到计算机内并以取样图像的形式表示。
2D图像获取设备(如扫描仪、数码相机等)只能对图片或景物的2D投影进行数字化。
3D扫描仪能获取包括深度信息在内的3D景物的信息。
二、图像的表示与压缩编码
1.图像的表示方法与主要参数
从取样图像的获取过程可以知道,一幅取样图像由M(行)*N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素(pictureelement,简写为pel)。
彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值。
图像的属性信息:
图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率);位平面的数目,即矩阵的数目,也就是彩色分量的数目;颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。
常用颜色模型:
RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等;像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目。
2.图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位):
图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8
图像数据压缩的可能性:
由于数字图像中的数据相关性很强,数据的冗余度很大,因此对数字图像进行大幅度的数据压缩是完全可能的。
而且,人眼的视觉有一定的局限性,即使压缩前后的图像有一定失真,只要限制在人眼允许的误差范围之内,也是允许的。
图像压缩方法很多,不同方法适用于不同的应用,在计算机中常常是多种压缩方法的综合使用。
为得到较高的数据压缩比,一般都采用有损压缩。
压缩编码方法优劣的评价:
压缩倍数的大小、重建图像的质量(有损压缩时)、压缩算法的复杂程度。
图像压缩编码方法的国际标准和工业标准:
ISO和IEC两个国际机构联合组成了一个专家组(JointPhotographicExpertsGroup,JPEG),制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准。
JPEG2000:
适用于各种不同类型(黑白、灰度、彩色等)和不同特性(自然、医学、遥感、合成)的图像,可用于不同的应用模式(实时传输、检索、存档等)。
采用了小波分析等先进算法,提供了更好的图像质量,更低的码率,更适合在WWW网上传输等,它兼容JPEG
3.常用图像文件格式
BMP(BitMaP-file)图像:
微软公司在Windows操作系统下使用的一种标准图像文件格式,一个文件存放一幅图像,可以使用行程长度编码(RLC)进行无损压缩,也可不压缩。
不压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows应用软件都能支持。
TIFF(TaggedImageFileFormat)图像文件格式:
用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形应用软件支持这种文件格式。
由文件头、文件目录、目录条目三个部分组成。
常用图像文件格式
GIF(GraphicsInterchangeFormat):
互联网上广泛使用的一种图像文件格式,它的颜色数目较少(不超过256色),文件特别小,适合网络传输。
由于颜色数目有限,GIF适用于插图、剪贴画等色彩数目不多的应用场合。
GIF格式能够支持透明背景,具有在屏幕上渐进显示的功能。
尤为突出的是,它可以将许多张图像保存在同一个文件中,显示时按预先规定的时间间隔逐一进行显示,从而形成动画的效果,因而在网页制作中大量使用。
由CompuServe公司1987年开发,基于Lempel-ZivWalch(LZW)压缩算法、使用特殊码、可变长度。
三、数字图像处理与应用
1.数字图像处理
数字图像处理:
使用计算机对来自照相机、摄像机、传真机、扫描仪、医用CT机、X光机等的图像,进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理
对图像进行处理的主要目的:
提高图像的视感质量、图像复原与重建、图像分析、图像的存储、管理、检索,以及图像内容与知识产权的保护等。
2.图像处理软件
与应用领域密切相关,通常具有很强的专业性,如遥感图像处理软件、医学图像处理软件等。
使用较多的是面向办公、出版与信息发布的图像处理软件,也称为图像修饰(imageretouching)或图像编辑软件,支持多种不同的图像文件格式,提供多种图像编辑处理功能,可制作出生动形象的图像。
如美国Adobe公司的PhotoShop,集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体,是一个流行的图像处理工具。
3.数字图像的应用
(1)图像通信
(2)遥感
(3)医疗诊断
(4)工业生产中的应用
(5)机器人视觉
(6)军事、公安、档案管理
四、计算机图形
1.景物形状的计算机表示
景物的模型(model):
景物在计算机内的描述。
景物的建模(modeling):
人们进行景物描述的过程。
绘制(rendering):
也称图像合成(imagesynthesis),根据景物的模型生成图像的过程,所产生的数字图像称为计算机合成图像。
计算机图形学(ComputerGraphics):
研究如何使用计算机描述景物并生成其图像的原理、方法与技术。
计算机合成图像的过程
几何模型:
景物建模方法与景物类型有关。
普通工业产品(如电视机、电话机、汽车、飞机等),使用基本的几何元素(如点、线、面、体等)及表面材料的性质等进行描述所建立的模型。
几何模型应用:
工业产品的计算机辅助设计/制造.
过程模型/算法模型:
根据景物的生成规律,并使用相应的算法来描述其规律所建立的模型
2.计算机合成图像的绘制
图像绘制/图像合成:
在计算机内建立了景物的模型之后,从景物的模型生成用户可见的具有高度真实感的该景物的图像的过程。
使用计算机合成图像的主要优点:
能生成实际存在的具体景物的图像,还能生成假想或抽象景物的图像;能生成静止图像,还能生成各种运动、变化的动态图像。
3.计算机合成图像的应用
计算机合成图像的应用:
计算机辅助设计和辅助制造(CAD/CAM);利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等;作战指挥和军事训练;计算机动画和计算机艺术;其他:
电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等。
4.矢量绘图软件
矢量图形:
计算机合成图像。
矢量绘图软件:
制作矢量图形的软件。
如:
AutoCAD、MAPInfo、ARCInfo等。
2D的矢量绘图软件:
Corel公司的CorelDraw、Adobe公司的Illustrator、Macromedia公司的FreeHand、微软公司的MicrosoftVisio、微软公司Office办公套件中的Word和PowerPoint。
5.3数字声音及应用
一、波形声音的获取与播放
1.声音信号的数字化
声音:
由振动而产生,通过空气进行传播。
它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽(bandwidth),带宽是声音的一项重要参数。
多媒体技术处理的声音信号主要是人耳可听到的20~20kHz的音频信号(audio)。
言语(speech)/语音:
人说话的声音,其频率范围约为300~3400Hz。
全频带声音:
音乐声、风雨声、汽车声等其他声音,其带宽可达到20~20kHz。
声音信号的数字化:
将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程。
声音信号数字化的过程:
取样、量化、编码。
2.波形声音的获取设备
麦克风:
将声波转换为电信号。
声卡(soundcard):
进行数字化。
波形声音的获取:
把模拟的声音信号转换为数字形式。
(话筒或线路输入、单双道)。
3.声音的播放
声音播放:
计算机输出声音的过程。
声音重建步骤:
声音重建(reconstruction):
把声音从数字形式转换成模拟信号形式;解码;数模转换;插值处理。
将模拟声音信号经过处理和放大送到扬声器发出声音。
声音的重建也是由声卡完成的。
声卡输出的声音需送到音箱去发音。
音箱分类:
普通音箱:
接收的是重建的模拟声音信号。
数字音箱:
可直接接收声卡输出的数字声音信号,避免信号在传输中发生畸变和受到干扰,其音响效果更加突出。
二、波形声音的表示与压缩编码
1.波形声音的主要参数
取样频率、量化位数、声道数目、使用的压缩编码方法、数码率(bitrate):
指的是每秒钟的数据量,也称比特率、码率。
数字声音未压缩前,其计算公式为:
波形声音的码率=取样频率×量化位数×声道数。
压缩编码以后的码率=压缩前的码率/压缩倍数。
2.全频带声音的压缩编码
问题:
数据量很大。
如CD盘片上所存储的立体声高保真的全频带数字音乐,1小时的数据量大约是635MB。
目的与办法:
降低存储成本和传输通信带宽,对数字波形声音进行数据压缩。
波形声音数据压缩的可能性:
声音信号中包含有大量的冗余信息,再加上还可以利用人的听觉感知特性,因此,产生了许多压缩算法。
声音数据压缩算法的评价:
压缩倍数高,声音失真小,算法简单,编码器/解码器的成本低
MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:
层1(Layer1):
编码简单,用于数字盒式录音磁带
层2(Layer2):
算法复杂度中等,用于数字音频广播(DAB)和VCD等
层3(Layer3):
编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍
3.数字语音的压缩编码
语音:
空气通过声道引起声门振动产生语音:
带宽只有300~3400Hz。
压缩方法:
波形编码(基于感觉模型的压缩方法),特点:
码率较高(64kb/s、32kb/s)、语音质量高,算法简单、易实现,应用:
固定电话通信系统、多媒体文档。
参数编码或模型编码,特点:
码率很低、声音质量较差;应用:
保密通信。
混合编码,特点:
中度码率(4.8-16kb/s)、压缩比较高、语音质量较好;应用:
移动通信、IP电话。
数字语音压缩编码方法的比较
三、波形声音的编辑
声音编辑软件的功能
基本编辑操作:
声音的剪辑(删除、移动或复制一段声音,插入空白等)、声音音量调节(提高或降低音量,淡入、淡出处理等)、声音的反转、持续时间的压缩/拉伸、消除噪音、声音的频谱分析。
声音的效果处理:
包括混响、回声、延迟、频率均衡、和声效果、动态效果、升降调、颤音等。
格式转换功能。
其他功能:
如分轨录音,配音,刻录CD唱片等。
四、计算机合成声音
语音合成(Speechsynthesis):
根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程。
目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text-To-Speech,简称TTS)。
文语转换过程:
文本分析、韵律分析、语音生成。
语音库:
语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)的波形,合成时读取语音基元的波形,将这些波形进行拼接和韵律修饰,然后输出连续语音流。
对计算机合成的语音希望能达到的要求:
发音清晰可懂、语气语调自然、说话人可选择、语速可变化等。
计算机合成语音的应用:
股票交易、航班动态查询、电话报税等业务、有声E-mail服务、CAI课件或游戏解说词的自动配音、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等。
MIDI(MusicalInstrumentDigitalInterface):
计算机中描述乐谱的一种标准描述语言,规定了乐谱的数字表示方法(包括音符、定时、乐器等)和演奏控制器、音源、计算机等相互连接时的通信规程。
5.4数字视频及应用
一、数字视频基础
1.电视基本知识
电视画面:
一种光栅扫描图像,一般采用隔行扫描方式,即图像由奇数场和偶数场两部分组成,合起来组成一帧图像。
PAL制式(中国采用):
帧频25帧/s,场频50场/s,图像的垂直分辨率(一帧图像中的扫描线总数)625线,可见部分575线,不可见的回扫线50线,→电视信号行频为625×25=15.625kHz。
远距离传输时用亮度信号Y和两个色度信号U、V来表示,优点:
能与黑白电视接收机保持兼容,Y分量由黑白电视机直接显示而无需做进一步处理,可利用人眼对两个色度信号不太灵敏的视觉特性来节省电视信号的带宽和发射功率。
2.视频信号的数字化
数字视频与模拟视频相比的优点:
复制和传输时不会造成质量下降;容易进行编辑修改;有利于传输(抗干扰能力强,易于加密);可节省频
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字 媒体 及其 应用
![提示](https://static.bingdoc.com/images/bang_tan.gif)