第5讲-第1章数据的表示与编码.ppt
- 文档编号:18768565
- 上传时间:2023-11-04
- 格式:PPT
- 页数:33
- 大小:1.04MB
第5讲-第1章数据的表示与编码.ppt
《第5讲-第1章数据的表示与编码.ppt》由会员分享,可在线阅读,更多相关《第5讲-第1章数据的表示与编码.ppt(33页珍藏版)》请在冰点文库上搜索。
第1章数据的表示与编码,计算机科学概论第5讲,主要内容:
字符的编码ASCII码(掌握)汉字的编码(理解)Unicode码(了解)静态图像的编码(了解)动态数据的编码(了解),1.3非数值信息的编码,随着现代计算机运用的深入,计算机不仅仅进行科学计算,实际上更大量的工作是用于处理人们日常工作和生活中最常使用的信息形式,也就是所谓的非数值型数据,包括语言文字、逻辑语言、视频图像等非数值信息。
这需要为计算机找到一种合适的方法来表达这些信息。
计算机中使用了不同的编码来表示和存储数字、文字符号、声音、图片和图像(视频)信息。
编码(或代码)通常指的是一种在人和机器之间进行信息转换的系统。
编码是人们在实践中逐步创造的一种用较少的符号来表达较复杂信息的表示方法。
1.3非数值信息的编码,1、字符的编码ASCII码字符是非数值型数据的基础,字符与字符串数据是计算机中用得最多的非数值型数据。
在使用计算机的过程中,人们需要利用字符与字符串编写程序、表示文字及各类信息,以便与计算机进行交流。
为了使计算机硬件能够识别和处理字符,必须对字符按一定规则用二进制进行编码,使得系统里的每一个字母有唯一的编码;文本中还存在数字和标点符号,所以也必须有它们的编码。
美国最先制定了符合他们使用需要的美国标准信息交换代码(AmericanStandardCodeforInformationInterchange),简称ASCII码。
1.3非数值信息的编码,ASCII码包含7位二进制编码,可表示27=128个不同的字符。
标准ASCII码表可以看成由三部分组成:
第一部分:
00H1FH,共32个编码,一般用来通讯或作为控制来用,有些则不能显示,但能看到其效果(如换行、退格)。
如表1-4所示。
1.3非数值信息的编码,表1-4标准ASCII码表:
00H1FH,1.3非数值信息的编码,第二部分:
20H7FH,共96个其中编码值20H表示空格,其余95个用来表示阿拉伯数字、英文字母大小写和下划线、括号等符号,这些字符都可以在屏幕上显示,见表1-5所示。
表1-5标准ASCII码表:
20H7FH,1.3非数值信息的编码,例1-28:
已知字符“A”的ASCII码为41H,由此推算01000011B所对应的字符是()。
已知字符“M”的ASCII码为4DH,由此推算字符“F”的ASCII码是()。
1.3非数值信息的编码,第三部分:
80H0FFH,共128个字符,一般称为“扩充字符”。
这些字符是由IBM制定的,并非标准的ASCII码,用来表示框线、音标和其它欧洲非英语系的字母。
见表1-6所示。
表1-6扩展ASCII码表:
80HFFH,2、汉字编码计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。
汉字进入计算机,有许多困难,其原因主要有三点:
数量庞大:
现在汉字总数已超过6万个(包括简化字)。
有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。
字形复杂:
古体、今体、繁体、简体,而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。
存在大量一音多字和一字多音的现象:
以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。
有的同音同调字多达66个。
一字多音现象也很普遍。
1.3非数值信息的编码,国标码:
我国国家标准局于1981年5月颁布了信息交换用汉字编码字符集基本集,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。
其编码原则为:
汉字用两个字节表示,每个字节占用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码;如“保”字在二维代码表中处于17区第3位,区位码即为“1703”。
1.3非数值信息的编码,1.3非数值信息的编码,国标码并不等于区位码,它是由区位码稍作转换得到。
转换方法为:
先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。
如:
“保”字的国标码为3123H,它是经过下面的转换得到的:
1703D1103H-+20H3123H。
1.3非数值信息的编码,国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,所以与ASCII码发生了冲突,如“保”字,国标码为31H和23H,而西文字符“1”和“#”的ASCII码也为31H和23H,现假如内存中有两个字节为31H和23H,这到底是一个汉字“保”,还是两个西文字符“1”和“#”?
于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,就出现了汉字的机内码,它是由国标码转换得到的。
其转换方法为:
将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:
由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B即为B1A3H,因此,“保”字的机内码就是B1A3H。
机内码是计算机内表示汉字的代码。
1.3非数值信息的编码,编码的转换,例1-29:
已知汉字“文”的区位码是4636,求其国标码和机内码。
解:
“文”的区位码为4636,区码和位码分别用16进制表示即为2E24H,转换成国标码4E44H,二进制为0100111001000100,机内码二进制为1100111011000100,即CEC4H。
1.3非数值信息的编码,总结:
国标码=区位码+2020H机内码=国标码+8080H,GB2312-80标准未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以不能满足少数用字量超过基本集的用户和台湾、香港等地的需要。
2000年3月17日,中华人民共和国发布了新的汉字编码国家标准GB18030-2000信息交换汉字编码字符集基本集的扩充,2001年8月31日后在中国市场上发布的软件必须符合本标准。
GB18030-2000包含27484个字。
1.3非数值信息的编码,汉字在计算机中的处理过程:
图1-5计算机对于汉字的处理流程,1.3非数值信息的编码,汉字输入方法:
键盘输入、语音输入、手写输入等。
键盘输入方式:
将每个汉字用一个或几个英文键表示,这种表示方法称为汉字的“输入编码”。
汉字输入编码的种类:
字音编码:
如搜狗、智能ABC等。
字形编码:
如五笔字型等。
汉字输出编码:
操作系统必须输出以点阵形式组成的汉字字形码。
各种汉字字形码以一定的规则存储于汉字库中。
通过地址码即可找到要输出汉字在汉字库中的位置。
1.3非数值信息的编码,3、Unicode码Unicode即统一码,又称万国码,是一种在计算机上使用的字符编码。
Unicode码采用唯一的16位模式来表示每一个符号,每个字符占用2个字节。
因此,Unicode可以表示65536个不同的字符。
Unicode包含了GB18030里面的所有汉字。
1.3非数值信息的编码,Unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
Unicode扩展自ASCII字元集,可扩展到32位,这使得Unicode能够表示世界上所有的书写语言中可能用于电脑通讯的字元、象形文字和其他符号,这使其有可能成为ASCII的替代者。
1.3非数值信息的编码,4、静态图像编码计算机表示静态图像的两种方式:
位图图像矢量图,1.3非数值信息的编码,
(1)位图图像在位图表示图像的方法中,图像被分成像素矩阵,也称点阵,每个像素是一个小点。
像素的大小取决于分辨率。
把图像分成像素之后,每一个像素被赋值为一个位模式。
模式的尺寸和值取决于图像。
例如:
对于一个仅由黑白点组成的图像(例如棋盘),一个1位模式已足够表示一个像素。
0模式表示黑像素,1模式表示白像素。
位图文件的基本编码格式为BMP(bitmap的缩写)文件。
BMP是一种与硬件设备无关的图像文件格式。
标签图像文件(TaggedImageFileFormat,简写为TIFF)格式是图像专业领域使用较广泛的一种编码形式,主要用来存储照片和艺术图等对图像质量要求较高的平面图像。
它也是位图文件格式的一种。
1.3非数值信息的编码,位图图像文件的方法中,体积太大,对计算机的存储和传输都产生很大压力。
静态图像文件信息具有一定的规律,在保证其基本信息正确的前提下,可以适当通过一定的算法缩小图像文件大小。
压缩方案有两类。
一类是无损压缩,一类是有损压缩。
无损压缩:
指压缩后信息表达的质量没有下降,只是文件大小减小。
有损压缩:
指在影响信息表达质量的前提下,为加大压缩效率,尽可能减小文件的大小。
1.3非数值信息的编码,图形压缩编码:
当前最主流的图像压缩方式是JPEG(JointPhotographicExpertsGroup,联合图像专家组)编码格式,文件后辍名为“.jpg”或“.jpeg”JPEG压缩技术即能支持无损压缩,也支持大压缩比的有损压缩。
JPEG是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合应用于互联网,可减少图像的传输时间。
1.3非数值信息的编码,
(2)矢量图位图图像表示法存在的问题是,一幅特定的图像采用精确位模式表示后,必须存储在计算机中。
随后,如果想重新调整图像的大小,就必须改变像素的大小,这将出现屏幕抖动现象。
矢量图表示方法并不存储位模式,它是将图像分解成一些曲线和直线的组合,其中每一曲线或直线由数学公式表示当图像要显示或打印时,将图像的尺寸作为输入传给系统。
系统重新设计图像的大小并用相同的公式画出图像。
每次调整矢量图时,计算机将绘图公式重新估算一次,并根据新公式画出图像,由于重新估算公式的计算量远小于调整像素的工作量,因此可以有效避免屏幕抖动现象。
1.3非数值信息的编码,5、动态数据的编码计算机中动态信息按表达形式可以归纳为两类:
音频信息视频信息,1.3非数值信息的编码,1.3非数值信息的编码,
(1)音频信息的编码音频包括各种声音信息形式。
基本想法即将音频转换成数字,并使用位模式存储它们。
音频信息的具体处理过程见图1-6:
输入模拟量数字量存储、处理输出模拟量,1.3非数值信息的编码,音频编码压缩编码也分为有损压缩和无损压缩两种。
无损压缩-PCM(PulseCodeModulation,脉冲编码调制)方式:
处理后的音频信息音质较好,但是文件体积较大。
在CD、DVD以及WAV文件中均有应用。
有损压缩-MP3(MPEGAudioLayer-3)是目前最为普及的音频压缩编码格式,是MPEG1的衍生编码方案。
MP3可以做到12:
1的压缩比并保持音质基本可接受。
随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。
1.3非数值信息的编码,
(2)视频信息的编码视频是单幅图像在时间上的连续表示,是典型的动态数据类型。
动态视频的基础是前面讨论过的静态单幅图像,在这里称为帧。
动态视频压缩的基础理论就是在单幅图像压缩的基础上,再结合帧与帧之间的相关性,进行进一步压缩。
1.3非数值信息的编码,最有影响的视频编码技术是MPEG(MovingPicturesExpertsGroup,动态图像专家组),它属于国际标准化组织(ISO/IEC)。
MPEG标准主要有MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等五个。
视频编码原理:
MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术减小时间冗余度,利用量化编码技术减小图像的空间冗余度,利用熵编码减小信息表示方面的统计冗余度。
第1章数据的表示与编码,课后作业:
P41-43二练习题中的13、68、1011、14、1720、22、2433,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 表示 编码