小程序
传感搜
传感圈

计算机组成原理—非数值型数据的表示

2023-05-24
关注

2.2 非数值型数据的表示

非数值的文字和其他符号也要数字化为二进制编码表示。

2.2.1 字符和字符串

1.ASCII码:American Standard Code for Information Interchange,美国信息交换标准代码。

ASCII码由7位二进制数码组成。

字符的具体ASCII编码见教材P36表2-1所示。

常用的:

  • 0~9的ASCII码:30H ~ 39H
  • A~Z的ASCII码:41H ~ 5AH
  • a~z的ASCII码:61H ~ 6AH

将ASCII码的最高位置0或一位奇偶校验位,存储时占一个字节。

2.字符串及其存储

以ASCII码形式在主存中占用连续的多个字节。

当主存的字长是多个字节时,同一主存字中可以按从低位字节向高位字节顺序存放字符串,也可以按从高位字节向低位字节的次序存放字符串。

如:字长为4字节的主存,存放字符串“IF˽ A>B ˽ THEN ˽ X=2”,可以是如下两种存放形式:

2.2.2 汉字的表示

三种类型的编码

汉字在计算机中存储、传输、交换、输出,需要有输入、内部处理和输出三种类型的编码。

1.汉字国标码、区位码

国标码是我国在1981年公布的GB2312-80编码,主要用于汉字信息处理系统或者通信系统之间交换信息。

规定:一个汉字用两个字节表示,每个字节只用低七位编码,最高位为0,未作定义。最多能够表示出128´128=16384个汉字。目前,国标码共收集了6763个常用汉字。

GB2312-80码将汉字分成94个区,每个区又包含94个位,每个汉字对应一个区号和位号,也常称为区位码。

例如:汉字“青”在39区64位,其区位码是3964;汉字“岛”在21区26位,其区位码是2126。

2.汉字机内码

简称内码,是汉字在计算机内部进行存储、交换、检索等操作的一种代码,一般采用两字节表示。

国标码每个字节的最高位都是“0”,与ASCII码无法区分。

例如:两个字节内容是30H和21H时,可以认为是一个汉字“啊”的国标码,也可以理解为两个英文字符“0”和“!”的ASCII码。

将国标码的两个字节的最高位设定为1,得到相应的机内码。

例如,汉字“啊”的机内码是:10110000 10100001

3.汉字的输入编码

目前常用的输入编码方法有以下几种:

(1)数字编码:常用的区位码。每输入一个汉字需按4次键。

无重码,与内码之间的转换方便,代码难记忆。

(2)拼音码:输入重码率很高,影响输入的速度。

改进:增加智能联想功能,提高输入速度。

(3)字形编码:五笔字型编码是一种最有影响的字形编码。

上述都是利用键盘进行“手动”输入。理想的输入方式是利用语音或图像识别技术“自动”将汉字输入到计算机内,使计算机能认识汉字、听懂汉语,并将其自动转换为机内码。目前写字板手写输入,语音输入,扫描仪识别文字输入等。

4.汉字字模码

用点阵表示汉字字形的编码实现输出汉字(显示或打印)。

16×16点阵表示的汉字“英”的编码:

字模点阵占用的存储空间很大,一般只能用来构成汉字库,而不用于机内存储。当显示或打印输出时检索字库,输出字模点阵,得到字形。

采用字形数据压缩技术节省存储空间。如矢量汉字采用矢量方法,将汉字点阵字模进行压缩。

2.2.3 Unicode编码

  • code编码也被称为统一代码,适用于世界上所有语言。
  • Unicode的每一个字符采用2个字节,可以表示65536个不同字符。兼顾已存在的编码方案,前128个字符编码0000h~007Fh与ASCII码字符一致。
  • 这种编码方式对国际商业和通讯来说非常有用。
  • Unicode还适合于软件的本地化,即针对特定的国家修改软件:使用Unicode,软件开发人员可以修改屏幕的提示、菜单和错误信息,以适用于不同的语言和地区。
  • Unicode编码在Internet中有着较为广泛的使用

2.3 其他信息的数字化

语音、图像、图形等信息在计算机中的二进制编码的形式。

1.语音信息的数字化

语音是一种模拟信号,不能直接进入计算机存储。需经过对声音信号进行采样和量化后才能进入计算机存储。

(1)采样:由麦克风、录音机等录音设备把语音信号变成频率、幅度连续变化的电流信号,经过采样得到一组与声音信号幅值相对应的离散的数值,其包含了声音信号的频率和幅值的特征信息。

(2)量化:将采样得到的声音的离散的数据值换成一个n位二进制的数字量。

(3)编码:对量化后的二进制数字按照一定的格式进行编码,形成相应格式的文件存储。为了方便存储或传输,音频信息通常还要进行压缩。常用的声音文件格式有mp3、mav、midi等。

2.图像信息的数字化

  • 一幅图像可以看作是由一个个像素点构成。
  • 图像的数字化,就是对每个像素点的灰度值进行采样、量化,再进行编码的过程。
  • 常用图像信息的文件格式有bmp、gif、jpg等。

3.图形信息的数字化

  • 图形的基本元素是图元,只需要知道图元的几个特征数据就可以通过图形指令进行描述。
  • 比如,只需要知道半径和圆心就能画出圆的图形。
  • 图形信息只需要存储包含的各图元指令,所以占用的存储空间比位图图像小许多。

  • 电脑
  • 编码转换
  • ascii
  • ascii码
  • 字符编码
  • 计算机组成原理
您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

慧生活

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

介绍一种KV存储的GC优化实践

提取码
复制提取码
点击跳转至百度网盘