内容正文:
浙教版信息技术必修一《数据与计算》
第一章 数据与信息
【知识结构体系】
【知识梳理】
三、数据采集与编码
(四)编码
1. 字符编码
(1)ASCII码
ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是一套基于拉丁文字母的计算机编码系统,主要用于显示现代英语和其他西欧语言。
基本的ASCII码共有128 个,用1 个字节中的低7位编码。二进制范围为00000000~01111111,即十六进制的00~7F。基本的ASCII码由33个控制字符、10个阿拉伯数字、26个英文大写字母、26个英文小写字母与一些标点符号、运算符号组成。
(2)汉字编码
计算机中的汉字也是采用二进制进行编码的。汉字编码分为外码、交换码、机内码和字形码。其中,外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字形码等。
根据国标码(GB2312)的规定,每一个汉字都有确定的二进制代码,在计算机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码,在早期的GB2312字符集中,1 个汉字在计算机中用2个字节表示。1个英文字母在计算机内用ASCII编码,占1个字节表示。
· 补充提醒
(1)”10”的内码是31 30。
(2)小写字母的编码比对应的大写字母大32D。如“A”的ASCII码为65,“a”的ASCII码为97(均为十进制),十六进制相差20H。
(3)i为69H,j为6AH。
(4)做题中关注点在字符的内码,内码的每个字节开头是0~7,还是8~F。
2.条形码
(1)定义:条形码(barcode)是将宽度不等的多个黑条和白条,按照一定的编码规则排列,用以表达一组信息的图形标识符。
(2)EAN13条形码
我国普遍采用,最后一位叫校验码,用来检查扫描到的数字是不是有错误,这个数字由前12 位数字按一定规律计算得到。
3.二维码
(1)定义:二维条码 / 二维码(2-dimensional bar code)是用某种特定的几何图形按一定规律在平面上(二维方向)分布的黑白相间的图形记录数据符号信息。
相对条形码,二维码存储信息量更大。
(2) 对条形码和二维码的识别过程中虽然用到了摄像头,但信息是直接从图形编码中获取的,所以不涉及数字化的过程。
4.声音编码
(1)将模拟声音数字化需要经过采样、量化、编码三个过程
(2)常见的声音文件类型有Wave、MP3、WMA等。
(3)Wave格式音频文件的存储容量可以通过下面的公式进行计算:
存储容量=采样频率(Hz)× 量化位数(bit)× 声道数× 时长(s)(单位:位)
5.图像编码
数字图像包括矢量图形与位图图像。
(1)矢量图形
矢量图形是指用点、直线或者多边形等基于数学方程的几何图元表示的图像。
文件大小一般比位图要小,而且文件大小与图形大小无关,任意放大矢量图形,不会丢失细节或影响清晰度。
(2)位图图像
①定义:位图图像又称栅格图或点阵图,将图像数字化也需要经过采样、量化、编码等环节。
②组成元素:像素点
③颜色位深度:图像的量化是指要使用多大范围的数值来表示图像采样之后每个像素的颜色信息。一般用二进制数来表示,其长度也称为颜色的位深度。如256 种颜色的图像,它的位深度为8 位。
④图像存储容量
存储容量=总像素× 颜色位深度(单位:位)
⑤图像文件格式:如BMP、JPEG、GIF、PNG等
6.视频编码
静态的图像连续播放就形成视频,视频的编码一般是指通过特定的压缩技术对视频进行压缩。常见的视频编码方式有MPEG-1、MPEG-2、MPEG-4 等。
四、数据管理与安全
(一)数据管理
计算机数据的管理已经经历了人工管理、文件管理和数据库管理三个阶段。
计算机一般采用树形目录结构来管理文件,在Windows 系统中,则采用了更为形象的文件夹来管理文件
1.结构化数据:也称作行数据,是由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
2.非结构化数据:是数据结构不规则或不完整,没有预定义的数据模型,是不方便用数据库二维逻辑表来表现的数据。包括各类格式的办公文档、文本、图片、HTML、各类报表、图像、音频、视频等。
3.半结构化数据:就是介于结构化数据和非结构化数据之间的数据,具有一定的结构性。
(二)数据安全
1.威胁数据安全的因素:如硬盘驱动器损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害等。
2.主动防护手段:通过磁盘阵列、数据备份、异地容灾等手段。
3.提高数据本身安全:数据加密、数据校验等方法
五、数据与大数据
(一)大数据的概念
大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转化为价值。
(二)大数据的特征
1.数据体量巨大:从TB、PB级别跃升至EB、ZB级别。
2.处理速度快:产生速度快、处理速度快。
3.数据类型多:种类繁多,结构化、半结构化和非结构化数据共存。
4.价值密度低:数据量庞大,发挥价值部分非常小。
(三)大数据思维
1.分析全体数据,而不是抽样数据
2.不在追求精确性,接受数据的混杂性
3.不一定强调对事物因果关系的探求,更加注重它们的相关性
(四)大数据对社会的影响
1.大数据让生活更便利
2.大数据让决策更精准
3.大数据带来新的就业需求
4.大数据带来新的社会问题
【典型例题】
1.关于声音信息数字化,以下表述中正确的是( )
A.采样频率越高,量化级数越高,声音的失真度越大
B.量化级数的高低是决定声音数据量大小的唯一因素
C.声波可以通过采样、量化、编码三个步骤转换为数字信息
D.采样频率是每秒在声波信号上采集的样本数量,采样频率越低,声音失真度越小
2.以下截取的4幅JPG图像信息中,图像色彩保存最丰富的是( )
A.1024×768 24bit B.2048×1536 黑白
C.5184×53466 5536色 D.800×600 16bit
3.关于汉字编码,以下表述中正确的是( )
①汉字有唯一的字形码;②汉字有唯一的内码;③汉字有唯一的输入码;④存储汉字至少需要2个字节,是因为汉字个数多;⑤“繁”的字形码比“简”的字形码占用存储空间大,因为前者笔画多;⑥部分汉字和英文字符一样,也可以用ASCII码来表示。
A.②④ B.②⑤⑥ C.①②③ D.①②③⑤
4.下列有关大数据的说法,正确的是( )
A.大数据要分析的是全体数据
B.在大数据时代,样本数据分析法已经不再使用
C.大数据采集的数据是结构化数据
D.用大数据进行数据处理时,必须保证每个数据都准确无误
5.字符“D”的ASCII码十进制形式为“68”,以下说法正确的是( )
A.字符“E”的ASCII码在计算机内部存储为“69”
B.字符“E”的ASCII码在十六进制形式为“44”
C.字符“E”的ASCII码在二进制形式为“100 0100”
D.字符“E”的ASCII码在计算机内部存储为“0100 0101”
题号
1
2
3
4
5
答案
C
A
A
A
D
【参考答案】
原创精品资源学科网独家享有版权,侵权必究! 6
学科网(北京)股份有限公司
$$