内容正文:
第1章 数据与信息
【单元架构】
数据及其演变
数据与信息
1. 数据体量大
2. 速度快
3. 数据类型多
4. 价值密度低
1. 十进制转其他进制
2. 其他进制转十进制
1. 采样
2. 量化
3. 编码
1. 传感器采集数据
2. 互联网采集数据
1. 信息的定义
2. 信息的特征
大数据对社会的影响
大数据思维
大数据的特征
大数据的概念
数据安全
数据管理
编码
数制
数字化
数据采集
数据、信息与知识的关系
知识
信息
数据
数据与科学
数据与生活
数据与大数据
数据管理与安全
数据采集与编码
数据、信息与知识
感知数据
【第1讲 数据、信息、知识与大数据】
· 知识点一 数据
1.数据是对客观事物的符号表示,数据的形式多样,有图形符号、数字、字母、文字、音频、视 频等,其中,数字是最简单的一种数据。单纯的数据是没有意义的,经过解释的数据才有意义。
2.在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,是用 于输入到计算机中进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
◆知识点二 信息
1.定义:信息是用来消除随机不确定性的东西。信息是数据经过储存、分析及解释后所产生
的意义。
2.特征
(1)载体依附性:信息是不能独立存在的,必须依附于一定的载体。
(2)时效性:信息往往反映的是事物某一特定时间内的状态,它会随着时间的推移而变化。
(3)共享性:信息是可以传递和共享的,可以被重复利用而不会产生损耗。
(4)可加工处理性、真伪性:信息是可以加工处理的。信息有真实信息和虚假信息之分。
(5)价值性:信息的价值是相对的,包括显性价值和隐性价值。
◆知识点三 知识
1.知识是人类在社会实践中所获得的认识和经验的总和,也是人类在实践中认识客观世界 (包括人类自身)的成果,它包括对事实、信息的描述及在教育和实践中获得的技能。
2.知识是可以继承和传递的。
◆知识点四 数据、信息与知识的关系
1.数据经过解释后产生的意义就是信息,数据是信息的载体。
2.通过归纳、演绎、比较等手段对信息进行挖掘,将万千信息中有价值的部分与已存在的人 类知识体系相结合,形成知识。
3.智慧是一种更高层次的综合能力,主要表现为收集、加工、应用、传播知识的能力,以及对 事物发展的前瞻性看法。
4.数据、信息、知识与智慧的关系(如下图所示)
情境关联性
理解原理
理解模式
理解关系
智慧
知识
信息
数据
数据、信息、知识、智慧的关系
诸多整体的联结
联结成为整体
部分属性的联结
事物的部分属性
◆知识点五 大数据
1.大数据的概念
2.大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转 化为价值。
2.大数据的特征
(1)数据体量巨大:大数据收集和分析的数据量非常大。
(2)速度快:数据产生的速度快和数据处理的速度快。
(3)数据类型多:大数据的数据来源多,因此其数据种类和格式不可能保持一致,各种结构 化、半结构化和非结构化数据共存是大数据的普遍现象。
(4)价值密度低:大数据蕴含着巨大的价值,但因其数据量庞大,可能发挥价值的仅是其中非 常小的一部分,价值密度相对较低(不能理解为价值低)。
3.大数据思维
(1)大数据要分析的是全体数据,而不是抽样数据。
(2)对于数据不再追求精确性,而是能够接受数据的混杂性。
(3)不一定强调对事物因果关系的探求,而是更加注重它们的相关性。
4.大数据对社会的影响
(1)大数据已经渗透到社会各个层面,不断提高工作效率与生活便利性。
(2)大数据让决策更精准。
(3)大数据带来新的就业需求。
(4)大数据带来信息泄露、数据安全、个人隐私甚至伦理道德等方面的社会问题。
【第2讲 数据采集与数字化、数制及编码】
◆知识点一 数据采集与数字化
1.数据采集:早期人们通过观察、实验等人工方式得到数据;现在,数据的获取方法逐渐以 机器获取为主,包括传感器和网络爬虫等。互联网已经成为人们日常所需数据的主要来源。
2.模拟信号与数字信号
(1)模拟信号以连续变化的物理量存在,例如:声波。
(2)数字信号在取值上是离散的、不连续的信号,例如:二进制数据。
3.数字化:将模拟信号转换为数字信号的过程。
4.数字化的理论依据是采样定理。采样定理的基本内容:在一定条件下,用离散的序列可以 完全代表一个连续函数。
5.将模拟信号转换成数字信号一般需要经过采样、量化与编码。
(1)采样:是指通过采样器将信号从连续时间(空间)域上的模拟信号转换到离散时间(空间) 域上的离散信号的过程。
每秒的采样样本数叫作采样频率,单位:赫兹(Hz)。
(2)量化:是将采样到的信号用数字表示出来,即将模拟信号的波形转换为数字。量化的过程 是先将整个幅度划分成有限个小幅度的集合,把落入某个范围内的样值归为一类,并赋予相同 的量化值。离散信号经过量化后可用数值表示,量化越精细,保真度越高。
◆知识点二 数制
1.数的进制:进制是一种记数方式。通常用一个下标来表示该数的进制(十进制数可以省略),也可以在该数的最后以字母来表示。
进位制
二进制
八进制
十进制
十六进制
标识
B
O
D
H
2 .二进制
二进制数的特点是:①有两个基本数码:0,1;②采用逢二进一的进位规则。
二进制数中每个数码在不同的数位上,对应不同的权值。
例如,1101.11B=1×2³+1×2²+0×2¹+1×2⁰+1×2-¹+1×2-²。其中B表示二进制,2³,2²,2¹,2°,2-¹,2-²是 不同位置上的权值。
3. 十六进制
十六进制数的特点是:①由十六个基本数码组成,即0,1,2, …,9,A,B,C,D,E,F;②采用逢十六进一的进位规则。
例如,613AH=6×16³+1×16²+3×16¹+10×16°。其中H表示十六进制,16³,16²,16¹,16°是不同位置上的权值。
4.十进制、十六进制、二进制数的相互转换
(1)十进制转化为二进制:“除二反向取余数”。
例如:(24)10=(11000)2。
(2)二进制转化为十进制:“按权展开、各项相加”。
例如:(1011)2=(11)10
(3)二进制转化为十六进制:“4位1数,逐组转换”(位数不够左边补0凑足)。
例如:(10111011111)₂=(5DF)16
二进制数
0101
1101
1111
十六进制数
5
D
F
(4)十六进制转化为二进制:“逐位肢解,1数4位”(可把最前端的0省去不写)。
例如:(AE7)16=(101011100111)2
十六进制数
A
E
7
二进制数
1010
1110
0111
(5) 二进制数、十进制、十六进制之间的关系
二进制
十进制
十六进制
二进制
十进制
十六进制
0000
0
0
1000
8
8
0001
1
1
1001
9
9
0010
2
2
1010
10
A
0011
3
3
1011
11
B
0100
4
4
1100
12
C
0101
5
5
1101
13
D
0110
6
6
1110
14
E
0111
7
7
1111
15
F
◆知识点三 编码
1.编码:是信息按照某种规则或格式,从一种形式转换为另一种形式的过程。解码是编码的逆过程 。
2.存储在计算机中的都是经过编码后的二进制数字。
3.字符编码
常见的字符编码有ASCII、Unicode及各种汉字编码。
ASCII(美国信息交换标准代码):是一套基于拉丁文字母的计算机编码系统,主要用于显 示现代英语和其他西欧语言。基本的ASCII码共有128个,用1个字节中的低7位编码。二进 制范围为00000000~01111111,即十六进制的00~7F。基本的ASCII码由33个控制字符、10个阿 拉伯数字、26个英文大写字母、26个英文小写字母与一些标点符号、运算符号组成
(2)汉字编码:分为外码(又称输入码)、交换码、机内码和字形码。每个汉字都有确定的二进 制代码,在计算机内部汉字代码都用机内码。机内码也称为内码,不同的字符集有不同的表示方 式,GB2312采用2个字节表示1个汉字。
4.条形码:是将宽度不等的多个黑条和白条,按照一定的编码规则排列,用以表达一组信息 的图形标识符。我国普遍采用EAN13条形码。
5.二维码(二维条码):是用某种特定的几何图形按一定规律在平面上(二维方向)分布的黑 白相间的图形记录数据符号信息。二维码和条形码中的信息可以由专用设备扫描获取,也可由智 能手机扫描获取。不能随意扫描非官方的二维码,否则会带来安全隐患。
6.声音编码
(1)声音数字化:需要经过采样、量化、编码三个过程。
(2)声音存储量的计算
未经压缩的Wave文件的存储容量计算公式为:
存储容量=采样频率(Hz)×量化位数×声道数x时间(s)÷8(单位:字节B)。
(3)常见的声音文件类型:Wave、MP3、WMA等。
7.图像编码
(1)图像获取:图像可以由光学设备获取,如照相机、镜子、望远镜及显微镜等;也可以人为 创作,如手工绘画。
(2)数字图像:包括矢量图形与位图图像。
①位图图像:又称栅格图或点阵图,是指用若干二进制位(例如8位、16位等)来定义图像中 每个像素点的颜色和亮度。常用的位图绘图软件有画图、Photoshop软件等。
②矢量图形:指用矢量来表示图的轮廓,用数学公式描述图中所包含图形元素的形状和大小。 常用的矢量图软件有CorelDraw、Flash、AutoCAD,Word中的剪贴画图片也是矢量图。
③位图图像和矢量图形的区别
位图图像表现的层次和色彩比较丰富,支持真彩色,因此我们平时所用的数码相机拍摄的图 像都是位图文件。缺点是当位图图像被放大到一定的程度会出现失真,磁盘的存储空间较大。
矢量图是由指令来描述的,因此被任意移动、缩放、旋转和扭曲,整幅图像的清晰度不会失 直 缺点是它只支持256色。
(3)图像存储容量的计算
影响位图图像存储容量的因素有像素数和颜色数。
未经压缩的BMP图像存储容量的计算公式为:
存储容量=水平像素×垂直像素x每个像素的编码位数÷8(单位:字节B)。
位图图像的颜色越丰富,每个像素色彩编码所需的位数(位深度)就越多。
例如,一个字节(8位)能够编码的颜色数为28(256)种,而24位能够编码的颜色数多达24 (16777216)种。
下列表格以800×600像素的BMP图像为例,计算各种类别BMP图像的存储容量。
BMP图像类别
一个像素编码位数
总的位数/位(bit)
存储容量/B
黑白
1位(2¹=2)
800×600×1
800×600×1÷8
256级灰度
8位(2⁸=256)
800×600×8
800×600×8÷8
16色彩色
4位(2⁴=16)
800×600×4
800×600×4÷8
256色彩色
8位(2⁸=256)
800×600×8
800×600×8÷8
24位真彩色
24位
800×600×24
800×600×24÷8
8.视频编码
(1)视频由静态的图像连续播放形成,根据帧速率的不同可分PAL、NTSC等制式。 PAL制式 的视频每秒播放25帧图像, NTSC制式的视频每秒播放30帧图像。
(2)数字电视具有高清晰度、双向交互、多功能多业务等优势。
(3)视频存储量的计算(未经压缩的视频文件存储容量的计算) 存储容量=帧图像存储容量(B)×帧频×播放时长(单位:字节B)。
(4)常见的视频编码方式: MPEG1、MPEG2、MPEG4等。
9.数据的存储容量单位
(1)比特和字节
比特(bit):是计算机中存储容量最小的单位,1位二进制数码表示1个bit。
字节(Byte):是存储容量的基本单位,8bit为1个字节(B),即8bit=1B。
(2)单位换算
1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB
【第3节 数据管理与安全】
· 知识点一 数据管理
1. 数据管理的概念
数据管理是利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程,其 目的在于充分、有效地发挥数据的作用。
2.数据管理的基本方法
计算机数据的管理已经经历了人工管理、文件管理和数据库管理三个阶段。
(1)文件管理
①数据的存储形式
计算机中的数据一般以文件的形式存储。根据编码规则的不同,文件的格式也不相同,用以 区分不同类型的存储数据,如文本、图像、音频等。
②文件的管理方式
计算机一般采用树形目录结构来管理文件。在Windows系统中,则采用了更为形象的文件夹 来管理文件。
(2)数据库管理
①数据库系统
数据库系统是为了建立、使用和维护数据库而设计的数据管理软件,在计算机系统中介于操 作系统和用户之间,负责对数据库资源进行统一的管理和控制,所有用户或程序发出的有关数据 库方面的操作命令,都是通过数据库管理系统来实现的。例如,FoxPro、Access等小型数据库管 理系统,SQLServer、DB2、Oracle等大型数据库管理系统。
数据库系统可以解决数据冗余的问题,解决维护、更新数据时需要大量人工干预的问题。
②数据库应用
数据库应用系统是指在计算机系统中,通过数据库管理系统,按用户的应用需求或为某一特 定的用户设计的结构合理、使用方便、高效的数据库和配套的应用程序系统。
数据库应用实例:网上购票、银行存取款等。
③传统数据库技术
特点:数据独立性、数据可共享等。
应用:政府、军工、教育、电力、金融、农业、卫生、交通、科技等行业。
④云计算、大数据技术
随着大量半结构化、非结构化数据被不断采集,需要借助云计算、大数据等技术进行管理,数 据管理水平正不断提高。
· 知识点二 数据安全
1.威胁数据安全的因素
2.存储介质的损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害等。
3.保护数据的安全
①做好防护上的安全
保护存储数据的介质,例如通过磁盘阵列、数据备份、异地容灾等手段,保证数据的安全。
②提高数据本身的安全
可通过数据加密、数据校验等方法提高数据的保密性和完整性。
数据加密是指通过加密算法和加密密钥将明文转为密文;解密是指通过解密算法和解密密 钥将密文恢复为明文。
数据校验通常用一种指定的算法对原始数据计算出一个校验值,接收方按同样的算法计算 出一个校验值,如果两次计算得到的校验值相同,则说明数据是完整的。常见的数据校验方法有 MD5、CRC、SHA-1等。
③数据安全的意义
在信息社会中,数据安全关乎国计民生,每个人都应提高数据安全意识,增强法律意识,采取 必要的安全防范措施,及时备份重要数据,这样才能保障个人数据和财产安全。
学科网(北京)股份有限公司
$