内容正文:
第一章 数据、信息、大数据、人工智能
一、数据与信息
1.数据是对客观事物的符号表示,其中数字是最简单的数据,单纯的数据是没有意义的,经过解释,数据才变得有意义。
2.在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,其表现形式可以是文字、图形、图像、音频、视频等。
3.信息是数据所表示的意义,可以用来消除随机不确定性(香农)。
4.信息的特征:
(1)载体依附性:信息的存储和传播必须依附于载体,且同一信息可以依附于不同载体。如果载体遭到破环,载体承载的信息就会消失。信息可以脱离她所反映的事物被保存和传播。
(2)时效性:信息往往反映的是事物某一特定时间内的状态,它会随着时间的推移而变化。
(3)共享性:信息是可以共享的,但信息不会因为传播交换而发生损耗。
(4)可加工处理性、真伪性:信息经过加工处理后可以更好的被使用。这一特征使信息具有真伪性。
(5)价值性:信息具有价值,信息的价值和效用因人而异。
5.知识是人类在社会实践中获得的认识和经验的总和,也是人类在实践中认识客观世界(包括人类自身)的成果,它包括对事实、信息的描述以及在教育和实践中获得的技能。知识是可以继承和传递的,通过继承前人的研究成果,知识可以一代一代的传承下去。
6.智慧是一种更高层次的能力,主要体现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法。它是在知识的基础之上,通过认识的积累,而形成的对事物的认识、远见,体现为一种卓越的判断力。
二、数字化
1.模拟信号:模拟信号是在时间和数值上均连续变化的信号,自然界中大多数信号都是以模拟量形式存在。
2.数字信号:数字信号在时间和数值上都离散的、不连续的信号,且数字信号的数值总是一个最小量的整数倍。这种信号表示的数据可以被计算机存储、处理。
3.模拟信号和数字信号可以相互转换,例如用录音设备采集到的声音最初为模拟信号,经过模数转换器(ADC)后转为数字信号,并以二进制的方式存储在计算机中。同样,存储在计算机中的音频文件可以通过数模转换器(DAC)转为模拟信号,并通过扬声器播放出来。
4.将模拟信号转为数字信号的过程称为数字化,一般需要经过采样、量化、编码三个步骤。
(1)采样:在信号处理领域,采样是将信号从连续时间(空间)域上的模拟信号转换到离散时间(空间)域上的离散信号的过程,通过采样器实现。每秒采样的样本数叫做采样频率,单位用赫兹(Hz)表示。
(2)采样定理:将模拟信号转成数字信号时,会引起失真。根据采样定理:当采样频率大于或等于被采样信号最高频率的两倍时,得到的离散信号可以完整的保留原始信号的所有信息。它确定了信号带宽的上限,也确定了捕获连续信号时所允许的采样频率下限。
(3)量化:在数字信号处理领域,量化指将信号的连续取值近似为有限个近似离散值的过程。量化主要参数是量化位数,单位是比特(bit);量化位数越多,划分的越精细,量化结果与实际数据也越接近。
三、二进制与进制转换
1.数据在计算机内部是以二进制的方式存储和处理的。在信息技术中,人们常用二进制(B)、八进制(O)、十进制(D)、十六进制(H)来表示信息。
2.进制转换(仅考虑整数)
(1)十进制转二进制:采用除2反向取余法,即将十进制整数除以2,得到商和余数,用商数再除以2,依次类推直到商数为0为止,将每次得到的余数按照逆序排列,即为换算的二进制结果。
(2)十进制转十六进制:除16反向取余,十进制转其他(R)进制同理采用“除R反向取余法”。
(3)二进制转十进制:常用方法是按权展开求和。
例:将二进制数的10011转换成十进制。
二进制中每位数字的权是以2为底的幂,按权展开后得:
(10011)2 = 1×24 + 0×23 + 0×22 + 1×21 + 1×20 = 16+0+0+2+1=(19)10
其他(R)进制转十进制的方法类似。
(4)二进制与十六进制互转:十六进制的基数为16,逢十六进一,1位十六进制可以用4位二进制表示,同时4位二进制也可以转为1位十六进制。
四、字符编码
1.ASCII码(美国信息交换标准码):现今最通用的单字节编码系统,由数字、英文字母、标点符号、运算符和控制字符等共128个字符组成,用一个字节中的低7位编码(范围:00H—7FH)。ASCII码表详见附录。
2.汉字编码:计算机中处理汉字需要经过外码,交换码,机内码和字形码等多种编码转换。其中外码也叫输入码,常用的有拼音码,五笔字形码等。我国在1980年公布了国家标准GB2312,1个汉字使用2个字节表示。我国目前使用的国家标准是GB18030—2005,与GB2312兼容。另一种在互联网上广泛使用的是UTF-8,与ASCII码兼容。
3.Unicode:1991年,国际标准化组织和Unicode组织联合制定统一