内容正文:
第1章 认识数据与大数据
1.1 数据、信息和知识
1什么是数据?
数据可用于描述事物;是信息的载体;是可加工可处理的;是计 算机识别、存储和加工的对象,如字符、图像和音频等。
2什么是信息?
数据是信息的载体,信息则是数据表示的意义;消除不确定性;
3 信息的特征(重要)
(1)载体依附性:信息不能凭空存在,必须依附于一定的载体, 如声音,文字,图像等
(2)传递共享性:信息可以传递,可以共享,如一传十,十传百
(3)时效性:某些信息会过时,如天气预报
(4)价值相对性:同一条信息对不同个体的价值是不同的,取决 于接受者对信息的需求、认识、理解和应用能力,如同样看到苹 果落地,普通人和牛顿的结果有着天差地别
4什么是知识:人类在社会实践中所获得的认识和经验的总和
5数据、信息、知识和智慧的关系(由下至上,层层转化)
例:身份证号里面包含的信息610103200010101526
1.2 数字化与编码
1 数字化:将信息转换为计算机可识别的二进制数字格式的过程
2 模拟信号和数字信号:连续的;离散的;
例:以下哪些属于模拟信号,哪些属于数字信号?(重要)
录音机磁带中的歌曲(模拟信号)手机拍摄的视频(数字信号)
电子书中的文字(数字信号)计算机中存储的照片(数字信号)
3 进制和二进制
基数为2(数码为0和1);逢二进一;权值;
4 二进制和十进制的相互转换(重要)
(1)十转二:除2反向取余法,(19)10 = (10011)2
(2)二转十:按权展开求和法,(10110)2 = (22)10
按权展开求和法如下:
5 认识八进制和十六进制
不同进制表示:(10)10 或10D;(10)2 或10B
八进制:逢八进一;基数为8,数码0~7(共8个);用O表示
十六进制:逢十六进一;基数为16,数码为0~9ABCDEF(共16 个);用H表示(16进制对应的十进制数:0~9与10进制中相 同,A=10,B=11,C=12,D=13,E=14,F=15 ……)
6 什么是编码?
编码是信息从一种形式或格式转换为另一种形式的过程
例:同一个事物可以用不同的方式表达和描述
小明,男,高一7班,15岁,西安市碑林区
Xiao Ming, male, Grade 7, Grade 1, 15, Beilin District, Xi 'an City
11001011 10111101 11100001 10001110
10001110 11110011 11110000 11000011
11000001 10101010 11000010 11010100
……
举例:身份证号;车牌号;学号座位号;发电报 ……
注意:由于计算机只能识别二进制形式的0和1,因此,无论任 何形式的内容,都需要转换成二进制形式的编码,计算机才能识 别和处理。如:字符、图像、声音等。
7 字符编码
将字符转换成计算机可以识别的二进制数据
编码标准:ASCII编码; Unicode;UTF-8;GB18030-2005;
计算机中常见的存储单位(重要)
汉字一般占2字节,字母和数字一般占1字节
例:单位换算题(b-B-KB-MB-GB,8和1024)
3KB=( )B=( )b 1GB=( )MB=( )KB=( )B=( )b 8192b=( )KB=( )MB 2MB=( )KB=( )B=( )b
8 声音编码
(1)采样—量化—编码
(2)计算一段未经压缩的音频文件在计算机中所占的存储空间的 大小(重要)
例:一首时长为100 s的双声道音乐,采样频率为 44.1 kHz,量化 位数为16,计算该音乐的音频所占的存储容量
100×2×44.1×103×16计算结果的单位为b(位)
将b换算为MB(除以一个8两个1024),结果≈17MB
解题方法:四步走
①先找出题目中所有的数字(注意双声道)
②将这些数字的单位转换为国际通用的计算单位(如时间一般 用秒来参加计算,频率一般用赫兹Hz参加计算)
③将转换单位后的数字相乘(结果一般为位(b))
④将结果转换为题目所问的单位(换算关系见上一页表格)8
1024
1024
1024
注意:b——B——KB——MB——GB
b和B的关系是8,其余相邻的单位关系都是1024(210)
(3)常见的音频格式:WAV MP3 AMR APE
9 图像与视频编码
(1)像素;图像尺寸=水平像素数×垂直像素数(1920×1080)
(2)计算一幅未经压缩的图像文件在计算机中所占的存储空间的 大小(重要,计算方法同上)
(3)常见的图像格式:JPG JPEG PNG BMP
(4)视频和图像的关系:图片快速连续播放;视觉残留原理;帧;
(5)常见的视频格式:AVI WMV MP4
10 数据压缩
不损失有用信息的前提下重新编码,使文件占用更少的存储空间
有损压缩:压缩后无法还原,MP3 JPEG MPEG
无损压缩:压缩后可以还原,zip 7z
1.3 数据科学与大数据
1 大数据的特征(重要)
巨量性:数据体量巨大,几乎可以拥有事物的全部数据
多样性:数据种类繁多,网页、图片、音视频、地理位置等
迅变性:数据生成速度快,并且要求在短时间内处理完毕。例如: 个性化推荐算法的实时推荐等
价值性:大数据能产生价值,但价值密度偏低,庞大的数据中能 产生价值的只有非常小的一部分。如监控视频等
2 大数据技术
大数据采集技术、大数据预处理技术、大数据存储与管理技术、 大数据分析与挖掘技术、大数据可视化与应用技术
3 大数据的应用:生活服务、智慧城市、医疗健康、社区管理
1
学科网(北京)股份有限公司
$