内容正文:
3.1 数据编码
方正徐静蕾字体 李旭科书法
1
了解各类数据采集的基本方法
能够解释文本、音频等数据的编码原理
理解数据编码的意义和作用
1
3
2
学习目标
2
智能公交系统是智慧城市的重要组成部分,它的应用提高了城市公交的运营效率,方便了人们的出行。市民在办理市民卡时,一般要到指定地点办理录入信息、拍摄照片等手续。
想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?
生活中还有哪些数据可以采集以及如何采集?
3
表现形式 实例 采集该数据的设备
文本 姓名、家庭住址、性别、手机号…… 键盘、手写输入、语言输入
数字 年龄、身高、体重、身份证号…… 键盘、手写输入、数字化采集仪
图像 照片…… 手机、相机、扫描仪
声音 讲话的声音、音乐、其他声音…… 手机、录音机、录音笔
视频 监控视频、电影…… 摄像机、手机、摄像头
想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?
生活中还有哪些数据可以采集以及如何采集?
这些数据计算机能直接处理吗?
4
编码就是信息从一种形式或格式转换成另一种形式或格式的过程。
指用预先规定的方法将文字、数字或其他对象编成可以存储在计算机里的数值。
编码
模拟信号与数字信号
模拟信号
模拟信号一般用传感器直接获得,如声音、温度、压强等。
模拟信号的值随时间而连续变化,波形光滑
数字信号
数字信号一般随时间而产生非连续的变化。数字信号可以由模拟信号转化而来,数字信号的值即数字数据,可直接用计算机所能理解的二进制表示,方便计算机对其处理。
模拟信号:连续变化,温度可以自己估读出来,可以是区间里的任何一个数字
数字信号:离散,不连续,只能是固定的数字
音频编码
将模拟声音数据转换为数字数据的这一个过程,
称为声音的数字化。
01
采样
02
量化
03
编码
对模拟声音信号按给定的时间间隔进行采样
对采样数据进行量化
将量化后的数据用二进制数值表示
声音数字化
时间
1s
2s
3s
4s
5s
1
2
3
4
5
振
幅
采样:以相等的时间间隔测得声音模拟信号的值。
采样点越多还是越少质量更好?
时间
1s
2s
3s
4s
5s
1
2
3
4
10
5
6
7
8
9
振
幅
每秒采集2次
每秒采集1次
采样频率越高声音还原度越好;
但记录数据越多,存储容量越高。
时间
1s
2s
3s
4s
5s
2
1
4
5
1
3
5
7
5
2
量化:将采样点的值分级量化,变换到最接近的数字。
振
幅
用有限个数近似表示原来连续变化的值。
0
1
2
3
4
5
6
7
量
化
值
2.12
分级越多还是越少质量会更好?
编码:确立编码规则,优化数据排列。
01010010
1001……
样本序号 1 2 3 4 5
量化值(十进制) 5 2 9 10 7
二进制编码 0101 0010 1001 1010 0111
样本序号 6 7 8 9 10
量化值(十进制) 11 15 11 5 2
二进制编码 1011 1111 1011 0101 0010
100(2)=____(10)
25(10)=_________(2)
1001(2)=____(10)
14(10)=______ (2)
4
11001
9
1110
练一练
二进制转换为十进制(对应数字与权值相乘):
10011(2)=19 (10)
10011=1*20+1*21+0*22+0*23+1*24=19
从右往左进行运算!
十进制转换为二进制(除二取余法):
19 (10)=10011(2)
19
9
4
2
1
0
2
2
2
2
2
余数
1
1
0
0
1
从低往高进行读
取
!
二进制与十进制相互转换
A
B
C
文本数据包括字母、数字、标点符号、汉字等
ASCII码和Unicode码是最经典的两种编码方案
文本数据的编码通过对其中每一个字符进行编码实现
字符编码
18
美国信息交换标准代码 (American Standard Code for Information Interchange)
字符集:大小写字母、数字、常用符号等128个字符
ASCII码(十进制) 字符
0~31 控制字符或通信专用字符(不可见))
32 空格
48~57 数字0~9
65~90 大写英文字母A~Z
97~122 小写英文字母a~z
其他 英文标点符号、运算符号、括号等
Unicode码:在原来的ASCII码前加上8个0,
如大写字母X的ASCII码是88(十进制),二进制就为________,所以Unicode码为_______________。
1011000
0000000111001
Unicode码为了解决传统字符编码方案的局限性而产生。
Unicode码字符集是全球可以