内容正文:
1.2.2数据编码与压缩
讲课人:***
时间:2023年 11月
【第一章】【认识数据与大数据】
1
学习目标
Learning goals
01
能够描述数据与信息的特征
02
知道数据编码的基本方式。
03
掌握数字化学习的方法
04
体验数字化学习过程,感受利用数字化工具和资源的优势
2
数据编码
你遇到过这些问题吗?
文档网页
出现乱码
下载Word
文字重叠
3
数据编码
影响因素?
图像质量
图像显示
图像大小
你遇到过这些问题吗?
4
数据编码
计算机是如何处理字符的?
5
数据编码
数据编码指的是用预先规定的办法将文字、数字或其他对象编成可以存储在计算机里的数值。
6
数据编码
字符
(文字、符号等)
数字
(二进制等)
预先确定的规则
每个字符拥有对应的 数字编码
便于不同计算机系统间 交换信息
交换码
编码方案
字符编码
7
数据编码
字符
(文字、符号等)
数字
(二进制等)
预先确定的规则
编码方案
字符集
方案支持的所有
抽象字符的集合
字符编码
字符集与数之间
建立对应关系的法则
字符编码
8
字符编码-英文字符编码
ASCII编码
美国信息交换标准代码 (American Standard Code for Information Interchange,ASCII)
字符集:大小写字母、数字、常用符号等128个字符
字符编码:利用1个字节对128个字符进行数字编码
数据编码
9
字符编码-通用字符编码方案
数据编码
unicode字符集与编码方案
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。
UTF-8、UTF-16、UTF-32
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
10
字符编码-中文字符编码
数据编码
GB2312-1980
GBK
GB18030-2005
共收录 7445 个字符,其中汉字 6763 个。GB2312-1980兼容标准 ASCII码,采用扩展 ASCII 码的编码空间进行编码,一个汉字占用两个字节。
收录了 21003 个汉字。
是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。
收录了7万多个汉字。
11
计算机中常见的存储单位与换算关系
数据编码
存储单位 换算关系
B(byte),字节 1B=8b(bit,位)
KB(kilobyte),千字节 1KB=1024B=210b
MB(megabyte),兆字节 1MB=1024KB=220b
GB(gigabyte),吉字节 1GB=1024MB=230b
TB(terabyte),太字节 1TB=1024GB=240b
PB(petabyte),拍字节 1PB=1024TB=250b
EB(exabyte),艾字节 1EB=1024PB=260b
计算机中常见的存储单位与换算关系
12
计算机处理字符的过程
数据编码
存储、操作、
传输等
处理
显示屏输出、
打印输出等
输出
利用键盘等
输入字符
输入
13
计算机处理字符的过程
数据编码
环节 英文 中文
输入 键盘直接键入 输入码
(拼音、五笔等)
处理 ASCII编码 机内码
输出 字型码(输出码):点阵&矢量
14
声音编码
数据编码
失真、噪音
传输中易受环境的干扰
连续变化的量
声音的数字化
15
声音编码·声音的数字化
数据编码
模拟
信号
声音量化
声音编码
声音采样
数字
信号
16
声音编码·声音的数字化
数据编码
采样:采样是以相等的时间间隔来测得声音模拟信号的模拟量值,对其进行离散化提取。采样周期-即相邻两个采样点的时间间隔,采样频率-是采样周期的倒数,理论上来说采样频率越高,声音的还原度就越高,声音就越真实。为了不失真,采样频率需要大于声音最高频率的两倍。
量化:将采样值变换到最接近的数字值,即用有限个数的数值近似地表示原来连续变化的值。其量化过后的样本是用二进制表示的,此时可以理解为已经完成了模拟信号到二进制的转换。
编码:通过采样和量化,将一个连续的波形转换成由一系列二进制数表示的数据,形成二进制编码。
17
数据编码
音频所占的存储容量 = 采样频率 × 量化位数 × 声道数 × 时长/8
例:一首时长为100s的双声道音乐,采样频率为44.kHz,量化位数为16,计算该音乐的音频所占的存储容量。
音频所占的存储容量 = 44100×16×2×100/8 = 17640000B
17640000/