内容正文:
第四章 数据处理与应用
第1节 (2课时)
常用表格数据的处理
教材版本册别:浙教版(2019)必修1
高中信息技术
学习
目录
01
数据整理
数据计算
02
数据图表呈现
03
学习目标
1
2
能够利用exlce电子表格对数据进行简单处理;
了解数据整理的必要性;
3
能够根据实际问题,选择恰当的数据处理和统计分析工具整理数据,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养;
一
课堂导入
精美的数据表格
这些数据是不是很精美?是如何做出来的呢?
一
课堂导入
在生产生活中,人们经常遇到以二维表方式组织存储的数据,如成绩数据、商品销售数据、家庭收支数据等。这些基于表格的数据常常需要进行计算、排序、筛选、图表呈现等处理。
数据处理的核心是数据,数据的质量直接影响数据分析的结果。但获取的数据并不都是优质的,常常存在缺失、重复、错误、数量级不同等问题。因此,在数据分析和数据挖掘前,通常先对数据进行整理。
Part 1
数据整理
一
数据整理
学籍号 性别 生日 体重(kg) 身高(cm) BMI评价
1840116 女 2003/9/28 44.8 1.615 正常
1840117 男 2003-2-15 93.7 165.5 肥胖
1840118 女 2004/08/26 56.6 156.3 超重
1840119 女 2003/10/11 56.6 156.2 超重
1840120 男 2003/5/21 68 174.2 正常
1840121 男 2003/2/31 50 180.5 消瘦
同学们仔细观察以下表格,有什么问题么?
一
数据整理
检测和修正错漏的数据
整合数据资源
提高数据质量
规整数据格式
数据整理的目的
一
数据整理
数据缺失问题
数据集中普遍存在的问题
忽略含有缺失值的实例或属性。
这样处理可能造成数据集不完整,致使后续的统计分析结果出现偏差。
最简单的方法
缺点
较好的方法
常用方法
采用平均值、中间值或概率统计值来填充缺失值。
是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。
一
数据整理
数据重复问题在多数据源合并集成时经常出现。
导致数据冗余,浪费存储空间和网络带宽,在数据分析中还可能会误导用户。
后果
对于重复数据,可以在进一步审核的基础上进行合并或删除等处理。
审核
检测可以分为基于字段和基于记录两个方面,需要根据实际情况采用不同的算法进行检测。
检测
一
数据整理
不同来源的数据可能存在格式不一致的情况,这就需要进行数据转换,以便形成一个适合后续分析和挖掘的描述形式。
数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。
数据集中的属性值与实际值不符,或违背业务规则或逻辑。
异常数据
逻辑错误
来源
一
数据整理
01
02
03
据已有属性集构造新属性的转换
属性数据类型的转换
将不同来源的相同属性的定义及其值进行统一标准化表达的转换
数据转换
一
数据整理
问题:字段不一致。解决方法:对照两个表格,保持其中一个表格一个,更改其中一个字段,然后更改一致即可。
数据集A
数据集B
以小组为单位,讨论分
析两个不同来源的数据集A、B如右图所示。若要合并这两个数据集以对比分析两个球员的技术情况,将遇到哪些问题?
该如何处理?
Part 2
数据计算
二
数据计算
spss
Excel
sas
python
Java
MATLAB
请同学们上网查询总结常见的数据处理和统计分析工具,并班内分享。
二
数据计算
名称 用处
EXCLE Excel软件是微软公司推出的Microsoft Office系列套装软件中的组成部分,是一个简单易用的电子表格软件,可以进行数据的处理、统计分析和辅助决策操作,广泛应用于文秘办公、 财务管理、市场营销、行政管理和协同办公等。
SPSS SPSS是IBM公司推出的一款统计分析软件,具备数据收集、准备、分析、描述、解释和展现的功能。SPSS提供丰富的统计算法,并且操作简便、功能强大、扩展性强,但需要使用人员具备一定的数理统计学知识背景,比较适合专业分析、研究等人员使用。
SAS SAS是SAS软件研究所开发的一套大型集成应用软件系统,共有三十多个功能模块,具有数据访问、数据管理、数据分析、数据呈现等功能。SAS系统从大型机上的系统发展而来,其操作以编程为主。系统地学习和掌握SAS,需要花费一定的精力,比较适合统计专业人员使用。
常用的数据处理和统计分析工具
二
数据计算
名称 用处
MATLAB MATLAB是MathWorks公司推出的一种科学计算语言和编程环境,主要应用于数据分析、无线通信、深度学习、计算机视觉、量化金融与风险管理等领域。MATLAB 将适合迭代分析和设计过程的桌面环境与直接表达矩阵和数组运算的编程语言相结合,为分析数据、开发算法和创建模型等提供了便于探索和发现的环境,深受工程师和科学家的青睐。
python Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。Python在各个编程语言中比较适合新手学习,Python解释器易于扩展。 Python也可用于可定制化软件中的扩展程序语言。Python丰富的标准库,提供了适用于各个主要系统平台的源码或机器码。
Java Java是一门面向对象的编程语言,Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论。 Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。
二
数据计算
曾经,有一堆数据摆放在我的面前,我没有头绪整理,等到我抓狂的时候才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我再来一次的机会,我会对那堆数据说5个字:我要修理你! 如果非要使用武器,我希望是…… EXCEL或WPS!
日常简单的数据处理可以使用Excel软件完成!
二
数据计算
工作簿
是存储在磁盘中的文件。每一个工作簿可由多个工作表组成,默认有三张工作表,最多有255张工作表。(扩展名xls)。
工作表
是工作簿的基本单位,单元格的集合。一张工作表最多可由65536(行)*256(列)个单元格组成。行号(1到65536)、列标(A到 IV)。
单元格
工作表的基本元素,地址表示:列标+行号,如:A1、B3、IV65536。
EXCEL基本概念回顾
二
数据计算
在excel表格中有数据需要进行计算怎么办呢?
公式的格式: = 表达式
公式
公式是以“=”开头,由函数、常数、单元格引用和运算符组成的式子
二
数据计算
如果我们在H3单元格中计算语数总分,该如何输入呢?
=D3+E3
H4呢?
如果我们计算总分,这里就需要输入一个连续的区域。
=D4+E4
区域地址
D3:E3
二
数据计算
单元格地址
B1
数据区域地址
B2:D5
相对引用
单元格引用:是指对工作表中的单元格或单元格区域的引用。
单个单元格如A1 ;连续的单元格区域引用,如A2:D5 ;不连续的单元格区域引用,如A2:A5,D2:D5。
二
数据计算
从编辑栏中可看出:引用的单元格区域发生改变
+++++
相对引用和绝对引用:公式不仅用于计算,更重要的是构建计算模型。
二
数据计算
绝对引用:在列号或行号前都加上$号,则无论公式复制或移动到哪,引用的单元格地址的行或列都不会改变。
这里的A9单元格不会随着列的变化而变化,因为在A的前面加了绝对引用的符号。
二
数据计算
算术运算符 含义 举例
+ 加法运算 =B2+B3
- 减法运算 =20-B6
* 乘法运算 =D3*D4
/ 除法运算 =D6/20
% 百分号 =5%
^ 幂运算 =6^2
运算符及其作用
二
数据计算
关系运算符 描述 举例 值
= 等于 =B3="团员"
< 小与 =40<37 FALSE(假)
> 大于 =40>37 TRUE(真)
<> 不等于 =B2<>10
<= 小于等于 =B2<=B3
>= 大于等于 =B2>=100
比较运算符:用于比较两个值,结果为逻辑值TRUE或FALSE。
二
数据计算
文本连接运算符“&”,可以连接一个或多个文本字符串,生成一段文本。
在C2单元格中,就是用&链接符号将A2和B2中的字符链接起来,如果要将多个单元格中字符链接起来,该怎么输入呢?
+++++
二
数据计算
=AVERAGE(D3:D8)
在刚才的表格中我们计算总分、平均分等,如果还是直接输入运算符的话就会比较繁琐,有没有什么办法呢?
二
数据计算
参数可以是数字、单元格或单元格区域
函数 函数功能
SUM(区域1,区域2,...) 求选中区域总和
AVERAGE(区域1,区域2,...) 求选中区域平均值
MAX(区域1,区域2,...) 求选中区域最大值
MIN(区域1,区域2,...) 求选中区域最小值
COUNT(区域1,区域2,...) 求选中区域包含数字的单元格个数
函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。单击fx插入函数,或在编辑栏直接输入公式。
二
数据计算
=D3+E3+F3+G3
=D5+E5+F5+G5
自动填充
一般情况,上下填充变行号,左右填充变列号!
思 考
如在单元格F8中输入“=(E8+D8)*C2-B3*D4”,则自动填充到J10单元格后,单元格的内容为?
=(I10+H10)*G4-F5*H6
二
数据计算
篮球球员场均数据计算
某球员各赛季常规赛数据如下图所示,统计其各赛季场均情况。
某球员各赛季常规赛数据
动动手 实践
二
数据计算
分析数据
各项场均与各项总计、场数的关系为:各项场均=各项总计/场数。
数据采用电子表格组织和存储
表中数据
赛季
三分出手
投篮命中
…………
三分命中
投篮出手
场数
二
数据计算
计算各赛季场均分数
计算各赛季场均篮板、助攻、抢断、盖帽、失误、犯规、得分
②
拖曳“填充柄”自动填充公式到W14单元格,完成各赛季场均篮板、助攻、抢断、盖帽、失误、犯规、得分的计算。
①
在Q3单元格中输入公式“ =I3/$B3”。
二
数据计算
查看、分析计算结果
01
观察数据表中的数据,重点检查各赛季场均数据的计算是否正确、完整。
02
通过分析各赛季的场均数据,可以了解该球员在比赛中的技术发挥和表现情况。
观察、分析
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
二
数据计算
思考:在公式填充过程中,公式中的相对引用和绝对引用有何区别?
相对引用在公式复制时会随位置变化而改变,如 A1。绝对引用则无论公式复制到何处都保持不变,用$A$1 表示。相对引用适用于规律变化的数据处理,绝对引用常用于固定引用特定单元格值,正确选择可提高数据处理效率和准确性。
二
数据计算
看一看
知识拓展
错误类型 错误名称 错误原因
#DIV/O! 除零错误 除数为零
注意:在Excel中如果运算对象是空白单元格,Excel将此空值当作零值
#VALUE! 数据类型错误 例如:一个文本型加了一个数值型
#REF! 单元格引用无效 删除了公式引用的单元格(不是清除内容),或是粘贴后单元格引用无效
#NAME? 函数名错误 如SUM拼成了sun
#####! 不是错误,是列宽不够造成的
Part 3
数据图表呈现
三
数据图表呈现
气泡图
散点图
雷达图
饼图
柱形图
折线图
图表是用视觉形式向人们展示数据的一种方法。
常见的图表类型
在运用图表表现数据、传递信息时,通常依据数据间的关系选择相应的图表类型。
三
数据图表呈现
图表呈现数据,让数据更直观,更有吸引力……
三
数据图表呈现
名称 特点
柱形图 可以直观地比较不同类别数据的大小。柱子的高度清晰地展示了数值的差异,适合用于展示数据的分布和对比情况。适用场景:常用于比较不同项目的数值大小,如不同月份的销售额、不同部门的业绩等。
折线图 主要用于展示数据随时间或其他连续变量的变化趋势。通过线条的连接,能够清晰地看出数据的连续变化情况,对于观察数据的波动和趋势非常有效。适用场景:适合展示股票价格走势、销售业绩随时间的变化等。
饼图 能够直观地显示各部分数据在总体中所占的比例关系。整个圆形代表总体,各个扇形部分代表不同的分类,扇形的大小与该分类所占比例相对应。适用场景:常用于展示市场份额、预算分配等占比情况。
散点图 用于展示两个变量之间的关系。每个数据点在图表中的位置由两个变量的值决定,可以通过观察数据点的分布来判断变量之间的相关性。适用场景:例如研究身高与体重的关系、广告投入与销售额的关系等。
雷达图 可以同时展示多个变量的数据,将各个变量的值绘制在从同一个中心点出发的轴线上,形成一个多边形。通过比较不同多边形的形状和大小,可以直观地看出不同对象在多个变量上的表现。适用场景:常用于综合评估多个指标,如对不同运动员的各项能力进行评估。
气泡图 在散点图的基础上增加了第三个变量,用气泡的大小来表示。可以同时展示三个变量之间的关系,使数据更加直观和丰富。适用场景:例如分析不同产品的销售数量、价格和利润之间的关系。
常见的图表
三
数据图表呈现
篮球球员场均数据图表呈现
某某球员各赛季常规赛场均数据如下图所示,使用Excel软件创建图表,分析和展现该球员最近3个赛季中的投篮命中率、三分命中率和罚球命中率数据。
某球员各赛季常规赛场均数据
动动手 实践
三
数据图表呈现
分析
数据
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
数据采用电子表格组织和存储,其中,该球员最近3个赛季中的投篮命中率、三分命中率和罚球命中率数据包含时间趋势和大小比较两层关系,因此图表类型可以选用柱形图或折线图。
创建
图表
①选择要在图表中展示的数据区域A2:A5,K2:M5。
②单击“插入”选项卡上的“插入柱形图或条形图”按钮,选择“三维柱形图”,生成的柱形图如下图所示。
某球员最近3个赛季投篮命中率、三分命中率和罚球命中率柱形图
三
数据图表呈现
检查
图表
创建
图表
③使用图表右上角附近的“图表元素”按钮,可添加坐标轴标题和数据标签等图表元素,使用“图表样式”按钮可自定义图表的外观,使用“图表筛选器”按钮可更改图表中显示的数据。
注意:选中图表,使用“设计”和“格式”选项卡可自定义图表的外观,美化图表。
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
查看图表中数据的展现是否完整,将鼠标移到相应的柱形条上,查看数据卡显示的数据与表格中的数据是否一致。观察柱形条的高度和走势,发现该球员在最近3个赛季中,投篮命中率较为稳定,三分命中率递减。
四
小结
Part 5
课堂小练
五
课堂小练
只需知道数据之间相互链接的顺序
探讨与讨论
1.使用Excel处理数据时,在E1单元格中输入下列表达式,正确的是( )
A.=SUM(A1: D1)/4 B.=(A1+B1-C1-D1)**2
C.= Max[A1: D1] D.= Min(A$1$: D$1$)
A
解析:本题考查数据处理。利用Excel进行数据计算时:公式以“=”开头,有常数、函数、单元格引用和运算符(如+、-、*、/、%、^)组成的式子。B选项幂运算的运算符为^,C选项中函数应该用(),而不是[],D选项绝对引用应该是在行号和列号前加美元符号$,而不是行号和列号后。故选A。
五
课堂小练
只需知道数据之间相互链接的顺序
探讨与讨论
2.下列关于数据整理目的的说法,错误的是( )
A.整合数据资源 B.减少数据量
C.检测和修正错漏的数据 D.规整数据格式
B
解析:本题考查数据整理。数据整理的目的主要是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量,并不是减少数据量,所以答案选B。
五
课堂小练
只需知道数据之间相互链接的顺序
探讨与讨论
3.下列软件中主要功能均为表格数据处理的有( )
A.SAS、SPS B.MATLAB、Photoshop
C.Excel、记事本 D.PowerPoint、SAS
解析:本题考查表格处理相关内容。常用的数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,Photoshop属于图像处理软件,PowerPoint是演示文稿软件,记事本是文本编辑器。故本题答案是A选项。
A
五
课堂小练
只需知道数据之间相互链接的顺序
探讨与讨论
4.下列关于数据整理的说法不正确的是( )
A.不符合一般规律的异常数据应该直接删除
B.数据集中格式不一致的数据,需要进行数据转换
C.重复的数据应在进一步审核的基础上进行合并或删除操作
D.缺失的数据通常可采用平均值、中间值或概率统计值来填充缺失值
解析:本题考查数据整理。A 选项错误,不符合一般规律的异常数据不应直接删除,异常数据可能包含特殊信息或反映特殊情况,需先分析其产生原因(如是否为错误记录或真实异常),再决定处理方式。B 选项正确,数据集中格式不一致的数据(如单位、格式不同)会影响分析结果,需要进行数据转换以统一格式。C 选项正确,重复的数据可能是录入错误或重复记录,应在进一步审核(确认是否为真重复)的基础上进行合并或删除操作,避免数据冗余。D 选项正确,对于缺失的数据,采用平均值、中间值(中位数)或其他概率统计值填充是常用的有效方法,可减少缺失数据对分析的影响。因此,本题选择 A 选项。
A
谢谢!
高中信息技术浙教版必修1
$