内容正文:
第四章│数据处理与应用
第15课 常用表格数据的处理(见学生用书P79)
——4.1 常用表格数据的处理,教材第116~121页
1.了解常见的数据问题以及数据整理的目的。 2.能利用软件工具对数据进行整理、计算、分析与可视化呈现。
1.数据整理
(1)数据整理的目的:__检测和修正错漏的数据__、__整合数据资源__、__规整数据格式__、__提高数据质量__。
(2)常见的数据问题:__数据缺失__、__数据重复__、__数据异常__、__逻辑错误__、__格式不一致__等。
①数据缺失问题:最简单的处理方法是__忽略__含有缺失值的实例或属性,还可以采用平均值、中间值或概率统计值来填充缺失值。
②数据重复问题:重复数据的检测可以分为__基于字段__和__基于记录__两个方面。对于重复数据,可以在进一步审核的基础上进行__合并__或__删除__等处理。
③数据异常问题:异常数据指数据集中不符合__一般规律__的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。
④逻辑错误问题:数据集中的属性值与实际值不符,或违背业务规则或逻辑。
⑤格式不一致问题:不同来源的数据可能存在格式不一致的情况,可根据后续分析和挖掘的需要进行__数据转换__。
2.数据计算及数据图表呈现
电子表格软件Excel的主要功能是存储和处理数据。根据应用需求,可通过计算、排序、筛选、图表等方法对数据进行分析。Excel文件格式(扩展名)为__.xlsx__。
公式和函数
(1)公式的编辑:必须以“__=__”开头,乘号为*,除号为/,括号为()。乘号不能省略,不能用中括号[]。例如,公式“=((A2+B2)/2)-5”不能写成“=[(A2+B2)/2]-5”。如果单元格格式被设置成“文本”,输入公式会无效(被当作文本字符)。
(2)Excel常用的函数:__SUM__、__AVERAGE__、MAX、MIN等。多个不连续区域中间用逗号分隔,如“=SUM(B2:D2,F2)”。
1.Excel相对引用与绝对引用
相对引用
绝对引用
混合引用
当在垂直方向上进行自动填充或复制时,单元格地址中的行号改变;当在水平方向上进行自动填充或复制时,地址中的列标改变,如B1
如果自动填充或复制时需要锁定地址中的行、列值,可以在行号、列标前加“$”,如$B$1
自动填充或复制时,公式中部分地址发生变化,如B$1,$B1
2.编辑的公式引用的空白单元格,空白单元格当作 0处理。比如公式“=A2/B2”,如果B2为空白单元格,此时除数为0,会出现“#DIV/0!”错误提示。
3.图表
图表区域解题方法:根据x轴,圈定数据区域;根据y轴,圈定数据区域;根据图例,确定标题区域;最后,通过对齐确定数据区域。
4.排序
(1)排序区域的选取原则:只能选择一个连续区域。避开合并单元格。一般不能只选单列。
(2)按关键字内容排序,排序依据通常为数值,也可以是单元格颜色、字体颜色、单元格图标等。升序或降序排序,英文字符按ASCII码排序,中文字符则默认按拼音字母排序,也可以按笔画多少进行排序。
5.筛选
(1)自动筛选:自定义筛选、筛选前10项。筛选是将不符合条件的记录隐藏。
(2)筛选最大3项:筛选出的记录可能超过3项,因为并列的记录也会被筛选出来。如果筛选最大前8%,按照记录总数的8%计算,结果不足1项算1项(0.2项算1项),超过1项结果取整(2.7项,算2项)。筛选最大n项,是筛选所有记录(包括隐藏)中的最大n项。筛选最小也类似。
(3)多列筛选:在列上设置筛选条件,同时满足多列设置的条件,条件之间是“与”的关系。
下列关于数据整理的说法中,正确的是( C )
A.数据集中的缺失值一般用任意值填充
B.数据集中的异常数据须直接删除或忽略
C.数据集中的重复数据可以进行合并或删除
D.数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
【解析】 选项A,缺失数据可以忽略或采用平均值、中间值或概率统计值进行填充,不能用任意值填充,选项错误;选项B,异常数据可能是要去掉的噪声,或含有重要信息的数据对象,需根据具体情况进行分析判断,选项错误;选项C,检查到重复数据,在审核后可进行合并或删除等处理,选项正确;选项D,格式不一致的数据需要根据后续分析和挖掘的需要进行数据转换,选项错误。
变式1 下列关于数据整理的说法中,不正确的是( A )
A.不符合一般规律的异常数据应该直接删除
B.数据集中格式不一致的数据,需要进行数据转换
C.重复的数据应在进一步审核的基础上进行合并或删除等操作
D.缺失的数据通常可采用平均值、中间值或概率统计值来填充缺失值
【解析】 异常数据可能是要去掉的噪声,或含有重要信息的数据对象,需根据具体情况进行分析判断,选项A错误。
变式2 2024·书生中学检测小明收集了杭台高铁途经站点的相关数据,存储在Excel 文件中,如图所示。为了利用各站点的经度、纬度绘制杭台高铁途经站点线路图,小明需要对下图所示的表中的数据进行整理,下列说法正确的是__ABD__(多选,填字母)。
A.可以删除第6 行和第14 行的数据
B.删除“站点位置”和“里程”两列数据,不影响绘制结果
C.第11 行和第12 行的数据重复,应删除掉其中一行
D.通过检测发现E17 单元格的数据存在错误,应进行修正
【解析】 选项A,第6 行和第14 行无经纬度数据,可以删除,选项正确;选项B,此题根据“站点名称”和“经度”“纬度”数据绘图,删除“站点位置”和“里程”两列数据,不影响绘制结果,选项正确;选项C,第11 行和第12 行的数据重复,应该在进一步审核的基础上进行合并或删除处理,当前情况可以进行合并处理,选项错误;选项D,E17 单元格的数据存在逻辑错误,应进行修正,选项正确。
某高中有48个班级,每个班级推选5名选手参加趣味运动会,运动会共设飞镖、跳绳、颠球和套圈4个项目,用Excel软件处理比赛数据,部分界面如图1所示:
图1
请回答下列问题。
(1)“成绩”列数据为4个项目得分中最高的3项之和。通过H3单元格中的公式,对数据区域H4:H242进行自动填充,则H3单元格中的公式为__=SUM(D3:G3)-MIN(D3:G3)__或其他等价答案__。
(2)要在每个班级数据区域的第1行显示该班级成绩最高的选手数据,下列可行的操作有__AB__(多选,填字母)。
A.以“班级”为主要关键字升序、“成绩”为次要关键字降序排序
B.以“班级”为主要关键字降序、“成绩”为次要关键字降序排序
C.以“班级”为主要关键字降序排序,然后筛选出“成绩”最大的48项
D.筛选出“成绩”最大的48项,然后以“班级”为主要关键字升序排序
(3)由图2可知,高三的平均成绩在各年级中最高的有__2__(填数字)个项目。
图2
【解析】 (1)根据题意,成绩=四项成绩之和-最低成绩,则H3单元格中的公式应为=SUM(D3:G3)-MIN(D3:G3)或=D3+E3+F3+G3-MIN(D3:G3)或其他等价答案。
(2)选项A、B中,以“班级”为主要关键字升序或降序排序,再以“成绩”为次要关键字“降序”排序,能达到题目要求,唯一区别在于班级的先后顺序。选项C、D,最终剩下的48位选手(可能多于48位),是所有240位选手中成绩最高的,并不一定是每班的最高,每班最高的选手也不一定在班级数据区域的第1行显示。
(3)由图2可知,高三的跳绳和套圈这两个项目的平均成绩在各年级中最高。
|随|堂|检|测|
1.2024·开化中学检测小杜需对如图所示的数据进行整理, 下列说法正确的是__ACE__(多选,填字母)。
A.B133 单元格的数据存在逻辑错误,应将值改为1
B.B133 单元格的数据存在数据异常,应将值改为1
C.“班级”列数据格式不一致,应将数据进行格式转换
D.第6 行和第7 行存在数据重复,应删除其中一行
E.第6 行和第7 行存在数据重复,应将数据合并
【解析】 选项B,B133 单元格的数据存在逻辑错误,选项错误;选项D,第6 行和第7 行存在数据重复,应在分析的基础上,将数据合并,选项错误。
2.小红在多家电商平台开设了自己的网店,她下载并合并了商品购买表和用户信息表得到新数据集,现要分析不同年龄、性别的用户购买商品的种类、数量的情况,部分数据如图所示。请回答下列问题。
(1)分析前,小红对数据进行了整理,下列说法正确的是__AC__(多选,填字母)。
A.数据整理有利于提高数据的质量
B.D列数据格式不一致,一般保留一种格式的数据,删除其他格式的数据
C.B9单元格与实际不符,存在逻辑错误问题
D.F4单元格数据缺失,最简单的处理方法是填充任意值
(2)小红想通过购买日期与顾客生日推算出顾客的年龄(年龄=购买年份-出生年份),在H2单元格输入__=YEAR(G2)-YEAR(B2)__,随后使用自动填充功能计算H3:H159单元格的值。(提示:YEAR函数可以返回日期中的年份值。例如,“=YEAR(B2)”返回的值为1994)
(3)为了更直观地展现顾客的性别比例,应选用的图表类型为__饼图__。
【解析】 (1)选项B,格式不一致时,一般保留一种格式的数据,并转换其他格式的数据为统一格式,选项错误;选项D,F4单元格数据缺失,一般采用平均值、中间值或概率统计值来填充缺失值,选项错误。
(2)YEAR函数可以返回日期中的年份值,根据“年龄=购买年份-出生年份”得到。
(3)展现顾客的性别比例,适合采用饼图。
温馨提示:请完成高效作业15 )
学科网(北京)股份有限公司
$$