内容正文:
第四章 数据处理与应用
第一节 常用表格数据的处理
一尧选择题
1. 数据整理的目的是 渊 冤
淤检测和修正错漏的数据
于整合数据资源
盂规整数据格式
榆提高数据质量
虞预测趋势
A. 淤于虞 B. 于榆虞
C. 淤于盂榆 D. 于盂榆虞
2. 某表格中部分数据如图所示院
图中数据存在的问题主要为 渊 冤
A. 数据缺失
B. 数据重复
C. 逻辑错误
D. 格式不一致
3. 在数据整理中 2022/2/30属于数据问题中的
渊 冤
A. 数据缺失
B. 数据重复
C. 逻辑错误
D. 格式不一致
4. 在 Excel的 D1单元格输入下列公式袁格式不
正确的是 渊 冤
A. =A1-B1-C1
B. =A1+B1-$C1$
C. =A1-B1+C2
D. =SUM(A1:C1)
5. 若 E2单元格公式为越(C2原B2)/$A2垣D$2袁复
制公式到 G4单元格袁则公式变为 渊 冤
A. 越(E4原D4)/$A4垣F$4
B. 越(E4原D4)/$C4垣F$2
C. 越(E4原D4)/$A4垣D$4
D. 越(E4原D4)/$A4垣F$2
6. 下列关于数据整理的描述袁正确的是 渊 冤
A. 某些缺失的数据可以自己随意估计一个
值进行补充
B. Excel 表格中的异常数据可以直接删除
或忽略
C. Excel 表格中的重复数据可以进行合并
或删除
D. Excel中格式不一致的数据袁一般只保留
一种格式的数据袁删除其他格式的数据
7. 下列关于数据的说法袁不正确的是 渊 冤
A. 数据整理的目的是对数据进行检测和
修正
B. 数据处理的核心是数据袁数据的质量不
影响数据分析的结果
C. 数据重复往往在多数据源进行合并时
出现
D. 不同格式的数据通过转换可以将其值按
照统一标准进行表示
二尧非选择题
8. 下面为某校一个班学生成绩的统计数据袁用
Excel软件进行数据处理袁如图 1所示遥 请回
答下列问题院
渊1冤图 1中 C9单元格复制粘贴至 H41袁可知
H41单元格公式为 遥
渊2冤根据图 1中的数据袁制作了一张某小组学
生总分图表袁如图 2所示袁则制作该图表的数
据区域是 遥
95
图 1
图 2
渊3冤下列有关图表和数据表操作的描述正确
的是 渊多选袁填字母冤遥
A. 在图 1 表格的野语文冶列之后插入 1 列袁
不影响图 2所示图表效果
B. 选择 E2:E41设置单元格格式袁保留 1位
小数袁不影响图 2所示图表效果
C. 若要对第 5 小组成绩按总分排序袁可以
仅选择 A34:I41区域进行排序
D. 要筛选出全班总分最高的同学袁可以对
总分设置筛选条件为院野10个最大的值冶
96
flag=1袁因此该空应该为月份的判断是否为 2月份遥
于空联系上下代码袁以及满足表达式后 check=False袁
可明确该空需要填写表达式的功能是不能满足题
目要求中的野对称日冶袁则首先需要检验 check==True袁
因为第一个 if已经检验了 m的值袁月份已经满足
要求袁故还需要检验每个月的天数是否符合要求袁
每月的天数存放在列表 lst中袁可以用 d>lst咱m-1暂+
flag来表示遥 盂空根据代码结构可知是为了返回调
用函数的结果遥 渊2冤根据上文可知 k1仅仅是年份
值袁需要构造月份和日期袁同时根据题目要求的野对
称日冶袁月份和日期刚好和年份相反遥
8. 渊1冤枚举 渊2冤淤1,9 于9 盂d*1000+c*100+
b*10+a
揖解析铱渊1冤for循环遍历所有可能的解袁然后逐一判
断每个答案是否符合条件袁属于枚举算法遥 渊2冤淤a
的值只能是 1袁a若等于 2以上的数字乘以 9袁结果
就会成为 5位数曰a是 1袁d只能是 9袁9*9个位数才
能取到 1遥 于根据 a==b or a==c得出 b的取值在
0~8之间袁若是和 a的值相同则跳过袁所以填写 9遥
盂正读和翻转等值袁则输出结果遥
9. 渊1冤阴阴翌 渊2冤淤x=i咱1:暂渊或 x=i咱1::暂或 x=咱1:len(i)暂
或其他等价表达式冤 于ca>=7 and cb>=7
盂y=score//5
揖解析铱渊2冤淤每个评审打分包括类型和分数两项袁
需要从字符串中将分数 x 切片切出曰于题干中规
定了两组评审中任意一组评审人数少于 7人则本
轮无效袁所以需要判断 ca尧cb中统计的两组评审人
数曰盂计算野阴冶的数量遥
10. 淤c=a咱j暂 于sum-=int(n) 盂a咱i:j+1暂 榆j+=1
揖解析铱淤根据下一行代码野sum+=int(c)冶可知袁此
处要对变量 c进行赋值袁并且 c的值为字符串型袁
易知变量 sum统计连续字串的和袁 变量 j为数字
字符串 a的索引袁故填入代码为 c=a咱j暂曰于当 sum
的值大于 s时袁需要减去连续字串中第一个累加
到 sum中的值袁然后将连续字串向后移动一位袁
变量 i表示连续字串的第一个位置索引袁代码野n=
a咱i暂冶表示取出该字符存储在变量 n中袁故填入代
码为 sum-=int(n)曰盂连续字串的第一个位置索引
为 i袁最后一个位置索引为 j袁故填入代码为 a咱i:j+
1暂曰榆变量 j为数字字符串 a的索引袁步长为 1袁故
填入代码为 j+=1遥
第四章 数据处理与应用
第一节 常用表格数据的处理
1. C
2. A
3. C揖解析铱2月没有 30日遥
4. B揖解析铱绝对引用的符号需要放在字母和数字的
前面遥
5. D揖解析铱相对引用随单元格变化袁绝对引用不随单
元格变化遥
6. C揖解析铱数据缺失问题最简单的处理方法是忽略
含有缺失值的实例或属性袁也可以采用平均值尧中
间值或概率统计值来填充缺失值曰异常数据不能直
接删除或忽略曰格式不一致的数据可根据后续分析
和挖掘的需要进行数据转换遥
7. B揖解析铱数据的质量直接影响数据分析的结果遥
8. 渊1冤=AVERAGE(H34:H40) 渊2冤B1袁B10:B16袁I1袁
I10:I16 渊3冤ABD
揖解析铱渊3冤A34是合并单元格袁排序时不可选择袁C
错误遥
第二节 编程处理数据
1. B揖解析铱按照索引提取值遥
2. C揖解析铱A. df1对象的行索引 index为默认索引 0尧
1尧2袁df1.at咱2,"姓名"暂即选取 df1对象中第 3行渊行
索引为 2冤野姓名冶列的值曰B. 输出结果中袁除索引
列外袁第 1列是野姓名冶袁第 2列是野信息分数冶袁第 3
列是野性别冶曰C. dfl咱1:2暂查看指定的行数据袁包含
起始值袁不包含终值曰D. 语句野df1咱"信息分数"暂=
40冶为赋值语句袁执行后袁所有的信息分数都会被修
改为 40遥
3. B揖解析铱程序利用字典创建 DataFrame对象袁然后
修改野化学冶列的值袁再计算野化学冶列的最大值与最
小值之差袁即 ans=94-83=11遥
4. C揖解析铱groupby()函数表示对各列或各行中的数据
进行分组袁然后对其中每一组数据进行不同的操
作袁mean()函数表示求平均值袁要求不同班级不同
性别的平均值袁groupby()函数的参数应为咱"班级","
性别"暂遥
5. A揖解析铱df咱"id"暂用于查看 df对象的野id冶列数据曰
df.tail(5)用于查看 df对象的尾 5行数据曰df.columns
用于查看 df对象的列标题曰df咱2:5暂用于查看 df对
象的第 2尧3尧4行遥
6. A揖解析铱df.groupby("学校 ").mean()是以学校为单位袁
统计各校学生各列的成绩平均值袁包括野语文冶遥
7. D揖解析铱该运行结果属于一维的数据结构 Series袁
需要运用 pandas模块遥 此外袁为了得到运行结果袁
算法必须包含至少一个输出遥
8. D揖解析铱该程序段创建了一个 Series对象 s1袁i遍
历 s1中的各个值袁res=1+6+7+9=23遥
9. D揖解析铱DataFrame对象 df2为对象 df1的前两行数
据袁对象 df3 为对象 df1 最后两行数据袁求出对象
df2中剩余积分的总和并赋值给 a袁求出对象 df3中
剩余积分的总和并赋值给 b袁最后求出 round(b/a,2)
的值袁输出结果为 0.82遥
10. B揖解析铱sort_values()函数表示排序袁默认纵向升
序排列袁若增加 ascending=False则表示降序排列遥
11. 渊1冤A 渊2冤淤lst咱i暂咱2暂>=h 于dic咱city暂=lst咱i暂咱1暂
渊3冤淤df咱df.获奖等级=="一等奖"暂渊或 df咱df咱"获
奖等级"暂=="一等奖"暂冤 于C
揖解析铱渊1冤B. sum()函数用于统计数值袁因此对
202