内容正文:
学考作业本
19
第四章 数据处理与应用
4.1 数据整理
1.以下说法错误的是( )
A. 数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式提高数据质量
B. 数据缺失问题是数据集中普遍存在的问题,最简单的处理方法是忽略含有缺失值的实
例或属性
C.数据处理的核心是数据,数据的质量直接影响数据分析的结果
D.不同来源的数据不可能存在格式不一致的情况
2.以下说法正确的是( )
A. 数据缺失问题是数据集中普遍存在的问题,可以用平均值来填充缺失值
B. 数据重复问题一般不会出现
C. 信息技术满分 50,某同学成绩为 51 属于异常数据
D. 某同学信息平常考 40 左右,本次考试考了 3分,属于逻辑错误
3.以下说法错误的是( )
A. 数据计算是数据处理的常用方法之一
B. 数据转换通常包括属性数据类型的转换、根据已有属性集构造新属性的转换
C. 在数据分析和数据挖掘前,通常先对数据进行整理
D. 在生产生活中,人们经常以一维表方式组织存储的数据
4.以下说法正确的是( )
A. 日常获取的数据并不都是优质的,常常存在缺失、重复、错误、数量级不同等问题
B. 重复数据的检测可以分为基于字段、基于记录、基于内容三个方面
C. 异常数据指数据集中的属性值与实际值不符,它可能是要去掉的噪声
D. 对于异常数据,可以在进一步审核的基础上进行合并或删除等处理。
学考作业本
20
4.2 大数据处理的基本思想与架构
1.以下说法错误的是( )
A. 处理大数据时,一般采用分治思想
B. 大数据具有数据量大、数据来源与类型多样、处理速度快等特点
C. 并行处理的主要目的是节省大型和复杂问题的处理时间
D. 在计算时不会发生改变的数据,一般采用流计算
2.以下说法错误的是( )
A. Hadoop 是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数
据的批处理计算
B. 静态数据指在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理方式
C. 随着时间的流逝,流数据的价值也随之升高
D. 云盘、网盘的底层一般采用 HDFS 实现
3.以下说法正确的是( )
A. 利用分布在世界各地成千上万台闲置计算机的计算能力,分析来自外太空的电信号,探
索可能存在的外星智慧生命可以采用分布式计算
B. 并行处理是计算机系统中能同时执行三个或更多处理的一种计算方法
C. DataFrame 是一种二维的数据结构,由 2 个索引列(index)和若干个数据列组成
D. Series 是一种二维的数据结构
学考作业本
21
4.3 pandas 默写
有 pandas 对象 df 如下,请回答如下问题:
学校名称 坐落 学生数量 平均成绩 信息老师
0 镇海中学 招宝山 3094 49 陶小波
1 蛟川高中 招宝山 1204 39 张进
2 骆驼中学 骆驼 2047 44 丁一
3 肯特中学 贵驷 1186 29 周可
1. 要取到镇海中学四个字的代码可以是 、 、
。
2.要取到学校名称列的代码可以是 、
3.要取到前三行和后三行的代码分别是 、
4. 要删除学校名称列的代码是(通过 pop)
5. 要删除学校名称列的代码是(通过 drop)
6. 要删除索引值为 0,1 的代码是(通过 drop)
7. 要输出每一列的最大值代码应该是应该: 、最小值: 、
平均值: 求和: 求数量
8. 按照平均成绩降序排序的代码是:
9. 按照坐落聚合数量的代码是:
学考作业本
79
3.6 分支结构
3.7 for 循环结构
3.8 while 循环结构
3.9 自定义函数
3.10 文件读写
4.1 数据整理
4.2 大数据处理的基本思想与架构
4.3 pandas 默写
(1) 1. df["学校名称"][0] 2. df.学校名称[0] 3. df.at[0,"学校名称"]
(2) 1. df["学校名称"] 2. df.学校名称
(3) 1. df.head(3) 2. df.tail(3)
(4) 1. df.pop("学校名称")
(5) 1. df.drop(labels=["学校名称"],axis=1)
(6) 1. df.drop(labels=[0,1],axis=0)
(7) 1. df.max() 2. df.min() 3. df.mean()
4. df.sum() 5. df.count()
(8) 1. df.sort_values("平均成绩",ascending=False)
(9) 1. df.groupby("坐落").count()
1 2 3 4 5 6 7 8 9
A C A A C A C A A
1 2 3 4 5 6
D B B A B A
1 2 3 4
B C A A
1 2 3 4 5
A B C A C
1 2 3
A C D
1 2 3 4
D B D A
1 2 3
D C A