内容正文:
5.1 走近数据分析2024-2025学年高中信息技术教科版(2019)必修1
一、选择题
1.题图所示是李琳上学期的成绩,求平均分并做对比后,她选择等级考的科目为物理化学和历史三科,用到的数据分析法是( )。
A.对比分析法、结构分析法 B.结构分析法、平均分析法
C.平均分析法、对比分析法 D.图表分析法、结构分析法
2.下列不是数据分析类型的是( )
A.有关趋势的分析 B.有关比例的分析
C.有关大小的分析 D.有关关系的分析
3.某分析员研究销售数据,发现购香烟后购买啤酒的概率较大,购买可乐同时一般会购买薯片,这属于数据的( )
A.聚类分析 B.关联分析 C.分类分析 D.数据分类
4.某学校引进了一个在线智慧教学平台,经过若干学期的线上教学实践积累了学习资源、教学互动、学情信息等大量教学数据。为了不断提高线上教学质量,在线智慧教学平台可根据当前积累的教学数据,采用( )技术来估计学生的学习效果,并生成综合的改进方案,完善线上教学方法。( )
A.数据存储与加密 B.数据索引与排序
C.数据分析与预测 D.数据共享与保护
5.为了预防森林病虫害,做好防范措施,林业部门对历年的数据进行对比,这属于数据处理过程中的( )
A.数据关联 B.数据导人 C.数据合并 D.数据分析
6.通过分析并发现大量数据之间的关联性或相关性,从而描述某些属性同时出现的规律和模式的数据分析方法是( )
A.特征探索 B.关联分析 C.聚类分析 D.数据分类
7.下列关于大数据相关说法,正确的是( )
A.某市学生体质测试的数据是大数据
B.大数据为提高处理效率,采用抽样数据
C.大数据分析为得到正确的处理结果,不允许有个别错误数据
D.大数据不一定强调对事物因果关系的探求,而是更注重它们的相关性
8.某超市在对历史交易订单数据进行分析后,发现购买产商品A的顾客同时购买商品B的概率很大,进而调整超市商品摆放位置,这种数据分析方法属于( )
A.聚类分析 B.分类分析 C.回归分析 D.关联分析
9.( )是指在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息进行归纳,为决策提供参考依据和控制机制。
A.数据挖掘 B.数据管理 C.数据控制 D.数据处理
10.超市对销售情况作了调查后,决定将啤酒和尿布摆放在一起捆绑销售,从而达到提升了啤酒的销售量,请问这样决策用了( )数据处理方法。
A.大数据分析 B.大数据存储 C.大数据求和 D.大数据采集
11.词云通常使用字体的大小和颜色表示关键词的重要程度或出现频次,在下列情形中,哪些适合用词云来呈现的( )
①《西游记》中,孙悟空出现的次数
②学生的语文、数学、英语三科月考成绩
③某报告中出现的关键词
④刊登在报纸上的一则新闻
⑤《三字经》中常用的高频词汇
A.①②③ B.②③④ C.①③⑤ D.①④⑤
12.以下哪个工具不是用于数据可视化的?( )
A.Excel B.Tableau C.Photoshop D.Power BI
13.小明收集本校7选3选课数据存储在“7选3选课情况.xlsx”,其数据格式如图所示,学科列下“1”表示相应行学生选了该学科,“0”表示未选。小明编写了如下程序,实现输出选考技术人数最多的2个班级的功能。
A
B
C
D
E
F
G
H
I
1
班级
姓名
物理
化学
生物
政治
历史
地理
技术
2
三(1)
王*一
1
1
1
0
0
0
0
3
三(2)
陈*杰
0
1
1
1
4
三(1)
王**
1
0
0
0
0
1
1
5
三(3)
董*大
1
0
0
0
0
1
1
6
三(1)
潘*晨
0
1
1
0
1
0
0
7
三(2)
张*芳
1
1
1
0
0
0
0
8
三(3)
柯*珊
1
0
1
0
0
1
0
9
三(1)
胡**
1
1
1
0
0
0
0
Import pandas as pd
df=pd.read_excel("7选3选课情况.xlsx")
s=df.groupby("班级").技术. ①
df=pd.DataFrame({"班级":s.index,"选技术人数":s.values})
df.sort_values("选技术人数", ② ,inplace=True)
print(df. ③ )
画线处的代码填写正确的是( )
A.①count() ②ascending=False ③tail(2)B.①sum() ②ascending=True ③head(2)
C.①count() ②ascending=True ③tail(2) D.①sum() ②ascending=False ③head(2)
14.数据分析的过程不包括( )
A.首先要根据分析的目标提出假设
B.然后选择恰当的分析方法进行分析
C.验证假设是否正确
D.根据分析直接得出相应的结论
15.数据分析的基本方法包括( )
A.特征探索、关联分析、聚类分析、数据分类
B.特征探索、聚类分析、数据分类
C.特征探索、数据分类
D.关联分析、聚类分析、数据分类
16.在高一半期考试后,现需分析每个班的平均成绩,选用下列哪种分析方法最合适( )
A.对比分析 B.平均分析 C.聚类分析 D.案例分析
二、填空题
17.在数据分析中, 是一种用于预测未来趋势或行为的分析方法。
18.平均分析是指运用 的方法反映总体在一定时间、地点条件下某一数量特征的一般水平。
19.北斗卫星导航系统。古有北斗七星辨明方向,今有北斗卫星定位九州。我国自主建设、独立运行的全球卫星导航系统--北斗卫星导航系统,将为全球用户提供全天候、全天时、高精度的定位、导航和授时服务。在数据处理过程中,需要运用一定的分析方法进行整理分析,挖掘出内在的结构和规律,从而提取有价值的、有意义的数据。对比分析是将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物的发展变化情况和规律。聚类分析能够从样本数据出发,自动进行数据分类。下图是某城市公共交通运营里程的分析结果,这是运用了 分析方法。
20.以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等的表达方式称为 表达。
21.数据分析的常用方法有 、 等。
22.K-平均算法属于( )分析方法。
三、判断题
23.欧姆定律的实验数据,利用Python工具进行分析、建模和验证,能够比较精确地发现规律,从而获得知识。( )
24.数据也会过时,过时了的数据没有任何价值。( )
25.数据分析的目的是从数据中发现规律和趋势,而数据可视化则是为了美观。 ( )
26.数据分析的方法主要有对比分析、平均分析。对比分析是指将两个或两个以上的数据进行比较,分析它们的差异,来反映总体在一定时间、地点条件下某一数量特征的一般水平。 ( )
27.数据分析的目的是提取有用信息,并形成结论或观点,从而指导决策。( )
四、操作题
28.昆明市教科研需要分析这几年高中的学业水平考试成绩情况,于是通过大数据采集的方法,从各区的考试服务器中调取了大量的考试数据进行分析,以如图所示是这些数据的一小部分:
(1)在数据拿到之前,分析人员需要处理数据中存在着错误或异常或者没有值的数据,这个步骤我们称为 。
(2)在图中,分析人员发现有部分数据缺失了,他们可以采用 的方法处理这些丢失的数据;
(3)分析人员希望将学生的各科成绩分为四个层次进一步分析,他们可以采用 的方法(选填项:关联分析、聚类分析、数据分类)对数据进行分类。
(4)分析人员将数据通过大数据分析方法分析完毕以后,他们可以采用 的方式,将数据以图形、图像、地图、动画的生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律。
试卷第1页,共3页
试卷第1页,共3页
学科网(北京)股份有限公司
参考答案:
1.C
【详解】本题主要考查数据分析。对比分析法是将两个或两个以上的数据进行比较,对比有横向和纵向两种。平均分析法是运用计算平均数的方法反映总体在一定时间、地点等条件下某一数量特征的一般水平。结构分析法是将各个部分与总体进行对比。分体题干可知,用到的数据分析法是平均分析法和对比分析法,故本题选C选项。
2.C
【详解】本题主要考查数据分析。数据分析的类型有:有关趋势的分析、有关比例的分析、有关关系的分析。有关大小的分析不属于数据类型分析,故本题选C选项。
3.B
【详解】本题考查数据分析。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将分类数据项映射到某一特点类别的功能。 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。某分析员研究销售数据,发现购香烟后购买啤酒的概率较大,购买可乐同时一般会购买薯片,这属于数据的关联分析。故选B。
4.C
【详解】本题主要考查数据分析。为了不断提高线上教学质量,在线智慧教学平台可根据当前积累的教学数据,采用数据分析与预测技术来估计学生的学习效果,并生成综合的改进方案,完善线上教学方法,故本题选C选项。
5.D
【详解】本题考查数据分析。数据分析是对收集到的数据进行系统性分析和解释的过程,旨在发现数据背后的模式、趋势、关联性等信息,从而为决策提供支持和指导。在给定的情境下,林业部门对历年的数据进行对比,旨在分析森林病虫害的发展趋势和规律,以制定相应的防范措施,因此属于数据分析的范畴。故答案为:D。
6.B
【详解】本题主要考查数据分析。数据分析方法中,关联分析就是分析并发现存在于大量数据之间的关联性或者相关性,从而描述一个事物中某些属性同时出现的规律和模式。故答案为:B。
7.D
【详解】本题考查大数据技术相关知识。A选项,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。某市学生体质测试的数据不属于大数据,A选项错误;B选项,提高大数据处理效率的方式有云计算、和机器学习,B选项错误;C选项,个别数据错误,不会影响大数据分析的处理结果,C选项错误;D选项,大数据技术不一定强调对事物因果关系的探求而是更加注重它们的相关性,D选项正确。故本题答案为D选项。
8.D
【详解】本题主要考查数据分析。关联分析,就是从大规模数据中,发现对象之间隐含关系与规律的过程,也称为关联规则学习。例如:购物篮分析,最早是为了发现超市销售数据库中不同的商品之间的关联关系,故本题选D选项。
9.A
【详解】本题主要考查数据分析。数据挖掘是指在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息进行归纳,为决策提供参考依据和控制机制,故本题选A选项。
10.A
【详解】本题主要考查数据的分析。超市对销售情况作了调查后,决定将啤酒和尿布摆放在一起捆绑销售,从而达到提升了啤酒的销售量,这样的决策用了大数据分析处理方法,故本题选A选项。
11.C
【详解】本题主要考查数据分析的描述。“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。①《西游记》中,孙悟空出现的次数③某报告中出现的关键词⑤《三字经》中常用的高频词汇,均适合用词云来呈现,故本题选C选项。
12.C
【详解】本题考查数据可视化。Excel具有丰富的图表功能,可以将数据以直观的图表形式呈现;Tableau是专业的数据分析与可视化工具,能够创建各种交互式可视化报表;Power BI也是常用于数据可视化和分析的工具。而Photoshop主要是用于图像编辑和处理,并非专门用于数据可视化。故答案为:C。
13.D
【详解】本题考查的是利用pandas数据分析。题目要求输出选考技术人数最多的2个班级,故先进行分组,并统计人数,然后递减排序,选取前2位。“df.groupby("班级").技术”表示按班级分组计算,count()的功能是返回非空数据项的数量,sum()的功能是求和,①空应填入sum()。按选技术人数进行排序,ascending=True表示升序,ascending=False表示降序,最后输出选考技术人数最多的2个班级,若②处为升序,则③处应填入tail(2),若②处为降序,则③处应填入head(2)。故本题应选D。
14.D
【详解】本题考查数据分析相关知识。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的过程包括首先要根据分析的目标提出假设,然后选择恰当的分析方法进行分析,验证假设是否正确。选项D并不包括在内。
15.A
【详解】 本题主要考查数据分析的方法。数据分析的基本方法包括特征探索、关联分析、聚类分析、数据分类,故本题选A选项。
16.B
【详解】本题考查数据分析。数据分析主要用于现状分析、原因分析和预测分析;对比有横向对比和纵向对比两种情况;平均分析是指运用计算平均值的方法反映总体在一定时间、地点条件下某一数量特征的一般水平。在高一半期考试后,现需分析每个班的平均成绩,选用平均分析方法最合适。故选B。
17.预测分析
【详解】本题考查数据分析。在数据分析领域,存在多种分析方法。其中,预测分析通过运用统计学、机器学习等技术和方法,基于历史数据来构建模型,进而对未来的趋势或行为进行预估和推测。故答案为:预测分析。
18.计算平均数
【详解】本题考查数据分析相关内容。平均分析法是运用计算平均数的方法来反映总体在一定时间/地点条件下某一数量特征的一般水平,平均指标可用于同一现象在不同地区/不同部门或单位间的对比,还可用于同一现象在不同时间的对比。故本题答案是:计算平均数。
19.对比
【详解】本题考查分析方法应用。如图所示,对不同年份的公共汽车和轨道交通的运行里程进行比较,属于对比分析方法。对比分析通常涉及两个或多个数据集之间的直接比较,以识别它们之间的差异和相似之处。故答案为:对比。
20.数据可视化
【详解】本题考查的是数据分析。以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等的表达方式称为数据可视化表达。
21. 对比分析 平均分析
【详解】本题考查的是数据分析。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。常用方法有:对比分析、平均分析。
22.聚类
【详解】本题主要考查数据分析的描述。k-平均算法 (英文: k -means clustering)源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于 数据挖掘 领域。
23.√
【详解】本题考查Python相关知识点:利用Python工具进行分析、建模和验证,能够比较精确地发现规律,从而获得知识。这正是计算机强大运算能力的优势,因此本题正确。
24.×
【详解】本题考查数据的相关知识点
数据不会过时,只有什么时候使用而已,一直有价值。故表述有误
25.错误
【详解】本题考查数据分析。数据分析的目的是从数据中发现规律和趋势,数据可视化则是为了更直观地展示数据分析结果。故正确答案为错误。
26.错
【详解】本题考查数据分析。对比分析法的定义 对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。映总体在一定时间、地点条件下某一数量特征的一般水平是平均分析,题干概念混乱,说法错误。
27.正确
【详解】本题主要考查数据分析。数据分析的目的是提取有用信息,并形成结论或观点,从而指导决策,表述正确。
28. 数据预处理 删除 聚类分析 数据可视化
【详解】本题主要考查数据分析操作。(1)数据预处理是指在主要的处理以前对数据进行的一些处理,在数据拿到之前,分析人员需要处理数据中存在着错误或异常或者没有值的数据,这个步骤我们称为数据预处理。(2)在左图中,分析人员发现有部分数据缺失了,他们可以采用删除的方法处理这些失的数据,由于涉及成绩分数,无法进行均值填充,无法反映学生的真实成绩。(3)聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。分析人员希望将学生的各科成绩分为四个层次进一步分析,他们可以采用聚类分析的方法。(4)分析人员将数据通过大数据分析方法分析完毕以后,他们可以采用数据可视化的方式,将数据以图形、图像、地图、动画的生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律。
答案第1页,共2页
答案第1页,共2页
学科网(北京)股份有限公司
$$