4.2 大数据处理(分层作业)信息技术浙教版(2019)必修1

2025-11-25
| 2份
| 15页
| 204人阅读
| 2人下载

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 高一
章节 4.2 大数据处理
类型 作业-同步练
知识点 大数据分析和处理
使用场景 同步教学-新授课
学年 2025-2026
地区(省份) 浙江省
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 969 KB
发布时间 2025-11-25
更新时间 2025-11-25
作者 wuhao1987
品牌系列 上好课·上好课
审核时间 2025-11-25
下载链接 https://m.zxxk.com/soft/55114284.html
价格 5.00储值(1储值=1元)
来源 学科网

内容正文:

4.2 大数据处理(分层作业) 【基础达标】 1.浙江某中学准备充分利用现今的科学技术,举办一场盛大的运动会。为配合运动会顺利进行,学校计算机社团开发了一套运动会管理系统,实现运动员报名、比赛数据传输、气候预判、成绩排名等功能。为体现公平公正公开原则,所有运动员检录由人工智能进行人脸识别,自动登记入场信息。利用某平台的大数据进行气象预测,下列描述正确的是(   ) A.气象预测所需的实时数据一般采用批量处理方式 B.该系统对大数据进行计算的过程依赖于规范的结构化数据 C.有关气象的大数据只有及时处理才能充分发挥价值 D.只有通过大数据分析出天气变化的原因,才能对气候预判越来越准 2.为了提高学校路口等易发事故路段的安全性,交通部门采取了精细化的信号灯管控措施。经过对某校路口近一年来的交通流监测数据的深入分析,交通部门决定在高峰时段(上午7点30分到7点50分,下午16点到16点50分)采用常规的红绿灯模式,而在其他时段仅维持“黄闪”模式,用以提醒司机减速慢行,保障行人安全。下列关于大数据的说法,正确的是(   ) A.道路监控记录的数据都是结构化数据 B.近一年来产生的数据可利用分治思想进行处理 C.停电故障造成某一天数据缺失,会对最终分析结果产生较大影响 D.道路监控记录大量数据,但在事故后仅需分析几十秒数据,表明大数据存在低价值性 3.处理大数据正确的步骤是(   ) ①数据预处理    ②数据采集    ③数据挖掘应用    ④数据分析 A.②③①④ B.①②④③ C.②①④③ D.②④①③ 4.一般而言,大数据的处理过程包含以下四个步骤,其正确的顺序为(   ) ①数据采集   ②数据预处理   ③数据分析   ④数据挖掘应用 A.①②③④ B.②①③④ C.①②④③ D.②①④③ 5.下列有关大数据处理、数据可视化的说法不正确的是(   ) A.静态数据是指处理时已收集完成、计算时不会发生改变的数据 B.流数据主要是指不间断地、持续地到达的实时数据 C.图计算是指有关大量图片的计算 D.“各省生产总值占比情况”可以采用饼图或环形图呈现 6.有如下Python程序段: import pandas as pd import numpy as np #20行10列,数据为[10,30)之间的随机数,行的索引为逆序的小写字母,列的索引为大写字母 dfl=pd.DataFrame(np.random.randint(10,30,(20,10)),index=[chr(x) for x in range(116,96,-1)],columns=[chr(x) for x in range(65,75)]) #5行4列,数据为[50,80)之间的随机数 df2=pd.DataFrame(np.random.randint(50,80,(5,4)),columns=list("ABCD"),index=list("abxyz")) print(df1.append(df2)) 执行该程序段后,输出的DataFrame对象值的行数是(   ) A.10 B.15 C.20 D.25 【能力提升】 1.已知“成绩.xlsx”存储了班级某次英语听写测试成绩,数据包含序号、班级、小组、姓名、成绩列,小明为了分析每个组的平均分,设计了Python程序如下: import pandas as pd df=pd.read_excel("成绩.xlsx") print(df1) 划线处应填入的代码是(   ) A.df1=df.groupby("平均分") B.dfl=df.mean() C.df1=df.groupby("小组").mean() D.df1=df.小组.mean() 2.处理大数据时一般采用“分治思想”,下列关于分治思想的说法,不正确的是(   ) A.分治思想将一个复杂的问题分成两个及以上相似的子问题并求解 B.各班先收集学生选课情况,再汇总全校数据,体现了分治思想 C.MapReduce主要用于处理数据量较小的分布式并行计算模型 D.分布式计算利用的就是分治思想 3.下列描述的场景与处理方法不恰当的是(   ) A.分析某高速路段上个月的超速车辆情况,完善公路交通管制,采用批处理计算 B.图计算为微博超大规模社交网络图数据的各类计算提供支持 C.某平台通过实时分析用户行为实现精准化商品推荐,采用流计算 D.分析过去三年里某景区的游客数量,优化景区人员安排,采用流计算处理 4.下列关于大数据的说法,不正确的是(   ) A.静态数据一般采用批处理计算进行处理 B.社交网络数据可采用图计算进行处理 C.利用大数据,可以对天气情况进行预测 D.随着时间的流逝,流数据的价值一般会逐渐提高 【链接真题】 (24-25高二上·浙江温州·期末)1.小华从网上收集了2023年温州市区6月~8月的天气数据,保存在“weather.xlsx”文件中,部分数据如图a所示。为统计分析2023年6月~8月的天气情况,编写Python程序。 请回答下列问题: import pandas as pd import matplotlib.pyplot as plt df=pd.read_excel("Wenzhou.xlsx") ① ② print(df1.head(1)) plt.bar(dfl["月"],df1["平均温度"]) #设置绘图参数,显示如图b所示的柱形图,代码略                                图a                                     图b (1)程序加框①处实现计算6月~8月的日平均温度的功能,下列代码段中,能正确实现的有 (多选题,填字母)。 A.df["日平均"]=(df["最高温度"]+df["最低温度"])/2 B.df["日平均"]=sum(df["最高温度"],df["最低温度"])/2 C.for i in df.index: D.df.at[i,"日平均"]=(df.at[i,"最高温度]+df.at[i,"最低温度"])/2 (2)在一天中,如果最高气温达到或超过35度,则为高温天。现要统计并输出6月~8月出现高温天最多的月份,则程序加框②处应填入的语句依次为 (选3项,填字母序列) A.df1=df1.groupby("月",as_index=False).count() B.df1=df1.sort_values("最高温度",ascending=False) C.df=df.sort_values("最高温度",ascending=False) D.df1=df[df["最高温度"]>35] (3)观察图b可知,2023年7月份出现的高温天的天数最多。现要筛选出7月的天气数据以便进一步分析,可在第(2)小题处理结果的基础上,再运行如下语句,请在划线处填入合适的代码。 df2=df[ ] (4)高温预警分三级,红色预警:当一天最高气温达到或超过40C;橙色预警:达到或超过37℃;黄色预警:达到或超过35℃。根据温度值t,设置预警等级z。下列Python程序段中符合要求的是 (单选,填字母)。 if t >= 40:     z="红色预警" if t >= 37:     z="橙色预警 if t >= 35:     z="黄色预警" if t >= 35:     z="黄色预警" elif t >= 37:     z="橙色预警" elif t >= 40:     z="红色预警" if t >= 40:     z="红色预警" elif t >= 37:     z="橙色预警 elif t >= 35:     z="黄色预警" if t >= 40:     z="红色预警" else:     if t >= 37:         z="橙色预警"     else:         z="黄色预警"         A.                               B.                        C.                    D. (5)为了验证“温州市区7月份通常比8月份热”这一说法,请写出一种可行的求证方法。 (例:分别统计7月和8月高温天的天数,若7月份天数多,则说法正确,否则,不准确) (24-25高二下·浙江·开学考试)2.“三位一体”是高校招生的一种选拔模式,其所依据的成绩主要由高考成绩、学考成绩和综合素质测试成绩按比例折算而成。现将某高校考生的学考成绩存储在“data.xlsx”文件中,部分数据如图a所示。编写Python程序,实现将考生学考等级折算成相应的分数这一功能。请回答下列问题: 图a 图b (1)若某考生的学考成绩如表1所示,学考成绩折算方式如表2所示,则考生的折算分数为 分。 (2)统计学考成绩折算总分的Python程序如下: import pandas as pd df = pd.read_excel("data.xlsx") cj = {"A": 10, "B": 9, "C": 7, "D": 4} for i in df index:     s = 0     for j in df.columns[3: 13]:       m =       if m in cj :                df.at[i,"总分"] = s ①程序加框处可填入的代码有 (多选,填字母) A.df.at[i, j]    B.df[i][j]    C. df[j][i]    D.df[i, j] ②请在划线处填入合适的代码 。 (3)学校想要了解学考成绩折算平均分居前3名的班级(若分数相同则一同输出),并创建如图b所示的图表,请在划线处填入合适的代码。 import matplotlib.pyplot as plt dfl = df.groupby("班级", as_index =False).总分.mean( ) df2 = df1.sort values("总分", ascending =False , ignore index =True)  #ignore_index 是否重置索引 score = df2.at[2, "总分"] df3 = plt.bar ( , ) #图表设置,代码略 plt.show() 学科网(北京)股份有限公司 学科网(北京)股份有限公司 $ 4.2 大数据处理(分层作业) 【基础达标】 1.浙江某中学准备充分利用现今的科学技术,举办一场盛大的运动会。为配合运动会顺利进行,学校计算机社团开发了一套运动会管理系统,实现运动员报名、比赛数据传输、气候预判、成绩排名等功能。为体现公平公正公开原则,所有运动员检录由人工智能进行人脸识别,自动登记入场信息。利用某平台的大数据进行气象预测,下列描述正确的是(   ) A.气象预测所需的实时数据一般采用批量处理方式 B.该系统对大数据进行计算的过程依赖于规范的结构化数据 C.有关气象的大数据只有及时处理才能充分发挥价值 D.只有通过大数据分析出天气变化的原因,才能对气候预判越来越准 答案:C 详解:本题考查大数据相关内容。A选项,气象预测所需的实时数据一般采用流计算,静态数据采用批处理方式,选项错误;B选项,大数据一般结合结构化、半结构化和非结构化数据,选项错误;C选项,有关气象的大数据只有及时处理才能充分发挥价值,选项正确;D选项,大数据不探求因果关系,而是注重数据关联,选项错误。故本题答案是C选项。 2.为了提高学校路口等易发事故路段的安全性,交通部门采取了精细化的信号灯管控措施。经过对某校路口近一年来的交通流监测数据的深入分析,交通部门决定在高峰时段(上午7点30分到7点50分,下午16点到16点50分)采用常规的红绿灯模式,而在其他时段仅维持“黄闪”模式,用以提醒司机减速慢行,保障行人安全。下列关于大数据的说法,正确的是(   ) A.道路监控记录的数据都是结构化数据 B.近一年来产生的数据可利用分治思想进行处理 C.停电故障造成某一天数据缺失,会对最终分析结果产生较大影响 D.道路监控记录大量数据,但在事故后仅需分析几十秒数据,表明大数据存在低价值性 答案:B 详解:本题考查数据相关内容。A选项,结构化数据是指按照一定的规则和格式进行组织和存储的数据,它具有明确的数据类型和关系,可以通过预定义的模式或模型进行描述和解释,常见的结构化数据包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等;非结构化数据是指没有明确的结构和格式的数据,它不符合传统的表格、行列或关系型数据库的组织形式,非结构化数据的特点是多样性、复杂性和不规则性,常见的非结构化数据包括文本文档、电子邮件、社交媒体帖子、音频和视频文件、图像、日志文件等;道路监控记录的数据都是非结构化数据,选项错误。B选项,近一年来产生的数据可利用分治思想进行处理,选项正确。C选项,交通部门经过对某校路口近一年来的交通流监测数据的深入分析,采取了精细化的信号灯管控措施,停电故障造成某一天数据缺失,不会对最终分析结果产生较大影响,选项错误。D选项,道路监控记录大量数据,但在事故后仅需分析几十秒数据,表明大数据价值密度低,选项错误。故本题答案是B选项。 3.处理大数据正确的步骤是(   ) ①数据预处理    ②数据采集    ③数据挖掘应用    ④数据分析 A.②③①④ B.①②④③ C.②①④③ D.②④①③ 答案:C 详解:本题主要考查大数据的处理。处理大数据正确的步骤是:数据采集→数据预处理→数据分析→数据挖掘应用,故本题选C选项。 4.一般而言,大数据的处理过程包含以下四个步骤,其正确的顺序为(   ) ①数据采集   ②数据预处理   ③数据分析   ④数据挖掘应用 A.①②③④ B.②①③④ C.①②④③ D.②①④③ 答案:A 详解:本题考查的知识点是大数据处理过程。一般而言,大数据的处理过程包含四个步骤:①数据采集—> ②数据预处理—> ③数据分析 —> ④数据挖掘应用。故答案为A选项。 5.下列有关大数据处理、数据可视化的说法不正确的是(   ) A.静态数据是指处理时已收集完成、计算时不会发生改变的数据 B.流数据主要是指不间断地、持续地到达的实时数据 C.图计算是指有关大量图片的计算 D.“各省生产总值占比情况”可以采用饼图或环形图呈现 答案:C 详解:本题考查大数据处理。图计算不是关于大量图片的计算。图计算主要是针对图结构数据(由顶点和边组成的图形结构,如社交网络中人与人之间的关系网络、互联网的网页链接关系等)进行处理和分析,例如计算图中节点之间的最短路径、节点的影响力等。因此,本题选择C。 6.有如下Python程序段: import pandas as pd import numpy as np #20行10列,数据为[10,30)之间的随机数,行的索引为逆序的小写字母,列的索引为大写字母 dfl=pd.DataFrame(np.random.randint(10,30,(20,10)),index=[chr(x) for x in range(116,96,-1)],columns=[chr(x) for x in range(65,75)]) #5行4列,数据为[50,80)之间的随机数 df2=pd.DataFrame(np.random.randint(50,80,(5,4)),columns=list("ABCD"),index=list("abxyz")) print(df1.append(df2)) 执行该程序段后,输出的DataFrame对象值的行数是(   ) A.10 B.15 C.20 D.25 答案:D 详解:本题考查pandas数据处理。append()表示在指定元素的结尾插入内容,语句df1.append(df2)表示在df1对象后插入df2对象,输出的DataFrame对象值一共有25行。因此,本题选择D。 【能力提升】 1.已知“成绩.xlsx”存储了班级某次英语听写测试成绩,数据包含序号、班级、小组、姓名、成绩列,小明为了分析每个组的平均分,设计了Python程序如下: import pandas as pd df=pd.read_excel("成绩.xlsx") print(df1) 划线处应填入的代码是(   ) A.df1=df.groupby("平均分") B.dfl=df.mean() C.df1=df.groupby("小组").mean() D.df1=df.小组.mean() 答案:C 详解:本题考查pandas数据处理。为了分析每个组的平均分则需要先分组,使用groupby()函数,关键词为“小组”,分组后使用mean()函数求平均分。因此,本题选择C。 2.处理大数据时一般采用“分治思想”,下列关于分治思想的说法,不正确的是(   ) A.分治思想将一个复杂的问题分成两个及以上相似的子问题并求解 B.各班先收集学生选课情况,再汇总全校数据,体现了分治思想 C.MapReduce主要用于处理数据量较小的分布式并行计算模型 D.分布式计算利用的就是分治思想 答案:C 详解:本题考查大数据处理。MapReduce是一种分布式并行计算模型,当数据量很大时,它的优势就体现出来了,其核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。因此,本题选择C。 3.下列描述的场景与处理方法不恰当的是(   ) A.分析某高速路段上个月的超速车辆情况,完善公路交通管制,采用批处理计算 B.图计算为微博超大规模社交网络图数据的各类计算提供支持 C.某平台通过实时分析用户行为实现精准化商品推荐,采用流计算 D.分析过去三年里某景区的游客数量,优化景区人员安排,采用流计算处理 答案:D 详解:本题考查大数据处理。流计算用于处理不间断地、持续到达的实时数据,景区过去三年里的游客数量是已收集完成、不会发生改变的静态数据,适合采用批处理计算。因此,本题选择D。 4.下列关于大数据的说法,不正确的是(   ) A.静态数据一般采用批处理计算进行处理 B.社交网络数据可采用图计算进行处理 C.利用大数据,可以对天气情况进行预测 D.随着时间的流逝,流数据的价值一般会逐渐提高 答案:D 详解:本题考查大数据处理。A选项,静态数据通常指相对稳定、不随时间频繁变动的数据,其数据量较大且在处理时一般不需要实时响应。批处理计算适合处理这种大规模静态数据,它将数据收集起来,成批地进行处理,能够有效利用计算资源,提高处理效率。B选项,社交网络数据呈现出复杂的关系结构,节点代表用户,边代表用户之间的关系(如好友关系、关注关系等),这种结构天然适合采用图计算的方式进行处理。图计算可以高效地分析社交网络中的社区发现、影响力传播、最短路径等问题。C选项,大数据可以整合多源数据,如气象卫星数据、地面气象站数据、海洋数据、历史气象数据等。通过对这些海量数据的分析,运用机器学习、深度学习等算法构建预测模型,能够对天气情况进行较为准确的预测。D选项,流数据是随时间不断产生的连续数据,具有时效性强的特点。一般来说,随着时间的流逝,流数据的价值会逐渐降低,因为其反映的是实时或近期的信息,过时的流数据对当前决策的价值会大打折扣,而不是逐渐提高。因此,本题选择D选项。 【链接真题】 (24-25高二上·浙江温州·期末)1.小华从网上收集了2023年温州市区6月~8月的天气数据,保存在“weather.xlsx”文件中,部分数据如图a所示。为统计分析2023年6月~8月的天气情况,编写Python程序。 请回答下列问题: import pandas as pd import matplotlib.pyplot as plt df=pd.read_excel("Wenzhou.xlsx") ① ② print(df1.head(1)) plt.bar(dfl["月"],df1["平均温度"]) #设置绘图参数,显示如图b所示的柱形图,代码略                                图a                                     图b (1)程序加框①处实现计算6月~8月的日平均温度的功能,下列代码段中,能正确实现的有 (多选题,填字母)。 A.df["日平均"]=(df["最高温度"]+df["最低温度"])/2 B.df["日平均"]=sum(df["最高温度"],df["最低温度"])/2 C.for i in df.index: D.df.at[i,"日平均"]=(df.at[i,"最高温度]+df.at[i,"最低温度"])/2 (2)在一天中,如果最高气温达到或超过35度,则为高温天。现要统计并输出6月~8月出现高温天最多的月份,则程序加框②处应填入的语句依次为 (选3项,填字母序列) A.df1=df1.groupby("月",as_index=False).count() B.df1=df1.sort_values("最高温度",ascending=False) C.df=df.sort_values("最高温度",ascending=False) D.df1=df[df["最高温度"]>35] (3)观察图b可知,2023年7月份出现的高温天的天数最多。现要筛选出7月的天气数据以便进一步分析,可在第(2)小题处理结果的基础上,再运行如下语句,请在划线处填入合适的代码。 df2=df[ ] (4)高温预警分三级,红色预警:当一天最高气温达到或超过40C;橙色预警:达到或超过37℃;黄色预警:达到或超过35℃。根据温度值t,设置预警等级z。下列Python程序段中符合要求的是 (单选,填字母)。 if t >= 40:     z="红色预警" if t >= 37:     z="橙色预警 if t >= 35:     z="黄色预警" if t >= 35:     z="黄色预警" elif t >= 37:     z="橙色预警" elif t >= 40:     z="红色预警" if t >= 40:     z="红色预警" elif t >= 37:     z="橙色预警 elif t >= 35:     z="黄色预警" if t >= 40:     z="红色预警" else:     if t >= 37:         z="橙色预警"     else:         z="黄色预警"         A.                               B.                        C.                    D. (5)为了验证“温州市区7月份通常比8月份热”这一说法,请写出一种可行的求证方法。 (例:分别统计7月和8月高温天的天数,若7月份天数多,则说法正确,否则,不准确) 答案:(1)AC;(2)DAB;(3)df.月==7或df["月"]=7;(4)C;(5)方法1:分别对7月和8月的‘日平均’列求平均值,比较这两个月份的平均值高低,若7月份平均温度高于8月份,则说法正确,否则,不准确。 方法2:分别对7月和8月的‘最高温度’列求平均值,比较这两个月份的平均值高低,若7月份最高温度平均值高于8月份,则说法正确,否则,不准确。 方法3:分别统计7月和8月黄色(橙色或红色)预警的天数,若7月份预警次数多,则说法正确,否则,不准确。 详解:本题考查分支结构的程序实现,pandas数据处理。 (1)要计算 6 月~ 8 月的日平均温度,需要对每一行数据中的最高温度和最低温度求平均值,并将结果存储在新的列 “日平均” 中。 A 选项df["日平均"] = (df["最高温度"] + df["最低温度"])/2,这种写法是对整个数据列进行操作,一次性计算出所有行的日平均温度,是可行的。 C 选项for i in df.index: df.at[i, "日平均"] = (df.at[i, "最高温度"] + df.at[i, "最低温度"])/2,通过循环遍历每一行数据,使用at方法将每行的最高温度和最低温度求和取平均后赋值给 “日平均” 列,也是正确的。 B 选项df["日平均"] = sum(df["最高温度"], df["最低温度"])/2是错误的,sum函数的使用方式不正确,不能直接这样对两个数据列求和再求平均。 所以能正确实现的是 AC。 (2)首先要筛选出高温天的数据,即df = df[df["最高温度"]>35](D 选项),然后按照月份进行分组统计数量,df1 = df1.groupby("月", as_index=False).count()(A 选项),最后按照数量降序排序df1 = df1.sort_values("最高温度", ascending=False)(B 选项),这样就能得到每个月高温天数量的降序排列,从而找出高温天最多的月份。所以应填入 DAB。 (3)要筛选出 7 月的天气数据,应该对df数据框进行筛选,筛选条件为月是7,即df2 = df[df["月"] == 7],所以划线处应填入df.月==7或df["月"]=7。 (4)根据题目中给定的高温预警等级规则,当温度t大于等于 40 时为红色预警,大于等于 37 时为橙色预警,大于等于 35 时为黄色预警。 C 选项的代码逻辑正确地实现了这个规则。A选项错误,当t为40时,z为黄色预警;B选项错误,当t为40时,z为黄色预警;D选项错误,当t为34时,z为黄色预警;因此本题答案为C。 (5)方法1:分别对7月和8月的‘日平均’列求平均值,比较这两个月份的平均值高低,若7月份平均温度高于8月份,则说法正确,否则,不准确。 方法2:分别对7月和8月的‘最高温度’列求平均值,比较这两个月份的平均值高低,若7月份最高温度平均值高于8月份,则说法正确,否则,不准确。  方法3:分别统计7月和8月黄色(橙色或红色)预警的天数,若7月份预警次数多,则说法正确,否则,不准确。 (24-25高二下·浙江·开学考试)2.“三位一体”是高校招生的一种选拔模式,其所依据的成绩主要由高考成绩、学考成绩和综合素质测试成绩按比例折算而成。现将某高校考生的学考成绩存储在“data.xlsx”文件中,部分数据如图a所示。编写Python程序,实现将考生学考等级折算成相应的分数这一功能。请回答下列问题: 图a 图b (1)若某考生的学考成绩如表1所示,学考成绩折算方式如表2所示,则考生的折算分数为 分。 (2)统计学考成绩折算总分的Python程序如下: import pandas as pd df = pd.read_excel("data.xlsx") cj = {"A": 10, "B": 9, "C": 7, "D": 4} for i in df index:     s = 0     for j in df.columns[3: 13]:       m =       if m in cj :                df.at[i,"总分"] = s ①程序加框处可填入的代码有 (多选,填字母) A.df.at[i, j]    B.df[i][j]    C. df[j][i]    D.df[i, j] ②请在划线处填入合适的代码 。 (3)学校想要了解学考成绩折算平均分居前3名的班级(若分数相同则一同输出),并创建如图b所示的图表,请在划线处填入合适的代码。 import matplotlib.pyplot as plt dfl = df.groupby("班级", as_index =False).总分.mean( ) df2 = df1.sort values("总分", ascending =False , ignore index =True)  #ignore_index 是否重置索引 score = df2.at[2, "总分"] df3 = plt.bar ( , ) #图表设置,代码略 plt.show() 答案:(1)96;(2)①AC,②s += cj[m]或s = s+cj[m]或其他等价答案;(3)①df2[df2.总分 >= score]或df2[df2["总分"] >=score ],②df3.班级 或df3["班级"],③df3.总分 或df3["总分"] 详解:本题考查Python程序设计相关内容。结合题目内容,分析程序段,推知: (1)考生的学考成绩如表1所示,其成绩为8个A,1个B,1个C。对照表2,考生的折算分数为:10*8+9+7=96,故本题答案是:96。 (2)上文通过read_excel函数读取的数据存储在df中,加框处需要读取某个学生的某科成绩,df.at[i, j]、df[j][i] 均可用于通过标签索引获取指定行标签i和列标签j交叉处的值(成绩值),故加框处答案是:AC。若m in cj成立,则应统计折算总分,由求和表达式s += cj[m]可以实现,故划线处答案是:s += cj[m]或s = s+cj[m]或其他等价答案。 (3)④处,df2是已经按“总分”降序排序并重置索引,score获取到了排名第3的班级的平均分,df3应该是筛选出“总分”大于等于score的班级数据,可由df3=df2[df2["总分"]>=score],故此处答案是:df2[df2.总分 >= score]或df2[df2["总分"] >=score ]。⑤、⑥处,通过函数绘制柱形图,第一个参数为横坐标(班级名称),第二个参数为纵坐标(总分),故⑤处答案是:df3.班级 或df3["班级"]、⑥处答案是:df3.总分 或df3["总分"]。 学科网(北京)股份有限公司 学科网(北京)股份有限公司 $

资源预览图

4.2 大数据处理(分层作业)信息技术浙教版(2019)必修1
1
4.2 大数据处理(分层作业)信息技术浙教版(2019)必修1
2
4.2 大数据处理(分层作业)信息技术浙教版(2019)必修1
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。