高效作业16 第16课大数据处理的基本思想与架构编程处理数据-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参（浙教版2019）

2025-11-15

| 8页

| 42人阅读

| 3人下载

浙江良品图书有限公司

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术浙教版必修1 数据与计算
年级	高一
章节	4.2 大数据处理
类型	作业-同步练
知识点	大数据分析和处理
使用场景	同步教学-新授课
学年	2024-2025
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	DOCX
文件大小	1.11 MB
发布时间	2025-11-15
更新时间	2025-11-15
作者	浙江良品图书有限公司
品牌系列	精彩三年·高中同步课程探究与巩固
审核时间	2025-07-29
下载链接	https://m.zxxk.com/soft/53249907.html
价格	3.00储值（1储值=1元）
来源	学科网

内容正文：

高效作业16[第16课　大数据处理的基本思想与架构　编程处理数据] 【A级　新教材落实与巩固】 1．下列关于Hadoop平台的说法中，正确的是(　B　) A．该平台只能处理结构化数据 B．该平台可以节省大型和复杂问题的处理时间 C．处理信息必须通过可视化体现处理的结论 D．该平台中每台计算机都在处理相同的数据【解析】选项A，Hadoop平台可以处理非结构化数据、半结构化数据和结构化数据，选项错误；选项C，该平台可以以可视化形式输出，也可以以文本形式输出，选项错误；选项D，该平台采用分布式文件格式，不同计算机处理不同的数据，选项错误。 2．下列应用中涉及静态数据处理的是(　A　) A．统计上个月的交易量排行榜 B．导航系统实时更新数据 C．统计在线直播的点赞率 D．不断更新的电力数据【解析】静态数据指在处理时已经收集完成、在计算时不会发生改变的数据。选项B、C、D都处于正在收集状态，选项A符合题意。 3．下列关于流数据的说法中，不正确的是(　A　) A．流数据必须采集完成后再对其进行处理 B．流数据的价值随着时间的流逝而降低 C．可以采用流计算对流数据进行实时分析 D．实时分析流数据可以得到更有价值的结果【解析】在处理时已经采集完成的数据是静态数据；流数据是指不间断地、持续地到达的实时数据，一般采用流计算进行实时分析，选项A错误。 4．下列关于大数据与大数据处理思想的说法中，不正确的是(　D　) A．大数据蕴含很高价值，但因数据量大，价值密度相对较低 B．大数据要分析的是全体数据，而不是抽样数据 C．处理大数据时，一般采用分治思想 D．处理过去几年春运客流量数据，适合用流计算【解析】过去几年春运客流量数据属于静态数据，适合批处理计算，选项D错误。 5．下列关于大数据和大数据处理的说法中，不正确的是(　B　) A．大数据的特征是数据量大、速度快、数据类型多、价值密度低 B．大数据分析的是抽样数据，让决策更精准 C．处理大数据时一般采用分治思想 D．道路交通中实时产生的数据属于流数据【解析】大数据因数据体量大，要分析全体数据，选项B错误。 6．下列关于大数据的说法中，正确的是(　B　) A．学籍系统中存放着大量的学生数据，这些数据属于大数据 B．电商的个性化推荐体现了不强调事物的因果关系，而是注重它们相关性的大数据思维 C．分析全体数据，从而揭露隐藏在数据下的详尽信息是大数据处理的基本思想 D．Hadoop 是一个分布式系统基础架构，适用于实时数据的批处理计算【解析】选项A，学籍系统中存放着大量的学生数据，这些数据不属于大数据，选项错误；选项C，大数据的基本思想是分治，选项错误；选项D，Hadoop适用于静态数据的批处理计算，选项错误。 7．下列关于大数据的说法中，不正确的是(　D　) A．处理大数据时，一般采用分治思想 B．社交网络数据可采用图计算进行处理 C．利用大数据，可以对天气情况进行预测 D．随着时间的流逝，流数据的价值一般会随之提高【解析】流数据是指不间断地、持续地到达的实时数据，随着时间的流逝，流数据的价值也随之降低。故选项D错误。 8．创建Series对象，第二行数据的下标是(　D　) import pandas as pd s1＝pd.Series([123，234，5]，index＝[a，b，c]) A．123　　　B．2　　　C．1　　　D．b 【解析】 Series对象通过index赋值，自己定义行索引，第二行的索引值为b，选项D正确。 9．某DataFrame对象中，包含“班级”“姓名”“物理”“化学”“生物学”“政治”“历史”“地理”“技术”等数据列，下列Python语句能实现按班级统计各班选报技术学科人数的是(　C　) A．jsrs_bj＝df.groupby(”班级”).”技术”．count() B．jsrs_bj＝df.sort_values(”班级”).count() C．jsrs_bj＝df.groupby(”班级”)[”技术”].count() D．jsrs_bj＝df.groupby(”班级”).技术．mean() 【解析】以“班级”为分组依据，选项B错误；再对“技术”列进行统计个数，需要使用count()函数，选项D错误；选项A的正确写法为jsrs_bj＝df.groupby(”班级”).技术．count()，选项错误。 10．有如下Python程序段： import pandas as pd df＝pd.DataFrame({”语文”：[105，88，95]，”数学”：[110，129，135]，”英语”：[105，100，110]}) df.at[2，”英语”]＝88 df1＝df.drop(1，axis＝0) print(df1) 执行该程序段后，输出的结果是(　A　) A．　语文　数学　英语 0105　 110　105 295　135　88 B．　语文　数学　英语 0105　 110　105 195　135　88 C．　语文　数学　英语 288　129　88 395　135　110 D．　语文　数学　英语 188　129　88 295　135　110 【解析】该程序段的功能是将第3行的英语成绩设为88，删除第2行数据保存在df1中，最后输出，选项A正确。 11．使用 pandas 编程处理数据df1，下列选项能实现行列转置的是(　A　) A．df1.T B．df1.columns C．df1.values D．df1.index 【解析】行列转置，使用df1.T，选项A正确。 12．下列关于DataFrame的说法中，正确的是(　A　) A．DataFrame中值的类型可以不一致 B．columns可以添加之前不存在的行索引 C．用index可以获取DataFrame中一列数组 D．使用嵌套字典构建DataFrame时，外层词典的键作为行，内层词典的键作为列【解析】选项B，columns用于存放DataFrame各列的列标题，选项错误；选项C，index指向DataFrame的行索引，选项错误；选项D，使用嵌套字典构建DataFrame时，外层词典的键作为列，内层词典的键作为行，选项错误。 13．2024·诸暨中学检测文件“student.xlsx”中，第一张Excel工作表存放了学生信息，单元格A1，B1，C1的值分别为“姓名”“性别”“出生年龄”，部分Python程序如下： import pandas as pd s1＝pd.read_excel(”student.xlsx”) s1.insert(0，column＝'班级'，value＝'－(1)') s2＝s1.sort_values(出生年龄) 执行该程序后，下列说法不正确的是(　A　) A．对象s1中，对象一定是按“出生年龄”升序排列 B．除索引列外，对象s1有4列数据 C．对象s2中，每一行的班级列的值均为－(1) D．对象s1中，索引列的值是升序排列的【解析】对象s2中，对象一定是按“出生年龄”升序排列的，选项A错误。 14．有如下 Python 程序段： import pandas as pd s＝pd.Series(range(5，11，3)) s[1]＝15 print(s) 执行该程序段后，输出的结果是(　B　) A．　　1　　15 　2　　8 dtype: int64 B．　　0　　5 　1　　15 dtype: int64 C．　　1　　15 　2　　8 　3　　11 dtype: int64 D．　　0　　5 　1　　15 　2　　11 dtype: int64 【解析】 range(5，11，3)只能取到5、8，接着s[1]＝15，则s为[5，15]。选项B正确。 15．有如下Python程序段： import pandas as pd data＝{”姓名”：[”李商隐”，”欧阳修”，”李白”，”杜甫”]，”借阅次数”：[32, 16, 30, 26]} df1＝pd.DataFrame(data，columns＝[”姓名”，”借阅次数”]) c＝0 for i in range(len(df1[”姓名”]))： if df1.at[i，”姓名”][0]＝＝”李”： c＋＝df1.at[i，”借阅次数”] print(c) 执行该程序段后，输出的结果是(　D　) A．46 B．48 C．58 D．62 【解析】利用地点创建DataFrame对象df1，利用at[i，”姓名”]调用姓名格子，提取姓氏，如果姓李，则把借阅次数累加到c中，选项D正确。【B级　素养形成与评价】 16．小李收集了某市各中学“七选三”的选课数据，并将其存储在“各中学‘七选三’选课情况．xlsx”文件中，其数据格式如图所示，各学科列下的“1”表示相应行的学生选了该学科，“0”表示未选。小李编写了如下Python程序段，功能为：输出选考技术人数最多的3 个学校。 import pandas as pd df＝pd.read_excel(”各中学“七选三”选课情况．xlsx”) s＝df.groupby(”学校”).技术．①________ df＝pd.DataFrame({”学校”：s.index，”选技术的人数”：s.values}) df.sort_values(”选技术的人数”，②________， inplace＝True) print(df.③________) 上述程序段中横线处应填入的代码为(　D　) A．①count()　②ascending＝False　③tail(3) B．①sum() ②ascending＝True ③head(3) C．①count() ②ascending＝True ③tail(3) D．①sum() ②ascending＝False ③head(3) 【解析】 count()函数的功能是返回非空数据项的数量，观察数据表，选技术的值可为0 或1，为0 并不是为空，所以利用count()函数计数时，结果应为学生的总人数；sum()函数的功能是求和，相当于统计所有1 的个数，故①处应填入sum()。sort_values()函数中ascending 参数为True 时表示升序，为False 时表示降序。head(3)函数表示取前3 条记录，tail(3)函数表示取后3 条记录。根据题意，若降序排序，应取前3 条；若升序排序，应取后3条。故选项D 正确。 17．2024·温州中学检测使用Excel 软件处理文件“test.xlsx”，D8 单元格计算公式如图所示。调用Python 程序中的pandas 扩展模块实现相同功能。 import pandas as pd df＝pd.read_excel(”test.xlsx”) print(________) 上述程序段中横线处应填入的代码为(　A　) A．df.价格．mean() B．df[”价格”].count() C．df.价格．sum() D．df[”价格”].average() 【解析】 mean()函数的作用是求平均值，选项A正确。 18．某校高二年级技术考试的数据保存在文件“js.xlsx”中，如图所示。用Python编写程序对其进行处理。考号学号姓名班级信息 96789389 13200137 倪家颀 201 45 12551864 13200107 谢云朵 201 44 12557335 13200211 方慧 202 38 12556575 13200242 李博 202 38 12551655 13200302 杨婧 203 39 12551470 13200335 钱聪 203 39 12550826 13200339 徐开放 203 38 12551473 13200438 周宇杰 204 47 import pandas as pd df＝pd.read_excel(”cj.xlsx”) df.append({”考号”：”0425”，”学号”：”31”，”姓名”：”伊默”，”班级”：”214”，”信息”：44}，ignore_index＝True) df.drop(0，axis＝0) del df[”学号”] g＝df.groupby(”班级”，as_index＝False).mean() sv＝g.sort_values(”信息”，ascending＝True) print(sv.head(3)[”信息”]) 执行上述程序段后，下列说法正确的是(　C　) A．df对象新增了一条关于“伊默”的记录 B．df对象删除了一条关于“倪家颀”的记录 C．df对象减少了“学号”列数据 D．输出“信息”平均分最高的三个班级【解析】选项A，append不改变原有df对象的数据，选项错误；选项B，drop不改变原有df对象的数据，选项错误；选项D，输出“信息”平均分最高的三个平均分，选项错误。 19．2024·长兴中学检测某冬季运动会的项目数据存储在“medla.xlsx”文件中，如图所示。编写Python程序，用于找出“搜索热度”前10 名的分项运动。 import pandas as pd import matplotlib.pyplot as plt plt.rc('font', **{'family'：'SimHei'})#图表显示中文字体 df＝pd.read_excel(”medal.xlsx”) df2＝________________ 上述程序段中横线处应填入的代码为(　C　) A．df.sort_values(”搜索热度”，ascending＝True)[：10] B．df.sort_values(”搜索热度”，ascending＝False)[10：] C．df.sort_values(”搜索热度”，ascending＝False)[：10] D．df.sort_values(”搜索热度”，ascending＝True)[10：] 【解析】 ascending＝False表示降序排序，[：10]取前10个，选项C正确。 20．2024·义乌中学检测某商场开业不久，老板为研判商场运营情况，调取了最近一个月的商品销售情况，如图1所示。老板想知道哪些商品卖得多，哪些商品产生的利润多，同时为表彰先进员工、激励落后员工，需统计每个员工销售商品的数量。图1 　　　　　　　　　　　　图2 实现上述功能的Python程序如下，程序运行界面如图2所示。请在横线处填入合适的代码。 import pandas as pd import matplotlib.pyplot as plt pd.set_option('display.unicode.ambiguous_as_wide'，True) #处理列数据无法对齐的情况 pd.set_option('display.unicode.east_asian_width'，True) plt.rcParams['font.sans——serif']＝'SimHei' #图表显示中文字体 df＝pd.read_csv(”sale.csv”，encoding＝”gbk”)#导入待处理的CSV 文件 #修改第1 行显示器的销售人员为“毕春艳” ①__df.at[0，”销售人员”]＝”毕春艳”__或df[”销售人员”][0]＝”毕春艳”__或df.销售人员[0]＝”毕春艳”或其他等价答案__ #计算出每一笔业务利润的情况 df[”利润”]＝(df[”单品售价”]－df[”单品进价”])*df[”销售数量”] #按“商品名称”统计本月“利润”的总和 df1＝②__df.groupby(”商品名称”)[”利润”].sum()__或其他等价答案__ #筛选出本月赚钱较多的前3 种商品 print(③__df1.sort_values(”利润”，ascending＝False).head(3)__或其他等价答案__) #同理，统计同种商品的月销量，代码略 #统计本月每一位销售人员的商品销售数量 df2＝df.groupby(”销售人员”，as_index＝False)[”销售数量”].sum() #筛选出本月销售数量>25 或销售数量<10 的销售人员 print(④__df2[(df2[”销售数量”]>25)__|__(df2[”销售数量”]<10)]__或其他等价答案__) 【解析】 (1)选取单个值，有两种方法。使用at[]方法，根据行标签和列标签选取，即df.at[0，”销售人员”]，先选取销售人员列(通过属性或字典记法来检索)，再取第一行，即df[”销售人员”][0]或df.销售人员[0]。本空要求修改选取的值为“毕春艳”，可以填写df.at[0，”销售人员”]＝”毕春艳” 或df[”销售人员”][0]＝”毕春艳”或df.销售人员[0]＝”毕春艳”。 (2)本空可以分为三个过程。按“商品名称”分组，由题干中的图2 可知以商品名称作为索引，所以分组过程可以通过df.groupby(”商品名称”)来实现，通过sum()求和。 (3)选取赚钱较多的前3 种商品，可以在前面求和的基础上对对象df1 先按“利润”降序排序，再取前3行，即df1.sort_values(”利润”，ascending＝False).head(3)。 (4)本空涉及多条件筛选，两个条件分别可以表示为df2[”销售数量”]>25、df2[”销售数量”]<10，两者是“或”的关系，用“|”连接，由于Python 优先级的关系，两个条件需要加括号，本空可填df2[(df2[”销售数量”]>25) | (df2[”销售数量”]<10)]或df2[(df2.销售数量>25) |(df2.销售数量<10)]。学科网（北京）股份有限公司 $$

资源预览图

高效作业16 第16课大数据处理的基本思想与架构编程处理数据-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参（浙教版2019）

所属专辑

教辅

【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参（浙教版2019）

高一信息技术第三方合辑 45 份文档

361人已阅读

高效作业16 第16课 大数据处理的基本思想与架构 编程处理数据-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参（浙教版2019）

资源信息

内容正文：

资源预览图

高效作业16 第16课大数据处理的基本思想与架构编程处理数据-【精彩三年】2024-2025学年高中信息技术必修第一册课程探究与巩固Word教参（浙教版2019）