内容正文:
2025-2026学年高一信息技术必修1单元检测卷
第四单元·通关检测
建议用时:45分钟,满分:50分
一、选择题(本大题共12小题,每小题2分,共24分。每小题列出的四个备选项中只有一个是符合题目要求的,不选、多选、错选均不得分)
1.下列关于可视化的说法,不正确的是( )
A.可视化是将数据以图形或图像的形式来表示 B.可视化会降低数据的解释力
C.matplotlib属于可视化工具 D.可视化可以增强数据的吸引力
2.下列关于数据处理与应用的说法,不正确的是( )
A.数据处理的核心是数据,在数据分析和数据挖掘前,应先对数据进行整理
B.传染病的传播路径可以通过图计算进行处理
C.基于统计的分词方法,依据词语与词语之间的空格或逗号等间隔进行分词
D.将数据以图形图像等形式表示,可以增强数据的解释力与吸引力
3.某App根据国家气象部门实时更新的天气信息推出出行穿戴指南,则该App中数据的处理方式是( )
A.用Excel进行数据分析 B.针对图结构数据的图计算
C.针对实时数据的流计算 D.针对静态数据的批处理计算
4.文本数据处理的主要应用有( )
①搜索引擎 ②情报分析 ③论文查重 ④成绩查询 ⑤自动校对
A.①④⑤ B.①②③⑤ C.②③④ D.②③④⑤
5.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示,现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是( )
①删除“birthday”列数据
②删除“电话”列数据
③删除“购买日期”列数据
④修改“user_id”“birthday”列名称为中文名称
⑤修改单元格D6中的数据为M
⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥ C.①④⑤⑥ D.③④⑤⑥
6.要将表格中的区域添加绿色双细线边框,设置界面如右图所示,正确的设置步骤为( )
①选择线条样式 ②选择颜色 ③单击“外边框”按钮 ④单击“确定”按钮
A.③②①④ B.②①③④ C.①③②④ D.①②④③
7.在某市图书馆智能管理系统中,读者刷身份证登录,通过扫码识别图书即可完成借书,系统自动记录数据并生成热门图书榜单。同时,通过摄像头捕捉图像,系统可识别并统计各区域读者人数与停留时长,进而分析热门图书区域和读者兴趣偏好。下列关于系统中数据的说法,正确的是( )
A.摄像头拍摄的图像数据是结构化数据
B.系统记录借阅数据需经过数字化处理
C.热门图书榜单对某读者没有帮助,说明榜单数据没有价值
D.读者兴趣偏好只能以文本形式呈现
8.智能物流是利用物联网、大数据和人工智能等技术优化物流运作的新模式。某电商平台的智能仓储中心采用了 AGV(自动导引运输车)进行货物搬运,AGV 通过地面二维码导航,结合实时定位系统(RTK)实现厘米级定位。仓储管理系统(WMS)会根据订单信息自动生成拣货路径,拣货员通过佩戴的 AR 眼镜接收货物位置信息,拣货效率较传统方式提升 40%。在货物运输环节,系统通过分析实时交通数据动态调整配送路线,同时利用温湿度传感器对冷链货物进行全程监控,确保货物质量。系统动态调整配送路线时,对实时交通数据的分析属于( )
A.数据采集 B.数据存储 C.数据处理 D.数据可视化
9.最适合反映南宁市一天温度变化情况的图表类型是( )
A. B. C. D.
10.下表是某公司3个考核员对实习人员的考核结果,保存在文件“kp.xlsx”中,部分数据如题图所示。考核范围共5个项目,每项打分范围5~10。编写Python程序,根据5个项目之和生成总分列,计算每个实习人员3个总分的平均值,并按平均值降序排序。
import pandas as pd
df = pd.read_excel('kp.xlsx')
df['总分'] = df.sum(axis=1) #水平求各行的和(忽略文本项),生成总分列
print(df.head(8))
方框中代码由下列语句中的部分语句组成:
①df = df.groupby('姓名',as_index=False).mean()
②df = df.groupby('姓名',as_index=False).count()
③df = df.sort_values('总分',ascending=False)
④df = df.sort_values('平均值',ascending=True)
要实现上述功能,下列选项中正确的是( )
A.①③ B.②③ C.①④ D.②④
11.自动驾驶巡逻车“小蘑”,负责世界互联网大会参观的巡逻任务。它具备多种功能,包括人脸识别、车牌识别、实时监控、语音对讲等。使用的信息系统主要包括智能安防监控系统和大数据分析平台。这些系统能够实时监控和处理大量数据,确保巡逻车的有效运行和安全保障。下列关于该系统数据处理的说法,正确的是( )
A.该信息系统处理数据采用分治思想
B.该巡逻车不需要通信技术的支持
C.该系统的大数据分析平台采用的是批处理
D.自动驾驶巡逻车采集到的人脸图像属于结构化数据
12.某商场去年部分销售情况存储在文件“sale.xlsx”中,部分数据如表所示。编写Python程序,先填充第2行“▲”处数据为“8”,再统计并输出电视类销售数量最大的3种型号信息。
A
B
C
D
销售日期
类别
型号
销售数量
1月1日
电视
2123A
▲
1月1日
冰箱
3231B
12
1月1日
洗衣机
4345S
5
1月2日
电视
2123A
3
……
12月31日
电视
3030B
3
12月31日
空调
7843G
16
import pandas as pd
df=pd.read_excel('sale.xlsx')
①
df1=df[df.类别= '电视']
df2=df1.groupby('型号',as_index=False).②
df2=df2.sort_values('销售数量',ascending=False).head(3)
print(df2)
要实现上述功能,划线①②代码正确的是( )
A.df.at[1,'销售数量']=8 count()
B.df.at[0,'销售数量']=8 count()
C.df.at[1,'销售数量']=8 sum()
D.df.at[0,'销售数量']=8 sum()
二、非选择题(本大题共3小题,其中第13小题8分,第14小题9分,第15小题9分,共26分)
13.某学校开展食堂窗口满意度调查,让学生分别对食堂窗口“米粉轩”“炒饭屋”“快乐饺子窗”“爽口素食站”“甜蜜角落”进行评价。调查结果如图所示,若满意度为“/”,则为无效票,不参与统计,有效票的满意度分3个等级:A(满意)、B(一般)、C(不满意),分别计1分、0分、-1分。现计算各食堂窗口的满意度,结果用图表形式呈现,部分Python程序如下:
import pandas as pd
import matplotlib.pyplot as plt
dfl=pd.read_excel("data.xlsx")
dfl= ① #筛选出有效票
for i in dfl.index:
rank=dfl.at[i,"满意度"]
②
dfl.at[i,"得分"]=mark
df2=df1.groupby(③ ,as_index=False)["得分"].sum()
df2=df2.sort_values("得分",ascending=False)
plt.title("食堂窗口满意度排行")
#设置绘图参数,代码略
plt.bar(df2["食堂窗口"],df2["得分"])
(1)请在划线处填入合适的代码。
(2)上述程序运行后,下列选项中的图表可能是绘制结果的是 (单选,填字母)。
A. B.
C. D.
14.随着AI大模型在中学生群体中的应用场景日益拓展,某校学生小明基于《高中生AI大模型使用现状调查》的问卷数据,运用统计学方法与数据可视化技术开展深度分析,为其所在的社团精准掌握学生使用AI大模型的情况提供数据支撑。通过对有效回收问卷进行数据处理,形成的统计分析结果如图所示。
(1)小明需对图表格中B列、F列数据进行可视化表达与呈现,在Excel中选中这两列时,应按住键盘的 键配合鼠标完成跨列选中。
(2)图中标题为“高中生AI大模型使用现状统计”的图表,其图表类型是 。
(3)若要计算本次调查的有效问卷总人数,需在F9单元格中输入的计算公式为 。
(4)根据图相关数据对高中生AI大模型使用现状进行可视化表达与呈现,下列说法正确的序号是 。
①制作该图表选取的数据区域为B2:B9和F2:F9
②创建图表后,无法通过Excel功能区更改图表类型
③若修改F2单元格数值,图表对应占比会因数据联动自动更新
④图表中显示的具体数值,是通过启用“数据标签”功能实现的
15.某研究小组搭建了羊圈监控系统。该系统不仅可以监测环境的指标,还可以识别出每只羊并监测每只羊的健康指标。智能终端连接传感器,通过IoT模块将采集的数据传输到服务器的数据库中。服务器根据数据判断出异常情况时,通过智能终端控制执行器发出预警信号。请回答下列问题。
(1)为高效稳定的识别羊只,以下哪个标签更合理 (单选,填字母:A.RFID电子标签/B.二维码标签)。
(2)研究小组通过浏览器访问采集的历史数据,处理研究小组访问请求的设备是 (单选,填字母)。
A.传感器 B.服务器 C.智能终端 D.执行器
(3)关于该系统的功能,以下说法正确的有 (多选,填字母)。
A.IoT模块仅能将数据从智能终端传输到服务器
B.可通过多个传感器采集数据来提高数据采集的准确度
C.编写智能终端代码时无需知道服务器IP地址
D.系统数据采集的时间间隔可以根据实际需求进行调整
(4)随着养羊规模的扩大,发现原有的数据库在处理日益增长的羊圈空气质量监测数据时,性能逐渐下降,响应时间变长。为了提升数据库处理数据的性能和效率,请从软件的角度提出两种优化方案。
(5)现将系统中2024年7月的数据导出到文件data.xlsx中,部分数据如图a所示。现要由高到低输出该月份各监测点温度过高(超过30℃)的异常次数,将温度过高异常次数最多的监测点的温度过高数据按照时间点进行统计,并绘制线形图(如图b所示)
实现上述功能的部分Python程序如下,请选择合适的代码填入划线处(填字母).
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel("data.xlsx")
#在df后加入一列“小时”,获取每行记录的“小时”数据并记录,代码略
dfl= ①
df2= ②
df2=df2.sort_values("温度",ascending=False) #降序排序
#依次输出df2中各监测点编号及其温度过高的异常次数,如图b所示,代码略
#将df2中首行的监测点编号存入uid,代码略
df2= ③
df2= ④
plt.plot(df2.index,df2["温度"]) #绘制线形图
#设置绘图参数:并显示如图c所示的线形图,代码略
①②③④处可选代码有:
A.df2.groupby("小时").count() #分组计数
B.df[df"监测点"]==uid] #筛选
C.df[df["温度"]>30]
D.df[df["温度"]]>30
E.df1.groupby("监测点",as_index=False).count()
F.df2[df2["监测点"]==uid]
G.dfl.sort_values("监测点",ascending=False)
原创精品资源学科网独家享有版权,侵权必究!1
1 / 9
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
2025-2026学年高一信息技术必修1单元检测卷
第四单元·通关检测(参考答案)
一、选择题(本大题共12小题,每小题2分,共24分。每小题列出的四个备选项中只有一个是符合题目要求的,不选、多选、错选均不得分)
1.B
2.C
3.C
4.B
5.B
6.B
7.B
8.C
9.B
10.A
11.A
12.D
二、非选择题(本大题共3小题,其中第13小题8分,第14小题9分,第15小题9分,共26分)
13. (8分)(1)①df1[dfl.满意度!="/"] 或 df1[df1["满意度"]!="/"](2分)
②mark=ord("B")-ord(rank)或 mark=66-ord(rank)或其他等价答案(2分)
③"食堂窗口"(2分)
(2)B(2分)
14.(9分)(1)Ctrl(2分)
(2)饼图(2分)
(3)=SUM (F2:F8)(2分)
(4)③④(3分)
15. (9分)
(1)A(1分)
(2)B(1分)
(3)BD(2分)
(4)①智能终端代码中添加功能,延长数据获取的时间间隔,或若一段时间内数据无明显变化则合并上传,减少数据上传量过大给数据库造成的处理压力;②服务器代码中添加功能,及时清理过期的历史数据,仅保留近3个月的数据,降低数据库存储和查找时的处理压力;③或其他合理答案。(3分)
(5)①C②E③F④A(2分)
原创精品资源学科网独家享有版权,侵权必究!1
学科网(北京)股份有限公司1 / 16
学科网(北京)股份有限公司
$………………○………………外………………○………………装………………○………………订………………○………………线………………○………………
………………○………………内………………○………………装………………○………………订………………○………………线………………○………………
此卷只装订不密封
………………○………………内………………○………………装………………○………………订………………○………………线………………○………………
………………○………………外………………○………………装………………○………………订………………○………………线………………○………………
… 学校:______________姓名:_____________班级:_______________考号:______________________
2025-2026学年高一信息技术必修1单元检测卷
第四单元·通关检测
建议用时:45分钟,满分:50分
一、选择题(本大题共12小题,每小题2分,共24分。每小题列出的四个备选项中只有一个是符合题目要求的,不选、多选、错选均不得分)
1.下列关于可视化的说法,不正确的是( )
A.可视化是将数据以图形或图像的形式来表示 B.可视化会降低数据的解释力
C.matplotlib属于可视化工具 D.可视化可以增强数据的吸引力
2.下列关于数据处理与应用的说法,不正确的是( )
A.数据处理的核心是数据,在数据分析和数据挖掘前,应先对数据进行整理
B.传染病的传播路径可以通过图计算进行处理
C.基于统计的分词方法,依据词语与词语之间的空格或逗号等间隔进行分词
D.将数据以图形图像等形式表示,可以增强数据的解释力与吸引力
3.某App根据国家气象部门实时更新的天气信息推出出行穿戴指南,则该App中数据的处理方式是( )
A.用Excel进行数据分析 B.针对图结构数据的图计算
C.针对实时数据的流计算 D.针对静态数据的批处理计算
4.文本数据处理的主要应用有( )
①搜索引擎 ②情报分析 ③论文查重 ④成绩查询 ⑤自动校对
A.①④⑤ B.①②③⑤ C.②③④ D.②③④⑤
5.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示,现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是( )
①删除“birthday”列数据
②删除“电话”列数据
③删除“购买日期”列数据
④修改“user_id”“birthday”列名称为中文名称
⑤修改单元格D6中的数据为M
⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥ C.①④⑤⑥ D.③④⑤⑥
6.要将表格中的区域添加绿色双细线边框,设置界面如右图所示,正确的设置步骤为( )
①选择线条样式 ②选择颜色 ③单击“外边框”按钮 ④单击“确定”按钮
A.③②①④ B.②①③④ C.①③②④ D.①②④③
7.在某市图书馆智能管理系统中,读者刷身份证登录,通过扫码识别图书即可完成借书,系统自动记录数据并生成热门图书榜单。同时,通过摄像头捕捉图像,系统可识别并统计各区域读者人数与停留时长,进而分析热门图书区域和读者兴趣偏好。下列关于系统中数据的说法,正确的是( )
A.摄像头拍摄的图像数据是结构化数据
B.系统记录借阅数据需经过数字化处理
C.热门图书榜单对某读者没有帮助,说明榜单数据没有价值
D.读者兴趣偏好只能以文本形式呈现
8.智能物流是利用物联网、大数据和人工智能等技术优化物流运作的新模式。某电商平台的智能仓储中心采用了 AGV(自动导引运输车)进行货物搬运,AGV 通过地面二维码导航,结合实时定位系统(RTK)实现厘米级定位。仓储管理系统(WMS)会根据订单信息自动生成拣货路径,拣货员通过佩戴的 AR 眼镜接收货物位置信息,拣货效率较传统方式提升 40%。在货物运输环节,系统通过分析实时交通数据动态调整配送路线,同时利用温湿度传感器对冷链货物进行全程监控,确保货物质量。系统动态调整配送路线时,对实时交通数据的分析属于( )
A.数据采集 B.数据存储 C.数据处理 D.数据可视化
9.最适合反映南宁市一天温度变化情况的图表类型是( )
A. B. C. D.
10.下表是某公司3个考核员对实习人员的考核结果,保存在文件“kp.xlsx”中,部分数据如题图所示。考核范围共5个项目,每项打分范围5~10。编写Python程序,根据5个项目之和生成总分列,计算每个实习人员3个总分的平均值,并按平均值降序排序。
import pandas as pd
df = pd.read_excel('kp.xlsx')
df['总分'] = df.sum(axis=1) #水平求各行的和(忽略文本项),生成总分列
print(df.head(8))
方框中代码由下列语句中的部分语句组成:
①df = df.groupby('姓名',as_index=False).mean()
②df = df.groupby('姓名',as_index=False).count()
③df = df.sort_values('总分',ascending=False)
④df = df.sort_values('平均值',ascending=True)
要实现上述功能,下列选项中正确的是( )
A.①③ B.②③ C.①④ D.②④
11.自动驾驶巡逻车“小蘑”,负责世界互联网大会参观的巡逻任务。它具备多种功能,包括人脸识别、车牌识别、实时监控、语音对讲等。使用的信息系统主要包括智能安防监控系统和大数据分析平台。这些系统能够实时监控和处理大量数据,确保巡逻车的有效运行和安全保障。下列关于该系统数据处理的说法,正确的是( )
A.该信息系统处理数据采用分治思想
B.该巡逻车不需要通信技术的支持
C.该系统的大数据分析平台采用的是批处理
D.自动驾驶巡逻车采集到的人脸图像属于结构化数据
12.某商场去年部分销售情况存储在文件“sale.xlsx”中,部分数据如表所示。编写Python程序,先填充第2行“▲”处数据为“8”,再统计并输出电视类销售数量最大的3种型号信息。
A
B
C
D
销售日期
类别
型号
销售数量
1月1日
电视
2123A
▲
1月1日
冰箱
3231B
12
1月1日
洗衣机
4345S
5
1月2日
电视
2123A
3
……
12月31日
电视
3030B
3
12月31日
空调
7843G
16
import pandas as pd
df=pd.read_excel('sale.xlsx')
①
df1=df[df.类别= '电视']
df2=df1.groupby('型号',as_index=False).②
df2=df2.sort_values('销售数量',ascending=False).head(3)
print(df2)
要实现上述功能,划线①②代码正确的是( )
A.df.at[1,'销售数量']=8 count()
B.df.at[0,'销售数量']=8 count()
C.df.at[1,'销售数量']=8 sum()
D.df.at[0,'销售数量']=8 sum()
二、非选择题(本大题共3小题,其中第13小题8分,第14小题9分,第15小题9分,共26分)
13.某学校开展食堂窗口满意度调查,让学生分别对食堂窗口“米粉轩”“炒饭屋”“快乐饺子窗”“爽口素食站”“甜蜜角落”进行评价。调查结果如图所示,若满意度为“/”,则为无效票,不参与统计,有效票的满意度分3个等级:A(满意)、B(一般)、C(不满意),分别计1分、0分、-1分。现计算各食堂窗口的满意度,结果用图表形式呈现,部分Python程序如下:
import pandas as pd
import matplotlib.pyplot as plt
dfl=pd.read_excel("data.xlsx")
dfl= ① #筛选出有效票
for i in dfl.index:
rank=dfl.at[i,"满意度"]
②
dfl.at[i,"得分"]=mark
df2=df1.groupby(③ ,as_index=False)["得分"].sum()
df2=df2.sort_values("得分",ascending=False)
plt.title("食堂窗口满意度排行")
#设置绘图参数,代码略
plt.bar(df2["食堂窗口"],df2["得分"])
(1)请在划线处填入合适的代码。
(2)上述程序运行后,下列选项中的图表可能是绘制结果的是 (单选,填字母)。
A. B.
C. D.
14.随着AI大模型在中学生群体中的应用场景日益拓展,某校学生小明基于《高中生AI大模型使用现状调查》的问卷数据,运用统计学方法与数据可视化技术开展深度分析,为其所在的社团精准掌握学生使用AI大模型的情况提供数据支撑。通过对有效回收问卷进行数据处理,形成的统计分析结果如图所示。
(1)小明需对图表格中B列、F列数据进行可视化表达与呈现,在Excel中选中这两列时,应按住键盘的 键配合鼠标完成跨列选中。
(2)图中标题为“高中生AI大模型使用现状统计”的图表,其图表类型是 。
(3)若要计算本次调查的有效问卷总人数,需在F9单元格中输入的计算公式为 。
(4)根据图相关数据对高中生AI大模型使用现状进行可视化表达与呈现,下列说法正确的序号是 。
①制作该图表选取的数据区域为B2:B9和F2:F9
②创建图表后,无法通过Excel功能区更改图表类型
③若修改F2单元格数值,图表对应占比会因数据联动自动更新
④图表中显示的具体数值,是通过启用“数据标签”功能实现的
15.某研究小组搭建了羊圈监控系统。该系统不仅可以监测环境的指标,还可以识别出每只羊并监测每只羊的健康指标。智能终端连接传感器,通过IoT模块将采集的数据传输到服务器的数据库中。服务器根据数据判断出异常情况时,通过智能终端控制执行器发出预警信号。请回答下列问题。
(1)为高效稳定的识别羊只,以下哪个标签更合理 (单选,填字母:A.RFID电子标签/B.二维码标签)。
(2)研究小组通过浏览器访问采集的历史数据,处理研究小组访问请求的设备是 (单选,填字母)。
A.传感器 B.服务器 C.智能终端 D.执行器
(3)关于该系统的功能,以下说法正确的有 (多选,填字母)。
A.IoT模块仅能将数据从智能终端传输到服务器
B.可通过多个传感器采集数据来提高数据采集的准确度
C.编写智能终端代码时无需知道服务器IP地址
D.系统数据采集的时间间隔可以根据实际需求进行调整
(4)随着养羊规模的扩大,发现原有的数据库在处理日益增长的羊圈空气质量监测数据时,性能逐渐下降,响应时间变长。为了提升数据库处理数据的性能和效率,请从软件的角度提出两种优化方案。
(5)现将系统中2024年7月的数据导出到文件data.xlsx中,部分数据如图a所示。现要由高到低输出该月份各监测点温度过高(超过30℃)的异常次数,将温度过高异常次数最多的监测点的温度过高数据按照时间点进行统计,并绘制线形图(如图b所示)
实现上述功能的部分Python程序如下,请选择合适的代码填入划线处(填字母).
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel("data.xlsx")
#在df后加入一列“小时”,获取每行记录的“小时”数据并记录,代码略
dfl= ①
df2= ②
df2=df2.sort_values("温度",ascending=False) #降序排序
#依次输出df2中各监测点编号及其温度过高的异常次数,如图b所示,代码略
#将df2中首行的监测点编号存入uid,代码略
df2= ③
df2= ④
plt.plot(df2.index,df2["温度"]) #绘制线形图
#设置绘图参数:并显示如图c所示的线形图,代码略
①②③④处可选代码有:
A.df2.groupby("小时").count() #分组计数
B.df[df"监测点"]==uid] #筛选
C.df[df["温度"]>30]
D.df[df["温度"]]>30
E.df1.groupby("监测点",as_index=False).count()
F.df2[df2["监测点"]==uid]
G.dfl.sort_values("监测点",ascending=False)
、②
试题 第3页(共4页) 试题 第4页(共4页)
试题 第1页(共6页) 试题 第2页(共6页)
学科网(北京)股份有限公司
$
2025-2026学年高一信息技术必修1单元检测卷
第四单元·通关检测
建议用时:45分钟,满分:50分
一、选择题(本大题共12小题,每小题2分,共24分。每小题列出的四个备选项中只有一个是符合题目要求的,不选、多选、错选均不得分)
1.下列关于可视化的说法,不正确的是( )
A.可视化是将数据以图形或图像的形式来表示 B.可视化会降低数据的解释力
C.matplotlib属于可视化工具 D.可视化可以增强数据的吸引力
【答案】B
【详解】本题考查的是可视化表达。A. 可视化是将数据以图形或图像的形式来表示:这是正确的。数据可视化的核心定义就是将抽象的数据通过图表、图形等视觉元素呈现,便于观察和解读。 B. 可视化会降低数据的解释力:这是不正确的。数据可视化的主要目的恰恰是提高数据的解释力,通过视觉方式简化复杂数据,使其更容易被理解和分析。如果可视化降低了解释力,就违背了其初衷。 C. matplotlib属于可视化工具:这是正确的。matplotlib 是 Python 中一个常用的数据可视化库,用于创建各种静态、动态或交互式图表(如折线图、柱状图)。 D. 可视化可以增强数据的吸引力:这是正确的。可视化通过直观的图形设计,使数据更具视觉吸引力,有助于吸引注意力并提升信息传达的效果。故选B。
2.下列关于数据处理与应用的说法,不正确的是( )
A.数据处理的核心是数据,在数据分析和数据挖掘前,应先对数据进行整理
B.传染病的传播路径可以通过图计算进行处理
C.基于统计的分词方法,依据词语与词语之间的空格或逗号等间隔进行分词
D.将数据以图形图像等形式表示,可以增强数据的解释力与吸引力
【答案】C
【详解】本题考查数据处理与应用。A 正确,数据处理核心是数据,分析挖掘前需整理数据。B 正确,传染病传播路径可通过图计算处理。C 错误,基于统计的分词方法依据词语出现频率等统计特征分词,而非空格或逗号间隔。D 正确,数据可视化能增强解释力与吸引力。故选 C。
3.某App根据国家气象部门实时更新的天气信息推出出行穿戴指南,则该App中数据的处理方式是( )
A.用Excel进行数据分析 B.针对图结构数据的图计算
C.针对实时数据的流计算 D.针对静态数据的批处理计算
【答案】C
【详解】本题考查大数据处理。根据实时天气数据分析出行穿戴,采用的数据处理方式为针对实时数据的流计算。因此,本题选择C。
4.文本数据处理的主要应用有( )
①搜索引擎 ②情报分析 ③论文查重 ④成绩查询 ⑤自动校对
A.①④⑤ B.①②③⑤ C.②③④ D.②③④⑤
【答案】B
【详解】本题考查文本数据处理。文本数据处理主要用于对海量文本进行分析、比对和挖掘,从而实现信息检索、内容比对和智能化处理等功能。像搜索引擎(①)、情报分析(②)、论文查重(③)、自动校对(⑤)都需要对文本进行分词、索引、相似度计算或错误检测等处理,因此属于典型应用;而成绩查询(④)更多是结构化数据库的检索操作,与文本数据处理关系不大,所以正确选项是①②③⑤。故答案为:B。
5.小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示,现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是( )
①删除“birthday”列数据
②删除“电话”列数据
③删除“购买日期”列数据
④修改“user_id”“birthday”列名称为中文名称
⑤修改单元格D6中的数据为M
⑥修改“birthday”列日期格式与G列一致
A.①②③⑤ B.②④⑤⑥ C.①④⑤⑥ D.③④⑤⑥
【答案】B
【详解】本题考查数据整理的相关操作。需结合分析目标(不同年龄、性别的用户购买商品种类、数量的情况),判断各操作是否恰当: ①删除 “birthday” 列数据:错误。“birthday” 列用于推导 “年龄”,是分析所需关键数据,不能删除。 ②删除 “电话” 列数据:正确。“电话” 与 “年龄、性别、商品购买情况” 的分析目标无关,删除可减少数据冗余。 ③删除 “购买日期” 列数据:错误。购买日期列数据与出生日期列数据结合计算用户年龄。 ④修改 “user_id”“birthday” 列名称为中文名称:正确。中文列名更便于理解与后续操作。 ⑤修改单元格 D6 中的数据为 “M”:正确。性别列(D 列)其他数据为 “M”“F”,D6 “男” 格式不统一,修改为 “M” 可保持数据格式一致。 ⑥修改 “birthday” 列日期格式与 G 列(购买日期)一致:正确。统一日期格式便于后续数据处理与分析。 综上,②④⑤⑥的操作均恰当,答案为B选项。
6.要将表格中的区域添加绿色双细线边框,设置界面如右图所示,正确的设置步骤为( )
①选择线条样式 ②选择颜色 ③单击“外边框”按钮 ④单击“确定”按钮
A.③②①④ B.②①③④ C.①③②④ D.①②④③
【答案】B
【详解】本题考查表格。B选项正确: 先选择颜色(②),确定为绿色,这是设置边框的第一步,明确了边框的颜色属性。 接着选择线条样式(①),选择双细线样式,此时已经确定了边框的具体样式(绿色双细线)。 然后单击 “外边框” 按钮(③),将之前设置好的绿色双细线样式应用到表格区域的外边框上。 最后单击 “确定” 按钮(④),保存设置并使表格区域显示出绿色双细线边框。因此,本题选择B。
7.在某市图书馆智能管理系统中,读者刷身份证登录,通过扫码识别图书即可完成借书,系统自动记录数据并生成热门图书榜单。同时,通过摄像头捕捉图像,系统可识别并统计各区域读者人数与停留时长,进而分析热门图书区域和读者兴趣偏好。下列关于系统中数据的说法,正确的是( )
A.摄像头拍摄的图像数据是结构化数据
B.系统记录借阅数据需经过数字化处理
C.热门图书榜单对某读者没有帮助,说明榜单数据没有价值
D.读者兴趣偏好只能以文本形式呈现
【答案】B
【详解】本题考查数据的相关概念。图像数据没有固定格式,属于非结构化数据,故A错误;系统记录的借阅数据需经过数字化处理才能被系统存储和处理,故B正确;热门图书榜单对某读者无帮助不代表对其他用户无价值,数据价值具有相对性,故C错误;读者兴趣偏好可通过图表等多种形式呈现,并非只能是文本,故D错误。故答案为:B。
8.智能物流是利用物联网、大数据和人工智能等技术优化物流运作的新模式。某电商平台的智能仓储中心采用了 AGV(自动导引运输车)进行货物搬运,AGV 通过地面二维码导航,结合实时定位系统(RTK)实现厘米级定位。仓储管理系统(WMS)会根据订单信息自动生成拣货路径,拣货员通过佩戴的 AR 眼镜接收货物位置信息,拣货效率较传统方式提升 40%。在货物运输环节,系统通过分析实时交通数据动态调整配送路线,同时利用温湿度传感器对冷链货物进行全程监控,确保货物质量。系统动态调整配送路线时,对实时交通数据的分析属于( )
A.数据采集 B.数据存储 C.数据处理 D.数据可视化
【答案】C
【详解】本题考查数据处理。系统动态调整配送路线时,对实时交通数据进行分析,是对采集到的数据进行加工、计算、分析等操作,以获取有价值的信息,这属于数据处理的范畴。而数据采集是获取数据的过程,数据存储是将数据保存起来,数据可视化是将数据以直观的图形等形式展示。故答案为:C。
9.最适合反映南宁市一天温度变化情况的图表类型是( )
A. B. C. D.
【答案】B
【详解】本题考查的是可视化表达。选项 A(柱状图): 柱状图是一种以长方形的长度为变量的统计图表 ,主要用于比较不同类别数据之间的数量差异,比如比较不同班级的学生人数、不同产品的销量等,不适合反映数据的变化情况。选项 B(折线图):折线图通过将数据点连接成折线,能够清晰地展示数据随时间或其他连续变量的变化趋势,非常适合用来反映像一天中温度这种随时间变化的数据情况,能直观呈现温度的升降变化过程。选项 C(饼图):饼图主要用于展示各部分在总体中所占的比例关系,例如不同年龄段人群在总人口中所占的比例、各类支出在总支出中的占比等,无法体现数据的变化情况,不适合反映温度变化。选项 D(雷达图):雷达图主要用于多变量数据的综合分析,展示多个变量在不同维度上的表现,比如企业在市场竞争力的多个维度(如产品质量、价格、服务等 )上的表现对比,不用于反映单一数据的变化情况,不适合反映温度变化。故选B。
10.下表是某公司3个考核员对实习人员的考核结果,保存在文件“kp.xlsx”中,部分数据如题图所示。考核范围共5个项目,每项打分范围5~10。编写Python程序,根据5个项目之和生成总分列,计算每个实习人员3个总分的平均值,并按平均值降序排序。
import pandas as pd
df = pd.read_excel('kp.xlsx')
df['总分'] = df.sum(axis=1) #水平求各行的和(忽略文本项),生成总分列
print(df.head(8))
方框中代码由下列语句中的部分语句组成:
①df = df.groupby('姓名',as_index=False).mean()
②df = df.groupby('姓名',as_index=False).count()
③df = df.sort_values('总分',ascending=False)
④df = df.sort_values('平均值',ascending=True)
要实现上述功能,下列选项中正确的是( )
A.①③ B.②③ C.①④ D.②④
【答案】A
【详解】本题考查的是数据分析。groupby 方法用于按照指定的列进行分组 ,as_index=False 表示分组后不将分组列作为索引 。要计算每个实习人员 3 个总分的平均值,需要按照 “姓名” 进行分组,然后计算平均值,对应的语句是 df = df.groupby('姓名', as_index=False).mean() 。 语句 df = df.groupby('姓名', as_index=False).count() 的功能是按照 “姓名” 分组后计算每组的数量,不符合 “计算平均值” 的需求,所以②错误。sort_values 方法用于按照指定列的值进行排序 ,ascending=False 表示降序排序,ascending=True 表示升序排序。由于前面已经通过 groupby 计算出了每个实习人员的平均值(计算平均值后,“总分” 列的值实际就是该实习人员的平均值 ),要按平均值降序排序,对应的语句是 df = df.sort_values('总分', ascending=False) 。 语句 df = df.sort_values('平均值', ascending=True) 中,数据框中不存在 “平均值” 这一列(前面计算平均值后,结果存放在 “总分” 列 ),且 ascending=True 是升序排序,不符合题目 “降序排序” 的要求,所以④错误。故选A。
11.自动驾驶巡逻车“小蘑”,负责世界互联网大会参观的巡逻任务。它具备多种功能,包括人脸识别、车牌识别、实时监控、语音对讲等。使用的信息系统主要包括智能安防监控系统和大数据分析平台。这些系统能够实时监控和处理大量数据,确保巡逻车的有效运行和安全保障。下列关于该系统数据处理的说法,正确的是( )
A.该信息系统处理数据采用分治思想
B.该巡逻车不需要通信技术的支持
C.该系统的大数据分析平台采用的是批处理
D.自动驾驶巡逻车采集到的人脸图像属于结构化数据
【答案】A
【详解】本题考查的是数据处理。
选项A:分治思想常用于将复杂问题分解为小任务处理。智能安防和大数据分析可能通过分布式系统并行处理实时数据,符合分治思想,故正确。
选项B:巡逻车需实时传输数据(如监控画面、语音),依赖通信技术,故错误。
选项C:实时监控需流处理(即时处理数据流),批处理适用于离线处理静态数据,故错误。
选项D:人脸图像是图像文件,属于非结构化数据,结构化数据如数据库表格,故错误。
故选A。
12.某商场去年部分销售情况存储在文件“sale.xlsx”中,部分数据如表所示。编写Python程序,先填充第2行“▲”处数据为“8”,再统计并输出电视类销售数量最大的3种型号信息。
A
B
C
D
销售日期
类别
型号
销售数量
1月1日
电视
2123A
▲
1月1日
冰箱
3231B
12
1月1日
洗衣机
4345S
5
1月2日
电视
2123A
3
……
12月31日
电视
3030B
3
12月31日
空调
7843G
16
import pandas as pd
df=pd.read_excel('sale.xlsx')
①
df1=df[df.类别= '电视']
df2=df1.groupby('型号',as_index=False).②
df2=df2.sort_values('销售数量',ascending=False).head(3)
print(df2)
要实现上述功能,划线①②代码正确的是( )
A.df.at[1,'销售数量']=8 count()
B.df.at[0,'销售数量']=8 count()
C.df.at[1,'销售数量']=8 sum()
D.df.at[0,'销售数量']=8 sum()
【答案】D
【详解】本题考查 pandas 数据分析。 填充 “▲” 处数据: 在 pandas 中,DataFrame 的行索引从 0 开始。题目中 “▲” 在第 2 行(表格显示行号为 1 ,对应 DataFrame 索引 0 ),列名为 “销售数量”。所以填充数据应使用 df.at[0, '销售数量'] = 8 。 统计电视类各型号销售总量: 对电视类别按型号分组后,需要统计每个型号的销售数量总和,应使用 sum() 方法(count() 是统计记录数,不符合需求 )。即 df1.groupby('型号', as_index=False).sum() 。综上,答案选 D 。
二、非选择题(本大题共3小题,其中第13小题8分,第14小题9分,第15小题9分,共26分)
13.某学校开展食堂窗口满意度调查,让学生分别对食堂窗口“米粉轩”“炒饭屋”“快乐饺子窗”“爽口素食站”“甜蜜角落”进行评价。调查结果如图所示,若满意度为“/”,则为无效票,不参与统计,有效票的满意度分3个等级:A(满意)、B(一般)、C(不满意),分别计1分、0分、-1分。现计算各食堂窗口的满意度,结果用图表形式呈现,部分Python程序如下:
import pandas as pd
import matplotlib.pyplot as plt
dfl=pd.read_excel("data.xlsx")
dfl= ① #筛选出有效票
for i in dfl.index:
rank=dfl.at[i,"满意度"]
②
dfl.at[i,"得分"]=mark
df2=df1.groupby(③ ,as_index=False)["得分"].sum()
df2=df2.sort_values("得分",ascending=False)
plt.title("食堂窗口满意度排行")
#设置绘图参数,代码略
plt.bar(df2["食堂窗口"],df2["得分"])
(1)请在划线处填入合适的代码。
(2)上述程序运行后,下列选项中的图表可能是绘制结果的是 (单选,填字母)。
A. B.
C. D.
【答案】(1)①df1[dfl.满意度!="/"] 或 df1[df1["满意度"]!="/"],②mark=ord("B")-ord(rank)或 mark=66-ord(rank)或其他等价答案,③"食堂窗口";(2)B
【详解】本题考查的是数据分析。
(1)①筛选出有效票,即“满意度”不为“/”的数据行,故填入代码为df1[df1.满意度!="/"]或df1[df1["满意度"]!="/"]。②根据代码“dfl.at[i,"得分"]=mark”可知mark为得分1、0或-1,因此此处计算mark的值,故填入代码为mark=ord("B")-ord(rank)或mark=66-ord(rank)或其他等价答案。③要计算各食堂窗口的满意度,需要按“食堂窗口”分组,并统计每组的得分和,故填入代码为"食堂窗口"。
(2)bar()函数绘制的是垂直柱形图,故选项C、D不可能。代码"df2=df2.sort_values("得分",ascending=False)"将df2对象按得分降序排序,因此绘制的图表数据也是降序排序,故选项A不可能。
14.随着AI大模型在中学生群体中的应用场景日益拓展,某校学生小明基于《高中生AI大模型使用现状调查》的问卷数据,运用统计学方法与数据可视化技术开展深度分析,为其所在的社团精准掌握学生使用AI大模型的情况提供数据支撑。通过对有效回收问卷进行数据处理,形成的统计分析结果如图所示。
(1)小明需对图表格中B列、F列数据进行可视化表达与呈现,在Excel中选中这两列时,应按住键盘的 键配合鼠标完成跨列选中。
(2)图中标题为“高中生AI大模型使用现状统计”的图表,其图表类型是 。
(3)若要计算本次调查的有效问卷总人数,需在F9单元格中输入的计算公式为 。
(4)根据图相关数据对高中生AI大模型使用现状进行可视化表达与呈现,下列说法正确的序号是 。
①制作该图表选取的数据区域为B2:B9和F2:F9
②创建图表后,无法通过Excel功能区更改图表类型
③若修改F2单元格数值,图表对应占比会因数据联动自动更新
④图表中显示的具体数值,是通过启用“数据标签”功能实现的
【答案】(1)Ctrl;(2)饼图;(3)=SUM (F2:F8);(4)③④
【详解】本题考查的是表格数据处理。
(1)在 Excel 里,Ctrl 键常用来辅助实现 “不连续选取” 。比如要选 B 列、F 列这种不相邻的列时,先点 B 列列标选中整列,再按住 Ctrl 键,点 F 列列标,就能同时选中这两列 。
(2)图表标题是 “高中生 AI 大模型使用现状统计”,从外观能看到,它把数据分成不同扇形,用扇形面积体现各部分(不同 AI 大模型)占总体的比例 。这种用扇形展示 “部分 - 整体” 关系的图表,就是 饼图 。像统计各类别占比(比如不同商品销售额占总销售额的比例),常用饼图直观呈现,所以这里图表类型是饼图 。
(3)表格结构,F 列是每个 AI 大模型对应的使用人数(F2 到 F8 分别对应不同模型的人数 )。要算总人数,就是把这些单元格的数值加起来 。Excel 里,SUM 函数专门用来求和,格式是 =SUM(数据区域) 。这里数据在 F2 到 F8 ,所以公式写成 =SUM(F2:F8) ,输入后按回车,就能算出有效问卷总人数。
(4)① 数据区域判断:图表要展示 “AI 大模型名称” 和 “对应人数” 的占比关系,源数据得包含标题(B1 是 “大模型”、F1 是 “人数” )和具体数据(B2:B8 是模型名称,F2:F8 是人数 )。所以正确数据区域应该是 B1:B8 和 F1:F8 ,①说 “B2:B9 和 F2:F9” 是错的。 ② 更改图表类型:Excel 里,创建图表后,随时能通过 “图表设计” 或 “格式” 选项卡(功能区)更改图表类型 。比如想把饼图改成柱状图对比数据,直接在功能区操作就行,所以 “无法更改” 说法错误,② 错。 ③ 源数据修改与图表联动:Excel 图表的核心特点就是 “动态联动” ,源数据(像 F2 单元格数值)改了,图表会自动更新对应占比 。因为图表是基于源数据生成的,数据变了,计算和展示的结果也会跟着变,所以③ 正确。 ④ 数据标签的作用:图表里显示的具体数值(比如每个扇形对应的人数、比例 ),是通过启用 “数据标签” 功能实现的 。在 Excel 中,选中图表后,去 “图表元素” 里勾选 “数据标签”,就能让数值显示在图表上,所以④ 正确。故选③④。
15.某研究小组搭建了羊圈监控系统。该系统不仅可以监测环境的指标,还可以识别出每只羊并监测每只羊的健康指标。智能终端连接传感器,通过IoT模块将采集的数据传输到服务器的数据库中。服务器根据数据判断出异常情况时,通过智能终端控制执行器发出预警信号。请回答下列问题。
(1)为高效稳定的识别羊只,以下哪个标签更合理 (单选,填字母:A.RFID电子标签/B.二维码标签)。
(2)研究小组通过浏览器访问采集的历史数据,处理研究小组访问请求的设备是 (单选,填字母)。
A.传感器 B.服务器 C.智能终端 D.执行器
(3)关于该系统的功能,以下说法正确的有 (多选,填字母)。
A.IoT模块仅能将数据从智能终端传输到服务器
B.可通过多个传感器采集数据来提高数据采集的准确度
C.编写智能终端代码时无需知道服务器IP地址
D.系统数据采集的时间间隔可以根据实际需求进行调整
(4)随着养羊规模的扩大,发现原有的数据库在处理日益增长的羊圈空气质量监测数据时,性能逐渐下降,响应时间变长。为了提升数据库处理数据的性能和效率,请从软件的角度提出两种优化方案。
(5)现将系统中2024年7月的数据导出到文件data.xlsx中,部分数据如图a所示。现要由高到低输出该月份各监测点温度过高(超过30℃)的异常次数,将温度过高异常次数最多的监测点的温度过高数据按照时间点进行统计,并绘制线形图(如图b所示)
实现上述功能的部分Python程序如下,请选择合适的代码填入划线处(填字母).
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel("data.xlsx")
#在df后加入一列“小时”,获取每行记录的“小时”数据并记录,代码略
dfl= ①
df2= ②
df2=df2.sort_values("温度",ascending=False) #降序排序
#依次输出df2中各监测点编号及其温度过高的异常次数,如图b所示,代码略
#将df2中首行的监测点编号存入uid,代码略
df2= ③
df2= ④
plt.plot(df2.index,df2["温度"]) #绘制线形图
#设置绘图参数:并显示如图c所示的线形图,代码略
①②③④处可选代码有:
A.df2.groupby("小时").count() #分组计数
B.df[df"监测点"]==uid] #筛选
C.df[df["温度"]>30]
D.df[df["温度"]]>30
E.df1.groupby("监测点",as_index=False).count()
F.df2[df2["监测点"]==uid]
G.dfl.sort_values("监测点",ascending=False)
【答案】(1)A;(2)B;(3)BD;(4)①智能终端代码中添加功能,延长数据获取的时间间隔,或若一段时间内数据无明显变化则合并上传,减少数据上传量过大给数据库造成的处理压力;②服务器代码中添加功能,及时清理过期的历史数据,仅保留近3个月的数据,降低数据库存储和查找时的处理压力;③或其他合理答案。(5)①C②E③F④A
【详解】本题考查信息系统和pandas 综合应用。
(1)高效稳定识别羊,应该使用RFID方式更为合适,故答案选A 。
(2)访问采集的历史数据,应通过服务器连接到数据库,故答案选B。
(3)IoT模块可以进行数据的双向传输,A项错误;可以通过多个传感器计算平均值来减少误差,提高数据准确度,B项正确;智能终端向服务器发送采集的数据,需要知道服务器IP地址,C项错误;可以根据实 际需求调整采样时间间隔,D项正确。
(4)从软件的角度提出两种优化方案,提升数据库处理数据的性能和效率:
1.智能终端代码中添加功能,延长数据获取的时间间隔,或若一段时间内数据无明显变化则合并上传, 减少数据上传量过大给数据库造成的处理压力;
2.服务器代码中添加功能,及时清理过期的历史数据,仅保留近3个月的数据,降低数据库存储和查找 时的处理压力;或其他合理答案。
(5)①从原表格 df中筛选温度异常数据;②统计各监测点温度异常次数;③从筛选后的表格 df1 中筛选监测点 uid; ④统计各时间点温度异常次数。故答案为C/E/F/A。
原创精品资源学科网独家享有版权,侵权必究!1
1 / 9
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$