内容正文:
专题02 数据处理与应用
高频考点概览
考点一 数据的处理及过程、数据的采集
考点二 数据的分析和可视化表达
考点一
数据的处理及过程、数据的采集
1.(2023辽宁)通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的数据采集方法是( )
A.网络数据采集法 B.传感器数据采集 C.系统日志采集法 D.统计报表数据采集
2.(2025上海)《哪吒之魔童闹海》(简称《哪吒2》),于2025年初上映后广受好评。小汇同学对部分观影人员做了问卷调查,相关数据存放在名为nezha2.csv的文件中,如图为问卷调查汇总后的部分数据。
除了问卷调查,研究哪吒2电影的数据来源还有( )
A.电影院检票系统 B.电影评论数据采集 C.院线内部数据库 D.电影剧本
3.(2022上海)虞老师通过问卷星统计了当前核酸检测情况并存入“核酸信息.csv”的数据集中。现需增加一列用以记录性别,请问以下适合描述该信息的数据类型有( )
A.布尔型 B.整型 C.字符串型 D.日期型
4.(2024广东)在现代社会,我们可以通过网络进行购物,只需要挑选我们所需要的商品,支付之后,商品就可以通过快递送达我们手里。如果要采集多种商品在不同平台的售价差异数据,单纯靠人工进行采集会比较低效繁琐,可考虑利用( )对数据进行自动化采集。
A.系统日志 B.问卷调查 C.网络爬虫 D.传感器
5.(2023广西)在道路上,电子警察系统利用动态视频检测触发技术对车辆进行抓拍并完成车牌识别,把车牌号码等数据记录下来。这种数据采集方法是( )
A.访谈采集方法 B.视频监控采集方法
C.实验采集方法 D.文献调研采集方法
6.(2025辽宁)一名校园短视频博主喜欢记录校园日常。在发布了一段时间视频之后,他想利用Excel分析数据,优化视频内容。以下是该博主制作的视频表现记录表。博主定义互动率的计算方法为:(点赞+评论)/播放量*100%。计算周一“食堂美食测评”视频的互动率,应在G2中输入公式( )
A.=(C2+D2)/B2*100 B.(C2+D2)/B2*100%
C.=C2+D2/B2*100% D.=B2/(C2+D2)
7.(2025云南)为帮助农民合理安排灌溉、施肥等农业生产活动,某地农业气象站购买了一套降雨量精准测量系统。该系统的主要功能是:使用称重式雨量计测量降雨量,并把降雨量数据实时上传到气象中心服务平台,实现对降雨信息的准确跟踪。据此完成下列要求。
(1)系统中的称重式雨量计由承水口、滤网、储水桶和称重传感器等组成,降雨时,通过测量收集到的雨水重量来确定降雨量,采集降雨数据,这属于该信息系统的 功能。
(2)某地降雨量与地质灾害事件次数的可视化图表如下图所示,图表由柱形图和 图组成。从图表中可发现,降雨量最大、发生地质灾害最频繁的月份是 月。
(3)气象学上,降雨等级的划分一般是根据24小时内的降水量来确定,参照表如下:
已知某地6月份第1周的24小时降水量存放在列表rainfall中。请完善程序,使其能够根据不同的降水量数值,输出对应气象学分类。
①程序中第11行划线处应填入 。
②程序中第20行划线处应填入 。
考点二
数据分析与可视化表达
1.(2022上海)小雪在学校每幢教学楼各放置一套噪音检测设备。这些传感器连续工作10天,每天工作时间为6:00-21:00,并在每个整点时间采集500秒时长的噪音数据,传输到服务器的数据库中。小雪最后以数据分析报告的形式完成了此次课题研究。关于数据分析报告,以下说法正确的是( )
A.小雪所完成的数据分析报告属于日常数据通报
B.数据分析报告一定能为小雪解决学校噪音问题提供正确的结论
C.报告中基于数据做出的分析结论,可为全市所有学校解决噪音问题提供决策依据
D.数据分析报告依据种类和数据分析方法的不同,最后呈现方式也会不同
2.(2025浙江)某高中图书馆管理员整理出了2024年学校图书借阅情况的数据,保存在“book.xlsx”文件中,部分数据如下表所示。编写Python程序,统计并输出全年最受学生欢迎的3类图书。
姓名
身份类型
书名
图书类别
借阅起止日期
姜*国
学生
三国演义
文学
20240105—20240114
方*俊
学生
航空科普在中国
科技
20240105—20240119
王*宇
教师
矛盾论
哲学
20240105—20240120
…
…
…
…
…
林*彦
学生
看不见的光
自然科学
20241205—20241212
秦*星
教师
AI提问之道
科技
20241206—20241221
马*雪
学生
红楼梦
文学
20241208—20241223
import pandas as pd
df=pd.read_excel ("book.xlsx") #读文件中的数据
df=df[df.身份类型=="学生"] #筛选学生数据
df=df.rename (columns={"借阅起止日期":"借阅次数"}) #修改列名
print (dfr)
方框中的代码由下列语句中的部分语句组成:
①dfg=df. groupby ("图书类别",as_index=False). count()
②dfg=df. groupby ("图书类别",as_index=False). sum()
③dfs=dfg. sort_values ("借阅次数",ascending=False)
④dfs=dfg. sort_values ("借阅次数")
⑤dfr=dfs. head (3)
⑥dfr=dfs. tail (3)
要实现上述功能,下列选项正确的是( )
A.①③⑥ B.②③⑤ C.①④⑥ D.②④⑤
3.(2025北京)数据分析的方法有很多,在研究北京人口分布特点时,将北京人口数量、就业量、外来人口构成与上海的相应数据进行对比,分析它们的差异。这是数据分析方法中的( )
A.平均分析法 B.结构分析法 C.对比分析法 D.综合评价分析法
4.(2024北京)人工智能(AI)在医疗健康领域中的应用已经成为了业内关注的焦点。随着人工智能技术的不断发展,AI已经在医疗诊断、治疗、预防以及管理等方面取得了显著的成果。图1的柱状图反映了2017至2021年中国医疗机器人规模变化趋势,图2的饼图反映了2019年中国医疗机器人应用领域结构。观察图1、图2,回答以下问题:
图1 图2
(1)常见的数据分析方法有很多,诸如对比分析法、平均分析法、结构分析法等。请分析图1和图2使用的数据分析基本方法并简述它们的适用场景。
(2)如下是绘制其中一个分析图表的代码片段。请根据代码,分析它是绘制哪一个图表的代码片段。
for i in range(len(x_data)):
plt.bar(x_data[i],y_data[i])
5.(2024上海)《哪吒之魔童闹海》(简称《哪吒2》),于2025年初上映后广受好评。小汇同学对部分观影人员做了问卷调查,相关数据存放在名为nezha2.csv的文件中,如图为问卷调查汇总后的部分数据。
小汇将不同城市的观影次数统计并存入city.csv中,如图1所示。为了生成如图2的图表,则图3代码中需要填写:
plt. (city[" " ],city[" "])
图1
图2
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
city=pd.read_csv("city.csv",encoding="ansi")
plt. (city[" "],city[" "])
plt.title("问卷电影观影次数统计")
plt.show()
图3
6.(2022上海)根据国家《城市区域噪声标准》,明确规定以居住、文教机关为主的区域,昼夜噪声最高限值为:昼间(6:00-21:00)55dB、夜间(22:00-5:00)45dB。
表是小雪从数据库中导出的部分数据,存储为文件 “sound.csv” 。此文件中包含2023年4月10日—4月19日每天6:00-21:00声音传感器采集的噪音数据。
ID
date
time
duration
MAXdB
AVGdB
building
1
4月10日
6:00
500秒
57
32
一号楼
2
4月10日
6:00
500秒
66
45
二号楼
3
4月10日
6:00
500秒
61
42
三号楼
4
4月10日
7:00
500秒
72
56
一号楼
5
4月10日
7:00
500秒
68
49
二号楼
6
4月10日
7:00
500秒
51
38
二号楼
……
……
……
……
……
……
……
480
4月19日
21:00
500秒
57
33
三号楼
小雪对“sound.csv”中的数据进行处理分析,统计每天每幢楼昼间的噪音平均值,部分代码如下所示。
import pandas as pd # 导入pandas库
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库
import numpy as np # 导入numpy库
d=pd.read_csv('sound.csv',encoding='ANSI')
# 检测重复值,删除重复记录
db=d.drop_duplicates(subset= _____①_____ , keep='first')
#在db变量中筛选4月10日"一号楼"的噪音数据,计算并输出当天昼间噪音平均值
db1=db[ (db['date']=='4月10日') _②_ (db['building']=='一号楼') ]
print( ___③___ (db1['AVGdB']))
#数字资源:drop_duplicates()方法的常用参数及其说明
参数名称
说明
subset
接收字符串或序列,表示进行去重的列,默认为None,表示全部列
keep
接收特定字符串,表示重复时保留第几个数据
inplace
接收bool型数据,表示是否在原表上进行操作
(1)小雪打开“sound.csv”文件,发现其中存在重复数据。为了得到准确的数据分析结果,首先应进行去除重复数据处理。上述代码中①处应填入的语句为( )。
A.None B.['date'] C. ['date','time'] D.['date','time','building']
(2)在db中筛选4月10日"一号楼"的噪音数据,代码中②处应填写的符号为( )。
A.& B.| C. * D.%
(3)对每天6:00-21:00采集的“噪音平均值”计算其算术平均值,可以得到当日的噪音均值。为了计算并输出4月10日"一号楼"昼间的噪音平均值,代码中③处填写的语句为 。
7.(2024广东)在现代社会,我们可以通过网络进行购物,只需要挑选我们所需要的商品,支付之后,商品就可以通过快递送达我们手里。购物时,我们通常会关注价格的高低,运用( )来展现某种商品在不同时间的价格变动情况比较合适。
A.散点图 B.饼图 C.折线图 D.柱形图
8.(2024云南)“词云图”是数据可视化的一种表达方式。2023年国家社科基金立项热词的词云图如下图所示,下列说法错误的是( )
A.通过词云图显示,“机制研究”比“实现路径”的出现频率高
B.制作词云图一般需要经过数据准备、分词处理、特征提取、数据分析、结果呈现等步骤
C.词云图必须显示该数据集包含的全部词语
D.词云图通常使用文字的大小和颜色来表示关键词出现的频次
9.(2025云南)张老师使用Python程序可视化呈现学生每5分钟跳绳次数与2000米长跑成绩的关系。部分程序代码及程序运行结果如下图所示。第13行下划线处应填写的代码是( )
A.plt. plot(jump, run) B.plt. scatter(jump, run)
C.plt. bar(jump, run) D.plt. pie(jump, labels = run)
10.(2023广西)为了形象地呈现数据中的信息,可用不同的图表将数据可视化。如图所用的图表是( )
A.饼图 B.柱形图 C.雷达图 D.折线图
11.(2023云南)小李编写Python程序实现数据可视化呈现,执行下列代码后呈现的图表是( )
A. B.C.
D.
12.(2022上海)小雪在学校每幢教学楼各放置一套噪音检测设备。这些传感器连续工作10天,每天工作时间为6:00-21:00,并在每个整点时间采集500秒时长的噪音数据,传输到服务器的数据库中。根据图所示“一号楼4月10日-19日昼间噪音平均值”可视化图形,请在横线处简单总结一号楼昼间噪音特点,帮助小雪撰写数据分析报告。
(例如:4月10日-19日,一号楼昼间噪音大于55dB的天数为1天。)
13.(2025云南)某校后勤处开展“校园垃圾分类”调查活动,通过纸质问卷收集了各班的垃圾分类数量并进行统计,统计表如下图所示:
(1)后勤处对收集到的原始数据进行去重、统一格式等操作,属于数据处理过程中的 (选填“数据收集”或“数据整理”或“数据分析”或“数据呈现”);若需快速找出正确率前10的班级,数据表可以按照“正确率(%)”进行 排序(选填“升序”或“降序”)。
(2)SUMIF是指定条件求和函效。上表中的H3单元格使用该函数求出了“高一”年级的参与人数,如果要通过自动填充功能得到“高二”和“高三”年级的参与人数,则H3单元格中的函数应该修改为 。
(3)以表格中的数据为依据,后勤处李老师用Python绘制的“各年级参与人数统计”柱形图及相应的程序如下,程序第7行代码的作用是 。
14.(2025浙江)某研究小组开发“食堂就餐管理系统”,其页面规划如图 a 所示,用户可通过浏览器查询、 管理数据等。请回答下列问题:
(1)用户查看账单时,访问的子页面地址是 http://192.168.0.11:5000/ 。
(2)除了图a所示的子页面外,为该系统再设计1个子页面4,并简要说明其功能。/
图a
(3)研究小组将四月份数据导出到文件data.xlsx,部分数据如图b所示,统计该月每天午餐时间套餐 A、套餐B、套餐C的消费数量,并绘制折线图,如图c所示。
图b
图c
实现该功能的部分Python 程序如下,请选择合适的代码填入划线处(单选)。
import pandas as pd #导入 pandas 模块
import matplotlib.pyplot as plt #导入matplotlib 绘图库的pyplot子库
df=pd.read_excel("data.xlsx") #读取文件中的数据
df1=df[df["餐次"]=="午"] #筛选
tcz=[" 套餐A"," 套餐B"," 套餐C"]
for tc in tcz:
①
②
#绘制 tc 的折线图,代码略
#显示如图c 所示的折线图,代码略
①和②处可选的代码有:
A.df2=df1[df1["套餐"]== tc]
B.df2=df1[df1["套餐类别"]== tc]
C.df2=df2.groupby("日",as_index=False).数量.sum() #分组统计
(4)观察图c,从整体上看,午餐最受欢迎的套餐类别是 。
学科网(北京)股份有限公司1 / 4
学科网(北京)股份有限公司
$
专题02 数据处理与应用
高频考点概览
考点一 数据的处理及过程、数据的采集
考点二 数据的分析和可视化表达
考点一
数据的处理及过程、数据的采集
1.(2023辽宁)通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的数据采集方法是( )
A.网络数据采集法 B.传感器数据采集 C.系统日志采集法 D.统计报表数据采集
【答案】A
【详解】本题主要考查数据采集方法。通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的数据采集方法是网络数据采集法,故本题选A选项。
2.(2025上海)《哪吒之魔童闹海》(简称《哪吒2》),于2025年初上映后广受好评。小汇同学对部分观影人员做了问卷调查,相关数据存放在名为nezha2.csv的文件中,如图为问卷调查汇总后的部分数据。
除了问卷调查,研究哪吒2电影的数据来源还有( )
A.电影院检票系统 B.电影评论数据采集 C.院线内部数据库 D.电影剧本
【答案】ABC
【详解】本题考查数据的采集。A 选项正确:电影院检票系统会记录观众观影的相关信息,比如观影人员的入场信息、观影场次等,这些数据可用于研究《哪吒 2》的观影情况,属于数据来源。B 选项正确:电影评论数据采集,像从各大影评平台、社交平台采集观众对《哪吒 2》的评论、评分、口碑等数据,能为研究提供素材,属于数据来源。C 选项正确:院线内部数据库包含《哪吒 2》的排片安排、票房数据、观影人群特征等内容,可用于分析电影的市场表现等,属于数据来源。D 选项错误:电影剧本是电影创作前期的文本内容,主要体现剧情、角色设定等创作层面的信息,无法反映电影上映后的观影数据、观众反馈等用于研究的数据。 因此,本题选择 ABC 选项。
3.(2022上海)虞老师通过问卷星统计了当前核酸检测情况并存入“核酸信息.csv”的数据集中。现需增加一列用以记录性别,请问以下适合描述该信息的数据类型有( )
A.布尔型 B.整型 C.字符串型 D.日期型
【答案】ABC
【详解】本题考查的是数据处理。若性别仅分为 “男”“女” 两类,且可用 True(男)和 False(女)(或 1 和 0)表示,则可使用布尔型。可通过编码方式表示性别,例如:0 代表男,1 代表女,则可使用整型。可以直接存储文本值,如“男”或“女”,则可使用字符串型。故选ABC。
4.(2024广东)在现代社会,我们可以通过网络进行购物,只需要挑选我们所需要的商品,支付之后,商品就可以通过快递送达我们手里。如果要采集多种商品在不同平台的售价差异数据,单纯靠人工进行采集会比较低效繁琐,可考虑利用( )对数据进行自动化采集。
A.系统日志 B.问卷调查 C.网络爬虫 D.传感器
【答案】C
【详解】本题考查的是数据采集。系统日志:记录系统内部操作(如软件运行、错误报告),无法直接获取外部商品价格数据。 问卷调查:依赖人工填写和主动反馈,无法自动化采集公开的网页数据。网络爬虫:通过程序自动访问网页、提取目标数据(如商品价格),完全符合自动化采集需求。传感器:用于采集物理环境数据(如温度、光照),不适用于网络数据抓取。故选C。
5.(2023广西)在道路上,电子警察系统利用动态视频检测触发技术对车辆进行抓拍并完成车牌识别,把车牌号码等数据记录下来。这种数据采集方法是( )
A.访谈采集方法 B.视频监控采集方法
C.实验采集方法 D.文献调研采集方法
【答案】B
【详解】本题考查的是数据采集。在道路上,电子警察系统利用动态视频检测触发技术对车辆进行抓拍并完成车牌识别,把车牌号码等数据记录下来。这种数据采集方法是视频监控采集方法。故本题应选B。
6.(2025辽宁)一名校园短视频博主喜欢记录校园日常。在发布了一段时间视频之后,他想利用Excel分析数据,优化视频内容。以下是该博主制作的视频表现记录表。博主定义互动率的计算方法为:(点赞+评论)/播放量*100%。计算周一“食堂美食测评”视频的互动率,应在G2中输入公式( )
A.=(C2+D2)/B2*100 B.(C2+D2)/B2*100%
C.=C2+D2/B2*100% D.=B2/(C2+D2)
【答案】A
【详解】本题考查的是数据处理。根据题干描述,互动率的计算公式为:(点赞 + 评论)/ 播放量 * 100%。因此,正确的Excel公式应为: =(C2+D2)/B2*100。故选A。
7.(2025云南)为帮助农民合理安排灌溉、施肥等农业生产活动,某地农业气象站购买了一套降雨量精准测量系统。该系统的主要功能是:使用称重式雨量计测量降雨量,并把降雨量数据实时上传到气象中心服务平台,实现对降雨信息的准确跟踪。据此完成下列要求。
(1)系统中的称重式雨量计由承水口、滤网、储水桶和称重传感器等组成,降雨时,通过测量收集到的雨水重量来确定降雨量,采集降雨数据,这属于该信息系统的 功能。
(2)某地降雨量与地质灾害事件次数的可视化图表如下图所示,图表由柱形图和 图组成。从图表中可发现,降雨量最大、发生地质灾害最频繁的月份是 月。
(3)气象学上,降雨等级的划分一般是根据24小时内的降水量来确定,参照表如下:
已知某地6月份第1周的24小时降水量存放在列表rainfall中。请完善程序,使其能够根据不同的降水量数值,输出对应气象学分类。
①程序中第11行划线处应填入 。
②程序中第20行划线处应填入 。
【答案】 输入 折线图 7 r<250 或 100<=r<250 fenlei
【详解】本题考查的是信息系统功能及数据处理。
(1)“输入”是指系统从外部(如用户设备、传感器等)收集、接收原始数据的过程;“输出”是指系统将处理后的数据以特定形式(如文字、图表)提供给用户或其他系统的过程。“存储”是指通过数据库、文件等载体,长期保存系统收集和处理后的数据,以便后续调用。“加工与处理”是指对输入或存储的原始数据进行计算、分析、转换等操作,生成有价值的新数据。故答案为:输入
(2)由图中可知图表由柱形图和折线图组成,降雨量最大、发生地质灾害最频繁的月份是7月。
(3)①根据题目中降水量的分类,“大暴雨” 对应的是“大于等于 100 毫米,小于 250 毫米”,故此处答案为:r<250 或 100<=r<250;②在程序中,我们定义了一个函数 fenlei(r) 来根据降水量 r 返回对应的气象学分类。在第 20 行,我们需要调用这个函数来对 rainfall 列表中的每个元素 jsl 进行分类,所以应填入 fenlei 。
考点二
数据分析与可视化表达
1.(2022上海)小雪在学校每幢教学楼各放置一套噪音检测设备。这些传感器连续工作10天,每天工作时间为6:00-21:00,并在每个整点时间采集500秒时长的噪音数据,传输到服务器的数据库中。小雪最后以数据分析报告的形式完成了此次课题研究。关于数据分析报告,以下说法正确的是( )
A.小雪所完成的数据分析报告属于日常数据通报
B.数据分析报告一定能为小雪解决学校噪音问题提供正确的结论
C.报告中基于数据做出的分析结论,可为全市所有学校解决噪音问题提供决策依据
D.数据分析报告依据种类和数据分析方法的不同,最后呈现方式也会不同
【答案】D
【详解】本题考查的是数据分析。日常数据通报通常是定期、格式化的简单数据汇总(如每日销售报表),而本题中小雪的报告是针对特定课题(学校噪音)的深入分析,需包含数据解读、结论和建议,属于专题分析报告,而非日常通报。数据分析的结论依赖于数据质量、分析方法的合理性和客观性,若数据采集存在偏差(如设备故障、采样时间不全面)或分析方法不当,结论可能不准确。小雪的研究仅针对本校教学楼的噪音数据,样本具有局限性(如学校地理位置、建筑结构、作息时间等差异),结论无法直接推广到 “全市所有学校”。故选D。
2.(2025浙江)某高中图书馆管理员整理出了2024年学校图书借阅情况的数据,保存在“book.xlsx”文件中,部分数据如下表所示。编写Python程序,统计并输出全年最受学生欢迎的3类图书。
姓名
身份类型
书名
图书类别
借阅起止日期
姜*国
学生
三国演义
文学
20240105—20240114
方*俊
学生
航空科普在中国
科技
20240105—20240119
王*宇
教师
矛盾论
哲学
20240105—20240120
…
…
…
…
…
林*彦
学生
看不见的光
自然科学
20241205—20241212
秦*星
教师
AI提问之道
科技
20241206—20241221
马*雪
学生
红楼梦
文学
20241208—20241223
import pandas as pd
df=pd.read_excel ("book.xlsx") #读文件中的数据
df=df[df.身份类型=="学生"] #筛选学生数据
df=df.rename (columns={"借阅起止日期":"借阅次数"}) #修改列名
print (dfr)
方框中的代码由下列语句中的部分语句组成:
①dfg=df. groupby ("图书类别",as_index=False). count()
②dfg=df. groupby ("图书类别",as_index=False). sum()
③dfs=dfg. sort_values ("借阅次数",ascending=False)
④dfs=dfg. sort_values ("借阅次数")
⑤dfr=dfs. head (3)
⑥dfr=dfs. tail (3)
要实现上述功能,下列选项正确的是( )
A.①③⑥ B.②③⑤ C.①④⑥ D.②④⑤
【答案】C
【详解】本题考查pandas数据分析。代码已筛选出“身份类型”为“学生”的记录。要统计借阅次数需按“图书类别”分组统计。题目将“借阅起止日期”列重命名为“借阅次数”,但该列实际存储的是日期范围(非数值)。因此,正确的统计方式应为计数(count)而非求和(sum),故选①。求最受学生欢迎的3类图书:可以按“借阅次数”降序排序(③ ),并取前三位(⑤ ),或者按“借阅次数”升序排序(④ ),并取后三位(⑥)。因此,本题选择C。
3.(2025北京)数据分析的方法有很多,在研究北京人口分布特点时,将北京人口数量、就业量、外来人口构成与上海的相应数据进行对比,分析它们的差异。这是数据分析方法中的( )
A.平均分析法 B.结构分析法 C.对比分析法 D.综合评价分析法
【答案】C
【详解】本题考查的是数据分析。题干描述了在研究北京人口分布特点时,将北京的人口数量、就业量、外来人口构成等数据与上海的“相应数据”进行对比,并分析它们的差异。这明确涉及两个对象(北京和上海)之间的比较。对比分析法:是一种通过比较两个或多个对象(如地区、时间点、组别)的数据,找出差异、相似性或趋势的分析方法。题干中“对比”和“分析差异”直接对应此方法。故选C。
4.(2024北京)人工智能(AI)在医疗健康领域中的应用已经成为了业内关注的焦点。随着人工智能技术的不断发展,AI已经在医疗诊断、治疗、预防以及管理等方面取得了显著的成果。图1的柱状图反映了2017至2021年中国医疗机器人规模变化趋势,图2的饼图反映了2019年中国医疗机器人应用领域结构。观察图1、图2,回答以下问题:
图1 图2
(1)常见的数据分析方法有很多,诸如对比分析法、平均分析法、结构分析法等。请分析图1和图2使用的数据分析基本方法并简述它们的适用场景。
(2)如下是绘制其中一个分析图表的代码片段。请根据代码,分析它是绘制哪一个图表的代码片段。
for i in range(len(x_data)):
plt.bar(x_data[i],y_data[i])
【答案】(1)图1使用的数据分析基本方法是对比分析法,适用场景是把两个相互联系的数据进行比较,从数量上展示和说明差异如体重的变化等。
图2使用的数据分析基本方法是结构分析法,适用场景是整体与部分之间的关系如不同性别的占比。
(2)该代码片段绘制的是图1柱状图。
【详解】本题考查数据分析方法。(1)图1使用的数据分析基本方法是对比分析法,适用场景是把两个相互联系的数据进行比较,从数量上展示和说明差异如体重的变化等。图2使用的数据分析基本方法是结构分析法,适用场景是整体与部分之间的关系如不同性别的占比。(2)bar函数用于绘制柱形图,因此该代码片段绘制的是图1柱状图。
5.(2024上海)《哪吒之魔童闹海》(简称《哪吒2》),于2025年初上映后广受好评。小汇同学对部分观影人员做了问卷调查,相关数据存放在名为nezha2.csv的文件中,如图为问卷调查汇总后的部分数据。
小汇将不同城市的观影次数统计并存入city.csv中,如图1所示。为了生成如图2的图表,则图3代码中需要填写:
plt. (city[" " ],city[" "])
图1
图2
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
city=pd.read_csv("city.csv",encoding="ansi")
plt. (city[" "],city[" "])
plt.title("问卷电影观影次数统计")
plt.show()
图3
【答案】 bar 城市 次数
【详解】本题考查的是数据分析。①图2显示的是柱状图,需要使用plt.bar()函数,故应填写:bar;②柱状图的x轴应该是城市名称,故应填写:城市;③柱状图的y轴应该是观影次数,故应填写:次数。
6.(2022上海)根据国家《城市区域噪声标准》,明确规定以居住、文教机关为主的区域,昼夜噪声最高限值为:昼间(6:00-21:00)55dB、夜间(22:00-5:00)45dB。
表是小雪从数据库中导出的部分数据,存储为文件 “sound.csv” 。此文件中包含2023年4月10日—4月19日每天6:00-21:00声音传感器采集的噪音数据。
ID
date
time
duration
MAXdB
AVGdB
building
1
4月10日
6:00
500秒
57
32
一号楼
2
4月10日
6:00
500秒
66
45
二号楼
3
4月10日
6:00
500秒
61
42
三号楼
4
4月10日
7:00
500秒
72
56
一号楼
5
4月10日
7:00
500秒
68
49
二号楼
6
4月10日
7:00
500秒
51
38
二号楼
……
……
……
……
……
……
……
480
4月19日
21:00
500秒
57
33
三号楼
小雪对“sound.csv”中的数据进行处理分析,统计每天每幢楼昼间的噪音平均值,部分代码如下所示。
import pandas as pd # 导入pandas库
import matplotlib.pyplot as plt # 导入matplotlib.pyplot库
import numpy as np # 导入numpy库
d=pd.read_csv('sound.csv',encoding='ANSI')
# 检测重复值,删除重复记录
db=d.drop_duplicates(subset= _____①_____ , keep='first')
#在db变量中筛选4月10日"一号楼"的噪音数据,计算并输出当天昼间噪音平均值
db1=db[ (db['date']=='4月10日') _②_ (db['building']=='一号楼') ]
print( ___③___ (db1['AVGdB']))
#数字资源:drop_duplicates()方法的常用参数及其说明
参数名称
说明
subset
接收字符串或序列,表示进行去重的列,默认为None,表示全部列
keep
接收特定字符串,表示重复时保留第几个数据
inplace
接收bool型数据,表示是否在原表上进行操作
(1)小雪打开“sound.csv”文件,发现其中存在重复数据。为了得到准确的数据分析结果,首先应进行去除重复数据处理。上述代码中①处应填入的语句为( )。
A.None B.['date'] C. ['date','time'] D.['date','time','building']
(2)在db中筛选4月10日"一号楼"的噪音数据,代码中②处应填写的符号为( )。
A.& B.| C. * D.%
(3)对每天6:00-21:00采集的“噪音平均值”计算其算术平均值,可以得到当日的噪音均值。为了计算并输出4月10日"一号楼"昼间的噪音平均值,代码中③处填写的语句为 。
【答案】 D A np.mean
【详解】本题考查pandas数据分析。
(1)根据数据特征,每条记录的唯一性由date(日期)、time(时间)和building(楼号)共同决定。若仅选date(选项 B)或date与time(选项 C),会误判不同楼号的记录为重复;选项 A 的None要求所有列完全相同才去重,无法处理实际中的重复情况;选项 D 的['date','time','building']能精准定位重复记录,正确。
(2)筛选条件需同时满足 “date为 4 月 10 日” 且 “building为一号楼”,在 pandas 中,逻辑与用&表示,选项 A 正确;选项 B 的|表示逻辑或,会扩大筛选范围;选项 C 的*和选项 D 的%均非逻辑运算符,无法连接条件。
(3)代码需对筛选出的db1数据中的AVGdB列求均值,numpy库的np.mean()函数可实现此功能,因此,该空为np.mean。
7.(2024广东)在现代社会,我们可以通过网络进行购物,只需要挑选我们所需要的商品,支付之后,商品就可以通过快递送达我们手里。购物时,我们通常会关注价格的高低,运用( )来展现某种商品在不同时间的价格变动情况比较合适。
A.散点图 B.饼图 C.折线图 D.柱形图
【答案】C
【详解】本题考查的是可视化表达。散点图:用于表示两个变量之间的相关性(如价格与销量的关系),不擅长展示连续时间序列的变化趋势。饼图:用于展示各部分占整体的比例(如不同品类商品的销售额占比),无法表现时间维度的数据变化。折线图:最适合展示时间序列数据。它通过连接不同时间点的数值,能直观反映价格的波动趋势(如上涨、下降或稳定),符合题目中“价格变动情况”的需求。柱形图:适用于比较不同类别的数据(如各商品月销量),虽能表示时间点数据,但不如折线图清晰展示连续变化趋势。故选C。
8.(2024云南)“词云图”是数据可视化的一种表达方式。2023年国家社科基金立项热词的词云图如下图所示,下列说法错误的是( )
A.通过词云图显示,“机制研究”比“实现路径”的出现频率高
B.制作词云图一般需要经过数据准备、分词处理、特征提取、数据分析、结果呈现等步骤
C.词云图必须显示该数据集包含的全部词语
D.词云图通常使用文字的大小和颜色来表示关键词出现的频次
【答案】C
【详解】本题考查数据可视化。
词云图必须显示该数据集包含的全部词语:这个说法是错误的。词云图并不必须显示数据集中的全部词语。实际上,为了清晰度和可读性,词云图通常会选择最重要的词语进行显示,这些词语通常是基于它们的出现频率或重要性来选择的。因此,词云图可能只包含数据集中最频繁出现的词语,而不是全部词语。其它选项均正确,故正确答案为:选项C。
9.(2025云南)张老师使用Python程序可视化呈现学生每5分钟跳绳次数与2000米长跑成绩的关系。部分程序代码及程序运行结果如下图所示。第13行下划线处应填写的代码是( )
A.plt. plot(jump, run) B.plt. scatter(jump, run)
C.plt. bar(jump, run) D.plt. pie(jump, labels = run)
【答案】B
【详解】本题考查Python数据可视化中matplotlib库的绘图函数,核心是根据图表类型选择正确的函数。从运行结果图可以看出,这是散点图(用于展示两个变量之间的关系,每个数据点是独立的圆点)。选项A plt.plot() 用于绘制折线图;选项B plt.scatter() 用于绘制散点图,符合图表类型;选项C plt.bar() 用于绘制柱状图;选项D plt.pie() 用于绘制饼图。因此答案为B。
10.(2023广西)为了形象地呈现数据中的信息,可用不同的图表将数据可视化。如图所用的图表是( )
A.饼图 B.柱形图 C.雷达图 D.折线图
【答案】A
【详解】本题考查数据可视化。图表是工作表的一部分,是数据表的一种表达方式,用来图形化表达数据表,使数据表更明了、直观、用来更加清晰的观察数据之间的关系。从图中可以看出所用的图表是饼图,它反应数据之间的比例分配关系。故选:A。
11.(2023云南)小李编写Python程序实现数据可视化呈现,执行下列代码后呈现的图表是( )
A. B. C. D.
【答案】A
【详解】本题考查的是数据可视化。程序中,x 是从 0 到 10 的整数数组,y 是计算 ( y = x^2 + 1 ) 的结果。绘制的图像是一个曲线,是一个开口向上的抛物线。由plt.plot(x,y)可知绘制的是曲线,故选A。
12.(2022上海)小雪在学校每幢教学楼各放置一套噪音检测设备。这些传感器连续工作10天,每天工作时间为6:00-21:00,并在每个整点时间采集500秒时长的噪音数据,传输到服务器的数据库中。根据图所示“一号楼4月10日-19日昼间噪音平均值”可视化图形,请在横线处简单总结一号楼昼间噪音特点,帮助小雪撰写数据分析报告。
(例如:4月10日-19日,一号楼昼间噪音大于55dB的天数为1天。)
【答案】4月10日-19日,工作日时一号楼昼间噪音比周末昼间噪音更高。
【详解】本题考查数据可视化。观察柱状图可知,4月10日-19日,工作日(周一至周五)时一号楼昼间噪音比周末昼间噪音更高。
13.(2025云南)某校后勤处开展“校园垃圾分类”调查活动,通过纸质问卷收集了各班的垃圾分类数量并进行统计,统计表如下图所示:
(1)后勤处对收集到的原始数据进行去重、统一格式等操作,属于数据处理过程中的 (选填“数据收集”或“数据整理”或“数据分析”或“数据呈现”);若需快速找出正确率前10的班级,数据表可以按照“正确率(%)”进行 排序(选填“升序”或“降序”)。
(2)SUMIF是指定条件求和函效。上表中的H3单元格使用该函数求出了“高一”年级的参与人数,如果要通过自动填充功能得到“高二”和“高三”年级的参与人数,则H3单元格中的函数应该修改为 。
(3)以表格中的数据为依据,后勤处李老师用Python绘制的“各年级参与人数统计”柱形图及相应的程序如下,程序第7行代码的作用是 。
【答案】 数据整理 降序 = SUMIF ( A$3:A$62 , G3 , D$3:D$62 )或= SUMIF ( $A$3: $A$62 , G3 , $D$3: $D$62 ) 设置图表标题
【详解】本题考查表格数据处理与可视化。
(1)数据处理环节中,数据去重、统一格式属于数据整理阶段。Excel中按“正确率”字段找出前10班级,需对该字段进行降序排序(降序即从大到小排列,能快速定位正确率高的班级)。
(2)SUMIF函数用于单条件求和,格式为 = SUMIF(条件区域, 条件, 求和区域)。使用此函数要注意绝对值$符号的使用,填充过程中条件区域与求和区域不变,答案为= SUMIF ( A$3:A$62 , G3 , D$3:D$62 )或= SUMIF ( $A$3: $A$62 , G3 , $D$3: $D$62 )。
(3)Python数据可视化matplotlib.pyplot库中的设置图标标题函数为plt.title()。
14.(2025浙江)某研究小组开发“食堂就餐管理系统”,其页面规划如图 a 所示,用户可通过浏览器查询、 管理数据等。请回答下列问题:
(1)用户查看账单时,访问的子页面地址是 http://192.168.0.11:5000/ 。
(2)除了图a所示的子页面外,为该系统再设计1个子页面4,并简要说明其功能。/
图a
(3)研究小组将四月份数据导出到文件data.xlsx,部分数据如图b所示,统计该月每天午餐时间套餐 A、套餐B、套餐C的消费数量,并绘制折线图,如图c所示。
图b
图c
实现该功能的部分Python 程序如下,请选择合适的代码填入划线处(单选)。
import pandas as pd #导入 pandas 模块
import matplotlib.pyplot as plt #导入matplotlib 绘图库的pyplot子库
df=pd.read_excel("data.xlsx") #读取文件中的数据
df1=df[df["餐次"]=="午"] #筛选
tcz=[" 套餐A"," 套餐B"," 套餐C"]
for tc in tcz:
①
②
#绘制 tc 的折线图,代码略
#显示如图c 所示的折线图,代码略
①和②处可选的代码有:
A.df2=df1[df1["套餐"]== tc]
B.df2=df1[df1["套餐类别"]== tc]
C.df2=df2.groupby("日",as_index=False).数量.sum() #分组统计
(4)观察图c,从整体上看,午餐最受欢迎的套餐类别是 。
【答案】 view 套餐管理;套餐删除、增加、修改功能(或其他合理答案); B C 套餐C
【详解】本题考查信息系统搭建及数据分析。
(1)根据图a所示,用户查看账单的功能对应系统的账单查询页面,会以 /view 作为路径。访问该地址即可展示个人或全部消费记录。故答案为:view。
(2)新增的子页面如“套餐管理”用于管理员对系统中的套餐进行维护,包括增加、删除和修改操作,能够方便管理食堂菜单,确保菜单信息完整且及时更新,提高系统管理效率。
(3)在循环中,需筛选出当前套餐类别的数据,使用 df2 = df1[df1["套餐"] == tc] 可以从午餐数据中提取出套餐A、B或C对应的数据,为后续统计每日数量做准备。故答案为:B。为了统计每天该套餐的销售数量,使用 df2 = df2.groupby("日", as_index=False).数量.sum() 对筛选后的数据按日期分组求和,从而得到每日销量,为绘制折线图提供数据依据。故答案为:C。
(4)观察折线图可发现,套餐C的每日销量大部分时间高于套餐A和套餐B,因此从整体趋势看,午餐最受欢迎的套餐类别是套餐C。故答案为:套餐C。
学科网(北京)股份有限公司1 / 4
学科网(北京)股份有限公司
$