内容正文:
2025学年第一学期高一信息技术期末试卷
总分:100分;考试时间:60分钟
注意:考试不得使用计算器。
综合题一 校园图书智能管理系统(共32分)
1. 校园图书智能管理系统通过采集图书借阅数据、读者行为数据,实现图书借阅登记、到期提醒、热门图书统计等功能。系统采用数字化方式存储图书编号、借阅日期、归还日期、读者学号等信息,支持多用户同时查询与操作,新增智能图书推荐和借阅数据整理模块。
(1)读者通过手机APP、图书馆自助终端、电脑网页均可查询图书借阅状态,这体现了信息的( )
A.时效性 B.共享性 C.载体依附性 D.价值相对性
(2)该系统采集的读者借阅数据包含“借阅次数、借阅时长、图书类型偏好”等,分析这些数据可实现的功能有( )
A.推送个性化推荐图书 B.优化图书采购方案
C.统计逾期未还图书 D.生成校园阅读报告
(3)系统中“图书 ISBN 码”采用固定格式的数字编码,每个ISBN码对应唯一图书,这体现了编码的( )原则。
A.唯一性 B.简洁性 C.规范性 D.兼容性
(4)校园图书智能管理系统需对本月推荐图书的“学科分类”和“馆藏编号”进行选制编码:包含6个学科分类(如信息技术类、文学类等),每个学科分类下最多有28本图书。若采用二进制分别对学科分类和馆藏编号进行编码,则至少需要( )位二进制数表示这两个编码。
A.7 B.8 C.6 D.9
(5)校园图书智能管理系统将纸质图书的配套朗读转为计算机可识别的数字信号,该数字化过程的正确步骤是( )
A.量化→采样→编码 B.采样→量化→编码 B.编码→采样→量化 D.采样→编码→量化
(6)关于声音的量化,以下说法正确的是( )
A.量化位数越少,划分的等级越多,音质越好
B.量化位数越多,划分的等级越多,音质越好
C.量化过程会影响声音的频率
D.量化就是将模拟信号直接转换为数字信号
(7)录制的一段有声书,采样频率为22.05kHz,量化位数为8位,单声道的音频,播放10分钟,其产生的数据量是( )
A.22.05×8×1×10bit B.22050×8×1×10×60÷8Byte
C.22050×8×1×10bit D.22.05×8×1×10×60÷1024KB
(8)以下关于图像数字化的说法,正确的是( )
A.分辨率越高,图像的细节越清晰 B.位深度越大,图像的色彩越丰富
C.位图图像的存储容量与分辨率无关 D.JPEG格式是有损压缩的图像格式
(9)智能推荐模块根据学生的年龄、借阅记录和图书评分生成推荐列表,这主要运用了( )
A.物联网技术 B.大数据分析 C.区块链技术 D.虚拟现实技术
(10)校园图书到能管理系统中,每本图书编号采用ASCII编码存储。若某图书编号为“IT2023”,其十六进制内码共占( )字节。
A.5 B.6 C.10 D.12
(11)系统中图书书名的中文汉字在计算机中存储时,采用的编码是( )
A.ASCII码 B.汉字内码 C.输入码 D.字形码
(12)用WinHex软件查看图书《Python程序设计》的介绍文字编码,汉字编码规则为GB2312,字符串“Python程序设计”其十六进制编码片段如下所示
50 79 74 68 6F 6E B3 CC D0 F2 C9 E8 BC C6
那么“程序设计”的编码共占( )字节
A.4 B.8 C.16 D.20
(13)根据上一题提供的编码片段,字母“u”的对应Ascii码二进制编码为:____
50 79 74 68 6F 6E B3 CC D0 F2 C9 E8 BC C6
(14)图书封面图片在计算机中以二进制形式存储,若图片分辨率为1024×512,位深度为24位,则该图片未压缩时的存储容量为____MB。
(15)系统需备份1000条图书借阅记录(文本格式),管理员用ZIP打包这些记录,以下关于该操作的说法正确的是( )
A.打包后无法恢复原借阅记录
B.属于有损压缩,部分记录会丢失
C.解压后借阅记录与原文件完全一致
D.ZIP仅能压缩图片文件,无法压缩文本
综合题二 校园空气质量监测数据处理(共29分)
2. 某环境监测小组使用传感器采集校园空气质量数据(包括PM2.5浓度、温度、湿度、二氧化硫浓度等指标),传感器每5分钟采集一次数据,原始数据为连续变化的物理信号,需经数字化处理生成环境质量报告,新增数据整理和异常值检测功能。
采集时间
PM2.5浓度
温度(℃)
湿度(%)
二氧化硫浓度
08:00
32
25
60
0.02
08:05
28
25
61
0.02
08:05
29
25
62
0.01
08:10
32
25
60
0.02
08:15
36
26
58
0.02
08:20
29
26
59
0.01
(1)采集数据的来源有多种渠道,以下哪些是数据采集的途径( )
A.传感设备 B.互联网 C.问卷调查 D.企业内部数据库
(2)关于数据整理,以下描述正确的是( )
A.异常值检测需手动删除所有偏离平均值的数据
B.数据清洗仪需处理缺失值,无需处理重复数据
C.使用Python的Pandas库可通过drop_duplicates( )除重复记录
D.缺失值必须用随机数填充,否则无法进行后续分析
(3)环境监测小组课题需要,准备通过抓取天气网页获取历史天气,经历了这样几个步骤:获取网页、解析网页、整理数据、保存数据,其中解析网页需要使用到的库是( )
A.Pandas B.beautifulSoup C.matplotlib D.requests
(4)在Pandas中,要存储校园空气质量的采集时间、PM2.5浓度、温度、湿度多项监测数据,最合适选用的结构是( )
A.DataFrame B.Series C.numpyarray D.set
(5)在校园空气质量监测数据表中,小组成员发现某条记录的所有字段值与之前的记录完全相同,属于记录重复,需按“采集时间”进行去重整理(去重时仅保留重复记录中的最后条,直接替换原数据)。下列代码合适的是( )
impor tpandas as pd
df=pd.read_csv("campus_aircsv",encoding="ANSI")
df.drop_duplicates(subset=① ,keep=② ,inplace=③ )
print(df)
df.to_csv("campus_air.csv")
A.①['采集时间'] ② 'first' ③ False
B.①['PM2.5浓度'] ② 'last' ③ True
C.①None ②'first' ③True
D.①['采集时间'] ②'last' ③True
(6)在校园空气质量数据处理过程中,常需要识别数据中的异常值,请简述可以采用哪些可视化方法观察并识别异常值?并举出一种处理异常值的方法。____
(7)环境监测小组编写Python程序将网页中的AQI的值存放到列表A中,即A=[55,55,160,81,110,90],其中参考下表A[4]的值对应的空气质量等级为_____。
城市编号
AQI
空气质量等级
PM2.5
PM10
……
CO
C001
55
良
14
19
……
0.27
C002
55
良
24
49
……
0.51
C003
160
中度污染
67
233
……
0.76
C004
81
良
7
18
……
0.45
C005
110
轻度污染
38
139
……
0.41
……
……
……
……
……
……
……
(8)在对校园空气质量监测数据去重后,为了研究夏季各监测点的PM2.5数据采集次数,小组成员利用频数统计进行统计。
采集时间
季节
PM2.5浓度
监测点
温度(℃)
08:00
夏季
32
教学楼
25
08:05
夏季
28
操场
25
08:10
夏季
30
图书馆
22
08:15
夏季
36
教学楼
26
08:20
夏季
29
操场
26
df=pd.read_csv("campus_air_clean.csv",encoding="ANSI")
count=df[____]#筛选使用“夏季”数据集
thiscount=count["____"].value_counts()#按照监测点进行频数统计
print(thiscount)
选填 ①"夏季" ②df["季节"]=="夏季" ③df["夏季"] ④"季节"=="夏季" ⑤"监测点" ⑥df["监测点"]
(9)小组成员需要分析校园1-6月各月的PM2.5平均浓度,适合的分析方法是____
A.对比分析法 B.平均分析法 C.结构分析法
(10)pm.csv文件中为各监测点测得的pm2.5浓度值,现在进行可视化,如下所示请根据样张所示,完普数据可视化程序。
监测点
浓度
温度(℃)
湿度(%)
教学楼
32
25
60
操场
28
25
62
图书馆
30
22
58
食堂
36
26
59
import pandas as pd
Import matplotlib.pyplot as plt #导入matplotlib中的pyplot子库
df=pd.read_csv("pm.csv"encoding="ANSI")#读取绘图数据
#添加画布内容
plt.rcParams['font.sans-serif']=[ 'SimHei'] # 设置字体
①____('校园各监测点PM2.5浓度情况')#添加标题
plt.xlabel('②____')#添加x轴名称
pltylabel('数值')#添加y轴名称
③____(df["④____"],df["⑤____"]#绘制图形
plt.show()# 显示图形
综合题三 读书周问卷调查数据处理(共20分)
3. 某高中开展读书周活动,小申对全校学生阅读情况进行问卷调查,回收的问卷数据包含“阿卷编号、年级、最喜欢类别、阅读时长(小时)、在线阅读”等信息。
(1)小中需从1∼2000号问卷中,逐一核查“阅读时长≥8小时”的学生记录,该数据核查过程采用的核心算法是( )
A.排序算法 B.枚举算法 C.递归算法 D.查找算法
(2)关于枚举算法在问卷数据处理中应用,下列描述正确的是( )
A.枚举算法无需明确数据范围,可无限列举
B.枚举算法需逐一验证每个数据是否符合条件
C.枚举算法的执行效率与数据范围大小无关
D.枚举所有数据后,无需验证即可得出结果
(3)枚举算法中逐一列举通常使用 结构,检验使用 结构( )
A.顺序结构 循环结构 B.分支结构 循环结构
C.循环结构 分支结构 D.顺序结构 分支结构
(4)若要在列表read_time=[2.5,3.0,4.2]的末尾新增“5.0小时”的阅读时长,正确的方法是( )
A.read_time.append(5.0) B.read_time.insert(3,5)
C.read_time.remove(5.0) D.read_time.append([5.0])
(5)用变量avg表示读书周学生的平均阅读时长(可能含小数),avg的数据类型应选择( )
A.int B.float C.string D.bool
(6)小申用列表存储图书类别数据categories=["文学文摘","科技科普","社科历史"],要获取“科技科普”对应的元素,应写为categories[___]。
(7)小申编写程序从三个年级的问卷数据中统计读书周活动中全校学生符合“最喜欢类别为科技科普”并且“阅读时长>4.5小时”的人数,并输出,问卷数据保存在T3_7.csv文件中(如下表格所示)。c用于统计人数,请将算法设计完整。
问卷编号
年级
最喜欢类别
阅读时长(小时)
在线阅读
1
高一
文学文摘
3.2
是
2
高二
科技科普
5
是
3
高三
社科历史
4
否
4
高一
科技科普
6.5
是
5
高二
教育教学
2.8
否
6
高三
科技科普
4.2
是
7
高一
科技科普
5.8
否
8
高二
文学文摘
3.5
是
9
高三
科技科普
7
是
…
…
…
...
...
588
高一
社科历史
4.8
否
T4_8.csv
A L="科技科普" and N>4.5
B i<len(L)
D L[i]== "科技科普" and N[i]>4.5
E c=c+1
F L[i]== "科技科普" or N[i]>4.5
G c=c+i
H 输出c
I 输出i
①____ ②____ ③____ ④____
(8)请根据上题算法思想,补全程序代码。
import pandas as pd
df=pd.read_csv("T3_7.csv",encoding="ANSI") # 读取T4_8.csv文件
L=df["最喜欢类别"]
n=df["阅读时长(小时) "]
c=0
#在以下区域继续完善代码
____
综合题四人工智能巡检机器狗(共19分)
4. 校园引入人工智能巡检机器狗,整合计算机视觉、机器学习、多传感器融合技术,搭载高清相机、激光雷达、红外传感器等设备,实现校园环境巡检、异常目标识别、自主导航避障等功能,其核心算法涵盖监督学习、非监督学习等多种机器学习方法。
(1)机器狗通过高清相机拍摄校园场景画面,先定位画面中师生的人脸位置,再用矩形框标记,该过程中定位人脸的技术属于( )
A.人脸识别 B.人脸检测 C.语音识别 D.语义理解
(2)机器狗的智能模块返回人脸边界框数据为(x,y,width,height),其中(x,y)是边界框左上角相对于图像的坐标,width和height分别是边界框的宽度和高度。若某人脸边框数据为x=120、y=80、width=60、height=80,该边界框右下角的坐标(x2,y2)计算正确的是( )
A.(180,160) B.(60,0) C.(120,80) D.(180,80)
(3)机器狗对校园内的垃圾进行分类时,采用K-均值聚类算法将未标记的垃圾数据自动分成“可回收物”“厨余垃圾”“其他垃圾”三类,该算法属于( )
A.监督学习 B.无监督学习 C.强化学习 D.深度学习
(4)机器狗通过大量已标记“正常场景”“异常场景”的图像训练分类模型,能自动识别校园内的异常情况,该训练过程属于( )
A.监督学习 B.无监督学习 C.强化学习 D.模式匹配
(5)机器狗在使用K近邻算法时,通过计算测试数据与训练数据的距离判断类别,二维平面上点P1(x1,y1)与P2(x2,y2)的欧式距离公式转化为Python语句(需调用math库sqrt函数求平方根)是( )
A.dist=math.sqrt((x1-x2)**2+(y1-y2)**2)
B.dist=math.sqrt((x1+x2)∗∗2+(y1+y2)∗∗2)
C.dist=(x1−x2)∗∗2+(y1−y2)∗∗2
D.dist=mathsqrt((x1−x2)+(y1−y2))
(6)机器狗采用K近邻算法对垃圾进行分类,已知测试垃圾到各类训练垃圾的距离如下:
训练垃圾类型
可回收物(3个样本)
厨余垃圾(3个样本)
其他垃圾(2个样本)
距离值
2.1、2.3、2.5
3.0、3.2、3.5
1.8、2.0
当K值分别为3和5时,该测试垃圾的分类结果分别为( )
A.其他垃圾、可回收物 B.可回收物、厨余垃圾
C.其他垃圾、其他垃圾 D.可回收物、可回收物
(7)机器狗需将1200张垃圾图像数据集划分为训练集和测试集,用于模型训练与性能验证,不合适的划分方案有( )
A.训练集700张,测试集500张 B.训练集960张,测试集240张
C.训练集720张,测试集480张 D.训练集120张,测试集1080张
(8)关于机器狗的人工智能技术应用,下列说法正确的有( )
A.K近邻算法的分类结果受K值和距离计算方式影响
B.监督学习需依赖带标签的训练数据,无监督学习无需人工标记
C.k近邻算法中K值选择偶数时,容易出现不同类别投票数相等的情况
D.机器学习模型的性能优化需要持续的数据集迭代更新
(9)机器狗的场景分类模型训练完成后,对500张测试图像进行识别,其中480张识别正确,该模型的识别正确率为( )%。
Python帮助小贴士:
Python内置函数
函数名
基本语法
函数功能
input()
input(")
从键盘输入数据
print()
print(x)
输出x的值
len()
len(x)
返回x
range()
range(x,y,step)
返回一个区间为[x,y),步长为step的等差整数序列
round()
round(a,b)
求取指定位数的小数的内置函数
list()
list(Series)
将Series数据转换为列表数据
Python常用的列表方法
方法
描述
List.append(x)
在列表尾部追加成员
List.insert(i,x)
向列表中指定位置i插入x
List.remove(x)
删除列表中的指定成员(有多个则只删除第一个)
pandas库
函数名
基本语法或示例
功能简介
read_csv()
pandas.read_csv('文件名.扩展名')
读取CSV文件
to_csv()
DataFrameto_csv('文件名.扩展名')
以CSV文件格式存储
drop_duplicates()
pandas.DataFrame.drop_duplicates(subset='x'].keep='first'inplace=False)
删除重复记录。subset表示进行去重的列,None表示全部列;keep表示保留第儿个数据(first/last/False);inplace表示是否在原表上进行操作(Truc/False)
dropna()
pandasDataFramedropna(axis=0,how='any',inplace=False)
删除缺失值所在的行或列。axis表示轴向,0为删除记录(行)1为删除特征(列);how表示删除的形式,any表示只要有缺失值存在就执行删除,all表示仅当全部为缺失值才执行删除;inplace表示是否在原表上进行操作(True/False)
value_counts()
Pandas.Series.value_counts()
频数统计
第1页/共1页
学科网(北京)股份有限公司
$
2025学年第一学期高一信息技术期末试卷
总分:100分;考试时间:60分钟
注意:考试不得使用计算器。
综合题一 校园图书智能管理系统(共32分)
1. 校园图书智能管理系统通过采集图书借阅数据、读者行为数据,实现图书借阅登记、到期提醒、热门图书统计等功能。系统采用数字化方式存储图书编号、借阅日期、归还日期、读者学号等信息,支持多用户同时查询与操作,新增智能图书推荐和借阅数据整理模块。
(1)读者通过手机APP、图书馆自助终端、电脑网页均可查询图书借阅状态,这体现了信息的( )
A.时效性 B.共享性 C.载体依附性 D.价值相对性
(2)该系统采集的读者借阅数据包含“借阅次数、借阅时长、图书类型偏好”等,分析这些数据可实现的功能有( )
A.推送个性化推荐图书 B.优化图书采购方案
C.统计逾期未还图书 D.生成校园阅读报告
(3)系统中“图书 ISBN 码”采用固定格式的数字编码,每个ISBN码对应唯一图书,这体现了编码的( )原则。
A.唯一性 B.简洁性 C.规范性 D.兼容性
(4)校园图书智能管理系统需对本月推荐图书的“学科分类”和“馆藏编号”进行选制编码:包含6个学科分类(如信息技术类、文学类等),每个学科分类下最多有28本图书。若采用二进制分别对学科分类和馆藏编号进行编码,则至少需要( )位二进制数表示这两个编码。
A.7 B.8 C.6 D.9
(5)校园图书智能管理系统将纸质图书的配套朗读转为计算机可识别的数字信号,该数字化过程的正确步骤是( )
A.量化→采样→编码 B.采样→量化→编码 B.编码→采样→量化 D.采样→编码→量化
(6)关于声音的量化,以下说法正确的是( )
A.量化位数越少,划分的等级越多,音质越好
B.量化位数越多,划分的等级越多,音质越好
C.量化过程会影响声音的频率
D.量化就是将模拟信号直接转换为数字信号
(7)录制的一段有声书,采样频率为22.05kHz,量化位数为8位,单声道的音频,播放10分钟,其产生的数据量是( )
A.22.05×8×1×10bit B.22050×8×1×10×60÷8Byte
C.22050×8×1×10bit D.22.05×8×1×10×60÷1024KB
(8)以下关于图像数字化的说法,正确的是( )
A.分辨率越高,图像的细节越清晰 B.位深度越大,图像的色彩越丰富
C.位图图像的存储容量与分辨率无关 D.JPEG格式是有损压缩的图像格式
(9)智能推荐模块根据学生的年龄、借阅记录和图书评分生成推荐列表,这主要运用了( )
A.物联网技术 B.大数据分析 C.区块链技术 D.虚拟现实技术
(10)校园图书到能管理系统中,每本图书的编号采用ASCII编码存储。若某图书编号为“IT2023”,其十六进制内码共占( )字节。
A.5 B.6 C.10 D.12
(11)系统中图书书名的中文汉字在计算机中存储时,采用的编码是( )
A.ASCII码 B.汉字内码 C.输入码 D.字形码
(12)用WinHex软件查看图书《Python程序设计》的介绍文字编码,汉字编码规则为GB2312,字符串“Python程序设计”其十六进制编码片段如下所示
50 79 74 68 6F 6E B3 CC D0 F2 C9 E8 BC C6
那么“程序设计”的编码共占( )字节
A.4 B.8 C.16 D.20
(13)根据上一题提供的编码片段,字母“u”的对应Ascii码二进制编码为:____
50 79 74 68 6F 6E B3 CC D0 F2 C9 E8 BC C6
(14)图书封面图片在计算机中以二进制形式存储,若图片分辨率为1024×512,位深度为24位,则该图片未压缩时的存储容量为____MB。
(15)系统需备份1000条图书借阅记录(文本格式),管理员用ZIP打包这些记录,以下关于该操作的说法正确的是( )
A.打包后无法恢复原借阅记录
B.属于有损压缩,部分记录会丢失
C.解压后借阅记录与原文件完全一致
D.ZIP仅能压缩图片文件,无法压缩文本
【答案】 ①. B ②. ABD ③. A ④. B ⑤. B ⑥. B ⑦. B ⑧. ABD ⑨. B ⑩. B ⑪. B ⑫. B ⑬. 01110101 ⑭. 1.5 ⑮. C
【解析】
【详解】本题考查的是信息的特征及数据编码。
(1)本题考查信息的共享性。读者可以通过多种设备(手机APP、图书馆自助终端、电脑网页)查询图书借阅状态,说明信息可以在不同平台和设备之间共享。故答案为:B。
(2)本题考查数据分析的应用。分析“借阅次数、借阅时长、图书类型偏好”等数据可实现: A. 推送个性化推荐图书:基于“图书类型偏好”分析用户兴趣,实现智能推荐。 B. 优化图书采购方案:根据“借阅次数”和“偏好”统计热门图书类型,指导采购。 D. 生成校园阅读报告:整合“借阅次数、时长、偏好”等数据生成综合报告。 C. “统计逾期未还图书”需依赖归还日期等具体状态数据,题干未提及,故不选。。故答案为:A、B、D。
(3)本题考查编码的唯一性原则。ISBN码是国际标准书号,每个ISBN码对应唯一的图书,这体现了编码的唯一性原则。故答案为:A。
(4)本题考查二进制编码的位数计算。6个学科分类需要至少3位二进制数(2^3=8),每个学科分类下最多28本图书需要5位二进制数(2^5=32),因此总共需要3+5=8位二进制数。故答案为:B。
(5)本题考查数字化过程的步骤。将纸质图书的配套朗读转为数字信号的过程是采样→量化→编码。故答案为:B。
(6)本题考查声音量化的影响。量化位数越多,划分的等级越多,音质越好,因为可以更精细地表示声音的幅度变化。故答案为:B。
(7)本题考查音频数据量的计算。数据量=采样频率×量化位数×声道数×时间,代入题目数据:22050×8×1×10×60÷8 Byte。故答案为:B。
(8)本题考查图像数字化的特性。分辨率越高,图像的细节越清晰;位深度越大,图像的色彩越丰富;JPEG格式是有损压缩的图像格式。故答案为:A、B、D。
(9)本题考查大数据分析的应用。智能推荐模块根据学生的年龄、借阅记录和图书评分生成推荐列表,主要运用了大数据分析技术。故答案为:B。
(10)本题考查ASCII编码的字节数计算。每个字符占1个字节,“IT2023”共6个字符,因此占6个字节。故答案为:B。
(11)本题考查中文汉字的编码方式。系统中图书书名的中文汉字在计算机中存储时,采用汉字内码。故答案为:B。
(12)本题考查汉字编码的字节数计算。根据GB2312编码规则,每个汉字占2个字节,“程序设计”四个汉字共占8个字节。故答案为:B。
(13)本题考查ASCII码的二进制表示。字母“u”的ASCII码为117,其二进制编码为01110101。故答案为:01110101。
(14)本题考查图像存储容量的计算。存储容量=分辨率×位深度/8/1024/1024 MB,代入题目数据:1024×512×24/8/1024/1024 MB。故答案为:1.5 MB。
(15)本题考查ZIP压缩的特性。ZIP压缩属于无损压缩,解压后借阅记录与原文件完全一致。故答案为:C。
综合题二 校园空气质量监测数据处理(共29分)
2. 某环境监测小组使用传感器采集校园空气质量数据(包括PM2.5浓度、温度、湿度、二氧化硫浓度等指标),传感器每5分钟采集一次数据,原始数据为连续变化物理信号,需经数字化处理生成环境质量报告,新增数据整理和异常值检测功能。
采集时间
PM2.5浓度
温度(℃)
湿度(%)
二氧化硫浓度
08:00
32
25
60
0.02
08:05
28
25
61
002
08:05
29
25
62
0.01
08:10
32
25
60
0.02
08:15
36
26
58
0.02
08:20
29
26
59
0.01
(1)采集数据的来源有多种渠道,以下哪些是数据采集的途径( )
A.传感设备 B.互联网 C.问卷调查 D.企业内部数据库
(2)关于数据整理,以下描述正确的是( )
A.异常值检测需手动删除所有偏离平均值的数据
B.数据清洗仪需处理缺失值,无需处理重复数据
C.使用PythonPandas库可通过drop_duplicates( )除重复记录
D.缺失值必须用随机数填充,否则无法进行后续分析
(3)环境监测小组课题需要,准备通过抓取天气网页获取历史天气,经历了这样几个步骤:获取网页、解析网页、整理数据、保存数据,其中解析网页需要使用到的库是( )
A.Pandas B.beautifulSoup C.matplotlib D.requests
(4)在Pandas中,要存储校园空气质量的采集时间、PM2.5浓度、温度、湿度多项监测数据,最合适选用的结构是( )
A.DataFrame B.Series C.numpyarray D.set
(5)在校园空气质量监测数据表中,小组成员发现某条记录所有字段值与之前的记录完全相同,属于记录重复,需按“采集时间”进行去重整理(去重时仅保留重复记录中的最后条,直接替换原数据)。下列代码合适的是( )
impor tpandas as pd
df=pd.read_csv("campus_aircsv",encoding="ANSI")
df.drop_duplicates(subset=① ,keep=② ,inplace=③ )
print(df)
df.to_csv("campus_air.csv")
A.①['采集时间'] ② 'first' ③ False
B.①['PM2.5浓度'] ② 'last' ③ True
C.①None ②'first' ③True
D.①['采集时间'] ②'last' ③True
(6)在校园空气质量数据处理过程中,常需要识别数据中的异常值,请简述可以采用哪些可视化方法观察并识别异常值?并举出一种处理异常值的方法。____
(7)环境监测小组编写Python程序将网页中的AQI的值存放到列表A中,即A=[55,55,160,81,110,90],其中参考下表A[4]的值对应的空气质量等级为_____。
城市编号
AQI
空气质量等级
PM2.5
PM10
……
CO
C001
55
良
14
19
……
0.27
C002
55
良
24
49
……
0.51
C003
160
中度污染
67
233
……
0.76
C004
81
良
7
18
……
0.45
C005
110
轻度污染
38
139
……
0.41
……
……
……
……
……
……
……
(8)在对校园空气质量监测数据去重后,为了研究夏季各监测点的PM2.5数据采集次数,小组成员利用频数统计进行统计。
采集时间
季节
PM2.5浓度
监测点
温度(℃)
08:00
夏季
32
教学楼
25
08:05
夏季
28
操场
25
08:10
夏季
30
图书馆
22
08:15
夏季
36
教学楼
26
08:20
夏季
29
操场
26
df=pd.read_csv("campus_air_clean.csv",encoding="ANSI")
count=df[____]#筛选使用“夏季”数据集
thiscount=count["____"].value_counts()#按照监测点进行频数统计
print(thiscount)
选填 ①"夏季" ②df["季节"]=="夏季" ③df["夏季"] ④"季节"=="夏季" ⑤"监测点" ⑥df["监测点"]
(9)小组成员需要分析校园1-6月各月的PM2.5平均浓度,适合的分析方法是____
A.对比分析法 B.平均分析法 C.结构分析法
(10)pm.csv文件中为各监测点测得的pm2.5浓度值,现在进行可视化,如下所示请根据样张所示,完普数据可视化程序。
监测点
浓度
温度(℃)
湿度(%)
教学楼
32
25
60
操场
28
25
62
图书馆
30
22
58
食堂
36
26
59
import pandas as pd
Import matplotlib.pyplot as plt #导入matplotlib中的pyplot子库
df=pd.read_csv("pm.csv",encoding="ANSI")#读取绘图数据
#添加画布内容
plt.rcParams['font.sans-serif']=[ 'SimHei'] # 设置字体
①____('校园各监测点PM2.5浓度情况')#添加标题
plt.xlabel('②____')#添加x轴名称
plt.ylabel('数值')#添加y轴名称
③____(df["④____"],df["⑤____"]#绘制图形
plt.show()# 显示图形
【答案】 ①. ABCD ②. C ③. B ④. A ⑤. D ⑥. 可以使用箱线图、散点图等方法观察异常值。处理异常值的方法之一是使用中位数替代异常值。 ⑦. 轻度污染 ⑧. ② ⑨. ⑤ ⑩. A ⑪. plt.title ⑫. 监测点 ⑬. plt.bar ⑭. 监测点 ⑮. 浓度
【解析】
【详解】本题考查数据采集、数据整理、数据分析和可视化等方面的知识。
(1)本题考查数据采集的途径。传感设备、互联网、问卷调查和企业内部数据库都是常见的数据采集途径。故答案为:A、B、C、D。
(2)本题考查数据整理的正确方法。使用Python的Pandas库可通过drop_duplicates删除重复记录是正确的。故答案为:C。
(3)本题考查网页解析所需库。解析网页通常使用BeautifulSoup库。故答案为:B。
(4)本题考查Pandas数据结构的选择。DataFrame适合存储多项监测数据。故答案为:A。
(5)本题考查Pandas去重功能的使用。按“采集时间”去重,保留最后一条记录,需设置keep='last',inplace=True。故答案为:D。
(6)本题考查异常值的可视化方法。可以使用箱线图、散点图等方法观察异常值。处理异常值的方法之一是使用中位数替代异常值。
(7)本题考查空气质量等级的判断。A[4]的值为110,对应的空气质量等级为轻度污染。故答案为:轻度污染。
(8)本题考查数据筛选和频数统计。筛选“夏季”数据集,使用df[df["季节"]=="夏季"],然后按“监测点”统计频数。故答案为:②、⑤。
(9)本题考查数据分析方法的选择。1–6 月各月 PM2.5 平均浓度通常需比较不同月份的平均值,适合用“对比分析法”。故答案为:A。
(10)本题考查数据可视化的实现。根据样张,标题为“校园各监测点PM2.5浓度情况”,x轴为“监测点”,y轴为“数值”,绘制图形使用plt.bar(df["监测点"], df["浓度"])。故答案为:①plt.title ②监测点 ③plt.bar ④监测点 ⑤浓度。
综合题三 读书周问卷调查数据处理(共20分)
3. 某高中开展读书周活动,小申对全校学生阅读情况进行问卷调查,回收的问卷数据包含“阿卷编号、年级、最喜欢类别、阅读时长(小时)、在线阅读”等信息。
(1)小中需从1∼2000号问卷中,逐一核查“阅读时长≥8小时”的学生记录,该数据核查过程采用的核心算法是( )
A.排序算法 B.枚举算法 C.递归算法 D.查找算法
(2)关于枚举算法在问卷数据处理中的应用,下列描述正确的是( )
A.枚举算法无需明确数据范围,可无限列举
B.枚举算法需逐一验证每个数据是否符合条件
C.枚举算法的执行效率与数据范围大小无关
D.枚举所有数据后,无需验证即可得出结果
(3)枚举算法中逐一列举通常使用 结构,检验使用 结构( )
A.顺序结构 循环结构 B.分支结构 循环结构
C.循环结构 分支结构 D.顺序结构 分支结构
(4)若要在列表read_time=[2.5,3.0,4.2]的末尾新增“5.0小时”的阅读时长,正确的方法是( )
A.read_time.append(5.0) B.read_time.insert(3,5)
C.read_time.remove(5.0) D.read_time.append([5.0])
(5)用变量avg表示读书周学生的平均阅读时长(可能含小数),avg的数据类型应选择( )
A.int B.float C.string D.bool
(6)小申用列表存储图书类别数据categories=["文学文摘","科技科普","社科历史"],要获取“科技科普”对应的元素,应写为categories[___]。
(7)小申编写程序从三个年级的问卷数据中统计读书周活动中全校学生符合“最喜欢类别为科技科普”并且“阅读时长>4.5小时”的人数,并输出,问卷数据保存在T3_7.csv文件中(如下表格所示)。c用于统计人数,请将算法设计完整。
问卷编号
年级
最喜欢类别
阅读时长(小时)
在线阅读
1
高一
文学文摘
3.2
是
2
高二
科技科普
5
是
3
高三
社科历史
4
否
4
高一
科技科普
6.5
是
5
高二
教育教学
2.8
否
6
高三
科技科普
4.2
是
7
高一
科技科普
5.8
否
8
高二
文学文摘
3.5
是
9
高三
科技科普
7
是
…
…
…
...
...
588
高一
社科历史
4.8
否
T4_8.csv
A L="科技科普" and N>4.5
B i<len(L)
D L[i]== "科技科普" and N[i]>4.5
E c=c+1
F L[i]== "科技科普" or N[i]>4.5
G c=c+i
H 输出c
I 输出i
①____ ②____ ③____ ④____
(8)请根据上题算法思想,补全程序代码。
import pandas as pd
df=pd.read_csv("T3_7.csv",encoding="ANSI") # 读取T4_8.csv文件
L=df["最喜欢类别"]
n=df["阅读时长(小时) "]
c=0
#在以下区域继续完善代码
____
【答案】 ①. B ②. B ③. C ④. A ⑤. B ⑥. categories[1] ⑦. B ⑧. D ⑨. E ⑩. H ⑪. for i in range(len(L)):
if L[i] == "科技科普" and n[i] > 4.5:
c += 1
print(c)
【解析】
【详解】本题考查枚举算法及其应用。
(1)本题考查枚举算法。枚举算法是通过逐一检查每个数据来验证是否符合条件的过程。在核查“阅读时长≥8小时”的学生记录时,需要逐一检查每个问卷数据,故采用枚举算法。故答案为:B。
(2)本题考查枚举算法的特点。枚举算法需要逐一验证每个数据是否符合条件,因此选项B正确。故答案为:B。
(3)本题考查枚举算法的结构使用。枚举算法中逐一列举通常使用循环结构,而检验使用分支结构。故答案为:C。
(4)本题考查列表操作。要在列表末尾新增元素,使用append方法。故答案为:A。
(5)本题考查数据类型选择。平均阅读时长可能含小数,因此应选择float类型。故答案为:B。
(6)本题考查列表索引。“科技科普”在列表 ["文学文摘","科技科普","社科历史"] 中的下标是 1,因此应写作 categories[1]。故答案为:categories[1]。
(7)本题考查算法设计。根据流程图,需逐一检查每个记录,符合条件则计数。故答案为:①B ②D ③E ④H。
(8)本题考查程序补全。根据算法思想,需使用循环和条件判断来统计人数。故答案为:
for i in range(len(L)):
if L[i] == "科技科普" and n[i] > 4.5:
c += 1
print(c)
综合题四人工智能巡检机器狗(共19分)
4. 校园引入人工智能巡检机器狗,整合计算机视觉、机器学习、多传感器融合技术,搭载高清相机、激光雷达、红外传感器等设备,实现校园环境巡检、异常目标识别、自主导航避障等功能,其核心算法涵盖监督学习、非监督学习等多种机器学习方法。
(1)机器狗通过高清相机拍摄校园场景画面,先定位画面中师生的人脸位置,再用矩形框标记,该过程中定位人脸的技术属于( )
A.人脸识别 B.人脸检测 C.语音识别 D.语义理解
(2)机器狗的智能模块返回人脸边界框数据为(x,y,width,height),其中(x,y)是边界框左上角相对于图像的坐标,width和height分别是边界框的宽度和高度。若某人脸边框数据为x=120、y=80、width=60、height=80,该边界框右下角的坐标(x2,y2)计算正确的是( )
A.(180,160) B.(60,0) C.(120,80) D.(180,80)
(3)机器狗对校园内的垃圾进行分类时,采用K-均值聚类算法将未标记的垃圾数据自动分成“可回收物”“厨余垃圾”“其他垃圾”三类,该算法属于( )
A.监督学习 B.无监督学习 C.强化学习 D.深度学习
(4)机器狗通过大量已标记“正常场景”“异常场景”的图像训练分类模型,能自动识别校园内的异常情况,该训练过程属于( )
A.监督学习 B.无监督学习 C.强化学习 D.模式匹配
(5)机器狗在使用K近邻算法时,通过计算测试数据与训练数据的距离判断类别,二维平面上点P1(x1,y1)与P2(x2,y2)的欧式距离公式转化为Python语句(需调用math库sqrt函数求平方根)是( )
A.dist=math.sqrt((x1-x2)**2+(y1-y2)**2)
B.dist=math.sqrt((x1+x2)∗∗2+(y1+y2)∗∗2)
C.dist=(x1−x2)∗∗2+(y1−y2)∗∗2
D.dist=mathsqrt((x1−x2)+(y1−y2))
(6)机器狗采用K近邻算法对垃圾进行分类,已知测试垃圾到各类训练垃圾的距离如下:
训练垃圾类型
可回收物(3个样本)
厨余垃圾(3个样本)
其他垃圾(2个样本)
距离值
2.1、2.3、2.5
3.0、3.2、3.5
1.8、2.0
当K值分别为3和5时,该测试垃圾的分类结果分别为( )
A.其他垃圾、可回收物 B.可回收物、厨余垃圾
C.其他垃圾、其他垃圾 D.可回收物、可回收物
(7)机器狗需将1200张垃圾图像数据集划分为训练集和测试集,用于模型训练与性能验证,不合适的划分方案有( )
A.训练集700张,测试集500张 B.训练集960张,测试集240张
C.训练集720张,测试集480张 D.训练集120张,测试集1080张
(8)关于机器狗的人工智能技术应用,下列说法正确的有( )
A.K近邻算法的分类结果受K值和距离计算方式影响
B.监督学习需依赖带标签的训练数据,无监督学习无需人工标记
C.k近邻算法中K值选择偶数时,容易出现不同类别投票数相等的情况
D.机器学习模型的性能优化需要持续的数据集迭代更新
(9)机器狗的场景分类模型训练完成后,对500张测试图像进行识别,其中480张识别正确,该模型的识别正确率为( )%。
【答案】 ①. B ②. A ③. B ④. A ⑤. A ⑥. A ⑦. D ⑧. ABCD ⑨. 96
【解析】
【详解】本题考查计算机视觉和机器学习相关知识点。
(1)本题考查人脸检测技术。机器狗通过高清相机拍摄校园场景画面,定位画面中师生的人脸位置并用矩形框标记,该过程属于人脸检测。人脸检测是识别图像中人脸位置的技术,而人脸识别是进一步识别具体是谁的技术。故答案为:B。
(2)本题考查坐标计算能力。已知边界框左上角坐标为(x, y) = (120, 80),宽度为width = 60,高度为height = 80。右下角坐标计算公式为(x2, y2) = (x + width, y + height),即(120 + 60, 80 + 80) = (180, 160)。故答案为:A。
(3)本题考查无监督学习的概念。K-均值聚类算法是一种无监督学习方法,用于将未标记的数据自动分成多个类别。故答案为:B。
(4)本题考查监督学习的概念。机器狗通过已标记的“正常场景”和“异常场景”图像训练分类模型,属于监督学习,因为训练数据是带标签的。故答案为:A。
(5)本题考查Python编程和欧式距离计算。欧式距离公式为sqrt((x1-x2)^2 + (y1-y2)^2),转化为Python语句为dist=math.sqrt((x1-x2)**2+(y1-y2)**2)。故答案为:A。
(6)本题考查K近邻算法的应用。K 近邻算法根据最近邻的多数投票分类。距离从小到大排序: 最近距离:1.8(其他垃圾)、2.0(其他垃圾)、2.1(可回收物)、2.3(可回收物)、2.5(可回收物)、3.0(厨余垃圾)、3.2(厨余垃圾)、3.5(厨余垃圾)。 K=3:前 3 个(1.8, 2.0, 2.1)→ 其他垃圾(2 票)、可回收物(1 票)→ 其他垃圾。 K=5:前 5 个(1.8, 2.0, 2.1, 2.3, 2.5)→ 其他垃圾(2 票)、可回收物(3 票)→ 可回收物。故答案为:A。
(7)本题考查数据集划分的合理性。合理划分应保证训练集占大部分(通常 70%-80%),测试集占小部分(20%-30%),以确保模型充分训练。选项 D 训练集仅 10%(120/1200),测试集 90%,训练数据不足,易导致模型欠拟合。故答案为:D。
(8)本题考查机器学习算法的特点。A:K 近邻算法结果受 K 值(邻居数)和距离计算方式(如欧式距离)影响,正确。 B:监督学习需标签数据(如已标记图像),无监督学习无需标签(如聚类),正确。 C:K 为偶数时,投票可能平票(如 K=2 时两类别各 1 票),需额外处理,正确。 D:模型优化需迭代更新数据集以适应新场景,正确。故答案为:A, B, C, D。
(9)本题考查识别正确率的计算。识别正确率计算公式为(识别正确的数量/总测试数量)×100%,即(480/500)×100% = 96%。故答案为:96。
Python帮助小贴士:
Python内置函数
函数名
基本语法
函数功能
input()
input(")
从键盘输入数据
print()
print(x)
输出x的值
len()
len(x)
返回x
range()
range(x,y,step)
返回一个区间为[x,y),步长为step的等差整数序列
round()
round(a,b)
求取指定位数的小数的内置函数
list()
list(Series)
将Series数据转换为列表数据
Python常用的列表方法
方法
描述
List.append(x)
在列表尾部追加成员
List.insert(i,x)
向列表中指定位置i插入x
List.remove(x)
删除列表中的指定成员(有多个则只删除第一个)
pandas库
函数名
基本语法或示例
功能简介
read_csv()
pandas.read_csv('文件名.扩展名')
读取CSV文件
to_csv()
DataFrameto_csv('文件名.扩展名')
以CSV文件格式存储
drop_duplicates()
pandas.DataFrame.drop_duplicates(subset='x'].keep='first',inplace=False)
删除重复记录。subset表示进行去重的列,None表示全部列;keep表示保留第儿个数据(first/last/False);inplace表示是否在原表上进行操作(Truc/False)
dropna()
pandasDataFramedropna(axis=0,how='any',inplace=False)
删除缺失值所在的行或列。axis表示轴向,0为删除记录(行)1为删除特征(列);how表示删除的形式,any表示只要有缺失值存在就执行删除,all表示仅当全部为缺失值才执行删除;inplace表示是否在原表上进行操作(True/False)
value_counts()
Pandas.Series.value_counts()
频数统计
第1页/共1页
学科网(北京)股份有限公司
$