内容正文:
课堂精讲 学考一号 高中学业水平复习方略 信息技术
编程处理数据考点
1. 利用 pandas模块处理数据遥
常用的 Python 扩展模块有 numpy尧scipy尧
pandas和 matplotlib等袁pandas模块主要用于数
据的处理和分析遥
在 Python中引入 pandas模块院import pandas
as pd袁其中 pd是用户为导入模块取的别名遥
渊1冤Series是一种一维的数据结构袁包含一
个数组的数据和一个与数据关联的索引渊index冤袁
索引值默认是从 0起递增的整数遥
淤创建 Series对象遥
使用列表尧字典等创建 Series对象遥 Series
的索引可以指定袁类型可以为字符串型遥 如院
s =pd.Series (咱166,178,180暂,index =咱"s01","s02",
"s03"暂)遥
于查看尧选取 Series对象中数据遥
通过 index尧values 属性可以查看 Series 对
象的索引和值曰通过索引可以选取 Series 对象
中的值遥
盂修改 Series对象中数据遥
通过赋值语句可以修改 Series 对象中的
值遥 如院s咱0暂=168或 s咱's01'暂=168袁可将 s对象中
的野100冶改为野168冶遥
构·网络体系
第二节 编程处理数据
学·知识清单
2达标 某校高一选课数据存储在野xk援
xlsx冶中袁并对数据进行处理袁如图所示遥
渊1冤如图所示袁已正确计算了单元格 D734
中的数据袁若希望使用自动填充功能完成区域
E734:J734的计算遥 则单元格 D734中的公式应
修改为 遥
渊2冤下列说法正确的是 渊多选袁填
字母冤遥
A. 分析表格数据时袁如遇异常数据袁可以
直接删除或忽略
B. 为了检验选课的正确性袁在 K列利用公
式计算选课结果袁其值不为 3即为选课有误
C. 为了更直观地呈现单科占比袁可以选用
散点图
D. 可以利用筛选功能袁获取选择野物化生冶
组合的学生数据
利用 matplotlib模块绘图
利用 pandas模块处理数据
编程处理数据
28
渊2冤DataFrame 是一种二维的数据结构袁由
1 个索引列渊index冤和若干个数据列组成袁每个
数据列可以是不同的类型遥
淤创建 DataFrame对象遥
使用一个相等长度的列表或字典创建
DataFrame对象遥 如院x=pd.DataFrame({"x1":咱1,2,3,
4暂,"x2":咱5,6,7,8暂,"x3":咱9,10,11,12暂})遥
于DataFrame对象常用属性遥
data1={"姓名":咱"张三","赵四","王五"暂,"性
别":咱"男","女","男"暂,"年龄":咱12,15,13暂}
#创建一个字典类型
df1=pd.DataFrame(data1)
#用字典类型生成 DataFrame类型
盂DataFrame常用函数遥
说明院append()尧drop()函数均不改变原有 df对
象中的数据袁而是通过返回另一个 DataFrame对
象来存放改变后的数据遥
DataFrame 对象中袁按索引排序可以使用
sort_index()函数袁按值排序可以使用 sort_values()
函数遥 通过选项 axis=0/1确定排序的轴向袁axis
默认值为 0袁纵向排序 曰通过选项 ascending =
True/False 确定升/降序 遥 ascending 默认值为
True袁升序排序遥 排序结果返回一个新DataFrame
对象遥
2. 利用 matplotlib模块绘图遥
matplotlib是一个绘图库袁使用其中的 pyplot
子库所提供的函数可以快速绘图和设置图表的
坐标轴尧坐标轴刻度尧图例等遥
渊1冤在 Python中引入 matplotlib的 pyplot子
库院import matplotlib.pyplot as plt遥
属性 说明
index DataFrame的行索引
columns 存放各列的列标题
values 存放值的二维数据
T 行列转置
方法 运行结果
df1
姓名 性别 年龄
0 张三 男 12
1 赵四 女 15
2 王五 男 13
df1.index
0
1
2
df1.T
0 1 2
姓名 张三 赵四 王五
性别 男 女 男
年龄 12 15 13
df1.columns
姓名
性别
年龄
df1.values
咱"张三" "男" 12暂
咱"赵四" "女" 15暂
咱"王五" "男" 13暂
函数 说明
count() 返回非空渊NaN冤数据项的数量
sum()尧mean() 求和尧求平均值袁通过 axis=0/1 确定
行列
max()尧min() 返回最大尧最小值
describe()
返回各列的基本描述统计值袁包含计
数尧平均数尧标准差尧最大值尧最小值
及 4分位差
head()尧tail() 返回 DataFrame的前 n个尧后 n个数
据记录
groupby()
对各列或各行中的数据进行分组袁然
后可对其中每一组数据进行不同的
操作
sort_values() 排序袁通过 axis=0/1确定行列
drop() 删除数据袁通过 axis=0/1确定行列
append() 在指定元素的结尾插入内容
insert() 在指定位置插入列
plot() 绘图
rename() 修改列名或者索引
concat() 合并 DataFrame对象
set_value() 根据行标签和列标签设置单个值
第四章 数据处理与应用
29
课堂精讲 学考一号 高中学业水平复习方略 信息技术
渊2冤常用绘图函数遥
1达标 有如下 Python程序代码院
import pandas as pd
data={'姓名 ':咱'李商隐 ','欧阳修 ',' 李白 ',
'杜甫 '暂,'借阅次数 ':咱32,16,30,26暂}
df1=pd.DataFrame(data,columns=咱'姓名 ','借
阅次数 '暂)
c=0
for i in range(len(df1咱'姓名 '暂)):
if df1.at咱i,'姓名 '暂咱0暂=='李 ':
c+=df1.at咱i,'借阅次数 '暂
print(c)
该程序运行后袁输出的内容为渊 冤
A. 46 B. 48
C. 58 D. 62
2达标 某次技术练习的成绩放在 score.
csv文件中袁文件内容如图 a 所示袁第一列为姓
名袁第二列是信息技术成绩袁第三列是通用技术
成绩遥 编写 Python程序从该文件中读取数据袁
计算技术总分渊信息技术+通用技术冤袁然后选出
总分最高的前十名渊第十名若有同分一起输出冤袁
程序运行界面如图 b所示遥
渊1冤下列 Python代码实现读取数据尧计算总
分尧存入 zflst列表中的功能袁请在画线处填入合
适的代码院 遥
# 读入数据存入列表 data 中袁data 列表形
如 咱咱"陈 **","50","43.5"暂,咱"甘 **","50","38"暂,
噎暂暂
zflst=咱暂 #创建空列表
for stu in data:
zf=
zflst.append渊zf冤 # 把 zf添加到 zflst
列表中
渊2冤下列 Python代码实现选出总分最高的
前十名渊第十名若有同分一起输出冤遥 基本思路
为院利用逐个比较求最大值的方式从 zflst中挑选
出总分最高的前十名袁然后再遍历整个 zflst查找
第 10名的同分遥为避免重复参与选择袁创建 flag
列表为每个分数标记袁False代表未被选出曰True
代表已被选出遥 请在画线处填入合适的代码遥
print("姓名 总分")
n= 淤
flag=咱False暂*n # 创建一个 flag 列
表袁含有 n个 False元素
for i in range(10): # 选出最高的 10
个总分
max=0
for j in range(n):
if flag咱i暂==False:
if 于 :
max=zflst咱j暂
k=j
print(data咱k暂咱0暂," ",zflst咱k暂)
函数 说明
figure() 创建一个新的图表对象袁并设置
为当前绘图对象
plot() 绘制线形图
bar() 绘制垂直柱形图
barh() 绘制水平柱形图
scatter() 绘制散点图
title() 设置图表的标题
xlim()尧ylim() 设置 X尧Y轴的取值范围
xlabel()尧ylabel() 设置 X尧Y轴的标签
legend() 显示图例
show() 显示创建的所有绘图对象
图 b图 a
30
构·网络体系
第三节 文本数据处理及大数据
学·知识清单
考点一 文本数据处理
1. 文本数据处理主要应用在搜索引擎尧情
报分析尧自动摘要尧自动校对尧论文查重尧文本分
类尧垃圾邮件过滤尧机器翻译尧自动应答等方面遥
2. 典型的文本处理过程主要包括分词尧特
征提取尧数据分析尧结果呈现等遥
渊1冤中文分词遥
分词是将连续的字序列按照一定的规范重
新组合成词序列的过程袁也就是将一个汉字序
列切分成一个一个单独的词遥
flag咱k暂=True
i=0
while i<n: #查找同分
if flag咱i暂 or zflst咱i暂==max : #改错
print(data咱i暂咱0暂," ",zflst咱i暂)
flag咱i暂=True
i+=1
淤
于
渊3冤改正加框处代码院 遥
3达标 某省 2022年全年气象灾害预警
数据保存在文件野qxyj.xlsx冶中袁部分数据如图所
示袁编写 Python程序袁统计全年发布次数最多的
5种气象预警遥
import pandas as pd
df=pd.read_excel("qxyj.xlsx") #读文件中
的数据
df=df.drop(咱"预警发布单位","预警等级",
"预警发布时间"暂,axis=1) #删除列
print(df_s咱0:5暂)
方框中代码由下列语句中的部分语句组成院
淤df_g =df.groupby ("预警名称 ",as_index =
False).sum() #分组求和
于df_g=df_s.groupby("次数",as_index=False).
sum()
盂df_s=df.sort_values("次数",ascending=True)
#升序排序
榆df_s=df_g.sort_values ("次数 ",ascending=
False)
要实现上述功能袁下列选项中正确的是
渊 冤
A. 淤榆 B. 淤盂
C. 于榆 D. 盂于
第四章 数据处理与应用
文本
数据
处理
及大
数据
文本数据处理
文本数据分析与应用
文本数据处理的一般过程
可视化的典型案例
可视化的工具
可视化的基本方法
可视化的作用
数据可视化
智能交通
电子商务
大数据的典型应用
大数据处理
的基本思想
与架构
分治思想 基本思想
大数据处
理类型
流计算
渊Storm尧Heron等冤
批处理计算
渊Hadoop尧Spark等冤
图计算
渊Pregel尧GraphX等冤 图数据
流数据
静态数据
31
课堂精讲 学考一号 高中学业水平复习方略 信息技术
第四章 数据处理与应用
第一节 常用表格数据的处理
考点一 数据整理
考点二 数据计算
考点三 数据图表呈现
达标 1. C揖解析铱缺失的数据可以忽略或采用平均值尧中间
值或概率统计值进行填充袁不能用任意值填充曰异常数据可能是
要去掉的噪声数据或含有重要信息的数据袁 需根据具体情况进
行分析判断曰格式不一致的数据需要根据后续分析和挖掘的需
要进行数据转换遥
达标 2. 淤=D733/SUM ($D733:$J733)渊或=D733/SUM ($D
$733:$J$733)冤 于BD揖解析铱淤在向右自动填充过程中袁区域
D733:J733固定不变袁需要绝对引用或列绝对引用遥 于分析表格
数据时袁如遇异常数据袁应该检查问题并处理袁不可以直接删除
或忽略曰为了更直观地呈现单科占比袁可以选用饼图遥
第二节 编程处理数据
考点 编程处理数据
达标 1. D揖解析铱该程序是对野李冶姓对应的野借阅次数冶值进
行求和袁因此袁输出内容为 62遥
达标 2. 渊1冤float(stu咱1暂)+float(stu咱2暂) 渊2冤淤 len(zflst)渊或
len(data)冤 于zflst咱j暂>max渊或 zflst咱j暂>=max冤 渊3冤not flag咱i暂
and zflst咱i暂==max渊或 flag咱i暂==False and zflst咱i暂==max冤揖解析铱
渊1冤代码野for stu in data冶袁stu是 data的元素袁计算总分则是取出
stu中的第二尧三两个元素转实型后相加遥 渊2冤淤程序中出现变量
n袁所以需对变量 n赋值袁根据题目意思 n是学生个数遥于循环 10
次袁每次都遍历所有学生袁从未选出的学生中找出一个总分最高
分遥 假设 max最大袁然后与所有学生总分一一比对袁若 zflst咱j暂>
max或 zflst咱j暂>=max则替换 max袁并记录当前最大值的下标遥渊3冤
根据题意野第十名若有同分一起输出冶袁所以程序中最后一个
while循环是比对与第十个 max同分的学生袁改错处则是从未被
选择过的学生中查找同分袁故答案为院not flag咱i暂 and zflst咱i暂
==max 或 flag咱i暂==False and zflst咱i暂==max遥
达标 3. A揖解析铱可选语句淤于进行分组求和尧盂榆进行升
序排序曰统计全年发布次数最多的 5 种气象预警袁需要依据野预
警名称冶进行分组袁对发布次数进行统计曰在统计时袁根据输出中
的野df_s咱0:5暂冶可知输出的是最前面的 5条数据袁需要降序排序袁
A符合题意遥
第三节 文本数据处理及大数据
考点一 文本数据处理
考点二 大数据处理的基本思想与架构
考点三 数据可视化
考点四 大数据典型应用
达标 1. C揖解析铱在实际应用中袁可以将不同的分词算法结
合使用遥
达标 2. C揖解析铱文本情感分析作为一个多学科交叉的研
究领域袁涉及自然语言处理尧信息检索尧机器学习尧人工智能等
领域遥
达标 3. D揖解析铱数据可视化使用户可以通过简单的人机
交互袁获取直观多样的信息袁大大节约了用户的时间成本遥
达标 4. C揖解析铱散点图用于表现 2~3 个变量之间的关系袁
以圆点的多少或疏密展示成对的数和它们所代表的趋势之间
的关系袁该类图表属于有关关系的可视化遥
达标 5. A揖解析铱交通管理系统主要提供给交通管理者使用遥
达标 6. B揖解析铱云计算使千亿数据的检索实现了秒级返
回袁为大数据的分析应用提供了速度保障遥
达标 7. B揖解析铱程序将变量 a 进行全模式分词渊将句子中
所有可能的词都列举出来冤存于 k中袁并将 k以字符串的形式输
出并且用空格隔开遥
第五章 人工智能及应用
第一节 人工智能的产生与发展
考点一 人工智能的概念
考点二 人工智能的发展历程
达标 1. A揖解析铱野专家系统冶属于符号主义曰行为主义人工
智能从野交互要反馈冶角度来刻画智能行为曰联结主义通过模仿
人类大脑中神经元之间的复杂交互来进行认知推理遥
达标 2. A揖解析铱深度学习是联结主义的典型代表遥
达标 3. A揖解析铱人工智能不可以代替人类完成所有工作袁
有很多需要主观判断的任务需要人类完成曰人工智能技术的发
展需要以计算机技术为载体曰行为主义人工智能采用问题引导下
的试错学习遥
达标 4. C揖解析铱符号主义人工智能先以逻辑形式表达知
识袁然后依靠推理引擎推测结论袁A错误曰符号主义人工智能需要
手工构造知识库袁特征是知识库+推理袁B错误曰混合增强人工智
能是多种智能体的混合形式袁其中人类智能是智能回路的总开
关袁D错误遥
第二节 人工智能的应用与对社会的影响
考点一 人工智能的应用
考点二 人工智能对社会的影响
达标 1. A揖解析铱智能家居设备能使人们的家居生活更加安
全尧舒适尧便捷袁且智能环保遥
达标 2. A揖解析铱无人驾驶是人工智能的主要应用方向之
一曰训练数据的规模和正确性会严重影响深度学习的效果和最
终结论遥 深度学习需要海量数据和超大规模的算力支持曰符号主
义人工智能的实现需要事先手工构造知识库遥 行为主义和联结
主义都无需构造知识库曰人脸识别技术一般是通过联结主义人
工智能实现的遥 联结主义在诸如文字尧图像和声音等数据的识别
优势明显遥
达标 3. C揖解析铱人工智能不能取代所有工作岗位遥
必修 2 信息系统与社会
第一章 信息系统概述
第一节 信息系统的组成与功能
考点一 信息技术与信息系统
达标. B揖解析铱由用户查询医院尧科室尧医生等环节生成挂
号业务袁因此该系统属于业务处理系统曰信息系统中由人或机器
运用资源来执行一个过程或进行一个活动曰信息系统是指由硬
件软件设施尧通信网络尧数据和用户构成的人机交互系统遥
考点二 信息系统的组成与功能
达标 1. C揖解析铱信息系统中的硬件是信息系统中看得见尧
摸得着的设备袁包含计算机硬件尧移动终端硬件尧通信网络设备
等遥 传感器属于计算机硬件中的输入设备遥
66