内容正文:
ZHISHI JIEXI
知识解析
1. pandas介绍
pandas是基于 numpy的一种工具袁该工具是为了解决数据分析任务而创建的遥 pandas提供
了大量处理数据的函数和方法袁能方便地操作大型数据集遥
2. pandas数据结构
pandas提供了两种数据结构院Series和 DataFrame遥
在使用之前需引入 pandas模块院import pandas as pd遥
淤Series院一维数据结构袁可以理解为由一列索引和一列值共两列数据组成的结构遥 Series本
身的属性有两种袁一种是 index袁一种是 values遥
index院Series的下标索引袁其值默认是从 0起递增的整数遥
values院存放 Series值的一个数组遥
于DataFrame是一种二维数据结构袁既有行索引 index袁也有列索引 columns遥 DataFrame可以
看作是共享同一个 index的 Series的集合遥
JINGDIAN KAOTI
经典考题
揖例题 1铱 咱2023窑7浙江学考暂某省 2022年全年气象灾害预警数据保存在文件野qxyj.xlsx冶
中袁部分数据如图所示遥 编写 Python程序袁统计全年发布次数最多的 5种气象预警遥
函数 说明 函数 说明
count() 非空值的数量 min()尧max() 计算最小值和最大值
sum()尧mean() 值的总和尧平均数 head()尧tail() 返回前 n行尧后 n行数据
groupby() 根据各行或各列进行分组 sort_values() 排序袁通过 axis=0/1确定行/列
append() 在指定元素的结尾插入内容 要 要
DataFrame常用函数
属性 说明 属性 说明
values DataFrame的值 size DataFrame数据的数量
index 行索引 columns 列索引
T 行列转置 要 要
DataFrame常用属性
4.3 利用 pandas模块处理数据
第四章 数据处理与应用
65
同步宝典 高中信息技术 必修 1
import pandas as pd
df=pd.read_excel("qxyj.xlsx") #读文件中的数据
df=df.drop(咱"预警发布单位","预警等级","预警发布时间"暂,axis=1) #删除列
print(df_s咱0:5暂)
方框中代码由下列语句中的部分语句组成院
淤df_g=df.groupby("预警名称",as_index=False).sum() #分组求和
于df_g=df_s.groupby("次数",as_index=False).sum()
盂df_s=df.sort_values("次数",ascending=True) #升序排序
榆df_s=df_g.sort_values("次数",ascending=False)
要实现上述功能袁下列选项中正确的是 渊 冤
A. 淤榆 B. 淤盂 C. 于榆 D. 盂于
揖分析铱 要求统计全年发布次数最多的 5种气象预警袁因此在使用分组函数 groupby()时袁
分组的依据是野预警名称冶袁而不是野次数冶袁故在淤于中选择淤遥 从代码 print(df_s咱0:5暂)可知袁输出
的是最前面的五条记录袁从而可以判断数据是按照野次数冶降序排序的袁sort_values函数的参数
ascending=False表示降序袁故在盂榆中选择榆遥 故答案为 A遥
揖例题 2铱 已知借还图书数据存储在文件野books.xlsx冶中袁整理后的数据如图 a所示袁并制作
图表如图 b所示袁部分程序代码如下袁请在画线处填入合适的代码遥
import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel("books.xlsx") #读取 Excel文件中的数据
df1=df.groupby("类型",as_index=False). 淤 #按野类型冶分组统计数量
df2=df1. 于 ("类型",ascending=False).head(3) #按野类型冶排序并取前 3行
df3=df2.rename(columns={"名称":"借阅次数"}) #修改列标题
x=df3咱"类型"暂
y=df3咱"借阅次数"暂
图 a
世界名著中国古典现代文学
0
10
20
30
40
50
60 借阅次数前三位的图书类型情况
图 b
66
plt.title("借阅次数前三位的图书类型情况") #设置图表标题
plt.bar(x,y) #绘制柱形图
plt.ylabel("借阅次数") #设置 y轴标签
plt.show()
淤
于
揖分析铱 统计数量使用函数 count(