摘要:
该高中信息技术高考复习知识清单系统梳理了“数据处理与应用”全章内容,涵盖数据整理与计算、大数据处理架构、Python数据编程(含pandas操作与matplotlib可视化)、文本数据处理及智能交通等典型应用,构建了从基础操作到技术应用的完整知识体系。
清单采用“原理图解+操作示例”双栏设计,如以分治思想三步流程图阐释大数据处理逻辑(培养计算思维),用对比表明晰结构化与非结构化数据特征(强化信息意识),并嵌入pandas条件筛选、matplotlib图表类型选择等高频操作代码示例(支持数字化学习)。特设易错点标注(如HBase存储方式辨析)和高考题型关联(如数据可视化应用题思路提示),帮助学生精准掌握考点,教师可据此设计分层复习任务,提升备考效率。
内容正文:
第四章 数据处理与应用
(一)、数据处理
1.数据整理
(1)数据整理的目的
检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
(2)常见的数据问题
数据缺失
根据逻辑填充数据
数据重复
1、对重复数据进行合并 2、删除重复数据
数据异常
进行修复
逻辑错误
将逻辑改正确 如:2024/13/25 月份数据超出了月份的最大值
格式不一致
将格式进行统一
2.数据计算
常用的表格数据处理和统计分析工具有 Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java 等计算机语言编程进行数据处理。
使用 Excel 软件进行数据计算的一般方法:分析表格数据→抽象计算模型→计算→分析计算结果,描述其含义。
3.数据分析
使用 Excel 软件创建图表的一般方法:分析表格数据→选择图表类型→创建图表→检查图表,描述数据特征。
(二)、大数据处理
1.大数据处理基本架构及思想
(1)大数据处理的分治思想
分:将问题分解为规模更小的子问题
治:将规模更小的子问题逐个击破
合:将已解决的子问题合并,最终得出原问题的解
(2)大数据处理类型
①静态数据:在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理计
算进行处理。
②流数据;不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,可采用流计算进行实时分析;比如大型购物网站的广告推荐、社交网络的个性化推荐、根据交通路况实时更新导航线路等应用场景。
③图数据:现实世界中的许多数据,比如社交网络、网络浏览与购买行为、传染病的传播路径等,可采用图计算进行处理
(3)批处理计算
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop 计算平台主要包括 Common 公共库、分布式文件系统 HDFS、分
布式数据库 HBase,分布式并行计算模型 MapReduce 等多个模块。
①分布式文件系统 HDFS:HDFS 将大规模数据以文件形式、用多个副本保存在不同
的存储节点中,并用分布式系统进行管理,HDFS 容错性高,适合部署在廉价的机器上,
②分布式数据库 HBase:HBase建立在 HDFS 提供的底层存储基础上,采用基于列的
存储方式,主要用来存储非结构化数据和半结构化数据。
结构化数据:简单来说就是数据库,指可以使⽤关系型数据库表⽰和存储,表现为⼆维形式的数据。⼀般特点是:数据以⾏为单位,⼀⾏数据表⽰⼀个实体的信息,每⼀⾏数据的属性是相同的。结合到典型场景中更容易理解,⽐如企业ERP、财务系统;医疗HIS数据库;教育⼀卡通;政府⾏政审批;其他核⼼数据库等。这些应⽤需要哪些存储⽅案呢?基本包括⾼速存储应⽤需求、数据备份需求、数据共享需求以及数据容灾需求。
⾮结构化数据:包括视频、⾳频、图⽚、图像、⽂档、⽂本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国⼟GIS、设计院、⽂件服务器(PDM/FTP)、媒体资源管理等具体应⽤,这些⾏业对于存储需求包括数据存储、数据备份以及数据共享等。
半结构化数据:包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应⽤对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。
③分布式并行计算模型 MapReduce;MapReduce 能够处理大规模数据集的并行运算,
主要由 Map(映射)和Reduce(归纳)两个函数构成,其核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。
(4)流计算
流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。
(5)图计算
现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。
2.编程处理数据
一、利用pandas模块处理数据
pandas提供了Series和DataFrame两种数据结构,这两种数据结构可完成数据的整理、计算、统计、分析及简单可视化。
在Python中引入pandas模块的方法如下:
二、DataFrame
(1)DataFrame是一个二维的数据结构,包含:1个索引列和n个数据列(即1+n模式),每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。
(2)DataFrame对象常用属性
属性
说明
index
DataFrame的行索引
columns
存放各列的列标题
values
存放值的二维数据
T
行列转置
1.Pandas 允许直接从 xlsx 等文件中导入数据:read_excel
例:df=pd.read_excel(“chengji.xlsx“)
(1)访问DataFrame的某列
属性法:对象名.列标题 df1.姓名
字典法:对象名[“列标题”] df1[“姓名”]
修改df中的某列值:取出列重新赋值
将score列的值改为100,60,70,90:df.score = [100,60,70,90]
(2)访问DataFrame的某行
切片法:对象名[开始索引:结束索引] df1[0:1]
(3)访问DataFrame的某个值
at[]方法:对象名.at[行索引,列标题] df1.at[1,’姓名’]=张佳妮
(4)条件筛选(可以通过布尔型数据选取符合条件的行,嵌套访问)
格式:对象名[条件]
例:求借阅次数小于50的数据行 df1 [df1.借阅次数<50]或df1 [df1[“借阅次数”]<50]
注:多个条件用小括号括起来,与:& 或:|
DataFrame常用函数
函数
说明
count()
返回非空(NaN)数据项的数量
sum()、mean()
求和、求平均值,通过axis=0确定列,axis=1确定行
max()、min()
返回最大、最小值
head()、tail()
返回DataFrame的前n个、后n个数据记录,省略括号内参数时取前5个、后5个的数据记录
groupby()
对各列或各行中的数据进行分组,然后可对其中每一组数据进行不同的操作,
参数as_index=True时(可省略,默认),返回以分组标签作为索引的对象,as_index=False时,返回以位置索引值作为索引的对象。
sort_values()
按值排序,通过axis=0确定列,axis=1确定行,ascending=True(默认,升序),
ascending=False降序。
sort_index()
按索引排序
drop()
删除数据,通过axis=0确定行,axis=1确定列
append()
在指定元素的结尾插入内容
insert()
在指定位置插入列
rename()
修改列名或索引
①分组groupby():
按”地区”分组 df.groupby(”地区”,as_index=False)
②排序sort_values( ):
按”价格”降序排序 df.sort_values(”价格”,ascending=False)
③增加append():
格式:对象名.append(字典,ignore_index=True)
④删除drop():
格式:
删除某一行:对象名.drop(行号)
删除某一列:对象名.drop(“列标题”,axis=1)
⑤插入insert():
格式:对象名.insert(i,j,k)其中i为列号,j为列标题,k为数据
matplotlib模块绘图(模块名.函数名())
函数
说明
figure()
创建一个新的图表对象,并设置为当前绘图对象,figsize修改图表的宽度与高度
plot()
绘制线形图(kind:改变图标类型;color:改变线条颜色;linewidth:改变线条宽度;rot:字体倾斜程度;label:指定线条标签名称,显示在图例中)
bar()
绘制垂直柱形图
barh()
绘制水平柱形图
scatter()
绘制散点图设置
title()
图表标题
xlim(),ylim()
设置X、Y轴取值范围
xlabel(),ylabel()
设置X、Y轴的标签
legend()
显示图例
show()
显示所有的图表对象
3.处理文本数据
文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
(1)文本处理过程
典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
①分词:将连续的字序列按照一定的规范重新组合成词序列的过程,即将一个汉字序列切分成一个一个单独的词。
②特征提取:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。大多数中文文本分析中采用词作为特征项,这种词称为特征词。对于特征词数量较大的文本,通过特征提取来减少特征词的数量,提高文本处理的速度和效率。特征提取一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。(2)文本数据分析与应用
①标签云:文本可视化的一种方式,用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频率递减、字母顺序等,并以文字大小的形式代表词语的重要性。
②文本情感分析;通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。
常用的中文分词算法可分为如下三类:①基于词典的分词方法(根据字典中词语对比);②基于统计的分词方法(根据文中频率统计);③基于规则的分词方法(根据资料和规则)。
4.数据可视化
数据可视化是指将数据以图形,图像等形式表示,直接呈现数据中蕴含信息的处理过程。通过数据可视化能快捷观察与追踪数据、实时分析数据、增强数据的解释力与吸引力等。
(1)利用 matplotlib 模块绘图
matplotlib 是一个绘图库,使用其中的 pyplot 子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。
(2)可视化的基本方法
①有关时间趋势的可视化:展现随时间的推移而变化的数据,可以采用柱形图、折线图等。
②有关比例的可视化:展现各部分的大小及其占总体比例关系的数据,可以采用饼图、环形图(也称面包圈图)等。
③有关关系的可视化:探究具有关联性的数据的分布关系,可以使用散点图、气泡图等。 ④有关差异的可视化:探寻包含多种变量的对象与同类之间的差异和联系,可以采用雷达图.
⑤有关空间关系的可视化:地理数据或者基于地理数据的分析结果可以运用不同颜色或图表直接在地图上进行展示,
(三)、大数据典型应用
1.智能交通
交通数据采集:GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。
智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。
2.电子商务
电商数据来源:大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。
根据电商数据,电商企业的数据平台为商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。
学科网(北京)股份有限公司
$