内容正文:
第四章
数据处理与应用
第四章 复习课件
浙教版2019必修1
目录
1
单元
学习目标
2
小节知识图谱
3
考点串讲
4
题型剖析
5
针对训练
6
课堂总结
单元学习目标
一
01
能够利用exlce电子表格对数据进行简单处理;
能够编程处理数据,进行文本数据处理;
能够根据实际问题,选择恰当的方式把数据可视化,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养。
02
04
03
能够对获取的大数据采用恰当的数据处理技术进行分析;
单元学习目标
二
三
1.能够根据实际问题,选择恰当的方式把数据可视化,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养。
1.能够利用exlce电子表格对数据进行简单处理;
2.能够编程处理数据,进行文本数据处理;
3.能够对获取的大数据采用恰当的数据处理技术进行分析;
单元知识图谱
第一节
考点串讲
检测和修正错漏的数据
整合数据资源
提高数据质量
规整数据格式
数据整理的目的
考点串讲
数据缺失问题
数据集中普遍存在的问题
忽略含有缺失值的实例或属性。
这样处理可能造成数据集不完整,致使后续的统计分析结果出现偏差。
最简单的方法
缺点
较好的方法
常用方法
采用平均值、中间值或概率统计值来填充缺失值。
是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。
考点串讲
不同来源的数据可能存在格式不一致的情况,这就需要进行数据转换,以便形成一个适合后续分析和挖掘的描述形式。
数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。
数据集中的属性值与实际值不符,或违背业务规则或逻辑。
异常数据
逻辑错误
来源
考点串讲
01
02
03
据已有属性集构造新属性的转换
属性数据类型的转换
将不同来源的相同属性的定义及其值进行统一标准化表达的转换
数据转换
考点串讲
单元格引用:是指对工作表中的单元格或单元格区域的引用。
单个单元格如A1 ;连续的单元格区域引用,如A2:D5 ;不连续的单元格区域引用,如A2:A5,D2:D5。
相对引用和绝对引用:公式不仅用于计算,更重要的是构建计算模型。
文本连接运算符“&”,可以连接一个或多个文本字符串,生成一段文本。
+++++
函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。单击fx插入函数,或在编辑栏直接输入公式。
考点串讲
气泡图
散点图
雷达图
饼图
柱形图
折线图
图表是用视觉形式向人们展示数据的一种方法。
常见的图表类型
在运用图表表现数据、传递信息时,通常依据数据间的关系选择相应的图表类型。
单元知识图谱
第二节
考点串讲
处理大数据时,一般采用分治思想。
+++++
★ 分——将问题分解为规模更小的子问题
★ 治——将规模更小的子问题逐个击破
★ 合——将已解决的子问题合并,最终得出原问题的解
考点串讲
大数据处理
批处理计算
(Hadoop、Spark等)
静态数据
流计算
(Stomm、Heron等)
流数据
图计算
(Pregel、GraphX等)
图数据
静态数据:在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理方式。
流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析结果。
现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算模式进行
处理。
图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算模式进行处理。
考点串讲
批处理计算
1
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。
Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。
考点串讲
分布式
文件
系统
HDFS
①
②
分布式数据库
HBase
分布式
并行计
算模型MapReduce
③
主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。
MapReduce是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳) 2个函数构成。
考点串讲
流计算
2
通过流计算系统,可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。
典型的应用如Twitter的社交网络数据处理,采用了如左图所示的分层数据处理架构,每天可实时处理数十亿事件的数据。
Twitter的
分层数据处理架构
考点串讲
图计算
3
现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。
目前通用的图处理软件主要包括两类
两类
如Neo4j、InfiniteGraph、OrientDB等
图数据库
如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。
并行图处理系统
考点串讲
实时处理与批处理的整合
4
2014年9月
Twitter开源了其大数据处理系统Summingbird,该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。
开发者
开发者在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。
平台
平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
考点串讲
计算机语言编程
Python语言
编程处理数据
可以调用Python的扩展模块
可以更加灵活、深入地进行数据分析和挖掘。
numpy
scipy
pandas
matplotlib
常用的扩展模块
考点串讲
以pandas为例,介绍使用计算机程序设计语言编程进行数据处理的方法。
利用pandas模块处理数据
使用这两种数据结构,可完成数据的整理、计算、统计、分析及简单可视化。
pandas提供了Series和DataFrame两种数据结构。
用处
在Python中引入pandas模块的方法如下:
import pandas as pd
数据结构
引入方法
导入模块,别名为“pd”
考点串讲
Series
1
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。列表、字典等可以用来创建 Series 数据结构,与列表不同的是,Series的索引可以指定,类型可以为字符串型。
DataFrame
2
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
DataFrame 是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。
考点串讲
, G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
DataFrame数据结构提供了丰富的函数,这些函数可以用来进行行、列编辑和统计计算等。
1
DataFrame对象中行、列的编辑
2
DataFrame对象中数据的统计与计算
3
DataFrame对象中数据的排序
利用 matplotlib 模块绘图
matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。
考点串讲
文本数据处理是大数据处理的重要分支之一
目的
从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息
文本数据处理的一般过程
1
典型的文本处理过程
①
中文分词
p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]]
再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引):
R=p_color[i][0]
G=p_color[i][1]
B=p_color[i][2]
从而计算出各个像素的灰度值并实现黑白像素判断。
基于词典的分词方法
基于统计的分词方法
基于规则的分词方法
考点串讲
2
文本数据分析与应用
在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。
标签云
文本情感分析
标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。
文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。
考点串讲
数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
可视化的作用
(1)快捷观察与追踪数据
(2)实时分析数据
(3)增强数据的解释力与吸引力
考点串讲
可视化的基本方法
(1)有关时间趋势的可视化
(2)有关比例的可视化
(3)有关关系的可视化
(4)有关差异的可视化
(5)有关空间关系的可视化
考点串讲
从而计算出各个像素的灰度值并实现黑白像素判断。
可视化的工具
数据可视化工具软件很多,常见的数据分析软件中一般包含创建可视化图表功能。
01
03
大数据魔镜、Gephi、Tableau等
基于JavaScript的D3.js、Highcharts、Google Charts等,基于Python的matplotlib等
A
ITEM
B
ITEM
C
ITEM
主要
编写程序实现数据的可视化
优秀的可视化工具库
用于数据可视化的工具
02
用Python、R等计算机语言
考点串讲
可视化的典型案例
(1)风、气象、海洋状况的全球地图
(2)编程语言之间的影响力关系图
(3)“双十一”全网销售直播图
(4)航班飞行实时跟踪地图
(5)微博热词趋势图
单元知识图谱
第三节
考点串讲
在交通运输领域中,随着移动互联网、物联网、云计算、大数据等技术的发展,智能交通的发展进程正逐渐加快。
智能交通整合了物联网、大数据、云计算、人工智能等技术,其基本架构如下图所示。GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。交通数据采集的广度、深度和数据量随着智能交通的发展不断扩大,数据贯穿在智能交通的感知、处理、应用等各个环节。交通大数据是智能交通中“智能”的基础。
智能交通架构图
考点串讲
云计算使千亿数据的检索实现了秒级返回,为大数据的分析应用提供了速度保障。基于深度学习的智能分析算法,为大数据的分析应用提供了有力的支撑。交通大数据的分析,为交通管理、规划、决策、服务和主动安全防范等提供了更加有效的支持。
(1)交通信息服务系统
(2)交通管理系统
(3)电子收费系统
考点串讲
电子设备
电子商务企业
商务活动
网络技术
大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。这些数据通过电商企业的数据平台,为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。
精准
营销
供应链管理
智能
网站
考点/题型剖析
1.(24-25高一上·浙江·课前预习)下图是某俱乐部在微博运营方面与其他俱乐部进行对比的数据分析,该俱乐部应该在哪方面加强?( )
A.积极性
B.互动值
C.吸引力
D.关注度
答案:D
本题考查的是数据分析。在雷达图中,各维度数值分别为:积极性 78.01 、互动性 54.35 、关注度 37.00 、吸引力 55.20 。 通过比较这些数值大小: 37.00<54.35<55.20<78.01 ,可知关注度的数值最低。 在与其他俱乐部对比中,关注度数值低,说明该俱乐部在微博运营方面,关注度表现相对薄弱,所以该俱乐部应该在关注度方面加强。故选D。
考点/题型剖析
2.(24-25高一下·浙江·专题练习)某社区无人配送车搭载传感器和自动驾驶系统,可实时感知环境并配送。管理员能远程监控车辆状态,并在必要时人工干预。下列关于该无人配送车数据处理的说法,正确的是( )
A.自动驾驶系统中所有数据必须由传感器获取
B.数据实时处理结果为自动驾驶功能提供决策支持
C.传感器采集的数据直接用于车辆控制,无需处理
D.自动驾驶系统采集的环境数据为数字信号,无需额外数字化处理
答案:B
详解:本题考查的是数据处理。自动驾驶系统的数据不仅来自传感器(如摄像头、雷达等),还可能包括地图数据、GPS信息或预存路线等外部或内部来源。传感器是主要数据源,但不是“所有数据必须”由其获取。无人配送车需要实时处理传感器数据(如识别障碍物、分析路况),处理结果直接用于自动驾驶决策(如路径规划、避障),为功能提供支持。传感器采集的原始数据(如图像、距离信息)通常包含噪声或不完整内容,必须经过处理(如过滤、分析)才能安全用于车辆控制。传感器采集的环境数据可能为模拟信号(如传统摄像头),需要额外数字化处理(如模数转换);即使部分传感器输出数字信号,数据仍需进一步处理(如压缩、特征提取)才能用于自动驾驶。故选B。
考点/题型剖析
3.(25-26高二上·浙江宁波·期中)学校总务处统计去年学生宿舍的月均用电量,这属于数据分析中的( )
A.平均分析 B.交叉分析
C.对比分析 D.结构分析
答案:A
本题考查数据分析中的平均分析。题目中提到“学校总务处统计去年学生宿舍的月均用电量”,这里的“月均用电量”指的是对每个月的用电量进行平均计算,以得到一个代表性的数值。这种方法属于平均分析,因为它通过计算平均值来反映数据的总体水平,而不是对数据进行交叉、对比或结构方面的分析。故答案为:A。
考点/题型剖析
4.(高一上·浙江温州·课前预习)下列关于数据分析的基本方法选择错误的是( )
A.对比分析指将两个或两个以上的数据进行比较分析,揭示变化和规律
B.横向分析就是在类似的或同类的事物之间进行比较
C.纵向对比指的是类似的事物或者同类的事物之间进行比较,横向对比指的是和相同事物的不同时期进行比较
D.平均分析就是运行计算平均值的方法,来反映总体在一定时间、地点条件下某一数量特征的一般水平
答案:C
本题考查的是数据分析。选项C错误。纵向对比(纵向分析)是指对同一事物在不同时间段的比较(如某公司近三年的销售额变化),而横向对比(横向分析)是在同一时间段内对同类或类似事物的比较(如不同公司2023年的销售额对比)。选项C将两者的定义颠倒,故选C。
考点/题型剖析
5.(2025高二·浙江·专题练习)下列关于Hadoop架构的说法正确的是( )
A.采用MapReduce编程模型处理大规模数据集
B.不能运行于大规模计算机集群上
C.采用NTFS文件系统管理数据文件
D.是一个对大数据进行聚合式处理的基础软件框架
答案:A
详解:本题考查大数据。选项B,Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,选项错误;选项C,采用分布式文件系统HDFS管理数据文件,选项错误;选项D,Hadoop是一个分布式系统基础架构,选项错误。故答案为:A。
针对训练
1.编写一个Python程序,为一篇主题为“碳中和”的文章制作标签云,标签云如图所示。下列说法不正确的是( )
A.这篇文章是结构化数据
B.该程序可以使用jieba模块进行分词
C.基于词典和基于统计的分词方法一般是结合使用的
D.标签云用词频表现文本特征,词频越高的文字越大
答案:A
解析:本题考查词云。文本内容是非结构化数据。故答案为:A。
针对训练
2.以下是某汽车销售企业统计的2021年12月轿车销量排行榜,为统计出各厂商12月总销量,要计算出“北京奔驰”12月总销量,并且通过自动填充的方法得到其他厂商的轿车总销量,那么在I3单元格中应该输入的函数为( )
A.=SUMIF(C3:C88,H3,D3:D88)
B.=SUMIF(C$3:C$88,H3,D$3:D$88)
C.=SUMIF(C$3:C$88,H2,D$3:D$88)
D.=SUMIF(B$3:B$88,H3,D$3:DS88)
答案:B
解析:本题考查表格数据处理。SUMIF函数条件区域为所属厂商列,需要固定行号,数据区域为12月销量列,需要固定行号;判断条件为H3,相对引用,自动填充时对应不同厂商;I3单元格函数=SUMIF(C$3:C$88,H3,D$3:D$88),B正确。因此,本题选择B。
针对训练
3.下列关于Hadoop平台的说法,不正确的是( )
A.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构
B.Hadoop平台只能处理结构化数据
C.Hadoop分布式文件系统是一个高度容错性的系统
D.Hadoop与Spark相似,但运行速度比Spark慢很多
答案:B
解析:本题考查的是大数据处理与应用。Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据。Hadoop平台不仅能处理结构化数据(如数据库表),还能处理半结构化(如XML、JSON)和非结构化数据(如文本、日志、图像)。Hadoop的核心组件HDFS(分布式文件系统)和MapReduce(计算模型)适用于多种数据类型,因此“只能处理结构化数据”的说法是错误的。故选B。
针对训练
4.一款处于试飞阶段的国产六代机,需综合评估其隐身性能、超音速巡航能力、智能化作战水平、态势感知效能及设计成本五大维度的表现,最适宜选用的图表类型是( )
A.雷达图 B.散点图 C.柱形图 D.词云图
答案:A
解析:本题考查的是数据可视化表达。雷达图:也称为蜘蛛网图或星图,能在一个图表中同时展示多个维度(每个维度对应一个轴),通过连接数据点形成多边形,直观体现整体性能的强弱项和平衡度。适合多维度的综合比较和评估,如本题中的五大性能指标。散点图:主要用于分析两个变量之间的关系(如相关性或分布),无法同时展示多个独立维度,因此不适用。柱形图:适合比较不同类别的单一数值(如每个维度的独立得分),但难以在一个图表中综合体现所有维度的整体表现,可能需要多个图表,不够高效。词云图:用于可视化文本数据(如词频),强调关键词的权重,不适用于数值型数据的多维评估。故选A。
针对训练
5.在Excel中,要计算区域A2:C2中所有数据的平均值,正确的公式是( )。
A.=A2+C2 B.=(A2+B2+C2)/3
C.=SUM(A2:C2) D.=Average(A2:C2)
答案:BD
解析:本题主要考查Excel平均值公式。在Excel中,要计算区域A2:C2中所有数据的平均值,可以通过=(A2+B2+C2)/3来计算,也可以用=Average(A2:C2)来计算,故本题选BD选项。
课堂总结
数据正逐渐成为现代社会基础设施的一部分,就像公路、铁路、电网和通信网络一样不可或缺。传感器、卫星导航系统、社交网络等时刻产生新的数据,通过数据处理平台,可以对数据进行收集、加工、储存、分析,并应用到社会的各个领域,为人们的判断、预测、决策提供有力的依据。
THANKS
感谢观看
第四章 数据处理与应用
浙教版2019必修1
$