第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1

2025-12-08
| 45页
| 596人阅读
| 5人下载
精品

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 高一
章节 第四章 数据处理与应用
类型 课件
知识点 数据的分析,数据处理及过程,数据的可视化表达,数据的采集,大数据分析和处理
使用场景 同步教学-单元练习
学年 2025-2026
地区(省份) 浙江省
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 29.10 MB
发布时间 2025-12-08
更新时间 2025-12-08
作者 wuhao1987
品牌系列 上好课·上好课
审核时间 2025-12-08
下载链接 https://m.zxxk.com/soft/55283975.html
价格 5.00储值(1储值=1元)
来源 学科网

摘要:

该高中信息技术课件聚焦“数据处理与应用”单元,通过单元知识图谱分三节梳理核心内容,串联常用表格数据处理(Excel)、编程数据处理(Python及pandas等模块)、大数据处理技术(Hadoop等)、数据可视化及智能交通等典型应用,帮助学生构建完整知识网络。 其特色在于采用“考点串讲-题型剖析-针对训练”系统复习模式,结合知识图谱梳理逻辑,题型剖析通过雷达图分析、自动驾驶数据处理等实例深化理解,针对训练分层设计(如Excel函数到Python标签云制作),培养计算思维与数字化学习能力,助力学生巩固知识,教师精准开展复习教学。

内容正文:

第四章 数据处理与应用 第四章 复习课件 浙教版2019必修1 目录 1 单元 学习目标 2 小节知识图谱 3 考点串讲 4 题型剖析 5 针对训练 6 课堂总结 单元学习目标 一 01 能够利用exlce电子表格对数据进行简单处理; 能够编程处理数据,进行文本数据处理; 能够根据实际问题,选择恰当的方式把数据可视化,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养。 02 04 03 能够对获取的大数据采用恰当的数据处理技术进行分析; 单元学习目标 二 三 1.能够根据实际问题,选择恰当的方式把数据可视化,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养。 1.能够利用exlce电子表格对数据进行简单处理; 2.能够编程处理数据,进行文本数据处理; 3.能够对获取的大数据采用恰当的数据处理技术进行分析; 单元知识图谱 第一节 考点串讲 检测和修正错漏的数据 整合数据资源 提高数据质量 规整数据格式 数据整理的目的 考点串讲 数据缺失问题 数据集中普遍存在的问题 忽略含有缺失值的实例或属性。 这样处理可能造成数据集不完整,致使后续的统计分析结果出现偏差。 最简单的方法 缺点 较好的方法 常用方法 采用平均值、中间值或概率统计值来填充缺失值。 是根据数据间的关联性估计较准确的缺失值,并通过合适的方法对缺失值进行填充。 考点串讲 不同来源的数据可能存在格式不一致的情况,这就需要进行数据转换,以便形成一个适合后续分析和挖掘的描述形式。 数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。 数据集中的属性值与实际值不符,或违背业务规则或逻辑。 异常数据 逻辑错误 来源 考点串讲 01 02 03 据已有属性集构造新属性的转换 属性数据类型的转换 将不同来源的相同属性的定义及其值进行统一标准化表达的转换 数据转换 考点串讲 单元格引用:是指对工作表中的单元格或单元格区域的引用。 单个单元格如A1 ;连续的单元格区域引用,如A2:D5 ;不连续的单元格区域引用,如A2:A5,D2:D5。 相对引用和绝对引用:公式不仅用于计算,更重要的是构建计算模型。 文本连接运算符“&”,可以连接一个或多个文本字符串,生成一段文本。 +++++ 函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。单击fx插入函数,或在编辑栏直接输入公式。 考点串讲 气泡图 散点图 雷达图 饼图 柱形图 折线图 图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型 在运用图表表现数据、传递信息时,通常依据数据间的关系选择相应的图表类型。 单元知识图谱 第二节 考点串讲 处理大数据时,一般采用分治思想。 +++++ ★ 分——将问题分解为规模更小的子问题 ★ 治——将规模更小的子问题逐个击破 ★ 合——将已解决的子问题合并,最终得出原问题的解 考点串讲 大数据处理 批处理计算 (Hadoop、Spark等) 静态数据 流计算 (Stomm、Heron等) 流数据 图计算 (Pregel、GraphX等) 图数据 静态数据:在处理时已收集完成、在计算时不会发生改变的数据,一般采用批处理方式。 流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析结果。 现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算模式进行 处理。 图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算模式进行处理。 考点串讲 批处理计算 1 Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。 Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。 考点串讲 分布式 文件 系统 HDFS ① ② 分布式数据库 HBase 分布式 并行计 算模型MapReduce ③ 主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。 HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。 MapReduce是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳) 2个函数构成。 考点串讲 流计算 2 通过流计算系统,可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。 典型的应用如Twitter的社交网络数据处理,采用了如左图所示的分层数据处理架构,每天可实时处理数十亿事件的数据。 Twitter的 分层数据处理架构 考点串讲 图计算 3 现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。 目前通用的图处理软件主要包括两类 两类 如Neo4j、InfiniteGraph、OrientDB等 图数据库 如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。 并行图处理系统 考点串讲 实时处理与批处理的整合 4 2014年9月 Twitter开源了其大数据处理系统Summingbird,该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。 开发者 开发者在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。 平台 平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。 考点串讲 计算机语言编程 Python语言 编程处理数据 可以调用Python的扩展模块 可以更加灵活、深入地进行数据分析和挖掘。 numpy scipy pandas matplotlib 常用的扩展模块 考点串讲 以pandas为例,介绍使用计算机程序设计语言编程进行数据处理的方法。 利用pandas模块处理数据 使用这两种数据结构,可完成数据的整理、计算、统计、分析及简单可视化。 pandas提供了Series和DataFrame两种数据结构。 用处 在Python中引入pandas模块的方法如下: import pandas as pd 数据结构 引入方法 导入模块,别名为“pd” 考点串讲 Series 1 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引): R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。列表、字典等可以用来创建 Series 数据结构,与列表不同的是,Series的索引可以指定,类型可以为字符串型。 DataFrame 2 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引): R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 DataFrame 是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多,通常用一个相等长度的列表或字典来创建。 考点串讲 , G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 DataFrame数据结构提供了丰富的函数,这些函数可以用来进行行、列编辑和统计计算等。 1 DataFrame对象中行、列的编辑 2 DataFrame对象中数据的统计与计算 3 DataFrame对象中数据的排序 利用 matplotlib 模块绘图 matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。 考点串讲 文本数据处理是大数据处理的重要分支之一 目的 从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息 文本数据处理的一般过程 1 典型的文本处理过程 ① 中文分词 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值(变量i为列表p_color的索引): R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 基于词典的分词方法 基于统计的分词方法 基于规则的分词方法 考点串讲 2 文本数据分析与应用 在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。 标签云 文本情感分析 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。 文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。 考点串讲 数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。 可视化的作用 (1)快捷观察与追踪数据 (2)实时分析数据 (3)增强数据的解释力与吸引力 考点串讲 可视化的基本方法 (1)有关时间趋势的可视化 (2)有关比例的可视化 (3)有关关系的可视化 (4)有关差异的可视化 (5)有关空间关系的可视化 考点串讲 从而计算出各个像素的灰度值并实现黑白像素判断。 可视化的工具 数据可视化工具软件很多,常见的数据分析软件中一般包含创建可视化图表功能。 01 03 大数据魔镜、Gephi、Tableau等 基于JavaScript的D3.js、Highcharts、Google Charts等,基于Python的matplotlib等 A ITEM B ITEM C ITEM 主要 编写程序实现数据的可视化 优秀的可视化工具库 用于数据可视化的工具 02 用Python、R等计算机语言 考点串讲 可视化的典型案例 (1)风、气象、海洋状况的全球地图 (2)编程语言之间的影响力关系图 (3)“双十一”全网销售直播图 (4)航班飞行实时跟踪地图 (5)微博热词趋势图 单元知识图谱 第三节 考点串讲 在交通运输领域中,随着移动互联网、物联网、云计算、大数据等技术的发展,智能交通的发展进程正逐渐加快。 智能交通整合了物联网、大数据、云计算、人工智能等技术,其基本架构如下图所示。GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。交通数据采集的广度、深度和数据量随着智能交通的发展不断扩大,数据贯穿在智能交通的感知、处理、应用等各个环节。交通大数据是智能交通中“智能”的基础。 智能交通架构图 考点串讲 云计算使千亿数据的检索实现了秒级返回,为大数据的分析应用提供了速度保障。基于深度学习的智能分析算法,为大数据的分析应用提供了有力的支撑。交通大数据的分析,为交通管理、规划、决策、服务和主动安全防范等提供了更加有效的支持。 (1)交通信息服务系统 (2)交通管理系统 (3)电子收费系统 考点串讲 电子设备 电子商务企业 商务活动 网络技术 大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。这些数据通过电商企业的数据平台,为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。 精准 营销 供应链管理 智能 网站 考点/题型剖析 1.(24-25高一上·浙江·课前预习)下图是某俱乐部在微博运营方面与其他俱乐部进行对比的数据分析,该俱乐部应该在哪方面加强?(    ) A.积极性 B.互动值 C.吸引力 D.关注度 答案:D 本题考查的是数据分析。在雷达图中,各维度数值分别为:积极性 78.01 、互动性 54.35 、关注度 37.00 、吸引力 55.20  。 通过比较这些数值大小: 37.00<54.35<55.20<78.01 ,可知关注度的数值最低。 在与其他俱乐部对比中,关注度数值低,说明该俱乐部在微博运营方面,关注度表现相对薄弱,所以该俱乐部应该在关注度方面加强。故选D。 考点/题型剖析 2.(24-25高一下·浙江·专题练习)某社区无人配送车搭载传感器和自动驾驶系统,可实时感知环境并配送。管理员能远程监控车辆状态,并在必要时人工干预。下列关于该无人配送车数据处理的说法,正确的是(    ) A.自动驾驶系统中所有数据必须由传感器获取 B.数据实时处理结果为自动驾驶功能提供决策支持 C.传感器采集的数据直接用于车辆控制,无需处理 D.自动驾驶系统采集的环境数据为数字信号,无需额外数字化处理 答案:B 详解:本题考查的是数据处理。自动驾驶系统的数据不仅来自传感器(如摄像头、雷达等),还可能包括地图数据、GPS信息或预存路线等外部或内部来源。传感器是主要数据源,但不是“所有数据必须”由其获取。无人配送车需要实时处理传感器数据(如识别障碍物、分析路况),处理结果直接用于自动驾驶决策(如路径规划、避障),为功能提供支持。传感器采集的原始数据(如图像、距离信息)通常包含噪声或不完整内容,必须经过处理(如过滤、分析)才能安全用于车辆控制。传感器采集的环境数据可能为模拟信号(如传统摄像头),需要额外数字化处理(如模数转换);即使部分传感器输出数字信号,数据仍需进一步处理(如压缩、特征提取)才能用于自动驾驶。故选B。 考点/题型剖析 3.(25-26高二上·浙江宁波·期中)学校总务处统计去年学生宿舍的月均用电量,这属于数据分析中的(    ) A.平均分析 B.交叉分析 C.对比分析 D.结构分析 答案:A 本题考查数据分析中的平均分析。题目中提到“学校总务处统计去年学生宿舍的月均用电量”,这里的“月均用电量”指的是对每个月的用电量进行平均计算,以得到一个代表性的数值。这种方法属于平均分析,因为它通过计算平均值来反映数据的总体水平,而不是对数据进行交叉、对比或结构方面的分析。故答案为:A。 考点/题型剖析 4.(高一上·浙江温州·课前预习)下列关于数据分析的基本方法选择错误的是(    ) A.对比分析指将两个或两个以上的数据进行比较分析,揭示变化和规律 B.横向分析就是在类似的或同类的事物之间进行比较 C.纵向对比指的是类似的事物或者同类的事物之间进行比较,横向对比指的是和相同事物的不同时期进行比较 D.平均分析就是运行计算平均值的方法,来反映总体在一定时间、地点条件下某一数量特征的一般水平 答案:C 本题考查的是数据分析。选项C错误。纵向对比(纵向分析)是指对同一事物在不同时间段的比较(如某公司近三年的销售额变化),而横向对比(横向分析)是在同一时间段内对同类或类似事物的比较(如不同公司2023年的销售额对比)。选项C将两者的定义颠倒,故选C。 考点/题型剖析 5.(2025高二·浙江·专题练习)下列关于Hadoop架构的说法正确的是(   ) A.采用MapReduce编程模型处理大规模数据集 B.不能运行于大规模计算机集群上 C.采用NTFS文件系统管理数据文件 D.是一个对大数据进行聚合式处理的基础软件框架 答案:A 详解:本题考查大数据。选项B,Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,选项错误;选项C,采用分布式文件系统HDFS管理数据文件,选项错误;选项D,Hadoop是一个分布式系统基础架构,选项错误。故答案为:A。 针对训练 1.编写一个Python程序,为一篇主题为“碳中和”的文章制作标签云,标签云如图所示。下列说法不正确的是(   ) A.这篇文章是结构化数据 B.该程序可以使用jieba模块进行分词 C.基于词典和基于统计的分词方法一般是结合使用的 D.标签云用词频表现文本特征,词频越高的文字越大 答案:A 解析:本题考查词云。文本内容是非结构化数据。故答案为:A。 针对训练 2.以下是某汽车销售企业统计的2021年12月轿车销量排行榜,为统计出各厂商12月总销量,要计算出“北京奔驰”12月总销量,并且通过自动填充的方法得到其他厂商的轿车总销量,那么在I3单元格中应该输入的函数为(   ) A.=SUMIF(C3:C88,H3,D3:D88) B.=SUMIF(C$3:C$88,H3,D$3:D$88) C.=SUMIF(C$3:C$88,H2,D$3:D$88) D.=SUMIF(B$3:B$88,H3,D$3:DS88) 答案:B 解析:本题考查表格数据处理。SUMIF函数条件区域为所属厂商列,需要固定行号,数据区域为12月销量列,需要固定行号;判断条件为H3,相对引用,自动填充时对应不同厂商;I3单元格函数=SUMIF(C$3:C$88,H3,D$3:D$88),B正确。因此,本题选择B。 针对训练 3.下列关于Hadoop平台的说法,不正确的是(   ) A.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构 B.Hadoop平台只能处理结构化数据 C.Hadoop分布式文件系统是一个高度容错性的系统 D.Hadoop与Spark相似,但运行速度比Spark慢很多 答案:B 解析:本题考查的是大数据处理与应用。Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据。Hadoop平台不仅能处理结构化数据(如数据库表),还能处理半结构化(如XML、JSON)和非结构化数据(如文本、日志、图像)。Hadoop的核心组件HDFS(分布式文件系统)和MapReduce(计算模型)适用于多种数据类型,因此“只能处理结构化数据”的说法是错误的。故选B。 针对训练 4.一款处于试飞阶段的国产六代机,需综合评估其隐身性能、超音速巡航能力、智能化作战水平、态势感知效能及设计成本五大维度的表现,最适宜选用的图表类型是(   ) A.雷达图 B.散点图 C.柱形图 D.词云图 答案:A 解析:本题考查的是数据可视化表达。雷达图:也称为蜘蛛网图或星图,能在一个图表中同时展示多个维度(每个维度对应一个轴),通过连接数据点形成多边形,直观体现整体性能的强弱项和平衡度。适合多维度的综合比较和评估,如本题中的五大性能指标。散点图:主要用于分析两个变量之间的关系(如相关性或分布),无法同时展示多个独立维度,因此不适用。柱形图:适合比较不同类别的单一数值(如每个维度的独立得分),但难以在一个图表中综合体现所有维度的整体表现,可能需要多个图表,不够高效。词云图:用于可视化文本数据(如词频),强调关键词的权重,不适用于数值型数据的多维评估。故选A。 针对训练 5.在Excel中,要计算区域A2:C2中所有数据的平均值,正确的公式是(    )。 A.=A2+C2 B.=(A2+B2+C2)/3 C.=SUM(A2:C2) D.=Average(A2:C2) 答案:BD 解析:本题主要考查Excel平均值公式。在Excel中,要计算区域A2:C2中所有数据的平均值,可以通过=(A2+B2+C2)/3来计算,也可以用=Average(A2:C2)来计算,故本题选BD选项。 课堂总结 数据正逐渐成为现代社会基础设施的一部分,就像公路、铁路、电网和通信网络一样不可或缺。传感器、卫星导航系统、社交网络等时刻产生新的数据,通过数据处理平台,可以对数据进行收集、加工、储存、分析,并应用到社会的各个领域,为人们的判断、预测、决策提供有力的依据。 THANKS 感谢观看 第四章 数据处理与应用 浙教版2019必修1 $

资源预览图

第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
1
第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
2
第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
3
第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
4
第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
5
第四章 数据处理与应用(复习课件)信息技术浙教版2019必修1
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。