第四章数据处理与应用（复习课件）信息技术浙教版2019必修1

2025-12-08

| 45页

| 596人阅读

| 5人下载

精品

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术浙教版必修1 数据与计算
年级	高一
章节	第四章数据处理与应用
类型	课件
知识点	数据的分析，数据处理及过程，数据的可视化表达，数据的采集，大数据分析和处理
使用场景	同步教学-单元练习
学年	2025-2026
地区（省份）	浙江省
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	29.10 MB
发布时间	2025-12-08
更新时间	2025-12-08
作者	wuhao1987
品牌系列	上好课·上好课
审核时间	2025-12-08
下载链接	https://m.zxxk.com/soft/55283975.html
价格	5.00储值（1储值=1元）
来源	学科网

摘要：

该高中信息技术课件聚焦“数据处理与应用”单元，通过单元知识图谱分三节梳理核心内容，串联常用表格数据处理（Excel）、编程数据处理（Python及pandas等模块）、大数据处理技术（Hadoop等）、数据可视化及智能交通等典型应用，帮助学生构建完整知识网络。其特色在于采用“考点串讲-题型剖析-针对训练”系统复习模式，结合知识图谱梳理逻辑，题型剖析通过雷达图分析、自动驾驶数据处理等实例深化理解，针对训练分层设计（如Excel函数到Python标签云制作），培养计算思维与数字化学习能力，助力学生巩固知识，教师精准开展复习教学。

内容正文：

第四章数据处理与应用第四章复习课件浙教版2019必修1 目录 1 单元学习目标 2 小节知识图谱 3 考点串讲 4 题型剖析 5 针对训练 6 课堂总结单元学习目标一 01 能够利用exlce电子表格对数据进行简单处理；能够编程处理数据，进行文本数据处理；能够根据实际问题，选择恰当的方式把数据可视化，提升利用数字化工具解决实际问题的能力，进而提升信息技术学科素养。 02 04 03 能够对获取的大数据采用恰当的数据处理技术进行分析；单元学习目标二三 1.能够根据实际问题，选择恰当的方式把数据可视化，提升利用数字化工具解决实际问题的能力，进而提升信息技术学科素养。 1.能够利用exlce电子表格对数据进行简单处理； 2.能够编程处理数据，进行文本数据处理； 3.能够对获取的大数据采用恰当的数据处理技术进行分析；单元知识图谱第一节考点串讲检测和修正错漏的数据整合数据资源提高数据质量规整数据格式数据整理的目的考点串讲数据缺失问题数据集中普遍存在的问题忽略含有缺失值的实例或属性。这样处理可能造成数据集不完整，致使后续的统计分析结果出现偏差。最简单的方法缺点较好的方法常用方法采用平均值、中间值或概率统计值来填充缺失值。是根据数据间的关联性估计较准确的缺失值，并通过合适的方法对缺失值进行填充。考点串讲不同来源的数据可能存在格式不一致的情况，这就需要进行数据转换，以便形成一个适合后续分析和挖掘的描述形式。数据集中不符合一般规律的数据对象，它可能是要去掉的噪声，也可能是含有重要信息的数据对象。数据集中的属性值与实际值不符，或违背业务规则或逻辑。异常数据逻辑错误来源考点串讲 01 02 03 据已有属性集构造新属性的转换属性数据类型的转换将不同来源的相同属性的定义及其值进行统一标准化表达的转换数据转换考点串讲单元格引用：是指对工作表中的单元格或单元格区域的引用。单个单元格如A1 ；连续的单元格区域引用，如A2:D5 ；不连续的单元格区域引用，如A2:A5，D2:D5。相对引用和绝对引用：公式不仅用于计算，更重要的是构建计算模型。文本连接运算符“&”，可以连接一个或多个文本字符串，生成一段文本。 +++++ 函数：是预定义的公式，通过使用参数按特定顺序或结构进行计算。单击fx插入函数，或在编辑栏直接输入公式。考点串讲气泡图散点图雷达图饼图柱形图折线图图表是用视觉形式向人们展示数据的一种方法。常见的图表类型在运用图表表现数据、传递信息时，通常依据数据间的关系选择相应的图表类型。单元知识图谱第二节考点串讲处理大数据时，一般采用分治思想。 +++++ ★ 分——将问题分解为规模更小的子问题 ★ 治——将规模更小的子问题逐个击破 ★ 合——将已解决的子问题合并，最终得出原问题的解考点串讲大数据处理批处理计算 (Hadoop、Spark等) 静态数据流计算 (Stomm、Heron等) 流数据图计算 (Pregel、GraphX等) 图数据静态数据：在处理时已收集完成、在计算时不会发生改变的数据，一般采用批处理方式。流数据：不间断地、持续地到达的实时数据，随着时间的流逝，流数据的价值也随之降低，通过实时分析计算可以得到更有价值的分析结果。现实世界中的许多数据，如社交网络、道路交通等数据，可采用图计算模式进行处理。图数据：现实世界中的许多数据，如社交网络、道路交通等数据，可采用图计算模式进行处理。考点串讲批处理计算 1 Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于静态数据的批处理计算。 Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。考点串讲分布式文件系统 HDFS ① ② 分布式数据库 HBase 分布式并行计算模型MapReduce ③ 主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中，并用分布式系统进行管理。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。 HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库，是谷歌BigTable数据库的开源实现。 MapReduce是一种分布式并行编程模型，能够处理大规模数据集的并行运算，主要由Map（映射）和Reduce（归纳） 2个函数构成。考点串讲流计算 2 通过流计算系统，可以简单、高效、可靠地实现实时数据的获取、传输和存储，在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。典型的应用如Twitter的社交网络数据处理，采用了如左图所示的分层数据处理架构，每天可实时处理数十亿事件的数据。 Twitter的分层数据处理架构考点串讲图计算 3 现实世界中的很多数据是以图的形式呈现的，或者是可以转换为图以后再进行分析的，如社交网络、网络浏览与购买行为、传染病的传播路径等。目前通用的图处理软件主要包括两类两类如Neo4j、InfiniteGraph、OrientDB等图数据库如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。并行图处理系统考点串讲实时处理与批处理的整合 4 2014年9月 Twitter开源了其大数据处理系统Summingbird，该系统实现了批处理和流计算在一个平台架构下的整合（Hadoop+Storm）。开发者开发者在同一个平台既可以做批处理，也可以做流计算，还可以进行两种模式的混合使用。平台平台的整合缩短了批处理与流处理之间的切换延时时间，有利于减少系统的开销，降低使用成本。考点串讲计算机语言编程 Python语言编程处理数据可以调用Python的扩展模块可以更加灵活、深入地进行数据分析和挖掘。 numpy scipy pandas matplotlib 常用的扩展模块考点串讲以pandas为例，介绍使用计算机程序设计语言编程进行数据处理的方法。利用pandas模块处理数据使用这两种数据结构，可完成数据的整理、计算、统计、分析及简单可视化。 pandas提供了Series和DataFrame两种数据结构。用处在Python中引入pandas模块的方法如下： import pandas as pd 数据结构引入方法导入模块，别名为“pd” 考点串讲 Series 1 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值（变量i为列表p_color的索引）： R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 Series是一种一维的数据结构，包含一个数组的数据和一个与数据关联的索引（index），索引值默认是从0起递增的整数。列表、字典等可以用来创建 Series 数据结构，与列表不同的是，Series的索引可以指定，类型可以为字符串型。 DataFrame 2 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值（变量i为列表p_color的索引）： R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 DataFrame 是一种二维的数据结构，由1个索引列（index）和若干个数据列组成，每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多，通常用一个相等长度的列表或字典来创建。考点串讲 , G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。 DataFrame数据结构提供了丰富的函数，这些函数可以用来进行行、列编辑和统计计算等。 1 DataFrame对象中行、列的编辑 2 DataFrame对象中数据的统计与计算 3 DataFrame对象中数据的排序利用 matplotlib 模块绘图 matplotlib是一个绘图库，使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。考点串讲文本数据处理是大数据处理的重要分支之一目的从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息文本数据处理的一般过程 1 典型的文本处理过程 ① 中文分词 p_color=[[84,24,70],[229,160,145],[133,161,107],[200,176,200],[201,80,85]] 再使用以下语句读取各个像素的R、G、B颜色分量值（变量i为列表p_color的索引）： R=p_color[i][0] G=p_color[i][1] B=p_color[i][2] 从而计算出各个像素的灰度值并实现黑白像素判断。基于词典的分词方法基于统计的分词方法基于规则的分词方法考点串讲 2 文本数据分析与应用在取得特征词后，对文本的分析就需要根据项目的需求，确定解决问题的路径，选取合适的工具、设计算法抽取出文本中隐含的价值。标签云文本情感分析标签云用词频表现文本特征，将关键词按照一定的顺序和规律排列，如频度递减、字母顺序等，并以文字大小的形式代表词语的重要性。文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析，对文本的情感倾向做出分类判断。考点串讲数据可视化是将数据以图形图像等形式表示，直接呈现数据中蕴含信息的处理过程。可视化的作用（1）快捷观察与追踪数据（2）实时分析数据（3）增强数据的解释力与吸引力考点串讲可视化的基本方法（1）有关时间趋势的可视化（2）有关比例的可视化（3）有关关系的可视化（4）有关差异的可视化（5）有关空间关系的可视化考点串讲从而计算出各个像素的灰度值并实现黑白像素判断。可视化的工具数据可视化工具软件很多，常见的数据分析软件中一般包含创建可视化图表功能。 01 03 大数据魔镜、Gephi、Tableau等基于JavaScript的D3.js、Highcharts、Google Charts等，基于Python的matplotlib等 A ITEM B ITEM C ITEM 主要编写程序实现数据的可视化优秀的可视化工具库用于数据可视化的工具 02 用Python、R等计算机语言考点串讲可视化的典型案例（1）风、气象、海洋状况的全球地图（2）编程语言之间的影响力关系图（3）“双十一”全网销售直播图（4）航班飞行实时跟踪地图（5）微博热词趋势图单元知识图谱第三节考点串讲在交通运输领域中，随着移动互联网、物联网、云计算、大数据等技术的发展，智能交通的发展进程正逐渐加快。智能交通整合了物联网、大数据、云计算、人工智能等技术，其基本架构如下图所示。GPS、卡口、视频检测、浮动车、地感线圈等产生的交通流监测数据、视频监控数据、系统数据、服务数据等构筑了交通大数据。交通数据采集的广度、深度和数据量随着智能交通的发展不断扩大，数据贯穿在智能交通的感知、处理、应用等各个环节。交通大数据是智能交通中“智能”的基础。智能交通架构图考点串讲云计算使千亿数据的检索实现了秒级返回，为大数据的分析应用提供了速度保障。基于深度学习的智能分析算法，为大数据的分析应用提供了有力的支撑。交通大数据的分析，为交通管理、规划、决策、服务和主动安全防范等提供了更加有效的支持。（1）交通信息服务系统（2）交通管理系统（3）电子收费系统考点串讲电子设备电子商务企业商务活动网络技术大型电商企业拥有大量用户数据，同时，在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。这些数据通过电商企业的数据平台，为其电子商务平台上的商户和客户提供精准营销、供应链管理、智能网站等多种数据服务。精准营销供应链管理智能网站考点/题型剖析 1.（24-25高一上·浙江·课前预习）下图是某俱乐部在微博运营方面与其他俱乐部进行对比的数据分析，该俱乐部应该在哪方面加强？（） A．积极性 B．互动值 C．吸引力 D．关注度答案：D 本题考查的是数据分析。在雷达图中，各维度数值分别为：积极性 78.01 、互动性 54.35 、关注度 37.00 、吸引力 55.20 。通过比较这些数值大小： 37.00<54.35<55.20<78.01 ，可知关注度的数值最低。在与其他俱乐部对比中，关注度数值低，说明该俱乐部在微博运营方面，关注度表现相对薄弱，所以该俱乐部应该在关注度方面加强。故选D。考点/题型剖析 2.（24-25高一下·浙江·专题练习）某社区无人配送车搭载传感器和自动驾驶系统，可实时感知环境并配送。管理员能远程监控车辆状态，并在必要时人工干预。下列关于该无人配送车数据处理的说法，正确的是（） A．自动驾驶系统中所有数据必须由传感器获取 B．数据实时处理结果为自动驾驶功能提供决策支持 C．传感器采集的数据直接用于车辆控制，无需处理 D．自动驾驶系统采集的环境数据为数字信号，无需额外数字化处理答案：B 详解：本题考查的是数据处理。自动驾驶系统的数据不仅来自传感器（如摄像头、雷达等），还可能包括地图数据、GPS信息或预存路线等外部或内部来源。传感器是主要数据源，但不是“所有数据必须”由其获取。无人配送车需要实时处理传感器数据（如识别障碍物、分析路况），处理结果直接用于自动驾驶决策（如路径规划、避障），为功能提供支持。传感器采集的原始数据（如图像、距离信息）通常包含噪声或不完整内容，必须经过处理（如过滤、分析）才能安全用于车辆控制。传感器采集的环境数据可能为模拟信号（如传统摄像头），需要额外数字化处理（如模数转换）；即使部分传感器输出数字信号，数据仍需进一步处理（如压缩、特征提取）才能用于自动驾驶。故选B。考点/题型剖析 3.（25-26高二上·浙江宁波·期中）学校总务处统计去年学生宿舍的月均用电量，这属于数据分析中的（） A．平均分析 B．交叉分析 C．对比分析 D．结构分析答案：A 本题考查数据分析中的平均分析。题目中提到“学校总务处统计去年学生宿舍的月均用电量”，这里的“月均用电量”指的是对每个月的用电量进行平均计算，以得到一个代表性的数值。这种方法属于平均分析，因为它通过计算平均值来反映数据的总体水平，而不是对数据进行交叉、对比或结构方面的分析。故答案为：A。考点/题型剖析 4.（高一上·浙江温州·课前预习）下列关于数据分析的基本方法选择错误的是（） A.对比分析指将两个或两个以上的数据进行比较分析，揭示变化和规律 B.横向分析就是在类似的或同类的事物之间进行比较 C.纵向对比指的是类似的事物或者同类的事物之间进行比较，横向对比指的是和相同事物的不同时期进行比较 D.平均分析就是运行计算平均值的方法，来反映总体在一定时间、地点条件下某一数量特征的一般水平答案：C 本题考查的是数据分析。选项C错误。纵向对比（纵向分析）是指对同一事物在不同时间段的比较（如某公司近三年的销售额变化），而横向对比（横向分析）是在同一时间段内对同类或类似事物的比较（如不同公司2023年的销售额对比）。选项C将两者的定义颠倒，故选C。考点/题型剖析 5.（2025高二·浙江·专题练习）下列关于Hadoop架构的说法正确的是（） A．采用MapReduce编程模型处理大规模数据集 B．不能运行于大规模计算机集群上 C．采用NTFS文件系统管理数据文件 D．是一个对大数据进行聚合式处理的基础软件框架答案：A 详解：本题考查大数据。选项B，Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，选项错误；选项C，采用分布式文件系统HDFS管理数据文件，选项错误；选项D，Hadoop是一个分布式系统基础架构，选项错误。故答案为：A。针对训练 1.编写一个Python程序，为一篇主题为“碳中和”的文章制作标签云，标签云如图所示。下列说法不正确的是（） A．这篇文章是结构化数据 B．该程序可以使用jieba模块进行分词 C．基于词典和基于统计的分词方法一般是结合使用的 D．标签云用词频表现文本特征，词频越高的文字越大答案：A 解析：本题考查词云。文本内容是非结构化数据。故答案为：A。针对训练 2.以下是某汽车销售企业统计的2021年12月轿车销量排行榜，为统计出各厂商12月总销量，要计算出“北京奔驰”12月总销量，并且通过自动填充的方法得到其他厂商的轿车总销量，那么在I3单元格中应该输入的函数为（） A.=SUMIF(C3:C88,H3,D3:D88) B.=SUMIF(C$3:C$88,H3,D$3:D$88) C.=SUMIF(C$3:C$88,H2,D$3:D$88) D.=SUMIF(B$3:B$88,H3,D$3:DS88) 答案：B 解析：本题考查表格数据处理。SUMIF函数条件区域为所属厂商列，需要固定行号，数据区域为12月销量列，需要固定行号；判断条件为H3，相对引用，自动填充时对应不同厂商；I3单元格函数=SUMIF(C$3:C$88,H3,D$3:D$88)，B正确。因此，本题选择B。针对训练 3.下列关于Hadoop平台的说法，不正确的是（） A．Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构 B．Hadoop平台只能处理结构化数据 C．Hadoop分布式文件系统是一个高度容错性的系统 D．Hadoop与Spark相似，但运行速度比Spark慢很多答案：B 解析：本题考查的是大数据处理与应用。Hadoop是一个开源的分布式计算框架，主要用于处理大规模数据。Hadoop平台不仅能处理结构化数据（如数据库表），还能处理半结构化（如XML、JSON）和非结构化数据（如文本、日志、图像）。Hadoop的核心组件HDFS（分布式文件系统）和MapReduce（计算模型）适用于多种数据类型，因此“只能处理结构化数据”的说法是错误的。故选B。针对训练 4.一款处于试飞阶段的国产六代机，需综合评估其隐身性能、超音速巡航能力、智能化作战水平、态势感知效能及设计成本五大维度的表现，最适宜选用的图表类型是（） A．雷达图 B．散点图 C．柱形图 D．词云图答案：A 解析：本题考查的是数据可视化表达。雷达图：也称为蜘蛛网图或星图，能在一个图表中同时展示多个维度（每个维度对应一个轴），通过连接数据点形成多边形，直观体现整体性能的强弱项和平衡度。适合多维度的综合比较和评估，如本题中的五大性能指标。散点图：主要用于分析两个变量之间的关系（如相关性或分布），无法同时展示多个独立维度，因此不适用。柱形图：适合比较不同类别的单一数值（如每个维度的独立得分），但难以在一个图表中综合体现所有维度的整体表现，可能需要多个图表，不够高效。词云图：用于可视化文本数据（如词频），强调关键词的权重，不适用于数值型数据的多维评估。故选A。针对训练 5.在Excel中，要计算区域A2:C2中所有数据的平均值，正确的公式是（）。 A．=A2+C2 B．=(A2+B2+C2)/3 C．=SUM(A2:C2) D．=Average(A2:C2) 答案：BD 解析：本题主要考查Excel平均值公式。在Excel中，要计算区域A2:C2中所有数据的平均值，可以通过=(A2+B2+C2)/3来计算，也可以用=Average(A2:C2)来计算，故本题选BD选项。课堂总结数据正逐渐成为现代社会基础设施的一部分，就像公路、铁路、电网和通信网络一样不可或缺。传感器、卫星导航系统、社交网络等时刻产生新的数据，通过数据处理平台，可以对数据进行收集、加工、储存、分析，并应用到社会的各个领域，为人们的判断、预测、决策提供有力的依据。 THANKS 感谢观看第四章数据处理与应用浙教版2019必修1 $