第四章 数据处理与应用(知识清单)信息技术浙教版2019必修1

2025-12-05
| 7页
| 346人阅读
| 5人下载
精品

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 高一
章节 第四章 数据处理与应用
类型 学案-知识清单
知识点 数据的分析,数据处理及过程,数据的可视化表达,数据的采集,大数据分析和处理
使用场景 同步教学-单元练习
学年 2025-2026
地区(省份) 浙江省
地区(市) -
地区(区县) -
文件格式 DOCX
文件大小 643 KB
发布时间 2025-12-05
更新时间 2025-12-05
作者 wuhao1987
品牌系列 上好课·上好课
审核时间 2025-12-05
下载链接 https://m.zxxk.com/soft/55283976.html
价格 3.00储值(1储值=1元)
来源 学科网

摘要:

该高中信息技术知识清单系统梳理了“数据处理与应用”单元内容,涵盖常用表格数据处理、大数据处理及典型应用三大知识范畴,搭建了从“数据整理计算”到“大数据架构与编程”再到“数据可视化及应用”的递进式学习支架。 清单采用分类列表与功能对照表呈现知识体系,如数据整理中分类列出数据缺失、重复等问题及转换方法,函数语法表清晰标注SUM等基础函数功能,培养学生计算思维与数字化学习能力。特别设计Python模块应用提示,如pandas的DataFrame属性表和matplotlib绘图函数说明,不同层次学生可高效掌握,教师可据此设计分层教学,提升课堂实效。

内容正文:

第四章 数据处理与应用 4.1常用表格数据的处理 1.数据整理 数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。 常见的数据问题有数据缺失、数据重复、数据异常,还有逻辑错误、格式不一致等。 数据转换通常包括属性数据类型的转换、根据已有属性集构造新属性的转换、将不同来源的相同属性的定义及其值进行统一标准化表达的转换等。 2.数据计算 日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。 公式是以“=”开头,由常数、函数、单元格引用和运算符组成的式子。 单元格引用是指对工作表中的单元格或单元格区域的引用。 算术运算符有^、%、*、/、+、-,用于进行基本的数学运算。 比较运算符有=、>、<、>=、<=、<>,用于比较两个值,结果为逻辑值TRUE 或 FALSE。 文本连接运算符“&”,可以连接一个或多个文本字符串,生成一段文本。 函数语法 SUM(number1,[number2],...) 求参数的和 AVERAGE(number1,[number2],...) 求参数的平均值 MIN(number1,[number2],...) 返回参数列表中的最小值 MAX(number1,[number2],...) 返回参数列表中的最大值 3.数据图表呈现 图表是用视觉形式向人们展示数据的一种方法。 常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。 4.2大数据处理 1.大数据处理的基本思想与架构 处理大数据时,一般采用分治思想。 分布式计算(Distributed Computing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。 并行处理(Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。 大数据处理按照类型可划分为对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算。 (1)批处理计算 Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。 Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。 ①分布式文件系统HDFS Hadoop分布式文件系统(Hadoop DistributedFile System,简称HDFS)是谷歌文件系统(Google File System,简称GFS)的开源实现。 ②分布式数据库HBase HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。 ③分布式并行计算模型MapReduce MapReduce是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳) 2个函数构成。 (2)流计算 通过流计算系统,可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。 (3)图计算 目前通用的图处理软件主要包括两类:一类是图数据库;另一类是并行图处理系统。 (4)实时处理与批处理的整合 2.编程处理数据 numpy模块是Python中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。 scipy模块是基于numpy构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。 pandas模块基于numpy实现,主要用于数据的处理和分析。它提供了大量处理数据的函数和方法,能方便地操作大型数据集。 (1)利用 pandas模块处理数据 pandas提供了Series和DataFrame两种数据结构。 在Python中引入pandas模块的方法如下:import pandas as pd。 ①Series Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。 Series对象常用属性 属性 说明 index Series的下标索引,其值默认是从0起递增的整数 values 存放Series值的一个数组 ②DataFrame DataFrame 是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。 DataFrame对象常用属性 属性 说明 index DataFrame的行索引 columns 存放各列的列标题 values 存放值的二维数据 T 行列转置 DataFrame 常用函数 Ⅰ.DataFrame对象中行、列的编辑。 DataFrame中,新增列、删除列、重命名列可以通过insert()、drop()、rename()等函数完成;追加数据行可以通过append()函数完成;使用set_value()函数可以根据行标签和列标签设置单个值。 Ⅱ.DataFrame对象中数据的统计与计算。 使用groupby()函数,可以对DataFrame对象各列或各行中的数据进行分组, 然后对其中每一组数据进行不同的操作。 Ⅲ.DataFrame对象中数据的排序。 DataFrame对象中,按索引排序可以使用sort_index()函数,按值排序可以使用sort_values ()函数。通过选项axis=0/1 确定排序的轴向,axis默认值为0,纵向排序;通过选项ascending=True/False确定升/降序,ascending默认值为True,升序排序。排序结果返回一个新DataFrame对象。 (2)利用 matplotlib 模块绘图 matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。 常用绘图函数 在Python中引入matplotlib的pyplot子库的方法为: import matplotlib.pyplot as plt (3)利用 Python分析数据实践 3.文本数据处理 文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 (1)文本数据处理的一般过程 文本内容是非结构化的数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化的、便于计算机处理的数据。典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。 典型的文本处理过程 ①中文分词 中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。 Ⅰ.基于词典的分词方法 Ⅱ.基于统计的分词方法 Ⅲ.基于规则的分词方法 常见的分词系统 ②特征提取 特征提取一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。 (2)文本数据分析与应用 ①标签云 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。 ②文本情感分析 文本情感分析根据分析的粒度不同,分为词语级、语句级、整篇文章级三类。 4.数据可视化 (1)可视化的作用 ①快捷观察与追踪数据 ②实时分析数据 ③增强数据的解释力与吸引力 (2)可视化的基本方法 ①有关时间趋势的可视化 ②有关比例的可视化 ③有关关系的可视化 ④有关差异的可视化 ⑤有关空间关系的可视化 (3)可视化的工具 Tableau主要用于实时可视化分析。 D3.js是运行在JavaScript上的数据可视化开源工具库。 Highcharts是一个用纯JavaScript编写的、基于HTML5技术的开源图表库,支持移动端,能够简单便捷地在Web网站或是Web应用程序中添加动态、交互性的图表。 Google Charts是为浏览器与移动设备定制的交互式图表开发包,用于在Web上可视化数据。 (4)可视化的典型案例 ①风、气象、海洋状况的全球地图 ②编程语言之间的影响力关系图 ③“双十一”全网销售直播图 ④航班飞行实时跟踪地图 ⑤微博热词趋势图 4.3.大数据典型应用 1.智能交通 智能交通整合了物联网、大数据、云计算、人工智能等技术。 云计算使千亿数据的检索实现了秒级返回,为大数据的分析应用提供了速度保障。 智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。 (1)交通信息服务系统; (2)交通管理系统; (3)电子收费系统; 2.电子商务 电子商务企业利用电子设备和网络技术进行商务活动。大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。 (1)精准营销 (2)供应链管理 (3)智能网站 1 / 6 学科网(北京)股份有限公司 $

资源预览图

第四章 数据处理与应用(知识清单)信息技术浙教版2019必修1
1
第四章 数据处理与应用(知识清单)信息技术浙教版2019必修1
2
第四章 数据处理与应用(知识清单)信息技术浙教版2019必修1
3
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。