第四章 数据处理与应用(知识清单)信息技术浙教版2019必修1
2025-12-05
|
7页
|
346人阅读
|
5人下载
精品
资源信息
| 学段 | 高中 |
| 学科 | 信息技术 |
| 教材版本 | 高中信息技术浙教版必修1 数据与计算 |
| 年级 | 高一 |
| 章节 | 第四章 数据处理与应用 |
| 类型 | 学案-知识清单 |
| 知识点 | 数据的分析,数据处理及过程,数据的可视化表达,数据的采集,大数据分析和处理 |
| 使用场景 | 同步教学-单元练习 |
| 学年 | 2025-2026 |
| 地区(省份) | 浙江省 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | DOCX |
| 文件大小 | 643 KB |
| 发布时间 | 2025-12-05 |
| 更新时间 | 2025-12-05 |
| 作者 | wuhao1987 |
| 品牌系列 | 上好课·上好课 |
| 审核时间 | 2025-12-05 |
| 下载链接 | https://m.zxxk.com/soft/55283976.html |
| 价格 | 3.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
该高中信息技术知识清单系统梳理了“数据处理与应用”单元内容,涵盖常用表格数据处理、大数据处理及典型应用三大知识范畴,搭建了从“数据整理计算”到“大数据架构与编程”再到“数据可视化及应用”的递进式学习支架。
清单采用分类列表与功能对照表呈现知识体系,如数据整理中分类列出数据缺失、重复等问题及转换方法,函数语法表清晰标注SUM等基础函数功能,培养学生计算思维与数字化学习能力。特别设计Python模块应用提示,如pandas的DataFrame属性表和matplotlib绘图函数说明,不同层次学生可高效掌握,教师可据此设计分层教学,提升课堂实效。
内容正文:
第四章 数据处理与应用
4.1常用表格数据的处理
1.数据整理
数据整理的目的是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
常见的数据问题有数据缺失、数据重复、数据异常,还有逻辑错误、格式不一致等。
数据转换通常包括属性数据类型的转换、根据已有属性集构造新属性的转换、将不同来源的相同属性的定义及其值进行统一标准化表达的转换等。
2.数据计算
日常简单的数据处理可以使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。
公式是以“=”开头,由常数、函数、单元格引用和运算符组成的式子。
单元格引用是指对工作表中的单元格或单元格区域的引用。
算术运算符有^、%、*、/、+、-,用于进行基本的数学运算。
比较运算符有=、>、<、>=、<=、<>,用于比较两个值,结果为逻辑值TRUE 或 FALSE。
文本连接运算符“&”,可以连接一个或多个文本字符串,生成一段文本。
函数语法
SUM(number1,[number2],...)
求参数的和
AVERAGE(number1,[number2],...)
求参数的平均值
MIN(number1,[number2],...)
返回参数列表中的最小值
MAX(number1,[number2],...)
返回参数列表中的最大值
3.数据图表呈现
图表是用视觉形式向人们展示数据的一种方法。
常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。
4.2大数据处理
1.大数据处理的基本思想与架构
处理大数据时,一般采用分治思想。
分布式计算(Distributed Computing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。
并行处理(Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。
大数据处理按照类型可划分为对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算。
(1)批处理计算
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。
Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。
①分布式文件系统HDFS
Hadoop分布式文件系统(Hadoop DistributedFile System,简称HDFS)是谷歌文件系统(Google File System,简称GFS)的开源实现。
②分布式数据库HBase
HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。
③分布式并行计算模型MapReduce MapReduce是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳) 2个函数构成。
(2)流计算
通过流计算系统,可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。
(3)图计算
目前通用的图处理软件主要包括两类:一类是图数据库;另一类是并行图处理系统。
(4)实时处理与批处理的整合
2.编程处理数据
numpy模块是Python中做科学计算的基础库,主要提供科学计算中常用的随机数、数组运算等基础函数。
scipy模块是基于numpy构建的一个模块,增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。
pandas模块基于numpy实现,主要用于数据的处理和分析。它提供了大量处理数据的函数和方法,能方便地操作大型数据集。
(1)利用 pandas模块处理数据
pandas提供了Series和DataFrame两种数据结构。
在Python中引入pandas模块的方法如下:import pandas as pd。
①Series
Series是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。
Series对象常用属性
属性
说明
index
Series的下标索引,其值默认是从0起递增的整数
values
存放Series值的一个数组
②DataFrame
DataFrame 是一种二维的数据结构,由1个索引列(index)和若干个数据列组成,每个数据列可以是不同的类型。
DataFrame对象常用属性
属性
说明
index
DataFrame的行索引
columns
存放各列的列标题
values
存放值的二维数据
T
行列转置
DataFrame 常用函数
Ⅰ.DataFrame对象中行、列的编辑。
DataFrame中,新增列、删除列、重命名列可以通过insert()、drop()、rename()等函数完成;追加数据行可以通过append()函数完成;使用set_value()函数可以根据行标签和列标签设置单个值。
Ⅱ.DataFrame对象中数据的统计与计算。
使用groupby()函数,可以对DataFrame对象各列或各行中的数据进行分组, 然后对其中每一组数据进行不同的操作。
Ⅲ.DataFrame对象中数据的排序。
DataFrame对象中,按索引排序可以使用sort_index()函数,按值排序可以使用sort_values ()函数。通过选项axis=0/1 确定排序的轴向,axis默认值为0,纵向排序;通过选项ascending=True/False确定升/降序,ascending默认值为True,升序排序。排序结果返回一个新DataFrame对象。
(2)利用 matplotlib 模块绘图
matplotlib是一个绘图库,使用其中的pyplot子库所提供的函数可以快速绘图和设置图表的坐标轴、坐标轴刻度、图例等。
常用绘图函数
在Python中引入matplotlib的pyplot子库的方法为:
import matplotlib.pyplot as plt
(3)利用 Python分析数据实践
3.文本数据处理
文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
(1)文本数据处理的一般过程
文本内容是非结构化的数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化的、便于计算机处理的数据。典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
典型的文本处理过程
①中文分词
中文分词是中文文本信息处理的基础,机器翻译、全文检索等涉及中文的相关应用中都离不开中文分词。
Ⅰ.基于词典的分词方法
Ⅱ.基于统计的分词方法
Ⅲ.基于规则的分词方法
常见的分词系统
②特征提取
特征提取一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。
(2)文本数据分析与应用
①标签云
标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。
②文本情感分析
文本情感分析根据分析的粒度不同,分为词语级、语句级、整篇文章级三类。
4.数据可视化
(1)可视化的作用
①快捷观察与追踪数据
②实时分析数据
③增强数据的解释力与吸引力
(2)可视化的基本方法
①有关时间趋势的可视化
②有关比例的可视化
③有关关系的可视化
④有关差异的可视化
⑤有关空间关系的可视化
(3)可视化的工具
Tableau主要用于实时可视化分析。
D3.js是运行在JavaScript上的数据可视化开源工具库。
Highcharts是一个用纯JavaScript编写的、基于HTML5技术的开源图表库,支持移动端,能够简单便捷地在Web网站或是Web应用程序中添加动态、交互性的图表。
Google Charts是为浏览器与移动设备定制的交互式图表开发包,用于在Web上可视化数据。
(4)可视化的典型案例
①风、气象、海洋状况的全球地图
②编程语言之间的影响力关系图
③“双十一”全网销售直播图
④航班飞行实时跟踪地图
⑤微博热词趋势图
4.3.大数据典型应用
1.智能交通
智能交通整合了物联网、大数据、云计算、人工智能等技术。
云计算使千亿数据的检索实现了秒级返回,为大数据的分析应用提供了速度保障。
智能交通主要通过交通信息服务、交通管理、公共交通、车辆控制、货运管理、电子收费、紧急救援等服务子系统为用户提供服务。
(1)交通信息服务系统;
(2)交通管理系统;
(3)电子收费系统;
2.电子商务
电子商务企业利用电子设备和网络技术进行商务活动。大型电商企业拥有大量用户数据,同时,在交易、营销、供应链、仓储、配送和售后等环节也产生了大量数据。
(1)精准营销
(2)供应链管理
(3)智能网站
1 / 6
学科网(北京)股份有限公司
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。