4.2 大数据处理课件-2025-2026学年浙教版高中信息技术必修一
2025-12-06
|
29页
|
510人阅读
|
2人下载
普通
资源信息
| 学段 | 高中 |
| 学科 | 信息技术 |
| 教材版本 | 高中信息技术浙教版必修1 数据与计算 |
| 年级 | 高一 |
| 章节 | 4.2 大数据处理 |
| 类型 | 课件 |
| 知识点 | - |
| 使用场景 | 同步教学-新授课 |
| 学年 | 2025-2026 |
| 地区(省份) | 浙江省 |
| 地区(市) | - |
| 地区(区县) | - |
| 文件格式 | PPTX |
| 文件大小 | 74.96 MB |
| 发布时间 | 2025-12-06 |
| 更新时间 | 2025-12-06 |
| 作者 | xkw_083731846 |
| 品牌系列 | - |
| 审核时间 | 2025-12-06 |
| 下载链接 | https://m.zxxk.com/soft/55302628.html |
| 价格 | 1.00储值(1储值=1元) |
| 来源 | 学科网 |
|---|
摘要:
该高中信息技术课件聚焦大数据处理,涵盖分治思想、处理类型(批处理、流处理、图处理)、Hadoop组件、文本数据处理(分词、特征提取)及数据可视化等核心内容。课堂从回顾大数据特征切入,以分治思想为线索串联技术架构与应用,构建从理论到编程实践的学习支架。
其亮点在于用“分食大象”“果园统计”等生活化比喻解析抽象概念,结合高考题型强化考点,融入Python编程与工具应用(如jieba分词、标签云)。通过案例教学(微博数据统计、导航路况)培养计算思维与信息意识,帮助学生构建知识体系提升解题能力,也为教师提供系统教学资源。
内容正文:
第四章 数据处理与应用
—— 信息技术 必修一 ——
1
4.2
大数据的处理
大数据处理
2
3
大数据处理
认识大数据分治思想
理解不同大数据处理的方法和架构
一、回顾 大数据特征
4
数据体量大
速度快
数据产生的速度快
数据处理的速度快
数据类型多
价值密度低
处理大数据,一般采用分治思想。即把一个复杂问题分成两个或更多相同或相似的子问题。
分布式计算:把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把结果综合起来得到最终结果。
并行处理:计算机系统中同时执行两个或更多处理的一种计算方法。并行处理主要目的是节省大型和复杂问题的处理时间。
分治思想:
就像为了吃掉一头大象,你决定先把它切成小块(分),然后一块一块地吃(治),最后就吃完了整头大象(合)。这个过程你一个人就可以完成。
分布式计算:就像你一个人吃不完这头大象,于是你叫来一群朋友(多台计算机),把大象肉分给他们(任务分发),大家同时吃(并行计算),最后告诉你结果(结果汇总)。
二、大数据处理思想:分治
5
常见算法中的分治思想
二、大数据处理思想:分治
6
大数据的分治处理:
某公司搜集了过去一年发布的所有微博数据,在统计文件filename中保存了出现的各单词,需要统计其中出现频率最高的100个词。 用Python编程实现的部分代码如下:
假设有10台计算机,每台计算机可以处理1000M数据。
每台计算机处理数据后, 将计算结果汇总到一台主控计算机上,由主控计算机根据中间计算结果汇总统计出最终计算结果,并输出出现频率最高的单词,这样就可以处理10G的词汇数据。
假设有100台计算机,按理应该可以处理100G词汇数据。
但又有新的问题,100台计算机同时向主机传输数据可能会遇到主控计算机网络传输带宽的瓶颈。
这时,可对网络结构进行改造,每10台分为一组分别汇总,最后提交给主控计算机完成最后的统计。
如果是1000台、1万台或者10万台计算机?
可用的办法是:将同一份数据分发给不同的计算机,假设发给了3台计算机,当其中1份数据发生计算故障时,剩下的2份备份数据的计算结果 还能相互验证,保证最终结果的正确性。
这就需要一台或多台计算机负责管理,并运行专门的软件检测计算过程中的故障,在检测到故障时能重新安排计算任务。
三、大数据处理类型
7
静态数据指在处理时已收集完成、在计算时不会发生改变的数据。
流数据是指不间断地、持续地到达的实时数据。
以图的形式呈现的,或者是可以转换为图以后再进行分析的数据。
例.一项实验的完整观测记录
例.实时推荐相关商品(“购买了该商品的人也购买了...”)
例.为一批货物找到成本最低、速度最快的运输路线。
8
三、大数据处理类型:批处理计算
批处理计算:Hadoop(谷歌)、Spark
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。
Hadoop的三大主要组成部分
分布式文件系统HDFS
分布式数据库HBase
分布式并行计算模型MapReduce
Spark是一种与Hadoop相似的、应用较广的开源分布式计算架构。Spark启用了内存存储中间结果,运行速度比Hadoop快很多。
9
三、大数据处理类型:批处理计算
Hadoop静态数据的批处理计算
理解概念:假设你有个超级大的苹果树果园,现需要统计收成
把整个果园划分成很多块地,并做上标记,做出地图;
将每块地指派给管理员负责
①Map阶段 - “分工数数”:
你雇佣了100位大妈(Map任务),每人负责一块地。
问题1:果园太大了,你一个人根本管不过来
问题2:现在你想知道整个果园一共收了多少斤苹果,不可能自己一棵一棵去数
②Reduce阶段 - “汇总合计”:
你又雇了2个会计(Reduce任务)。
问题3:现在,你想快速知道“第521号果树,今年产的第三个苹果甜度是多少?”
是否可以用HDFS+MapReduce的方法?(管理员+大妈)
你专门设置了一个超级助理(HBase)
他脑子里记着所有果树的精确位置(按行键排序)
你问他:“521号树,第三个苹果的甜度?”
他瞬间就能告诉你:“甜度13.5”。
10
11
三、大数据处理类型:流计算
流数据是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,通过实时分析计算可以得到更有价值的分析结果。
应用:大型购物网站的广告推荐、社交网络的个性化推荐、根据交通路况实时更新导航线路等应用场景。
流计算系统,可以简单、高效、可靠的实现实时数据的获取、传输和存储。
12
三、大数据处理类型:图计算
图≠图像,图是一种数据结构
现实世界中的很多数据是以图的形式呈现的, 或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。
13
三、大数据处理类型:实时处理与批处理的整合
将批处理计算和流计算(Hadoop+Storm)整合到一个平台架构下,开发者既可以做批处理,也可以做流计算,还可以两者模式混用,缩短了切换,减少了系统开销,降低了使用成本。
如:Twitter的开源大数据处理系统Summingbird。
大数据处理
一、编程处理数据(重要指数: ,高考第二大题重点考察)
(知识点在4.3课起着重讲解)
使用计算机编程语言,可以更加灵活、深入的进行数据分析和挖掘。Python语言编程处理数据,有丰富的扩展模块可以使用,常用的有:numpy、scipy、pandas和matplotlib等。
pandas模块: ① series是一种一维的数据结构,包含数据和索引值。
②DataFrame是一种二维的数据结构,由一个索引序列和若干个数据列组成。
14
大数据处理
二、文本数据处理
2.文本处理常见应用:P138
①信息提取与检索;②文本分类;③文本生成与摘要;④语意理解与问答
3.文本处理的一般过程:
①获取文本数据。
②中文分词。分词是将连续的字序列按照一定的规范重新组合成词序。有基于词典的分词方法(词语对比)、基于统计的分词方法(相邻字频率)、基于规则的分词(资料规则)方法三种。
③特征提取。大多数中文文本分析中都用词作为特征项,称为特征词。
④文本分析。
⑤结果呈现。
1.概念:文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。
15
②中文分词
(2)常用的中文分词算法可分为三类。
16
(1)中文分词是中文文本信息处理的基础,分词是将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。
可以理解成对中文切片
方法 说明
基于 的分词方法 也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。Python中的中文分词模块jieba中就含有词典
基于统计的分词方法 统计分词的思想是依据上下文中 出现的频率统计,同时出现的次数越高就越可能组成一个词,一般是将其与基于词典的分词方法结合使用
基于规则的分词方法 通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果
词典
相邻字
(3)目前常见的公开提供服务的分词系统有:jieba 分词 、IKAnalyzer、NLPIR、语言云 、BosonNLP。
③特征提取
6.特征提取。
(1)在中文文本分析中可以采用字、词或短语作为表示文本的特征项。
(2)大多数中文文本分析中都采用词作为特征项,这种词称作 。
(3)特征提取一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式。
17
特征词
大数据处理
4.文本数据分析与应用
(2)文本情感分析
通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本情感倾向做出分类判断。主要用于网络舆情监控、用户评价分析与决策、信息预测等众多领域。
文本数据处理
(1)标签云
用词频表现文本特征,将关键词按照一定顺序和规律排列,并以文字大小的形式代表词语的重要性,标签云是可视化的。广泛应用于报纸、杂志等传统媒体和互联网
无法反映词语相关性
18
19
填空
1.典型的文本处理过程主要包括 、 、数据分析、结果呈现等。
分词
特征提取
2.文本数据源:文本内容是 的数据,要从大量的文本中提取出有用的信息,需要将文本从无结构的原始状态转化为结构化的、便于计算机处理的数据。
非结构化
文本数据处理可以处理非结构化数据——对√
1. 数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
2. 数据可视化的作用:快捷观察与追踪数据、 分析数据、增强数据的
与吸引力。
实时
解释力
二、数据可视化
基本方法 图表类型
有关时间趋势的
可视化 展现随时间的推移而变化的数据,可采用柱形图、
等
有关 的
可视化 展现各部分的大小及其占总体比例的数据,可采用饼图、环形图(也称面包圈图)等
有关关系的可视化 展现数据点的分布及数据间的相关性,可采用散点图、气泡图等
有关差异的可视化 展现包含多个变量的对象与同类之间的差异和联系,可采用雷达图
有关空间关系的
可视化 地理数据或基于地理数据的分析结果可以运用不同颜色或图表直接表现在地图上进行展示
3.可视化的基本方法。
折线图
比例
典例 1 [2025 宁波联考]文本数据处理后生成标签云图片如图所示,下列说法不正确的是( )
A.文本可视化能帮助人们快速获取文本中的关键信息
B.该标签云的制作过程中将词语作为表示文本的特征项
C.文本数据处理主要应用在搜索引擎、论文查重、图像
处理等方面
D.从图中分析可知,词语“刘姥姥”在文章中出现的次
数比“宝玉”多
C
√
典例 2 下列关于文本数据处理的说法,正确的是 ( )
A.典型的文本处理过程主要包括文本情感分析、特征提取、大数据分析、结果呈现等
B.待处理的文本信息通常是结构化数据
C.以上下文中相邻字出现的频率为依据进行分词,属于基于统计的分词方法
D.文本情感分析即将文本中复杂的文字表达内容和规律以符号的形式表达出来
C
√
典例 3 下列关于数据可视化的说法,不正确的是 ( )
A.数据可视化是将数据以可视化方式展现出来,方便用户发现数据中隐藏的信息
B.数据可视化可增强数据的解释力与吸引力
C.数据可视化不能实时分析数据,只能收集完毕再开始分析
D.数据可视化可以多维度地显示数据
C
√
典例 4 [2023.7 浙江]小张从北京出差至杭州。出发前,他在手机上登录 12306 售票系统购买火车票、完成支付,检票时刷身份证通过闸机。到杭州站下车后,小张在手机导航软件中通过语音输入目的地规划行程路线,打车前往宾馆,途中导航软件会在地图中实时显示道路拥堵状况等信息。下列关于该材料中数据与数据处理的说法,不正确的是 ( )
A.火车票上的文字是数据的一种表现形式
B.大数据处理技术能增强导航服务的智能性
C.导航数据的可视化有利于观察和分析数据
D.用语音规划行程路线时无须对用户语音进行数字化
D
√
典例 5 [2022.7浙江]人们可通过报纸、电视、手机 App 等方式获取天气预报信息。气象中心接收气象卫星和遍布全国的观测站发送的原始数据,对常规天气、灾害性天气等进行预测。某天气预报 App 以可视化的方式呈现天气状况,并提示“您所在街道 25 分钟后小雨,50 分钟后雨停”等信息。 根据阅读材料,下列说法不正确的是 ( )
A.天气预报信息有多种获取方式
B.观测站采集的数据不存在重复或异常
C.气象中心预测天气的原始数据是大数据
D.气温数据可以用 Python 语言实现可视化
B
√
过程 注意点
文本数据源 非结构化→结构化
分词 ①英文词语分词不涉及复杂的分词方法
②目前的分词算法还不能实现完全准确的分词
特征提取 ①稍小一些的文本可直接用分词算法和词频统计得出的结果作为特征词
②对于稍大一些的文本,通过特征提取减少特征词的数量,提高文本处理的速度和效率
③深度学习、大数据分析等技术的发展提高了文本特征提取的准确性和科学性
数据分析 ①文本数据分析是在取得特征词后进行的
②分析方式需要根据具体的需求来确定,不只局限于标签云和文本情感分析
课堂小结
1.大数据处理的基本思想——分治思想
大数据处理
静态数据
流数据
图数据
批处理计算
(Hadoop、Spark)
流处理计算
(Storm、Heron)
图计算
(pregel、GraphX)
2.
3.Hadoop的三大主要组成部分:分布式文件系统HDFS、分布式数据库Hbase、分布式并行计算模型MapReduce;
28
Thanks
$
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。