4.2 大数据处理（课件）（共34张PPT）-【新教材】高一信息技术同步精品课堂（浙教2019版必修1）

2021-02-23

| 34页

| 3172人阅读

| 81人下载

精品

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术浙教版必修1 数据与计算
年级	-
章节	4.2 大数据处理
类型	课件
知识点	-
使用场景	同步教学
学年	2021-2022
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	3.65 MB
发布时间	2021-02-23
更新时间	2021-02-23
作者	小东
品牌系列	-
审核时间	2021-02-23
下载链接	https://m.zxxk.com/soft/27002124.html
价格	3.00储值（1储值=1元）
来源	学科网

内容正文：

第4章数据处理与应用浙教版信息技术（高中）必修1 数据与计算 4.2 大数据处理学习目标 1 2 3 4 大数据处理的基本思想批处理计算和流计算、图计算，编程处理数据文本数据处理，文本数据分析与应用数据可视化 1 2 重点难点重点：大数据处理的思想和编程处理数据。难点：编程处理数据。课堂导入大数据具有数据量大、数据来源与类型多样、处理速度快等特点，简单的表格处理软件已经无法满足大数据的处理需求，同时，大数据技术、理论和处理方法也在不断发展，为大数据的处理提供了越来越有力的支持。 4.2.1大数据处理的基本思想与架构处理大数据时，一般采用分治思想。就是把一个复杂的问题分成两个或更多相同的可相似的子问题，找到求这几个子问题的解法后，再找出合适的方法把它们组合成求整个问题的解法。统计文件filename中各单词出现的频率，用python编程实现的代码如下： wordcount={} for word in open(filename,’r’).read(): wordcount[word]+=1 拓展链接分布式计算与并行处理分布式计算（Distributed Computing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。例如，利用分布在世界各地成千上万台闲置计算机的计算能力，分析来自外太空的电讯号，探索可能存在的外星智慧生命。并行处理（Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。大数据处理静态数据流数据图数据批处理计算（Hadoop、spark等）流计算（storm、heron等）图计算（pregel、graphx等）图4.2.1 大数据处理类型 1、批处理计算 Hadoop是一个运行于计算机集群上的分布式系统基础架构，适用于静态数据的批处理计算。 Spark是一种与hadoop相似的，应用较广的开源分布式计算架构。Spark 启用了内存存储中间结果，运行速度比hadoop快。图4.2.2 Hadoop的组成图4.2.3 MapReduce的

资源预览图

4.2 大数据处理（课件）（共34张PPT）-【新教材】高一信息技术同步精品课堂（浙教2019版必修1）

所属专辑

学科

【新教材】高一信息技术同步精品课堂（浙教2019版必修1）

高一信息技术普通专辑 17 份文档

15357人已阅读