内容正文:
第4章 数据 处理与应用
浙教版 信息技术(高中)
必修1 数据与计算
4.2 大数据处理
学习目标
1
2
3
4
大数据处理的基本思想
批处理计算和流计算、图计算,编程处理数据
文本数据处理,文本数据分析与应用
数据可视化
1
2
重点难点
重点:大数据处理的思想和编程处理数据。
难点:编程处理数据。
课堂导入
大数据具有数据量大、数据来源与类型多样、处理速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理方法也在不断发展,为大数据的处理提供了越来越有力的支持。
4.2.1大数据处理的基本思想与架构
处理大数据时,一般采用分治思想。就是把一个复杂的问题分成两个或更多相同的可相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。
统计文件filename中各单词出现的频率,用python编程实现的代码如下:
wordcount={}
for word in open(filename,’r’).read():
wordcount[word]+=1
拓展链接
分布式计算与并行处理
分布式计算(Distributed Computing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。例如,利用分布在世界各地成千上万台闲置计算机的计算能力,分析来自外太空的电讯号,探索可能存在的外星智慧生命。
并行处理(Parallel Processing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。
大数据处理
静态数据
流数据
图数据
批处理计算(Hadoop、spark等)
流计算(storm、heron等)
图计算(pregel、graphx等)
图4.2.1 大数据处理类型
1、批处理计算
Hadoop是一个运行于计算机集群上的分布式系统基础架构,适用于静态数据
的批处理计算。
Spark是一种与hadoop相似的,应用较广的开源分布式计算架构。Spark
启用了内存存储中间结果,运行速度比hadoop快。
图4.2.2 Hadoop的组成
图4.2.3 MapReduce的