内容正文:
浙江良品图书有限公司
精彩三年学考尖峰 信息技术 2022浙江
专题梳理11 大数据处理及人工智能
单击此处编辑母版文本样式
1
【必修1 第114—146页 指导意见第19—25页】
1.处理大数据时,一般采用分治思想。分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。
单击此处编辑母版文本样式
2.大数据处理的类型和架构
单击此处编辑母版文本样式
3.批处理计算
(1)Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。
单击此处编辑母版文本样式
①分布式文件系统HDFS
概述:是谷歌文件系统(GFS)的开源实现。
功能:将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。目前,云盘、网盘的底层一般采用HDFS实现。
②分布式数据库HBase
概述:是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。
单击此处编辑母版文本样式
功能:HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。
③分布式并行计算模型MapReduce
概述:是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)2个函数构成。
功能:MapReduce的核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。
(2)Spark是一种与Hadoop相似的、应用较广的开源分布式计
单击此处编辑母版文本样式
算架构。Spark启用了内存存储中间结果,运行速度比Hadoop快很多。
4.流计算系统可以简单、高效、可靠地实现实时数据的获取传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。
处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。
5.图计算
单击此处编辑母版文本样式
现实世界中的很多数据是以图的形式呈现的,或者是可以转换成图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。
图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。
6.实时处理与批处理的整合
概述:Twitter开源了其大数据处理系统Summingbird,该系
单击此处编辑母版文本样式
统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。
优点:开发者在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
7.pandas模块介绍及导入
(1)常用的Python扩展模块有numpy、scipy、pandas和matplotlib等,其中pandas模块主要用于数据处理和分析。
单击此处编辑母版文本样式
(2)导入pandas模块:import pandas as pd(pd 为用户导入模块取的别名)
(3)pandas模块的数据结构
pandas提供Series和DataFrame两种数据结构。
① Series对象属性
单击此处编辑母版文本样式
② DataFrame对象属性
单击此处编辑母版文本样式
③ Series与DataFrame的联系与区别
单击此处编辑母版文本样式
单击此处编辑母版文本样式
④ pandas模块的Serise对象相关操作
创建:列表、字典等可以用来创建Series数据结构。s1=pd.Series([1,2,3,4])
s2=pd.Series({'a':1,'b':2,'c':3})
查找:借助index的索引值实现查找;或是对values的值进行条件索引。
print(s1[0]) 查找索引值为0的值