内容正文:
同步宝典 高中信息技术 必修 1
ZHISHI JIEXI
知识解析
1. 处理大数据时袁一般采用分治思想遥
分治袁就是把一个复杂的问题分成两个或更多相同或相似的子问题袁找到求这几个子问题的
解法后袁再找出合适的方法把它们组合成求整个问题的解法遥 如果这些子问题还难以解决袁可以
再把它们分成几个更小的子问题袁以此类推袁直至可以直接求出解为止遥
2. 大数据处理按照类型可划分为批处理计算尧实时计算和对图结构数据的图计算遥
淤批处理计算院适用于静态数据处理遥
静态数据指在处理时已收集完成尧在计算时不会发生改变的数据袁一般采用批处理方式遥
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构袁适用于静态数据的批处理
计算遥 Hadoop计算平台主要包括 Common公共库尧分布式文件系统 HDFS尧分布式数据库 HBase尧
分布式并行计算模型 MapReduce等多个模块遥 Spark是一种与 Hadoop相似的尧应用较广的开源
分布式计算架构遥 Spark启用了内存存储中间结果袁运行速度比 Hadoop快很多遥
于流计算院适用于流数据渊实时数据冤处理遥
流数据是指不间断地尧持续地到达的实时数据袁随着时间的流逝袁流数据的价值也随之降低遥
通过实时分析计算可以得到更有价值的分析结果 遥 处理流数据的软件系统主要有 IBM
InfoSphere Streams尧Twitter Storm尧Yahoo浴 S4尧银河流数据处理平台渊淘宝冤尧Facebook Puma 等遥
Storm和 S4是目前较为流行的开源分布式实时计算系统遥 Heron是 Storm的替代产品袁其外部接
口和 Storm保持兼容袁在流数据处理性能方面与 Storm相比有了大幅提升遥
盂图计算院适用于图结构数据处理遥
现实世界中的很多数据是以图的形式呈现的袁或者是可以转换为图以后再进行分析的袁如社
交网络尧道路交通等数据袁可采用图计算模式进行处理遥目前通用的图处理软件主要包括两类院一
类是图数据库袁如 Neo4j尧InfiniteGraph尧OrientDB等曰另一类是并行图处理系统袁如 Google Pregel尧
Apache Giraph尧卡内基梅隆大学的 GraphLab尧运行于 Spark平台的 GraphX等遥
榆实时处理与批处理的整合遥
大数据处理系统 Summingbird袁实现了批处理和流计算在一个平台架构下的整合渊Hadoop+
Storm冤遥 平台的整合缩短了批处理与流处理之间的切换延时时间袁有利于减少系统的开销袁降低
使用成本遥
JINGDIAN KAOTI
经典考题
揖例题 1铱 下列关于流数据的描述袁不正确的是 渊 冤
A. 数据必须采集完成后处理 B. 数据价值随着时间的流逝降低
C. 可以采用流计算进行实时分析 D. 实时分析流数据可以得到更有价值的结果
4.2 大数据处理的基本思想与架构
62
揖分析铱 在处理时已经采集完成的数据是静态数据曰流数据是不间断地尧持续地到达的实时
数据袁一般采用流计算进行实时分析遥 故答案为 A遥
揖例题 2铱 实时处理与批处理整合的优势有 渊 冤
淤增加了系统开销
于有利于降低使用成本
盂可以在同一个平台做批处理计算和流计算
榆缩短了批处理计算和流计算之间的切换延时
A. 淤于盂 B. 淤于榆 C. 淤盂榆 D. 于盂榆
揖分析铱 实时处理与批处理整合实现了批处理计算和流计算在一个平台架构下的整合袁缩
短了批处理与流处理之间的切换延时时间袁有利于减少系统的开销袁降低使用成本遥故答案为 D遥
揖例题 3铱 根据交通路况实时更新导航线路的应用场景中袁下列处理方式合理的是 渊 冤
A. 选用针对静态数据的批处理计算
B. 选用针对流数据的流计算
C. 选用针对图结构数据的图计算
D. 用统计分析软件提供的丰富的统计算法进行数据分析
揖分析铱 根据交通路况实时更新导航线路中数据为流数据袁所以选用流计算遥 故答案为 B遥
揖例题 4铱 处理大数据时袁一般采用分治思想袁下列有关说法错误的是 渊 冤
A. 分治袁字面上的解释是野分而治之冶
B. 分布式计算利用的就是这种分治思想
C. 在数据量很大时袁MapReduce无法支撑这种运算
D. 它是将一个复杂的问题分成子问题进行解决袁然后组合成求整个问题的解法
揖分析铱 MapReduce是一种分布式并行编程模型袁能够处理大规模数据集的并行运算遥故答
案为 C遥
DIANTI SULIAN
典题速练
1. 咱2023窑名校协作体测试暂下列关于大数据的说法袁正确的是 渊 冤
A. 系统可以使用批处理计算对购票的实时数据进行分析
B. 大数据指数据量庞大尧价值密度高的数据
C. 大数据应用不会泄露用户隐私信息
D. 一般采用分治思想进行大数据分析
2. 通过