专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT（浙江专用）

2022-05-22

| 51页

| 1307人阅读

| 17人下载

教辅

浙江良品图书有限公司

进店逛逛

资源信息

学段	高中
学科	信息技术
教材版本	-
年级	高三
章节	-
类型	课件
知识点	人工智能的概念，人工智能的产生与发展
使用场景	高考复习
学年	2022-2023
地区（省份）	浙江省
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	793 KB
发布时间	2022-05-22
更新时间	2024-04-21
作者	浙江良品图书有限公司
品牌系列	精彩三年·学考尖峰
审核时间	2022-05-22
下载链接	https://m.zxxk.com/soft/33627258.html
价格	4.00储值（1储值=1元）
来源	学科网

内容正文：

浙江良品图书有限公司精彩三年学考尖峰信息技术 2022浙江专题梳理11　大数据处理及人工智能　　　单击此处编辑母版文本样式 1 【必修1　第114—146页　指导意见第19—25页】 1．处理大数据时，一般采用分治思想。分治就是把一个复杂的问题分成两个或更多相同或相似的子问题，找到求这几个子问题的解法后，再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决，可以再把它们分成几个更小的子问题，以此类推，直至可以直接求出解为止。单击此处编辑母版文本样式 2．大数据处理的类型和架构单击此处编辑母版文本样式　　3.批处理计算 (1)Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。单击此处编辑母版文本样式 ①分布式文件系统HDFS 概述：是谷歌文件系统(GFS)的开源实现。功能：将大规模海量数据以文件的形式，用多个副本保存在不同的存储节点中，并用分布式系统进行管理。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。目前，云盘、网盘的底层一般采用HDFS实现。 ②分布式数据库HBase 概述：是一个高可靠、高性能、可伸缩、分布式的列式数据库，是谷歌BigTable数据库的开源实现。单击此处编辑母版文本样式功能：HBase建立在HDFS提供的底层存储基础上，采用基于列的存储方式，主要用来存储非结构化数据和半结构化数据，具有良好的横向扩展能力，可管理PB级的大数据。 ③分布式并行计算模型MapReduce 概述：是一种分布式并行编程模型，能够处理大规模数据集的并行运算，主要由Map(映射)和Reduce(归纳)2个函数构成。功能：MapReduce的核心处理思想是将任务分解并分发到多个节点上进行处理，最后汇总输出。 (2)Spark是一种与Hadoop相似的、应用较广的开源分布式计单击此处编辑母版文本样式算架构。Spark启用了内存存储中间结果，运行速度比Hadoop快很多。 4．流计算系统可以简单、高效、可靠地实现实时数据的获取传输和存储，在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo！S4、银河流数据处理平台(淘宝)、Facebook Puma等。 5．图计算单击此处编辑母版文本样式现实世界中的很多数据是以图的形式呈现的，或者是可以转换成图以后再进行分析的，如社交网络、网络浏览与购买行为、传染病的传播路径等。图处理软件主要包括两类：一类是图数据库，如Neo4j、InfiniteGraph、OrientDB等；另一类是并行图处理系统，如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。 6．实时处理与批处理的整合概述：Twitter开源了其大数据处理系统Summingbird，该系单击此处编辑母版文本样式统实现了批处理和流计算在一个平台架构下的整合(Hadoop＋Storm)。优点：开发者在同一个平台既可以做批处理，也可以做流计算，还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延时时间，有利于减少系统的开销，降低使用成本。 7．pandas模块介绍及导入 (1)常用的Python扩展模块有numpy、scipy、pandas和matplotlib等，其中pandas模块主要用于数据处理和分析。单击此处编辑母版文本样式 (2)导入pandas模块：import pandas as pd(pd 为用户导入模块取的别名) (3)pandas模块的数据结构 pandas提供Series和DataFrame两种数据结构。 ① Series对象属性单击此处编辑母版文本样式 ② DataFrame对象属性单击此处编辑母版文本样式 ③ Series与DataFrame的联系与区别单击此处编辑母版文本样式单击此处编辑母版文本样式 ④ pandas模块的Serise对象相关操作创建：列表、字典等可以用来创建Series数据结构。s1＝pd.Series([1，2，3，4]) s2＝pd.Series({'a'：1，'b'：2，'c'：3}) 查找：借助index的索引值实现查找；或是对values的值进行条件索引。 print(s1[0])　　　　　查找索引值为0的值

资源预览图

专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT（浙江专用）

所属专辑

教辅

2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT（浙江专用）

高三信息技术第三方合辑 15 份文档

1455人已阅读