专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)

2022-05-22
| 51页
| 1307人阅读
| 17人下载
教辅
浙江良品图书有限公司
进店逛逛

资源信息

学段 高中
学科 信息技术
教材版本 -
年级 高三
章节 -
类型 课件
知识点 人工智能的概念,人工智能的产生与发展
使用场景 高考复习
学年 2022-2023
地区(省份) 浙江省
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 793 KB
发布时间 2022-05-22
更新时间 2024-04-21
作者 浙江良品图书有限公司
品牌系列 精彩三年·学考尖峰
审核时间 2022-05-22
下载链接 https://m.zxxk.com/soft/33627258.html
价格 4.00储值(1储值=1元)
来源 学科网

内容正文:

浙江良品图书有限公司 精彩三年学考尖峰 信息技术 2022浙江 专题梳理11 大数据处理及人工智能    单击此处编辑母版文本样式 1 【必修1 第114—146页 指导意见第19—25页】 1.处理大数据时,一般采用分治思想。分治就是把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。 单击此处编辑母版文本样式 2.大数据处理的类型和架构 单击此处编辑母版文本样式   3.批处理计算 (1)Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。 单击此处编辑母版文本样式 ①分布式文件系统HDFS 概述:是谷歌文件系统(GFS)的开源实现。 功能:将大规模海量数据以文件的形式,用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。目前,云盘、网盘的底层一般采用HDFS实现。 ②分布式数据库HBase 概述:是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。 单击此处编辑母版文本样式 功能:HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。 ③分布式并行计算模型MapReduce 概述:是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)2个函数构成。 功能:MapReduce的核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。 (2)Spark是一种与Hadoop相似的、应用较广的开源分布式计 单击此处编辑母版文本样式 算架构。Spark启用了内存存储中间结果,运行速度比Hadoop快很多。 4.流计算系统可以简单、高效、可靠地实现实时数据的获取传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。 处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。 5.图计算 单击此处编辑母版文本样式 现实世界中的很多数据是以图的形式呈现的,或者是可以转换成图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。 图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。 6.实时处理与批处理的整合 概述:Twitter开源了其大数据处理系统Summingbird,该系 单击此处编辑母版文本样式 统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。 优点:开发者在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。 7.pandas模块介绍及导入 (1)常用的Python扩展模块有numpy、scipy、pandas和matplotlib等,其中pandas模块主要用于数据处理和分析。 单击此处编辑母版文本样式 (2)导入pandas模块:import pandas as pd(pd 为用户导入模块取的别名) (3)pandas模块的数据结构 pandas提供Series和DataFrame两种数据结构。 ① Series对象属性 单击此处编辑母版文本样式   ② DataFrame对象属性 单击此处编辑母版文本样式 ③ Series与DataFrame的联系与区别 单击此处编辑母版文本样式 单击此处编辑母版文本样式 ④ pandas模块的Serise对象相关操作 创建:列表、字典等可以用来创建Series数据结构。s1=pd.Series([1,2,3,4]) s2=pd.Series({'a':1,'b':2,'c':3}) 查找:借助index的索引值实现查找;或是对values的值进行条件索引。 print(s1[0])     查找索引值为0的值

资源预览图

专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
1
专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
2
专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
3
专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
4
专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
5
专题梳理11 大数据处理及人工智能-2022高考信息技术【精彩三年】学考尖峰知识手册课件PPT(浙江专用)
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。