数据与大数据复习课件-2024-2025学年浙江省高中学业水平考试信息技术总复习

2025-04-26

| 33页

| 151人阅读

| 5人下载

普通

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术浙教版必修1 数据与计算
年级	高二
章节	-
类型	课件
知识点	-
使用场景	高考复习-学业考试
学年	2025-2026
地区（省份）	浙江省
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	180 KB
发布时间	2025-04-26
更新时间	2025-04-26
作者	匿名
品牌系列	-
审核时间	2025-04-26
下载链接	https://m.zxxk.com/soft/51830889.html
价格	0.50储值（1储值=1元）
来源	学科网

内容正文：

数据与大数据　大数据处理学考要点1数据与大数据【必修1数据与计算第28～32页　指导意见第9～13页】 1．大数据的概念及特征大数据代表着信息量大、速度快、种类繁多的信息资产，需要特定的技术和分析方法将其转化为价值。数据量大并不一定就是大数据。大数据的特征有： (1)数据体量巨大：人类社会的数据量在不断刷新一个个新的量级单位，已经从TB、PB级别跃升至EB、ZB级别。 (2)速度快：一是数据产生的速度快，包括爆发式产生和累积产生；二是数据处理的速度快，高速率实时数据处理。 (3)数据类型多：大数据的数据来源多，既有人工产生的，也有机器自动产生的。各种结构化、半结构化和非结构化数据共存是大数据的普遍现象。 (4)价值密度低：大数据蕴藏着巨大价值，但因其数据量庞大，可能发挥价值的仅是其中非常小的部分，价值密度相对较低。但价值密度低不等于价值低。 2．大数据思维 (1)大数据要分析的是全体数据，而不是抽样数据。 (2)对于数据不再追求精确性，而是能够接受数据的混杂性。 (3)不一定强调对事物因果关系的探求，而是更加注重它们的相关性。 3．大数据对社会的影响 (1)大数据让生活更便利。 (2)大数据让决策更精准。 (3)大数据带来新的就业需求。 (4)大数据带来新的社会问题。学考要点2大数据处理【必修1数据与计算第123～150页，第138～150页　指导意见第19～25页】 1．大数据处理的基本思想处理大数据时，一般采用分治思想。分治就是把一个复杂的问题分成两个或更多个相同或相似的子问题，找到求这几个子问题的解法后，再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决，可以再把它们分成几个更小的子问题，以此类推，直至可以直接求出解为止。 2．大数据处理的类型和架构数据类型数据特征处理方式软件或平台静态数据在处理时已收集完成、在计算时不会发生改变批处理计算 Hadoop、Spark等流数据不间断地、持续地到达的实时数据，具有时效性，比如根据交通路况实时更新导航路线流计算 Storm、Heron等图数据现实世界中以图的形式呈现的一些数据，如社交网络、道路交通等图计算 Pregel、GraphX等 (1)批处理计算 Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。 ①分布式文件系统HDFS：主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中，并用分布式系统进行管理。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。目前，云盘、网盘的底层一般采用HDFS实现。 ②分布式数据库HBase：建立在HDFS提供的底层存储基础上，采用基于列的存储方式，主要用来存储非结构化数据和半结构化数据，具有良好的横向扩展能力，可管理PB级的大数据。 ③分布式并行计算模型MapReduce：能够处理大规模数据集的并行运算，主要由Map(映射)和Reduce(归纳) 2个函数构成。核心处理思想是将任务分解并分发到多个节点上进行处理，最后汇总输出。 (2)流计算通过流计算系统，可以简单、高效、可靠地实现实时数据的获取、传输和存储，在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo！S4、银河流数据处理平台(淘宝)、Facebook Puma等。 (3)图计算目前通用的图处理软件主要包括两类：一类是图数据库，如Neo4j、InfiniteGraph、OrientDB等；另一类是并行图处理系统，如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。 (4)实时处理与批处理的整合 Twitter开源了其大数据处理系统Summingbird，该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop＋Storm)。开发者在同一个平台既可以做批处理，也可以做流计算，还可以进行两种模式的混合使用。 3．文本数据处理 (1)文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 (2)文本数据处理的一般过程：典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。 ①中文分词：将连续的字序列按照一定的规范重新组合成词序列的过程，也就是将一个汉字序列切分成一个一个单独的词。常见的中文分词算法有基于词典的分词方法、基于统计的分词方法、基于规则的分词方法。 A．基于词典的分词方法：也称作基于字符匹配的分词方法，即在分析句子时与词典中的词语进行对比，词典中出现的就划分为词。常见的分词系统有jieba分词。 B．基于统计的分词方法：依据上下文中相邻字出现的频率统计，同时出现的次数越高就越可能组成一个词。一般将其与基于词典的分词方法结合使用。 C．基于规则的分词方法：通过让计算机模拟人的理解方式，根据大量的现有资料和规则进行学习，达到对文字进行分词的效果。该分词方法目前还处于试验阶段。 ②特征提取 A．特征词：在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前，大多数中文文本分析中都采用词作为特征项。通常可直接用分词算法和词频统计得出的结果作为特征词。 B．特征提取：一般采用的方式为根据专家的知识挑选有价值的特征，或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式。 (3)文本数据分析与应用：在取得特征词后，对文本的分析就需要根据项目的需求，确定解决问题的路径，选取合适的工具、设计算法抽取出文本中隐含的价值。 ①标签云：标签云用词频表现文本特征，将关键词按照一定的顺序和规律排列，如频度递减、字母顺序等，并以文字大小的形式代表词语的重要性。标签云广泛应用于报纸、杂志等传统媒体和互联网。 ②文本情感分析：文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析，对文本的情感倾向做出分类判断。文本情感分析主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。 4．数据可视化 (1)数据可视化是将数据以图形图像等形式表示，直接呈现数据中蕴含信息的处理过程。 (2)可视化的作用 ①快捷观察与追踪数据：利用可视化技术，可以将处于不断变化中的数据生成实时变化的可视化图表，帮助人们快捷地发现各种数据的动态变化过程。 ②实时分析数据：利用可视化技术，可以实时将数据转换为图像呈现给用户，帮助用户分析数据的内涵和特征。 ③增强数据的解释力与吸引力：利用数据图表，直观、动态地呈现新闻、研究报告等内容，可以帮助人们在短时间内了解内容、理解数据背后的含义，同时增强数据的吸引力，提高人们的阅读兴趣。 (3)可视化的工具主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等，也可以使用Python、R等计算机语言编写程序实现数据的可视化。此外，还有一些优秀的可视化工具库，如基于JavaScript的D3.js、Highcharts、Google Charts等，基于Python的matplotlib等。 (4)可视化的基本方法类别数据间关系的描述可视化方法有关时间趋势的可视化时间序列数据变化的过程和趋势柱形图、折线图等有关比例的可视化各部分的大小及其占总体比例的情况饼图、环形图等有关关系的可视化变量之间的关联性和分布关系散点图、气泡图等有关差异的可视化包含多种变量的对象与同类之间的差异和联系雷达图有关空间关系的可视化地理数据或基于地理数据的分析结果地图例1　下列关于大数据的说法不正确的是(　　) A．处理大数据一般采用分治思想 B．文本数据处理是大数据处理的重要分支之一 C．大数据技术可以处理非结构化数据 D．大数据处理的数据整体价值密度高【解析】大数据具有数据规模大、处理速度快、数据类型多、价值密度低等特征，选项D错误。 D 变式1　下列关于大数据的说法不正确的是(　　) A．大数据一般具有数据规模大、处理速度快、数据类型多、价值密度低四个特征 B．大数据追求数据的精确性，处理大数据时要保证每个数据准确无误 C．大数据中，各种结构化、半结构化和非结构化数据共存 D．大数据更注重事物的相关性而不是因果关系【解析】大数据不追求精确性，能够接受数据的混杂性。当数据量大到一定程度时，个别数据的不准确就显得不那么重要了。选项B错误。 B 变式2　下列关于数据与大数据的说法正确的是(　　) A．数据是现代科学研究的重要资源 B．大数据的数据量庞大，价值密度高 C．计算机中的数据都以ASCII码的形式存储 D．大数据的应用降低了用户隐私信息泄露的风险【解析】选项B，大数据价值密度低，选项错误；选项C，ASCII码是对数字、字母以及一些符号的编码，计算机中的数据是以二进制的形式存储的，选项错误；选项D，大数据的应用提高了信息泄露的风险，选项错误。 A 变式3　下列关于数据和大数据的说法正确的是(　　) A．数字和文字是数据常见的表现形式 B．未经数字化的数据不能被记录和传输 C．大数据蕴含着巨大的价值，价值密度很高 D．大数据为社会各层面带来便利，不存在任何安全隐患 A 【解析】选项B，文字、数字、音频、图像等载体都可以对数据进行记录和传输，选项错误；选项C，大数据蕴含着巨大的价值，但其价值密度低，选项错误；选项D，大数据为社会各层面带来便利，但存在安全隐患，可能泄露个人隐私，选项错误。变式4　(2024·浙江1月选考)下列关于数据与信息的说法正确的是(　　) A．数据以二进制方式编码后才能存储在计算机中 B．大数据技术不能处理非结构化数据 C．同一数据经解释后产生的信息都是相同的 D．信息加工处理后不会产生更有价值的信息 A 【解析】选项A，计算机里的数据都是以二进制的形式进行存储的，选项正确；选项B，大数据的特征之一是数据类型多，包含结构化数据、半结构化数据和非结构化数据，大数据技术能处理非结构化数据，选项错误；选项C，人们对相同的数据可以有不同的解释，可以获得不一样的信息，选项错误；选项D，信息经过加工处理后，可以产生更有价值的信息，选项错误。例2　(2023·浙江7月学考)小张从北京出差至杭州。出发前，他在手机上登录12306 售票系统购买火车票、完成支付，检票时刷身份证通过闸机。到杭州站下车后，小张在手机导航软件中通过语音输入目的地规划行程路线，打车前往宾馆，途中，导航软件会在地图上实时显示道路拥堵状况等信息。下列关于该材料中数据与数据处理的说法不正确的是(　　) A．火车票上的文字是数据的一种表现形式 B．大数据处理技术能增强导航服务的智能性 C．导航数据的可视化有利于观察和分析数据 D．用语音规划行程路线时无须对用户语音进行数字化 D 【解析】数据是对客观事物的符号表示，如图形、数字、文字、字母等，选项A正确；大数据代表着数据量大、速度快、种类繁多的信息资产，挖掘、分析大数据可以充分发挥其巨大的价值，选项B正确；数据可视化是将数据以图形图像等形式表示，直接呈现数据中蕴含信息的处理过程，导航数据的可视化有利于观察和分析数据，选项C正确；用语音规划行程路线时，必须将用户的语音信号转化为二进制代码，才能被导航软件处理，选项D错误。变式1　下列关于大数据处理的说法不正确的是(　　) A．处理大数据时，一般采用分治思想 B．对历史数据一般采用批处理方式 C．大数据处理时要求所有的数据都准确 D．大数据分析的是全体数据，而不是抽样数据【解析】大数据不再追求数据的精确性，当数据量大到一定程度时，个别数据的不准确不会影响结果，选项C错误。 C 变式2　下列关于Hadoop架构的说法正确的是(　　) A．采用MapReduce编程模型处理大规模数据集 B．不能运行于大规模计算机集群上 C．采用NTFS文件系统管理数据文件 D．是一个对大数据进行聚合式处理的基础软件框架【解析】选项B，Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，选项错误；选项C，采用分布式文件系统HDFS管理数据文件，选项错误；选项D，Hadoop 是一个分布式系统基础架构，选项错误。 A 变式3　下列数据处理不属于文本数据处理的是(　　) A．根据白名单和黑名单机制进行垃圾邮件的识别 B．在线客服通过自动应答技术回答问题 C．实时监测景区的人流数据，控制过多的游客进入景区 D．分析消费者的意见数据和挖掘用户观点来辅助运营决策【解析】实时监测景区的人流数据，属于视频等流媒体数据处理，选项C符合题意。 C 变式4　编写一个Python 程序，为一篇主题为“碳中和”的文章制作标签云，标签云如图所示。下列说法不正确的是(　　) A. 这篇文章是结构化数据 B．该程序可以使用jieba 模块进行分词 C．基于词典和基于统计的分词方法一般是结合使用的 D．标签云用词频表现文本特征，词频越高的文字越大【解析】文本内容是非结构化数据，选项A错误。 A 变式5　(2024·舟山中学学考模拟)下列关于大数据与大数据处理的说法正确的是(　　) A．大数据可以采用抽样数据分析，目的是让处理速度更快 B．在大数据商品个性化推荐中，要分析人们购买商品的原因，从而提供精准推荐 C．文本数据处理一般先提取特征再进行分词、数据分析等处理 D．静态大数据的批处理可以和流数据的实时处理相整合，降低切换延时时间 D 【解析】选项A，大数据要分析的是全体数据而不是抽样数据，即使为了加快处理速度也不应该分析抽样数据，选项错误；选项B，大数据要分析数据的相关性，而不是因果关系，大数据商品个性化推荐中也是分析用户购买商品之间的关联性，而不是分析用户购买的原因，选项错误；选项C，文本处理的一般步骤是分词、特征提取、数据分析和结果呈现，没有分词前不能提取特征，选项错误。变式6　下列关于数据可视化的说法不正确的是(　　) A．标签云是基于语句的文本内容可视化 B．数据可视化是将数据以图形图像等形式表示 C．数据可视化可以直观地呈现数据中蕴含的信息 D．数据可视化增强了数据的解释力与吸引力【解析】标签云用词频表现文本特征，选项A错误。 A $$

数据与大数据复习课件-2024-2025学年浙江省高中学业水平考试信息技术总复习

资源信息

内容正文：

资源预览图