4.2 大数据处理（教学设计）-【上好课】高中信息技术必修1数据与计算同步高效课堂（浙教版2019）

2024-10-28

| 19页

| 849人阅读

| 4人下载

精品

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术浙教版必修1 数据与计算
年级	高一
章节	4.2 大数据处理
类型	教案-教学设计
知识点	大数据分析和处理
使用场景	同步教学-新授课
学年	2024-2025
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	DOCX
文件大小	1.45 MB
发布时间	2024-10-28
更新时间	2024-10-28
作者	燃烧的南瓜
品牌系列	上好课·上好课
审核时间	2024-10-28
下载链接	https://m.zxxk.com/soft/48242569.html
价格	3.00储值（1储值=1元）
来源	学科网

内容正文：

4.2大数据处理（教学设计）年级高一授课时间课题 4.2大数据处理教学目标 1.了解大数据处理的基本思想与架构（学科核心素养：信息意识） 2.能够编程处理数据，进行文本数据处理（学科核心素养：信息意识、计算思维） 3.能够根据实际问题，选择恰当的方式把数据可视化，提升利用数字化工具解决实际问题的能力，进而提升信息技术学科素养。（学科核心素养：信息意识、数字化学习与创新）教学重难点重点：掌握常用数据处理和统计分析工具的常见使用方法。难点：能够根据实际问题，选择恰当的数据处理和统计分析工具整理数据，提升利用数字化工具解决实际问题的能力。教学准备多媒体网络教室 ppt教学课件学习资源包、学习任务单教学过程教师活动学生活动新课导入情景导入：展示生活中的大数据展示一些大数据在日常生活中的应用案例，如电商推荐系统、社交媒体数据分析、智能交通等，引起学生的兴趣。师：同学们，这些都是大数据在生活中的应用，前面咱们也学习了如何处理表格数据。大数据具有数据量大、数据来源与类型多样、处理速度快等特点，简单的表格处理软件已经无法满足大数据的处理需求，同时，大数据技术、理论和处理方法也在不断发展，为大数据的处理提供了越来越有力的支持。今天我们就一起来了解一下。新知讲授任务一：大数据处理的基本思想与架构 1. 了解大数据处理的基本思想与架构小组为单位，结合课本及网络资源总结归纳大数据处理的基本思想与框架，并填写下表，班级分享。大数据处理的基本思想与架构处理大数据时，一般采用分治思想。分治，字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多个相同或相似的子问题，找到求这几个子问题的解法后，再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决，可以再把它们分成几个更小的子问题，以此类推，直至可以直接求出解为止。师：在数据量较小的情况下，程序的处理速度是非常快的。如果数据量、单词词汇量非常大（数十亿），那么运行这个程序、处理数据的速度将变得非常慢。随着计算机数量的增加，发生机器故障、网络故障的风险不断增加。即使只有1台计算机出现了数据处理与应用，假设发给了3台计算机，当其中1份数据发生计算故障时，剩下的2份备份数据的计算结果还能相互验证，保证最终结果的正确性。这就需要一台或多台计算机负责管理，并运行专门的软件检测计算过程中的故障，在检测到故障时能重新安排计算任务。这种“分治”的思想就是处理大数据的基本思路。 2.了解分布式计算与并行处理师：分布式计算（Distributed Computing）是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。例如，利用分布在世界各地成千上万台闲置计算机的计算能力，分析来自外太空的电信号，探索可能存在的外星智慧生命。并行处理（Parallel Processing）是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。 3.了解常见大数据处理类型目前，大数据处理按照类型可划分为对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算，如图4.2.1所示。静态数据指在处理时已收集完成、在计算时不会发生改变的数据，一般采用批处理方式；流数据是指不间断地、持续地到达的实时数据，随着时间的流逝，流数据的价值也随之降低，通过实时分析计算可以得到更有价值的分析结果；现实世界中的许多数据，如社交网络、道路交通等数据，可采用图计算模式进行处理。任务二：了解批处理计算 1. 了解批处理计算工具，并填写下表。批处理工具 Hadoop Spark Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构，适用于静态数据的批处理计算。借助Hadoop，程序员可以在不了解分布式底层细节的情况下，轻松编写分布式并行程序，将其在计算机集群上运行，完成海量数据的存储与分析。 Spark是一种与Hadoop相似的、应用较广的开源分布式计算架构。Spark启用了内存存储中间结果，运行速度比Hadoop快很多。 2. 了解Hadoop的发展史及组成 Hadoop的发展史：Hadoop 诞生于 2002 年的 Apache Nutch 项目。2006 年，Hadoop 从 Nutch 中独立出来成为顶级项目。2008 年，Hadoop 成为 Apache 顶级项目，被广泛应用于大数据处理领域。随后，其不断发展完善，功能日益强大。众多企业开始采用 Hadoop 处理海量数据，如日志分析、数据仓库等。如今，Hadoop 生态系统不断丰富，包括 Hive、HBase 等组件，为大数据存储、计算和分析提供了强大的解决方案，在全球范围内持续发挥着重要作用。组成：Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块 3. 自主阅读课本124-126页内容：了解分布式数据库HBase、分布式并行计算模型MapReduce、分布式文件系统HDFS等。（1）HBase是一个高可靠、高性能、可伸缩、分布式的列式数据库，是谷歌BigTable数据库的开源实现。与传统关系型数据库采用基于行的存储形式、用于管理表格类的结构化数据不同，HBase建立在HDFS提供的底层存储基础上，采用基于列的存储方式，主要用来存储非结构化数据和半结构化数据，具有良好的横向扩展能力，可管理PB级的大数据。（2）分布式并行计算模型MapReduce MapReduce是一种分布式并行编程模型，能够处理大规模数据集的并行运算，主要由Map（映射）和Reduce（归纳） 2个函数构成。HDFS提供了分布式计算时每个节点服务器对数据的访问，HDFS 与MapReduce 的结合，使得在处理大数据的过程中计算性能、数据容错性得到了保障。（3）分布式文件系统HDFS Windows的文件系统采用FAT32或NTFS，Linux的文件系统为Ext2/Ext3/Ext4，这些文件系统均不能满足分布式文件的管理需求。Hadoop分布式文件系统（Hadoop Distributed File System，简称HDFS）是谷歌文件系统（Google File System，简称GFS）的开源实现。它的主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中，并用分布式系统进行管理。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。目前，云盘、网盘的底层一般采用HDFS实现当数据量很大时，一台服务器的处理能力无法满足需求，这时，MapReduce分布式并行计算的优势就体现出来了，它的核心处理思想是将任务分解并分发到多个节点上进行处理，最后汇总输出。如图4.2.3所示，大数据集拆分为多个分片数据后分发到多个服务器中，Map函数把处理要求映射为多个map任务在节点服务器进行计算处理，节点任务处理完成后由Reduce函数归纳计算结果并输出。任务三：了解流计算流计算产生背景：Hadoop的设计初衷是面向大规模的批量处理，适用于处理静态数据，在流数据实时处理时明显性能不足，比如大型购物网站的广告推荐、社交网络的个性化推荐、根据交通路况实时更新导航线路等应用场景。随着数据处理量及实时性要求的提高，诞生了专门处理流数据的计算平台，如图4.2.4所示。流计算特点：通过流计算系统，可以简单、高效、可靠地实现实时数据的获取、传输和存储，在与数据库、Hadoop、编程语言等整合后可开发出功能强大的实时计算与分析应用。典型的应用如Twitter的社交网络数据处理，采用了如图4.2.5所示的分层数据处理架构，每天可实时处理数十亿事件的数据。主要的流计算软件系统目前，处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo! S4、银河流数据处理平台（淘宝）、Facebook Puma等。Storm和S4是目前较为流行的开源分布式实时计算系统。Heron是Storm的替代产品，其外部接口和Storm保持兼容，在流数据处理性能方面与Storm相比有了大幅提升。任务四：了解图计算现实世界中的很多数据是以图的形式呈现的，或者是可以转换为图以后再进行分析的，如社交网络、网络浏览与购买行为、传染病的传播路径等。大规模的图往往有数十亿的节点和数千亿的边（节点之间关系的连线），节点之间的关系错综复杂，如图4.2.6所示的蛋白质激素构成图。传统的Hadoop架构在处理大型图计算的问题时性能上明显不足，专业的图计算软件应运而生。目前通用的图处理软件主要包括两类：一类是图数据库，如Neo4j、InfiniteGraph、OrientDB等；另一类是并行图处理系统，如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。（1）实时处理与批处理的整合 2014年9月，Twitter开源了其大数据处理系统Summingbird，该系统实现了批处理和流计算在一个平台架构下的整合（Hadoop+Storm）。开发者在同一个平台既可以做批处理，也可以做流计算，还可以进行两种模式的混合使用。平台的整合缩短了批处理与流处理之间的切换延时时间，有利于减少系统的开销，降低使用成本。（2）查找资料，列举静态数据、流数据处理实例。静态数据：假设一家电商公司想要分析过去一个季度的销售数据，这些数据已经存储在数据库中，是相对固定的静态数据。目的是找出最畅销的产品类别、不同地区的销售情况以及顾客购买行为模式等信息，以帮助公司制定下一季度的销售策略。流数据：考虑一个交通监控系统，它需要实时处理来自各个交通传感器（如摄像头、车速传感器等）的数据。目的是及时发现交通拥堵、交通事故等异常情况，并对交通流量进行实时监测和调控。任务五:编程处理数据背景：使用计算机语言编程，可以更加灵活、深入地进行数据分析和挖掘。选用Python语言编程进行数据处理，可以调用Python的扩展模块，常用的扩展模块有numpy、scipy、pandas和matplotlib等 numpy模块是Python中做科学计算的基础库，主要提供科学计算中常用的随机数、数组运算等基础函数。 scipy模块是基于numpy构建的一个模块，增强了在高等数学、信号处理、图像处理、统计等方面的处理能力。 pandas模块基于numpy实现，主要用于数据的处理和分析。它提供了大量处理数据的函数和方法，能方便地操作大型数据集。下面以pandas为例，介绍使用计算机程序设计语言编程进行数据处理的方法。 1. 利用 pandas模块处理数据 pandas提供了Series和DataFrame两种数据结构。使用这两种数据结构，可完成数据的整理、计算、统计、分析及简单可视化。在Python中引入pandas模块的方法如下： import pandas as pd （1）Series Series是一种一维的数据结构，包含一个数组的数据和一个与数据关联的索引（index），索引值默认是从0起递增的整数。列表、字典等可以用来创建 Series 数据结构，与列表不同的是，Series的索引可以指定，类型可以为字符串型, 例1 创建1个Series 结构类型的对象s1，存储3名同学的身高值。通过索引可以选取Series对象中的值，通过赋值语句可以修改Series对象中的值。如：s1[0]=168、s2["s01"]=168，可将s1、s2对象中的“166”改为“168”。例2 查看例1中s1对象的index、values属性值（2）DataFrame DataFrame 是一种二维的数据结构，由1个索引列（index）和若干个数据列组成，每个数据列可以是不同的类型。DataFrame可以看作是共享同一个index的Series的集合。创建DataFrame对象的方法很多，通常用一个相等长度的列表或字典来创建。例3 使用相等长度列表的字典构建一个DataFrame对象df1，存储3名同学的姓名、性别、图书借阅次数数据。可以直接读取二维数据文件创建DataFrame对象。如使用read_excel()函数，读取Excel文件创建DataFrame对象，也可以使用to_excel()函数，创建Excel文件保存数据。例4 读取Excel文件“test.xlsx”中的数据，创建DataFrame对象df。 DataFrame对象常用属性如表4.2.2所示。DataFrame中的索引、列标题及值可以通过属性来显示。例5 查看df1对象的索引、列标题、值，并将行、列转置。和Series对象一样，DataFrame对象中的一列可以通过字典记法或属性来检索，列可以通过赋值来修改。例6 分别检索df1对象中“姓名”“借阅次数”列数据，并修改“借阅次数”列数据。可以通过布尔型数据选取满足条件的行。如通过df1[df1["借阅次数"]>30]，可以检索df1 对象中“借阅次数”大于30 的数据行。使用at[]方法可以根据行标签和列标签选取单个值，如通过df1.at[0,"姓名"]，可以选取df1对象中第1行、“姓名”列的值。DataFrame数据结构提供了丰富的函数，这些函数可以用来进行行、列编辑和统计计算等。DataFrame常用函数如表4.2.3所示 1 DataFrame对象中行、列的编辑。DataFrame中，新增列、删除列、重命名列可以通过insert()、drop()、rename()等函数完成；追加数据行可以通过append()函数完成；使用set_value()函数可以根据行标签和列标签设置单个值。例7 对df对象中的数据进行以下编辑：在最后追加一行数据；删除“规格”列数据；删除第1 行数据说明：append()、drop()函数均不改变原有df对象中的数据，而是通过返回另一个DataFrame对象来存放改变后的数据。如本例中df_del=df.drop("规格",axis=1) 不改变df对象中的数据，删除后的数据存放在df_del对象中，del df["规格"] 会永久删除df 对象中"规格"列数据。 ② DataFrame对象中数据的统计与计算。使用groupby()函数，可以对DataFrame对象各列或各行中的数据进行分组, 然后对其中每一组数据进行不同的操作。例8 将df对象中的数据按“地区”分组，并计算分组后各组数据的平均值。 2 DataFrame对象中数据的排序。DataFrame对象中，按索引排序可以使用sort_index()函数，按值排序可以使用sort_values ()函数。通过选项axis=0/1 确定排序的轴向，axis默认值为0，纵向排序；通过选项ascending=True/False确定升/降序，ascending默认值为True，升序排序。排序结果返回一个新DataFrame对象。任务六：了解文本数据处理文本数据处理是大数据处理的重要分支之一，目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前，文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。 1. 文本数据处理的一般过程文本内容是非结构化的数据，要从大量的文本中提取出有用的信息，需要将文本从无结构的原始状态转化为结构化的、便于计算机处理的数据。典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。常用的中文分词算法可分为如下三类： ①基于词典的分词方法 ②基于统计的分词方法 ③基于规则的分词方法（2）特征提取在中文文本分析中可以采用字、词或短语作为表示文本的特征项。相比较而言，词的切分难度比短语的切分难度小且更能表达文本的含义。目前，大多数中文文本分析中都采用词作为特征项，这种词称作特征词，通常可直接用分词算法和词频统计得出的结果作为特征词，但对于稍大一些的文本，提取出的特征词数量将非常大，其计算处理过程的效率非常低，计算结果的准确性也很难令人满意。特征提取一般采用的方式为根据专家的知识挑选有价值的特征，或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式，评估函数大多是基于概率统计设计的，这就需要用庞大的训练数据集才能获得对分类起关键作用的特征。（3）文本数据分析与应用在取得特征词后，对文本的分析就需要根据项目的需求，确定解决问题的路径，选取合适的工具、设计算法抽取出文本中隐含的价值。 5.案例体验： import jieba #引用jieba分词模块 text = open(r"C:\Users\hp\Desktop\filename.txt","r",encoding="utf-8").read() #读入文本文件 seg_list = jieba.cut(text, cut_all = True) #全模式分词 print("全模式分词:", '' ''.join(seg_list)) #输出分词结果 seg_list = jieba.cut(text) #默认模式分词 print("默认模式:", '' ''.join(seg_list)) #输出默认模式分词结果运行结果见下图：爬取文本的代码： import requests from bs4 import BeautifulSoup url = "自选网址" response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 假设文章内容在特定的标签中，比如<p>标签 article_content = "" for p in soup.find_all('p'): article_content += p.text + ' ' print(article_content) 运行结果图：（3）标签云标签云用词频表现文本特征，将关键词按照一定的顺序和规律排列，如频度递减、字母顺序等，并以文字大小的形式代表词语的重要性，如图4.2.15所示。标签云广泛应用于报纸、杂志等传统媒体和互联网。标签云是文本可视化的一种方式。文本可视化将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来，使人们能够利用视觉感知能力快速获取文本数据中所蕴含的关键信息，为更好地理解文本和发现知识提供了新的有效途径。（4）文本情感分析文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析，对文本的情感倾向做出分类判断。文本情感分析作为一个多学科交叉的研究领域，涉及自然语言处理、信息检索、机器学习、人工智能等领域。文本情感分析根据分析的粒度不同，分为词语级、语句级、整篇文章级三类。任务七：了解数据可视化数据可视化是将数据以图形图像等形式表示，直接呈现数据中蕴含信息的处理过程。随着数据数量的不断增加和结构的多元化，直接从数据中获取信息变得困难，将数据以可视化方式展现出来，使用户可以通过直观、交互的方式浏览和观察数据，发现数据中隐藏的特征、关系和模式 1. 结合课本自主总结归纳数据可视化的作用，并填写下表。数据可视化作用（1）快捷观察与追踪数据（2）实时分析数据（3）增强数据的解释力与吸引力 2. 结合课本自主总结归纳数据可视化的基本方法，并填写下表。可视化的基本方法（1）有关时间趋势的可视化（2）有关比例的可视化（3）有关关系的可视化（4）有关差异的可视化（5）有关空间关系的可视化 3. 了解常见的可视化工具常见的数据分析软件中一般包含创建可视化图表功能。主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等，也可以使用Python、R等计算机语言编写程序实现数据的可视化。此外，还有一些优秀的可视化工具库，如基于javaScript的D3.js、Highcharts、Google Charts等，基于Python的matplotlib等。 4. 了解可视化的典型案例：以小组为单位结合课本148-150页的内容，讨论分析一下不同类型可视化图表的实现方法和作用。（1）风、气象、海洋状况的全球地图（2）编程语言之间的影响力关系图（3）“双十一”全网销售直播图（4）航班飞行实时跟踪地图（5）微博热词趋势图课堂练习（1）以下关于 Hadoop 的说法，错误的是（）。 A. Hadoop 包括 HDFS（分布式文件系统）和 MapReduce 计算框架 B. Hadoop 可以高效处理大规模数据 C. Hadoop 是一种单机数据处理工具 D. Hadoop 集群可以通过增加节点来扩展性能答案：C 解析：Hadoop 是一个分布式的系统，不是单机数据处理工具。它的核心组件包括 HDFS 用于分布式文件存储，MapReduce 用于分布式计算，能够处理大规模的数据，并且可以通过在集群中添加节点来提升处理性能。（2）以下哪种大数据处理技术可以用于处理图数据？（） A. Neo4j B. MySQL C. PostgreSQL D. SQLite 答案：A 解析：Neo4j 是一个图数据库，专门用于处理图数据，如社交网络关系、知识图谱等。MySQL、PostgreSQL 和 SQLite 主要是关系数据库，虽然可以在一定程度上表示关系，但对于复杂的图数据处理能力不如 Neo4j。课堂小结 1. 学生思考并总结分享本节课收获，各同学之间互相补充。 2.教师出示本节课思维导图，回顾本节课所学知识本节课思维导图如下：作业设计 1.完成分层作业。 2.尝试列举文本数据处理的应用领域以及将来可能的应用。反思评价在本次教学中，基本达成了预设的教学目标。对于大数据处理中的一些难点，如分布式存储和计算原理、性能优化等，虽然在教学中进行了讲解，但学生的理解可能还不够深入。在后续的教学中，可以增加一些相关的拓展阅读材料和案例分析，引导学生进一步深入探究，提高学生的专业素养。同时，增加一些互动环节和趣味性内容，提高学生的学习积极性。原创精品资源学科网独家享有版权，侵权必究！学科网（北京）股份有限公司学科网（北京）股份有限公司 $$

资源预览图

4.2 大数据处理（教学设计）-【上好课】高中信息技术必修1数据与计算同步高效课堂（浙教版2019）

所属专辑

学科

【上好课】高中信息技术必修1数据与计算同步高效课堂（浙教版2019版）

高中信息技术普通专辑 69 份文档

17010人已阅读