第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略课堂精讲

2025-03-18
| 2份
| 5页
| 45人阅读
| 4人下载
教辅
金华市合创展教育图书有限公司
进店逛逛

资源信息

学段 高中
学科 信息技术
教材版本 -
年级 高三
章节 -
类型 教案-讲义
知识点 数据与数据结构
使用场景 高考复习-学业考试
学年 2025-2026
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 1.25 MB
发布时间 2025-03-18
更新时间 2025-03-18
作者 金华市合创展教育图书有限公司
品牌系列 学考一号·高中复习方略
审核时间 2025-02-19
下载链接 https://m.zxxk.com/soft/50520037.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

构·网络体系 第三节 文本数据处理及大数据 学·知识清单 考点一 文本数据处理 1. 文本数据处理主要应用在搜索引擎尧情 报分析尧自动摘要尧自动校对尧论文查重尧文本分 类尧垃圾邮件过滤尧机器翻译尧自动应答等方面遥 2. 典型的文本处理过程主要包括分词尧特 征提取尧数据分析尧结果呈现等遥 渊1冤中文分词遥 分词是将连续的字序列按照一定的规范重 新组合成词序列的过程袁也就是将一个汉字序 列切分成一个一个单独的词遥 flag咱k暂=True i=0 while i<n: #查找同分 if flag咱i暂 or zflst咱i暂==max : #改错 print(data咱i暂咱0暂," ",zflst咱i暂) flag咱i暂=True i+=1 淤 于 渊3冤改正加框处代码院 遥 3达标 某省 2022年全年气象灾害预警 数据保存在文件野qxyj.xlsx冶中袁部分数据如图所 示袁编写 Python程序袁统计全年发布次数最多的 5种气象预警遥 import pandas as pd df=pd.read_excel("qxyj.xlsx") #读文件中 的数据 df=df.drop(咱"预警发布单位","预警等级", "预警发布时间"暂,axis=1) #删除列 print(df_s咱0:5暂) 方框中代码由下列语句中的部分语句组成院 淤df_g =df.groupby ("预警名称 ",as_index = False).sum() #分组求和 于df_g=df_s.groupby("次数",as_index=False). sum() 盂df_s=df.sort_values("次数",ascending=True) #升序排序 榆df_s=df_g.sort_values ("次数 ",ascending= False) 要实现上述功能袁下列选项中正确的是 渊 冤 A. 淤榆 B. 淤盂 C. 于榆 D. 盂于 第四章 数据处理与应用 文本 数据 处理 及大 数据 文本数据处理 文本数据分析与应用 文本数据处理的一般过程 可视化的典型案例 可视化的工具 可视化的基本方法 可视化的作用 数据可视化 智能交通 电子商务 大数据的典型应用 大数据处理 的基本思想 与架构 分治思想 基本思想 大数据处 理类型 流计算 渊Storm尧Heron等冤 批处理计算 渊Hadoop尧Spark等冤 图计算 渊Pregel尧GraphX等冤 图数据 流数据 静态数据 31 课堂精讲 学考一号 高中学业水平复习方略 信息技术 渊2冤特征提取遥 通过特征提取来找出最具代表性尧 最有效 的文本特征遥 淤特征词院在中文文本分析中可以采用字尧 词或短语作为表示文本的特征项遥 大多数中文 文本分析中采用词作为特征项遥 通常用分词算 法和词频统计得出的结果作为特征词遥 于特征提取方式院根据专家的知识挑选有 价值的特征曰用数学建模的方法构造评估函数 自动选取特征等遥 3. 文本数据分析与应用遥 渊1冤标签云院是文本可视化的一种方式遥 它 用词频表现文本特征袁将关键词按照一定的顺 序和规律排列袁如频度递减尧字母顺序等袁并以 文字大小的形式代表词语的重要性遥 渊2冤文本情感分析院通过计算机技术对文 本的主观性尧观点尧情绪尧极性进行挖掘和分析袁 对文本的情感倾向做出分类判断遥 考点二 大数据处理的基本思想与架构 1. 大数据处理的分治思想遥 分治就是把一个复杂的问题分成两个或更 多个相同或相似的子问题袁找到求这几个子问 题的解法后袁再找出合适的方法把它们组合成 求整个问题的解法遥 如果这些子问题还难以解 决袁可以再把它们分成几个更小的子问题袁以 此类推袁直至可以直接求出解为止遥 2. 大数据处理类型遥 渊1冤静态数据院指在处理时已收集完成尧在计 算时不会发生改变的数据袁一般采用批处理方式遥 渊2冤流数据院指不间断地尧持续地到达的实 时数据袁随着时间的流逝袁流数据的价值也随 之降低袁可采用流计算进行实时分析遥 渊3冤图数据院现实世界中的许多数据袁如社交 网络尧道路交通等数据袁可采用图计算进行处理遥 3. 批处理计算遥 Hadoop是一个可运行于大规模计算机集群 上的分布式系统基础架构袁适用于静态数据的 批处理计算遥 Hadoop计算平台主要包括Common 公共库尧分布式文件系统 HDFS尧分布式数据库 HBase尧分布式并行计算模型 MapReduce 等多 个模块遥 渊1冤分布式文件系统 HDFS院HDFS 将大规 模海量数据以文件的形式尧用多个副本保存在 不同的存储节点中袁并用分布式系统进行管理遥 HDFS是一个高度容错性的系统袁适合部署在廉 价的机器上遥 目前袁云盘尧网盘的底层一般采用 HDFS实现遥 渊2冤分布式数据库 HBase院HBase 建立在 HDFS提供的底层存储基础上袁采用基于列的存 储方式袁主要用来存储非结构化数据和半结构 化数据袁可管理 PB级的大数据遥 渊3冤分布式并行计算模型 MapReduce院 MapReduce 能够处理大规模数据集的并行运 算袁主要由 Map渊映射冤和 Reduce渊归纳冤2 个函 数构成遥 其核心处理思想是将任务分解并分发 到多个节点上进行处理袁最后汇总输出遥 4. 流计算遥 渊1冤通过流计算系统袁可以简单尧高效尧可靠 地实现实时数据的获取尧传输和存储袁在与数 据库尧Hadoop尧编程语言等整合后可开发出功能 强大的实时计算与分析应用遥 渊2冤处理流数据的软件系统主要有 IBM InfoSphere Streams尧Twitter Storm尧Yahoo浴 S4尧银 河流数据处理平台渊淘宝冤尧Facebook Puma等遥 5. 图计算遥 渊1冤现实世界中的很多数据是以图的形式 呈现的袁或者是可以转换为图以后再进行分析 的袁如社交网络尧网络浏览与购买行为尧传染病 的传播路径等遥 分词方法 说明 基于词典的 分词方法 也称为基于字符匹配的分词方法袁即 在分析句子时与词典中的词语进行 对比袁词典中出现的就划分为词 基于统计的 分词方法 统计分词的思想是依据上下文中相 邻字出现的频率统计袁同时出现的次 数越高就越可能组成一个词 基于规则的 分词方法 通过让计算机模拟人的理解方式袁根 据大量的现有资料和规则进行学习袁 达到对文字进行分词的效果 32 4. 可视化的工具遥 主要用于数据可视化的工具有大数据魔 镜尧Gephi尧Tableau等袁也可以使用 Python尧R等计 算机语言编写程序实现数据的可视化遥此外袁还 有一些优秀的可视化工具库袁如基于 JavaScript 的 D3.js尧Highcharts尧Google Charts等袁基于 Python 的 matplotlib等遥 渊1冤Tableau主要用于实时可视化分析遥 渊2冤D3.js是运行在 JavaScript上的数据可视 化开源工具库遥 渊3冤Highcharts 是一个用纯 JavaScript 编写 的尧基于 HTML5技术的开源图表库袁支持移动 端袁能够简单便捷地在 Web网站或是 Web应用 程序中添加动态尧交互性的图表遥 渊4冤Google Charts 是为浏览器与移动设备 定制的交互式图表开发包袁用于在 Web上可视 化数据遥 5. 可视化的典型案例遥 渊1冤风尧气象尧海洋状况的全球地图遥 渊2冤编程语言之间的影响力关系图遥 渊3冤野双十一冶全网销售直播图遥 渊4冤航班飞行实时跟踪地图遥 渊5冤微博热词趋势图遥 考点四 大数据典型应用 随着大数据在各行业的应用袁 数据成为核 心资产遥大数据被广泛应用于金融尧交通尧环境尧 医疗尧能源尧农业等行业遥 1. 智能交通遥 渊1冤智能交通整合了物联网尧大数据尧云计 算尧人工智能等技术遥 渊2冤GPS尧卡口尧视频检测尧浮动车尧地感线圈 等产生的交通流监测数据尧视频监控数据尧系统 数据尧服务数据等构筑了交通大数据遥交通大数 据是智能交通中野智能冶的基础遥 第四章 数据处理与应用 类别 数据间关系的描述 可视化方法 有关时间趋势的可视化 事物随时间的推移而变化的过程或趋势 柱形图尧折线图等 有关比例的可视化 各部分的大小及其占总体比例的情况 饼图尧环形图等 有关关系的可视化 变量之间的关联性和分布关系 散点图尧气泡图等 有关差异的可视化 包括多种变量的对象与同类之间的差异和联系 雷达图 有关空间关系的可视化 分析和展示与地理位置相关的数据 地图 渊2冤目前通用的图处理软件主要包括两 类院一类是图数据库袁如 Neo4j尧InfiniteGraph尧 OrientDB 等 曰另一类是并行图处理系统 袁如 Google Pregel尧Apache Giraph尧卡内基梅隆大学 的 GraphLab尧运行于 Spark平台的 GraphX等遥 6. 实时处理与批处理的整合遥 开发者在同一个平台既可以做批处理袁也 可以做流计算袁还可以进行两种模式的混合使 用遥 大数据处理系统 Summingbird实现了批处 理和流计算在一个平台架构下的整合渊Hadoop垣 Storm冤遥 平台的整合缩短了批处理与流处理之 间的切换延时时间袁有利于减少系统的开销袁降 低使用成本遥 考点三 数据可视化 1. 数据可视化是将数据以图形图像等形 式表示袁直接呈现数据中蕴含信息的处理过程遥 2. 可视化的作用遥 渊1冤快捷观察与追踪数据遥 利用可视化技 术袁 可以将处于不断变化中的数据生成实时变 化的可视化图表袁帮助人们快捷地发现各种数 据的动态变化过程遥 渊2冤实时分析数据遥 利用可视化技术袁可以 实时将数据转换为图像呈现给用户袁帮助用户 分析数据的内涵和特征遥 渊3冤增强数据的解释力与吸引力遥利用数据 图表袁直观尧动态地呈现新闻尧研究报告等内容袁 可以帮助人们在短时间内了解内容尧理解数据 背后的含义袁同时增强数据的吸引力袁提高人们 的阅读兴趣遥 3. 可视化的基本方法遥 33 课堂精讲 学考一号 高中学业水平复习方略 信息技术 渊3冤云计算为大数据的分析应用提供了速 度保障遥基于深度学习的智能分析算法袁为大数 据的分析应用提供了有力的支撑遥 渊4冤智能交通主要通过交通信息服务尧交通 管理尧公共交通尧车辆控制尧货运管理尧电子收 费尧紧急救援等服务子系统为用户提供服务遥 2. 电子商务遥 渊1冤电商数据来源院大型电商企业拥有大量 用户数据袁同时袁在交易尧营销尧供应链尧仓储尧配 送和售后等环节也产生了大量数据遥 渊2冤电商数据通过电商企业的数据平台袁为 其电子商务平台上的商户和客户提供精准营 销尧供应链管理尧智能网站等多种数据服务遥 1达标 文本数据处理的一般过程包括 分词尧特征提取尧数据分析和结果呈现等遥 中文 词与词之间呈现紧密连接的特点遥 下列说法错 误的是渊 冤 A. 中文分词方法十分复杂 B. 实现完全准确的中文分词还很困难 C. 不同的中文分词算法不能结合使用 D. 基于规则的分词方法还处于试验阶段 2达标 下列关于文本数据分析与应用 的说法袁错误的是渊 冤 A. 标签云是文本可视化的一种方式 B. 标签云用词频表现文本特征 C. 文本情感分析的研究领域是专门尧单 一的 D. 文本情感分析应用于多个不同领域 3达标 北斗卫星地图提供的实时路况 服务可以实时查询各大城市的路况信息袁 利用 的是可视化技术袁 那么下列不属于可视化的作 用的是渊 冤 A. 快捷观察与追踪数据 B. 实时数据分析 C. 增强数据的解释力与吸引力 D. 增加用户的时间成本 4达标 如图是图片号与图像质量的散 点图袁该可视化表达的数据关系是渊 冤 A. 有关时间趋势的可视化 B. 有关比例的可视化 C. 有关关系的可视化 D. 有关差异的可视化 5达标 下列有关交通管理系统的叙述袁 错误的是渊 冤 A. 交通管理系统主要提供给驾驶者使用 B. 交通管理系统用于检测尧控制和管理公 路交通 C. 交通管理系统采用信息采集尧处理和传 输系统 D. 交通管理系统能对交通进行优化调控 6达标 下列关于大数据应用的说法袁错 误的是渊 冤 A. 随着大数据在各行业的应用袁数据成为 核心资产 B. 云计算对大数据的分析应用无太大帮助 C. 智能分析算法为大数据的分析应用提 供了有力的支撑 D. 大数据在电子商务领域的应用袁为新冠 疫情过后商业的振兴起到了推动作用 7达标 有如下 Python程序段院 import jieba a="保护环境从我做起" k=jieba.cut(a,cut_all=True) #全模式分词 s=" ".join(k) print(s) 执行程序后袁输出的结果是渊 冤 A. 保护保护环保护环境环境从我做起 做起 B. 保护 保护环 保护环境 环境 从我做 起 做起 C. 咱"保护","保护环","保护环境环境","从 我做起","做起"暂 D. 保护环境从我做起 图片号90807060504030201000.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 低质量图像 高质量图像 34 课堂精讲 学考一号 高中学业水平复习方略 信息技术 第四章 数据处理与应用 第一节 常用表格数据的处理 考点一 数据整理 考点二 数据计算 考点三 数据图表呈现 达标 1. C揖解析铱缺失的数据可以忽略或采用平均值尧中间 值或概率统计值进行填充袁不能用任意值填充曰异常数据可能是 要去掉的噪声数据或含有重要信息的数据袁 需根据具体情况进 行分析判断曰格式不一致的数据需要根据后续分析和挖掘的需 要进行数据转换遥 达标 2. 淤=D733/SUM ($D733:$J733)渊或=D733/SUM ($D $733:$J$733)冤 于BD揖解析铱淤在向右自动填充过程中袁区域 D733:J733固定不变袁需要绝对引用或列绝对引用遥 于分析表格 数据时袁如遇异常数据袁应该检查问题并处理袁不可以直接删除 或忽略曰为了更直观地呈现单科占比袁可以选用饼图遥 第二节 编程处理数据 考点 编程处理数据 达标 1. D揖解析铱该程序是对野李冶姓对应的野借阅次数冶值进 行求和袁因此袁输出内容为 62遥 达标 2. 渊1冤float(stu咱1暂)+float(stu咱2暂) 渊2冤淤 len(zflst)渊或 len(data)冤 于zflst咱j暂>max渊或 zflst咱j暂>=max冤 渊3冤not flag咱i暂 and zflst咱i暂==max渊或 flag咱i暂==False and zflst咱i暂==max冤揖解析铱 渊1冤代码野for stu in data冶袁stu是 data的元素袁计算总分则是取出 stu中的第二尧三两个元素转实型后相加遥 渊2冤淤程序中出现变量 n袁所以需对变量 n赋值袁根据题目意思 n是学生个数遥于循环 10 次袁每次都遍历所有学生袁从未选出的学生中找出一个总分最高 分遥 假设 max最大袁然后与所有学生总分一一比对袁若 zflst咱j暂> max或 zflst咱j暂>=max则替换 max袁并记录当前最大值的下标遥渊3冤 根据题意野第十名若有同分一起输出冶袁所以程序中最后一个 while循环是比对与第十个 max同分的学生袁改错处则是从未被 选择过的学生中查找同分袁故答案为院not flag咱i暂 and zflst咱i暂 ==max 或 flag咱i暂==False and zflst咱i暂==max遥 达标 3. A揖解析铱可选语句淤于进行分组求和尧盂榆进行升 序排序曰统计全年发布次数最多的 5 种气象预警袁需要依据野预 警名称冶进行分组袁对发布次数进行统计曰在统计时袁根据输出中 的野df_s咱0:5暂冶可知输出的是最前面的 5条数据袁需要降序排序袁 A符合题意遥 第三节 文本数据处理及大数据 考点一 文本数据处理 考点二 大数据处理的基本思想与架构 考点三 数据可视化 考点四 大数据典型应用 达标 1. C揖解析铱在实际应用中袁可以将不同的分词算法结 合使用遥 达标 2. C揖解析铱文本情感分析作为一个多学科交叉的研 究领域袁涉及自然语言处理尧信息检索尧机器学习尧人工智能等 领域遥 达标 3. D揖解析铱数据可视化使用户可以通过简单的人机 交互袁获取直观多样的信息袁大大节约了用户的时间成本遥 达标 4. C揖解析铱散点图用于表现 2~3 个变量之间的关系袁 以圆点的多少或疏密展示成对的数和它们所代表的趋势之间 的关系袁该类图表属于有关关系的可视化遥 达标 5. A揖解析铱交通管理系统主要提供给交通管理者使用遥 达标 6. B揖解析铱云计算使千亿数据的检索实现了秒级返 回袁为大数据的分析应用提供了速度保障遥 达标 7. B揖解析铱程序将变量 a 进行全模式分词渊将句子中 所有可能的词都列举出来冤存于 k中袁并将 k以字符串的形式输 出并且用空格隔开遥 第五章 人工智能及应用 第一节 人工智能的产生与发展 考点一 人工智能的概念 考点二 人工智能的发展历程 达标 1. A揖解析铱野专家系统冶属于符号主义曰行为主义人工 智能从野交互要反馈冶角度来刻画智能行为曰联结主义通过模仿 人类大脑中神经元之间的复杂交互来进行认知推理遥 达标 2. A揖解析铱深度学习是联结主义的典型代表遥 达标 3. A揖解析铱人工智能不可以代替人类完成所有工作袁 有很多需要主观判断的任务需要人类完成曰人工智能技术的发 展需要以计算机技术为载体曰行为主义人工智能采用问题引导下 的试错学习遥 达标 4. C揖解析铱符号主义人工智能先以逻辑形式表达知 识袁然后依靠推理引擎推测结论袁A错误曰符号主义人工智能需要 手工构造知识库袁特征是知识库+推理袁B错误曰混合增强人工智 能是多种智能体的混合形式袁其中人类智能是智能回路的总开 关袁D错误遥 第二节 人工智能的应用与对社会的影响 考点一 人工智能的应用 考点二 人工智能对社会的影响 达标 1. A揖解析铱智能家居设备能使人们的家居生活更加安 全尧舒适尧便捷袁且智能环保遥 达标 2. A揖解析铱无人驾驶是人工智能的主要应用方向之 一曰训练数据的规模和正确性会严重影响深度学习的效果和最 终结论遥 深度学习需要海量数据和超大规模的算力支持曰符号主 义人工智能的实现需要事先手工构造知识库遥 行为主义和联结 主义都无需构造知识库曰人脸识别技术一般是通过联结主义人 工智能实现的遥 联结主义在诸如文字尧图像和声音等数据的识别 优势明显遥 达标 3. C揖解析铱人工智能不能取代所有工作岗位遥 必修 2 信息系统与社会 第一章 信息系统概述 第一节 信息系统的组成与功能 考点一 信息技术与信息系统 达标. B揖解析铱由用户查询医院尧科室尧医生等环节生成挂 号业务袁因此该系统属于业务处理系统曰信息系统中由人或机器 运用资源来执行一个过程或进行一个活动曰信息系统是指由硬 件软件设施尧通信网络尧数据和用户构成的人机交互系统遥 考点二 信息系统的组成与功能 达标 1. C揖解析铱信息系统中的硬件是信息系统中看得见尧 摸得着的设备袁包含计算机硬件尧移动终端硬件尧通信网络设备 等遥 传感器属于计算机硬件中的输入设备遥 66

资源预览图

第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略课堂精讲
1
第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略课堂精讲
2
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。