第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练

2025-03-18
| 2份
| 4页
| 44人阅读
| 5人下载
金华市合创展教育图书有限公司
进店逛逛

资源信息

学段 高中
学科 信息技术
教材版本 -
年级 高三
章节 -
类型 题集
知识点 数据与数据的组织
使用场景 高考复习-学业考试
学年 2025-2026
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 ZIP
文件大小 1.24 MB
发布时间 2025-03-18
更新时间 2025-03-18
作者 金华市合创展教育图书有限公司
品牌系列 学考一号·高中复习方略
审核时间 2025-02-19
下载链接 https://m.zxxk.com/soft/50520068.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

一尧选择题 1. 文本数据处理的主要步骤包括院淤数据分 析曰于特征提取曰盂分词曰榆结果呈现曰虞文 本数据获取遥 下列文本数据处理顺序正确 的是 渊 冤 A. 淤虞于盂榆 B. 于虞盂淤榆 C. 虞淤盂于榆 D. 虞盂于淤榆 2. 下列关于数据可视化基本方法的说法袁不正 确的是 渊 冤 A. 有关时间趋势的可视化用来展现随着时 间推移而变化的数据袁常用折线图表示 B. 有关比例的可视化用来展现各部分的大 小及其占总体比例关系的数据袁常用饼 图表示 C. 有关差异的可视化用来探寻多种变量的 对象与同类之间的差异和联系袁常用柱 形图表示 D. 有关关系的可视化用来探究关联性数据 的分布关系袁常用散点图和气泡图表示 3. 下列关于数据可视化的说法袁正确的是渊 冤 A. 数据可视化是指静态数据的可视化 B. 决定数据可视化表现形式的是数据结构 C. 可视化探究具有关联性数据的分布关系 可用散点图 D. 可视化展现时间趋势类的数据可用雷 达图 4. 下列有关大数据与大数据处理的说法正确 的是 渊 冤 A. 大数据可以采用抽样数据分析袁目的是 让处理速度更快 B. 在大数据商品个性化推荐中袁要分析人 们购买商品的原因袁从而提供精准推荐 C. 文本数据处理一般先提取特征再进行分 词尧数据分析等处理 D. 静态大数据的批处理可以和流数据的实 时处理相整合袁降低切换延时时间 5. 下列关于中文分词方法的描述中袁属于基于 词典的分词方法的是 渊 冤 A. 在分析句子时与词典中的词语进行对 比袁词典中出现的就划分为词 B. 依据上下文中相邻字出现的频率统计袁 同时出现的次数越高就越可能组成一 个词 C. 让计算机模拟人的理解方式袁 根据大量 的现有资料和规则进行学习袁然后分词 D. 依据词语与词语之间的空格进行分词 6. 某文本数据集的标签云如下图所示袁下列说 法正确的是 渊 冤 A. 对数据集中文分词后可直接创建标签 云袁无须特征提取 B. 标签云须显示该数据集包含的全部词语 C. 该数据集中袁词语野初心冶比野得失冶的出 现频率高 D. 标签云为更好地理解文本和发现知识提 供了新的有效途径 7. 下列关于大数据的说法袁不正确的是 渊 冤 A. 静态数据一般采用批处理计算进行处理 B. 社交网络数据可采用图计算进行处理 第三节 文本数据处理及大数据 101 C. 利用大数据袁可以对天气情况进行预测 D. 随着时间的流逝袁流数据的价值一般会 随之提高 8. 下列大数据服务中袁应用了交通大数据的是 渊 冤 淤车载导航 于公交车线路查询 盂个 性化商品推荐 榆出行路线规划 虞基 因测序 愚航班实时跟踪 A. 淤于盂 B. 榆虞愚 C. 淤于榆虞 D. 淤于榆愚 9. 下列关于大数据的说法袁正确的是 渊 冤 A. 在大数据时代袁数据全都是机器自动产 生的 B. 大数据要抽取部分有价值的数据进行分 析袁而不是分析全体数据 C. 处理大数据时袁必须保证每个数据都是 精确无误的 D. 大数据采集到的数据有结构化的尧非结 构化的和半结构化的 10. 处理大数据时一般采用野分治思想冶袁下列 关于分治思想的说法袁不正确的是 渊 冤 A. 分治思想将一个复杂的问题分成两个 及以上相似的子问题并求解 B. 各班先收集学生选课情况袁再汇总全校 数据袁体现了分治思想 C. MapReduce 主要用于处理数据量较小 的分布式并行计算模型 D. 分布式计算利用的就是分治思想 11. 下列关于大数据在各领域应用的描述袁错 误的是 渊 冤 A. 零售行业可利用大数据开展精准营销 B. 医疗行业可利用大数据进行临床决策 C. 互联网行业可利用大数据进行社交网 络分析 D. 金融行业可利用大数据进行客户信用 度分析 12. 智能交通中袁用于采集交通视频尧车牌图片 数据的设备是 渊 冤 A. 摄像机 B. 地感线圈检测器 C. 红外线检测器 D. 雷达检测器 13. 智能交通中野智能冶的基础是 渊 冤 A. 数据系统 B. 云计算 C. 智能分析算法 D. 交通大数据 14. 关于大数据处理袁下列说法不正确的是 渊 冤 A. 处理大数据时袁一般采用分治思想 B. 对静态数据一般采用流计算模式进行 处理 C. 文本数据处理时需要将非结构化的文 本原始状态转化成结构化数据 D. 数据的可视化可以帮助用户更快捷观 察与追踪数据 二尧非选择题 15. 小张对野工作报告.txt冶进行文本分析遥 他使 用 jieba模块进行中文分词袁 统计高频词袁 并使用 wordcloud模块生成标签云袁如图所 示遥 请回答下列问题院 渊1冤小张进行数据处理的具体步骤如下袁正 确的步骤顺序是 遥 淤提取野工作报告冶关键词特征 于对野工作报告冶全文进行分词 盂获取野工作报告冶全文 榆绘制野工作报告冶标签云图 102 渊2冤jieba 模块分词提供三种分词模式要要 精确模式尧全模式和搜索引擎模式袁能够较 好地满足中文分词需求遥阅读题目代码袁可 知小张使用的分词模式是 渊单 选袁填字母院A. 精确模式/B. 全模式/C. 搜 索引擎模式冤遥 渊3冤进行特征提取时袁需要统计各关键词的 出现次数袁请在画线处填入合适的代码遥 import jieba import numpy as np import matplotlib.pyplot as plt from PIL import Image from wordcloud import WordCloud, ImageColorGenerator fp=open("工作报告.txt","r",encoding="UTF-8") text=fp.read() fp.close() words=jieba.lcut(text) counts={} #用来记录词频的字典 for word in words: if len(word)>1: #只记录长度大于 1的词 if word in counts: counts咱word暂= 淤 else: counts咱word暂= 于 #绘制使用背景图片的标签云 path_img="tp.png" background_image=np.array(Image.open(path_ img)) wordcloud=WordCloud(font_path="C:/Windows/ Fonts/simfang.ttf",background_color = "white", mask=background_image).fit_words(counts) #设置字体袁不然会出现文字乱码 #mask参数=图片背景袁必须要写上 plt.imshow(wordcloud) plt.axis("off") plt.show() 淤 于 103 野姓名冶数据列使用 sum()函数统计袁不能正确得出 人数曰C. 对 df中数据按野总分冶为关键字进行分 组袁并使用 count()函数统计出总人数后袁无法通过 筛选省份得到浙江的总人数遥 渊2冤遍历 lst列表切 片取出分数与分数线 h比较袁超过分数线则需记 录省份名称袁判断省份名称是否已存在于字典 中袁如果在则将新的准考证号连接上去袁若不存 在则新建一个键值对遥 渊3冤淤选取相应的一等奖数 据遥 于结合上文 df2=df1.groupby("省份",as_index= False).count()可知袁野省份冶已经作为索引袁按照野获 奖人数冶进行了降序排序袁选取前 5条记录袁存入 DataFrame对象 g中袁 因此绘制图像时袁 应该使 用院g.index,g.获奖人数遥 12. 淤df咱df咱"盈亏"暂>0暂渊或 df咱df.盈亏>0暂冤 于df.盈 亏.sum()渊或 df咱"盈亏"暂.sum()冤 盂df1.sort_values ("盈亏",ascending=False) 榆bar 揖解析铱淤筛选的条件为 df咱"盈亏"暂>0遥 于该题为 列求和袁df咱"列名"暂.sum()或者 df.列名.sum()遥 盂该 题为按列数据降序排序遥 榆由图可知所得的图为 垂直柱形图遥 13. 渊1冤df咱"销售单价"暂*df咱"销售数"暂-df咱"进货总价"暂 渊2冤淤商品品类 于maxt=i 渊3冤淤j-st 于nums 揖解析铱渊2冤淤其根据商品品类进行分类统计袁分 类统计之后袁商品品类列变成了行索引遥 于由上 问可知袁其行索引为商品品类遥 因此 maxt最后存 储其最大值得行索引就为其结果袁其结果为 maxt= i遥渊3冤淤st记录小于当前年龄段开始的人数袁野while j<n and df2.at咱df2.index咱j暂,"客户年龄"暂<=ages 咱i暂:冶即依次寻找小于当前年龄段的人数渊包括前 一年龄段冤袁nums咱i暂记录所有小于当前年龄段的 人数减去小于前一年龄段的人数遥 于y轴为 nums袁 表示各个年龄段的人数遥 第三节 文本数据处理及大数据 1. D 2. C揖解析铱有关差异的可视化用来探寻多种变量的 对象与同类之间的差异和联系袁常用雷达图表示遥 3. C揖解析铱利用可视化技术袁可以将处于不断变化中 的数据生成实时变化的可视化图表曰不同的数据类 型决定了可视化的表现形式曰展现时间趋势类的数 据可采用柱形图和折线图遥 4. D揖解析铱大数据要分析全体样本而不是抽样调查袁 大数据技术支持大数据的全样处理曰大数据商品个 性化推荐中分析的是用户购买商品之间的关联性袁 而不是用户购买该商品的原因曰文本数据处理的一 般步骤是分词尧特征提取尧数据分析和结果呈现遥 5. A 6. D揖解析铱中文分词后须进行特征提取曰标签云用词 频表现文本特征袁将关键词按照一定的顺序和规律 排列袁不显示全部词语曰野得失冶比野初心冶出现的频 率高遥 7. D揖解析铱随着时间的流逝袁流数据的价值一般会随 之降低遥 8. D 9. D揖解析铱大数据时代袁数据的来源众多袁既有人工 产生的袁也有机器自动产生的曰大数据要分析的是 全体数据而不是抽样数据曰对于大数据的处理不再 追求精确性袁而是能够接受数据的混杂性遥 10. C揖解析铱MapReduce是一种分布式并行计算模型袁 当数据量很大时袁它的优势就体现出来了袁其核 心处理思想是将任务分解并分发到多个节点上 进行处理袁最后汇总输出遥 11. B 12. A 13. D揖解析铱数据贯穿在智能交通的感知尧处理尧应用 等各个环节袁交通大数据是智能交通中野智能冶的 基础遥 14. B揖解析铱静态数据使用批处理模式袁流计算模式 用于处理流数据遥 15. 渊1冤盂于淤榆 渊2冤A 渊3冤淤counts咱word暂+1 于1 揖解析铱渊1冤文本数据处理的一般流程为获取数据 源寅分词寅特征提取寅数据分析寅结果呈现遥 渊2冤jieba默认分词模式为精确模式袁全模式对应 代码 jieba.lcut(text,ut_all=True)袁搜索引擎模式对 应代码为 jieba.lcut_for_search(text)遥 渊3冤counts是 用来记录词频的字典袁若 word已经在字典中袁将 其对应值加 1袁否则设置其值为 1袁故淤处和于处 填入代码分别为 counts咱word暂+1和 1遥 第五章 人工智能及应用 第一节 人工智能的产生与发展 1. D揖解析铱传感器采集数据属于传感技术曰数据自动 发送到服务器体现了数据输入与传输功能曰刷身 份证识别用户信息属于射频识别技术曰指纹识别身 份认证属于人工智能技术中的生物特征识别遥 2. A揖解析铱B属于跨领域人工智能曰人工智能都是需 要数据的曰人工智能在改善人类生活尧促进经济发 展的同时也会威胁人类安全遥 3. A揖解析铱问题引导下试错学习属于行为主义曰人类 智能是智能回路的总开关曰人工智能发展会有两 面性袁要重视负面的影响遥 4. C揖解析铱人工智能可以进行文本情感分析曰深度 学习是联结主义的典型代表曰训练样本数量越多袁 神经网络的性能不一定最好遥 训练样本数据越多袁 预测越好袁但是当训练样本量大袁如果网络层次太 少袁特征训练不充分袁将会导致训练不充分袁性能不 一定能同步增加遥 5. C揖解析铱行为主义需要在环境的交互中不断学习曰 图灵测试是测试机器是否具有智能的一种方法袁不 是唯一方法曰专家系统是符号主义的典型代表遥 203

资源预览图

第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练
1
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。