第3节文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练

2025-03-18

| 2份

| 4页

| 44人阅读

| 5人下载

金华市合创展教育图书有限公司

进店逛逛

资源信息

学段	高中
学科	信息技术
教材版本	-
年级	高三
章节	-
类型	题集
知识点	数据与数据的组织
使用场景	高考复习-学业考试
学年	2025-2026
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	ZIP
文件大小	1.24 MB
发布时间	2025-03-18
更新时间	2025-03-18
作者	金华市合创展教育图书有限公司
品牌系列	学考一号·高中复习方略
审核时间	2025-02-19
下载链接	https://m.zxxk.com/soft/50520068.html
价格	2.00储值（1储值=1元）
来源	学科网

内容正文：

一尧选择题 1. 文本数据处理的主要步骤包括院淤数据分析曰于特征提取曰盂分词曰榆结果呈现曰虞文本数据获取遥下列文本数据处理顺序正确的是渊冤 A. 淤虞于盂榆 B. 于虞盂淤榆 C. 虞淤盂于榆 D. 虞盂于淤榆 2. 下列关于数据可视化基本方法的说法袁不正确的是渊冤 A. 有关时间趋势的可视化用来展现随着时间推移而变化的数据袁常用折线图表示 B. 有关比例的可视化用来展现各部分的大小及其占总体比例关系的数据袁常用饼图表示 C. 有关差异的可视化用来探寻多种变量的对象与同类之间的差异和联系袁常用柱形图表示 D. 有关关系的可视化用来探究关联性数据的分布关系袁常用散点图和气泡图表示 3. 下列关于数据可视化的说法袁正确的是渊冤 A. 数据可视化是指静态数据的可视化 B. 决定数据可视化表现形式的是数据结构 C. 可视化探究具有关联性数据的分布关系可用散点图 D. 可视化展现时间趋势类的数据可用雷达图 4. 下列有关大数据与大数据处理的说法正确的是渊冤 A. 大数据可以采用抽样数据分析袁目的是让处理速度更快 B. 在大数据商品个性化推荐中袁要分析人们购买商品的原因袁从而提供精准推荐 C. 文本数据处理一般先提取特征再进行分词尧数据分析等处理 D. 静态大数据的批处理可以和流数据的实时处理相整合袁降低切换延时时间 5. 下列关于中文分词方法的描述中袁属于基于词典的分词方法的是渊冤 A. 在分析句子时与词典中的词语进行对比袁词典中出现的就划分为词 B. 依据上下文中相邻字出现的频率统计袁同时出现的次数越高就越可能组成一个词 C. 让计算机模拟人的理解方式袁根据大量的现有资料和规则进行学习袁然后分词 D. 依据词语与词语之间的空格进行分词 6. 某文本数据集的标签云如下图所示袁下列说法正确的是渊冤 A. 对数据集中文分词后可直接创建标签云袁无须特征提取 B. 标签云须显示该数据集包含的全部词语 C. 该数据集中袁词语野初心冶比野得失冶的出现频率高 D. 标签云为更好地理解文本和发现知识提供了新的有效途径 7. 下列关于大数据的说法袁不正确的是渊冤 A. 静态数据一般采用批处理计算进行处理 B. 社交网络数据可采用图计算进行处理第三节文本数据处理及大数据 101 C. 利用大数据袁可以对天气情况进行预测 D. 随着时间的流逝袁流数据的价值一般会随之提高 8. 下列大数据服务中袁应用了交通大数据的是渊冤淤车载导航于公交车线路查询盂个性化商品推荐榆出行路线规划虞基因测序愚航班实时跟踪 A. 淤于盂 B. 榆虞愚 C. 淤于榆虞 D. 淤于榆愚 9. 下列关于大数据的说法袁正确的是渊冤 A. 在大数据时代袁数据全都是机器自动产生的 B. 大数据要抽取部分有价值的数据进行分析袁而不是分析全体数据 C. 处理大数据时袁必须保证每个数据都是精确无误的 D. 大数据采集到的数据有结构化的尧非结构化的和半结构化的 10. 处理大数据时一般采用野分治思想冶袁下列关于分治思想的说法袁不正确的是渊冤 A. 分治思想将一个复杂的问题分成两个及以上相似的子问题并求解 B. 各班先收集学生选课情况袁再汇总全校数据袁体现了分治思想 C. MapReduce 主要用于处理数据量较小的分布式并行计算模型 D. 分布式计算利用的就是分治思想 11. 下列关于大数据在各领域应用的描述袁错误的是渊冤 A. 零售行业可利用大数据开展精准营销 B. 医疗行业可利用大数据进行临床决策 C. 互联网行业可利用大数据进行社交网络分析 D. 金融行业可利用大数据进行客户信用度分析 12. 智能交通中袁用于采集交通视频尧车牌图片数据的设备是渊冤 A. 摄像机 B. 地感线圈检测器 C. 红外线检测器 D. 雷达检测器 13. 智能交通中野智能冶的基础是渊冤 A. 数据系统 B. 云计算 C. 智能分析算法 D. 交通大数据 14. 关于大数据处理袁下列说法不正确的是渊冤 A. 处理大数据时袁一般采用分治思想 B. 对静态数据一般采用流计算模式进行处理 C. 文本数据处理时需要将非结构化的文本原始状态转化成结构化数据 D. 数据的可视化可以帮助用户更快捷观察与追踪数据二尧非选择题 15. 小张对野工作报告.txt冶进行文本分析遥他使用 jieba模块进行中文分词袁统计高频词袁并使用 wordcloud模块生成标签云袁如图所示遥请回答下列问题院渊1冤小张进行数据处理的具体步骤如下袁正确的步骤顺序是遥淤提取野工作报告冶关键词特征于对野工作报告冶全文进行分词盂获取野工作报告冶全文榆绘制野工作报告冶标签云图 102 渊2冤jieba 模块分词提供三种分词模式要要精确模式尧全模式和搜索引擎模式袁能够较好地满足中文分词需求遥阅读题目代码袁可知小张使用的分词模式是渊单选袁填字母院A. 精确模式/B. 全模式/C. 搜索引擎模式冤遥渊3冤进行特征提取时袁需要统计各关键词的出现次数袁请在画线处填入合适的代码遥 import jieba import numpy as np import matplotlib.pyplot as plt from PIL import Image from wordcloud import WordCloud, ImageColorGenerator fp=open("工作报告.txt","r",encoding="UTF-8") text=fp.read() fp.close() words=jieba.lcut(text) counts={} #用来记录词频的字典 for word in words: if len(word)>1: #只记录长度大于 1的词 if word in counts: counts咱word暂= 淤 else: counts咱word暂= 于 #绘制使用背景图片的标签云 path_img="tp.png" background_image=np.array(Image.open(path_ img)) wordcloud=WordCloud(font_path="C:/Windows/ Fonts/simfang.ttf",background_color = "white", mask=background_image).fit_words(counts) #设置字体袁不然会出现文字乱码 #mask参数=图片背景袁必须要写上 plt.imshow(wordcloud) plt.axis("off") plt.show() 淤于 103 野姓名冶数据列使用 sum()函数统计袁不能正确得出人数曰C. 对 df中数据按野总分冶为关键字进行分组袁并使用 count()函数统计出总人数后袁无法通过筛选省份得到浙江的总人数遥渊2冤遍历 lst列表切片取出分数与分数线 h比较袁超过分数线则需记录省份名称袁判断省份名称是否已存在于字典中袁如果在则将新的准考证号连接上去袁若不存在则新建一个键值对遥渊3冤淤选取相应的一等奖数据遥于结合上文 df2=df1.groupby("省份",as_index= False).count()可知袁野省份冶已经作为索引袁按照野获奖人数冶进行了降序排序袁选取前 5条记录袁存入 DataFrame对象 g中袁因此绘制图像时袁应该使用院g.index,g.获奖人数遥 12. 淤df咱df咱"盈亏"暂>0暂渊或 df咱df.盈亏>0暂冤于df.盈亏.sum()渊或 df咱"盈亏"暂.sum()冤盂df1.sort_values ("盈亏",ascending=False) 榆bar 揖解析铱淤筛选的条件为 df咱"盈亏"暂>0遥于该题为列求和袁df咱"列名"暂.sum()或者 df.列名.sum()遥盂该题为按列数据降序排序遥榆由图可知所得的图为垂直柱形图遥 13. 渊1冤df咱"销售单价"暂*df咱"销售数"暂-df咱"进货总价"暂渊2冤淤商品品类于maxt=i 渊3冤淤j-st 于nums 揖解析铱渊2冤淤其根据商品品类进行分类统计袁分类统计之后袁商品品类列变成了行索引遥于由上问可知袁其行索引为商品品类遥因此 maxt最后存储其最大值得行索引就为其结果袁其结果为 maxt= i遥渊3冤淤st记录小于当前年龄段开始的人数袁野while j<n and df2.at咱df2.index咱j暂,"客户年龄"暂<=ages 咱i暂:冶即依次寻找小于当前年龄段的人数渊包括前一年龄段冤袁nums咱i暂记录所有小于当前年龄段的人数减去小于前一年龄段的人数遥于y轴为 nums袁表示各个年龄段的人数遥第三节文本数据处理及大数据 1. D 2. C揖解析铱有关差异的可视化用来探寻多种变量的对象与同类之间的差异和联系袁常用雷达图表示遥 3. C揖解析铱利用可视化技术袁可以将处于不断变化中的数据生成实时变化的可视化图表曰不同的数据类型决定了可视化的表现形式曰展现时间趋势类的数据可采用柱形图和折线图遥 4. D揖解析铱大数据要分析全体样本而不是抽样调查袁大数据技术支持大数据的全样处理曰大数据商品个性化推荐中分析的是用户购买商品之间的关联性袁而不是用户购买该商品的原因曰文本数据处理的一般步骤是分词尧特征提取尧数据分析和结果呈现遥 5. A 6. D揖解析铱中文分词后须进行特征提取曰标签云用词频表现文本特征袁将关键词按照一定的顺序和规律排列袁不显示全部词语曰野得失冶比野初心冶出现的频率高遥 7. D揖解析铱随着时间的流逝袁流数据的价值一般会随之降低遥 8. D 9. D揖解析铱大数据时代袁数据的来源众多袁既有人工产生的袁也有机器自动产生的曰大数据要分析的是全体数据而不是抽样数据曰对于大数据的处理不再追求精确性袁而是能够接受数据的混杂性遥 10. C揖解析铱MapReduce是一种分布式并行计算模型袁当数据量很大时袁它的优势就体现出来了袁其核心处理思想是将任务分解并分发到多个节点上进行处理袁最后汇总输出遥 11. B 12. A 13. D揖解析铱数据贯穿在智能交通的感知尧处理尧应用等各个环节袁交通大数据是智能交通中野智能冶的基础遥 14. B揖解析铱静态数据使用批处理模式袁流计算模式用于处理流数据遥 15. 渊1冤盂于淤榆渊2冤A 渊3冤淤counts咱word暂+1 于1 揖解析铱渊1冤文本数据处理的一般流程为获取数据源寅分词寅特征提取寅数据分析寅结果呈现遥渊2冤jieba默认分词模式为精确模式袁全模式对应代码 jieba.lcut(text,ut_all=True)袁搜索引擎模式对应代码为 jieba.lcut_for_search(text)遥渊3冤counts是用来记录词频的字典袁若 word已经在字典中袁将其对应值加 1袁否则设置其值为 1袁故淤处和于处填入代码分别为 counts咱word暂+1和 1遥第五章人工智能及应用第一节人工智能的产生与发展 1. D揖解析铱传感器采集数据属于传感技术曰数据自动发送到服务器体现了数据输入与传输功能曰刷身份证识别用户信息属于射频识别技术曰指纹识别身份认证属于人工智能技术中的生物特征识别遥 2. A揖解析铱B属于跨领域人工智能曰人工智能都是需要数据的曰人工智能在改善人类生活尧促进经济发展的同时也会威胁人类安全遥 3. A揖解析铱问题引导下试错学习属于行为主义曰人类智能是智能回路的总开关曰人工智能发展会有两面性袁要重视负面的影响遥 4. C揖解析铱人工智能可以进行文本情感分析曰深度学习是联结主义的典型代表曰训练样本数量越多袁神经网络的性能不一定最好遥训练样本数据越多袁预测越好袁但是当训练样本量大袁如果网络层次太少袁特征训练不充分袁将会导致训练不充分袁性能不一定能同步增加遥 5. C揖解析铱行为主义需要在环境的交互中不断学习曰图灵测试是测试机器是否具有智能的一种方法袁不是唯一方法曰专家系统是符号主义的典型代表遥 203

资源预览图

第3节文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练

所属专辑

教辅

【学考一号】2025年高中信息技术学业水平复习方略精讲精练

高三信息技术第三方合辑 29 份文档

485人已阅读

第3节 文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练

资源信息

内容正文：

资源预览图

第3节文本数据处理及大数据-【学考一号】2025年高中信息技术学业水平复习方略精讲精练