内容正文:
一尧选择题
1. 文本数据处理的主要步骤包括院淤数据分
析曰于特征提取曰盂分词曰榆结果呈现曰虞文
本数据获取遥 下列文本数据处理顺序正确
的是 渊 冤
A. 淤虞于盂榆 B. 于虞盂淤榆
C. 虞淤盂于榆 D. 虞盂于淤榆
2. 下列关于数据可视化基本方法的说法袁不正
确的是 渊 冤
A. 有关时间趋势的可视化用来展现随着时
间推移而变化的数据袁常用折线图表示
B. 有关比例的可视化用来展现各部分的大
小及其占总体比例关系的数据袁常用饼
图表示
C. 有关差异的可视化用来探寻多种变量的
对象与同类之间的差异和联系袁常用柱
形图表示
D. 有关关系的可视化用来探究关联性数据
的分布关系袁常用散点图和气泡图表示
3. 下列关于数据可视化的说法袁正确的是渊 冤
A. 数据可视化是指静态数据的可视化
B. 决定数据可视化表现形式的是数据结构
C. 可视化探究具有关联性数据的分布关系
可用散点图
D. 可视化展现时间趋势类的数据可用雷
达图
4. 下列有关大数据与大数据处理的说法正确
的是 渊 冤
A. 大数据可以采用抽样数据分析袁目的是
让处理速度更快
B. 在大数据商品个性化推荐中袁要分析人
们购买商品的原因袁从而提供精准推荐
C. 文本数据处理一般先提取特征再进行分
词尧数据分析等处理
D. 静态大数据的批处理可以和流数据的实
时处理相整合袁降低切换延时时间
5. 下列关于中文分词方法的描述中袁属于基于
词典的分词方法的是 渊 冤
A. 在分析句子时与词典中的词语进行对
比袁词典中出现的就划分为词
B. 依据上下文中相邻字出现的频率统计袁
同时出现的次数越高就越可能组成一
个词
C. 让计算机模拟人的理解方式袁 根据大量
的现有资料和规则进行学习袁然后分词
D. 依据词语与词语之间的空格进行分词
6. 某文本数据集的标签云如下图所示袁下列说
法正确的是 渊 冤
A. 对数据集中文分词后可直接创建标签
云袁无须特征提取
B. 标签云须显示该数据集包含的全部词语
C. 该数据集中袁词语野初心冶比野得失冶的出
现频率高
D. 标签云为更好地理解文本和发现知识提
供了新的有效途径
7. 下列关于大数据的说法袁不正确的是 渊 冤
A. 静态数据一般采用批处理计算进行处理
B. 社交网络数据可采用图计算进行处理
第三节 文本数据处理及大数据
101
C. 利用大数据袁可以对天气情况进行预测
D. 随着时间的流逝袁流数据的价值一般会
随之提高
8. 下列大数据服务中袁应用了交通大数据的是
渊 冤
淤车载导航 于公交车线路查询 盂个
性化商品推荐 榆出行路线规划 虞基
因测序 愚航班实时跟踪
A. 淤于盂 B. 榆虞愚
C. 淤于榆虞 D. 淤于榆愚
9. 下列关于大数据的说法袁正确的是 渊 冤
A. 在大数据时代袁数据全都是机器自动产
生的
B. 大数据要抽取部分有价值的数据进行分
析袁而不是分析全体数据
C. 处理大数据时袁必须保证每个数据都是
精确无误的
D. 大数据采集到的数据有结构化的尧非结
构化的和半结构化的
10. 处理大数据时一般采用野分治思想冶袁下列
关于分治思想的说法袁不正确的是 渊 冤
A. 分治思想将一个复杂的问题分成两个
及以上相似的子问题并求解
B. 各班先收集学生选课情况袁再汇总全校
数据袁体现了分治思想
C. MapReduce 主要用于处理数据量较小
的分布式并行计算模型
D. 分布式计算利用的就是分治思想
11. 下列关于大数据在各领域应用的描述袁错
误的是 渊 冤
A. 零售行业可利用大数据开展精准营销
B. 医疗行业可利用大数据进行临床决策
C. 互联网行业可利用大数据进行社交网
络分析
D. 金融行业可利用大数据进行客户信用
度分析
12. 智能交通中袁用于采集交通视频尧车牌图片
数据的设备是 渊 冤
A. 摄像机 B. 地感线圈检测器
C. 红外线检测器 D. 雷达检测器
13. 智能交通中野智能冶的基础是 渊 冤
A. 数据系统 B. 云计算
C. 智能分析算法 D. 交通大数据
14. 关于大数据处理袁下列说法不正确的是
渊 冤
A. 处理大数据时袁一般采用分治思想
B. 对静态数据一般采用流计算模式进行
处理
C. 文本数据处理时需要将非结构化的文
本原始状态转化成结构化数据
D. 数据的可视化可以帮助用户更快捷观
察与追踪数据
二尧非选择题
15. 小张对野工作报告.txt冶进行文本分析遥 他使
用 jieba模块进行中文分词袁 统计高频词袁
并使用 wordcloud模块生成标签云袁如图所
示遥 请回答下列问题院
渊1冤小张进行数据处理的具体步骤如下袁正
确的步骤顺序是 遥
淤提取野工作报告冶关键词特征
于对野工作报告冶全文进行分词
盂获取野工作报告冶全文
榆绘制野工作报告冶标签云图
102
渊2冤jieba 模块分词提供三种分词模式要要
精确模式尧全模式和搜索引擎模式袁能够较
好地满足中文分词需求遥阅读题目代码袁可
知小张使用的分词模式是 渊单
选袁填字母院A. 精确模式/B. 全模式/C. 搜
索引擎模式冤遥
渊3冤进行特征提取时袁需要统计各关键词的
出现次数袁请在画线处填入合适的代码遥
import jieba
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud,
ImageColorGenerator
fp=open("工作报告.txt","r",encoding="UTF-8")
text=fp.read()
fp.close()
words=jieba.lcut(text)
counts={} #用来记录词频的字典
for word in words:
if len(word)>1: #只记录长度大于 1的词
if word in counts:
counts咱word暂= 淤
else:
counts咱word暂= 于
#绘制使用背景图片的标签云
path_img="tp.png"
background_image=np.array(Image.open(path_
img))
wordcloud=WordCloud(font_path="C:/Windows/
Fonts/simfang.ttf",background_color = "white",
mask=background_image).fit_words(counts)
#设置字体袁不然会出现文字乱码
#mask参数=图片背景袁必须要写上
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
淤
于
103
野姓名冶数据列使用 sum()函数统计袁不能正确得出
人数曰C. 对 df中数据按野总分冶为关键字进行分
组袁并使用 count()函数统计出总人数后袁无法通过
筛选省份得到浙江的总人数遥 渊2冤遍历 lst列表切
片取出分数与分数线 h比较袁超过分数线则需记
录省份名称袁判断省份名称是否已存在于字典
中袁如果在则将新的准考证号连接上去袁若不存
在则新建一个键值对遥 渊3冤淤选取相应的一等奖数
据遥 于结合上文 df2=df1.groupby("省份",as_index=
False).count()可知袁野省份冶已经作为索引袁按照野获
奖人数冶进行了降序排序袁选取前 5条记录袁存入
DataFrame对象 g中袁 因此绘制图像时袁 应该使
用院g.index,g.获奖人数遥
12. 淤df咱df咱"盈亏"暂>0暂渊或 df咱df.盈亏>0暂冤 于df.盈
亏.sum()渊或 df咱"盈亏"暂.sum()冤 盂df1.sort_values
("盈亏",ascending=False) 榆bar
揖解析铱淤筛选的条件为 df咱"盈亏"暂>0遥 于该题为
列求和袁df咱"列名"暂.sum()或者 df.列名.sum()遥 盂该
题为按列数据降序排序遥 榆由图可知所得的图为
垂直柱形图遥
13. 渊1冤df咱"销售单价"暂*df咱"销售数"暂-df咱"进货总价"暂
渊2冤淤商品品类 于maxt=i 渊3冤淤j-st 于nums
揖解析铱渊2冤淤其根据商品品类进行分类统计袁分
类统计之后袁商品品类列变成了行索引遥 于由上
问可知袁其行索引为商品品类遥 因此 maxt最后存
储其最大值得行索引就为其结果袁其结果为 maxt=
i遥渊3冤淤st记录小于当前年龄段开始的人数袁野while
j<n and df2.at咱df2.index咱j暂,"客户年龄"暂<=ages
咱i暂:冶即依次寻找小于当前年龄段的人数渊包括前
一年龄段冤袁nums咱i暂记录所有小于当前年龄段的
人数减去小于前一年龄段的人数遥 于y轴为 nums袁
表示各个年龄段的人数遥
第三节 文本数据处理及大数据
1. D
2. C揖解析铱有关差异的可视化用来探寻多种变量的
对象与同类之间的差异和联系袁常用雷达图表示遥
3. C揖解析铱利用可视化技术袁可以将处于不断变化中
的数据生成实时变化的可视化图表曰不同的数据类
型决定了可视化的表现形式曰展现时间趋势类的数
据可采用柱形图和折线图遥
4. D揖解析铱大数据要分析全体样本而不是抽样调查袁
大数据技术支持大数据的全样处理曰大数据商品个
性化推荐中分析的是用户购买商品之间的关联性袁
而不是用户购买该商品的原因曰文本数据处理的一
般步骤是分词尧特征提取尧数据分析和结果呈现遥
5. A
6. D揖解析铱中文分词后须进行特征提取曰标签云用词
频表现文本特征袁将关键词按照一定的顺序和规律
排列袁不显示全部词语曰野得失冶比野初心冶出现的频
率高遥
7. D揖解析铱随着时间的流逝袁流数据的价值一般会随
之降低遥
8. D
9. D揖解析铱大数据时代袁数据的来源众多袁既有人工
产生的袁也有机器自动产生的曰大数据要分析的是
全体数据而不是抽样数据曰对于大数据的处理不再
追求精确性袁而是能够接受数据的混杂性遥
10. C揖解析铱MapReduce是一种分布式并行计算模型袁
当数据量很大时袁它的优势就体现出来了袁其核
心处理思想是将任务分解并分发到多个节点上
进行处理袁最后汇总输出遥
11. B
12. A
13. D揖解析铱数据贯穿在智能交通的感知尧处理尧应用
等各个环节袁交通大数据是智能交通中野智能冶的
基础遥
14. B揖解析铱静态数据使用批处理模式袁流计算模式
用于处理流数据遥
15. 渊1冤盂于淤榆 渊2冤A 渊3冤淤counts咱word暂+1
于1
揖解析铱渊1冤文本数据处理的一般流程为获取数据
源寅分词寅特征提取寅数据分析寅结果呈现遥
渊2冤jieba默认分词模式为精确模式袁全模式对应
代码 jieba.lcut(text,ut_all=True)袁搜索引擎模式对
应代码为 jieba.lcut_for_search(text)遥 渊3冤counts是
用来记录词频的字典袁若 word已经在字典中袁将
其对应值加 1袁否则设置其值为 1袁故淤处和于处
填入代码分别为 counts咱word暂+1和 1遥
第五章 人工智能及应用
第一节 人工智能的产生与发展
1. D揖解析铱传感器采集数据属于传感技术曰数据自动
发送到服务器体现了数据输入与传输功能曰刷身
份证识别用户信息属于射频识别技术曰指纹识别身
份认证属于人工智能技术中的生物特征识别遥
2. A揖解析铱B属于跨领域人工智能曰人工智能都是需
要数据的曰人工智能在改善人类生活尧促进经济发
展的同时也会威胁人类安全遥
3. A揖解析铱问题引导下试错学习属于行为主义曰人类
智能是智能回路的总开关曰人工智能发展会有两
面性袁要重视负面的影响遥
4. C揖解析铱人工智能可以进行文本情感分析曰深度
学习是联结主义的典型代表曰训练样本数量越多袁
神经网络的性能不一定最好遥 训练样本数据越多袁
预测越好袁但是当训练样本量大袁如果网络层次太
少袁特征训练不充分袁将会导致训练不充分袁性能不
一定能同步增加遥
5. C揖解析铱行为主义需要在环境的交互中不断学习曰
图灵测试是测试机器是否具有智能的一种方法袁不
是唯一方法曰专家系统是符号主义的典型代表遥
203