内容正文:
4.2大数据处理 第2课时(分层作业)
【夯实基础】
1. 大数据的特征可以用被总结为4V特征,以下哪个不属于大数据的4V特征( )
A 种类多(Variety) B. 体量大(Volume)
C. 风险大(Venture) D. 速度快(Velocity)
2. 下列数据处理中,不属于文本数据处理的是( )
A. 将中文翻译成其他国家的文字
B. 输入姓名、单位等信息,制作通讯录
C. 检测的论文内容与对比库中的资料进行对比,检测论文可信度
D. 解析大量合同文档,有效监控风险条款,节省人力和时间成本
3. 大数据领域中,为了提高数据质量、降低数据计算的复杂度、提升数据处理的准确性。常用的技术是( )
A. 预处理技术 B. 存储技术 C. 管理技术 D. 挖掘技术
4. 数据处理的一般过程是( )。
A. 采集—分析—整理—可视化表达 B. 采集—整理—可视化表达-分析
C. 采集—整理—分析-可视化表达 D. 采集—可视化表达—整理-分析
5. 下列关于大数据的描述中,不正确的是( )
A. 大数据专指Excel软件收集、加工的数据
B. 物联网、云计算、手机、电脑都是数据来源
C. 互联网生成的数据量正以爆发性的速度不断增长
D. 在科学实验中,各种传感器每时每刻的速度不断增长
6. 下列关于大数据的说法,正确的是( )
A. 大数据要分析是全体数据,而不是抽样数据,且要求数据必须是精确无误的
B. 处理大数据时,一般采用分治思想
C. 处理大数据时,更注重事物的因果关系而不是相关性
D. 实现对实时数据获取、传输和存储可以采用分布式系统完成
7. 下列关于大数据处理的描述中,不正确的是( )
A. 处理大数据时,一般采用分治思想
B. Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实时数据
C. HDFS是一个高度容错性的系统,适合部署在廉价的机器上,云盘、网盘的底层一般采用HDFS实现
D. MapReduce是一种分布式并行编程模型,主要由Map(映射)和Reduce(归纳)2个函数构成
8. 下列对大数据的理解错误的是( )。
A. 从互联网产生大数据的角度来看,大数据具有“4V”特征,分别是大量(Volume),多样(Variety),低价值密度(Value),高速(Velocity)。
B. 从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。
C. 从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。
D. 以上都不对
【巩固提升】
9. 下列描述的场景与处理方法使用不恰当的是( )
A. 分析前一年的高铁客流数据优化高铁运行采用批处理计算
B. 京东网双12通过实时分析用户行为实现商品的推荐采用流计算
C. 图计算为腾讯超大规模社交网络图数据的各类计算提供支撑
D. 分析近五年的信息技术选考试卷梳理高频考点采用流计算
10. 某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的( )
A 聚类分析 B. 关联分析 C. 分类分析 D. 回归分析
11. 下列数据处理中,不属于文本数据处理的是( )
A. 根据白名单和黑名单机制,进行垃圾邮件的识别
B. 在线客服通过自动应答技术回答问题
C. 实时监测景区的人流数据,控制过多的游客进入景区
D. 分析消费者的意见数据,挖掘用户观点,辅助运营决策
12. 居民身份证号码可以反映出常住户口所在地的行政区划、出生日期和性别等信息,这主要体现了数据是( )。
A. 计算工具识别、存储和加工的对象 B. 信息的载体 C. 可处理的 D. 可加工的
【拓展应用】
13. 请写出大数据处理流程四步骤
14. 近年来,很多网络平台会在年底为用户生成专属的个人报表,显示一年内该用户在该平台上的各种使用行为数据。
(1)这类个人报表是利用大数据技术收集用户的个人行为数据,并通过分类和计算获得。由此可见( )
A.大数据采集的数据必须准确无误 B.大数据的数据采集主要还是人工方式
C.大数据分析的是抽样数据 D.大数据分析能发现数据间的相关性
(2)某数据公司统计了2016-2020年全球每年产生的数据量及其增速,结果如图。
此统计主要采用的数据分析方法是( ),使用了( )和( )两种图表来组合进行可视化呈现。( )
A.聚类分析、饼图、条形图 B.对比分析、折线图、柱形图
C.结构分析、饼图、条形图 D.平均分析、折线图、柱形图
(3)该网站可实现对数据的加密解密,界面如图。该应用服务架构体系属于(