内容正文:
3.4 数据分析报告与应用
学校:___________姓名:___________班级:___________考号:___________
一、选择题
1.从横向和纵向两个方向来计算两个或多个有联系的变量在交叉点的统计值,这种数据分析方法称为( )
A.交叉分析 B.双向分析 C.个体分析 D.变量分析
2.云计算的核心技术包括( )
A.云平台管理技术 B.海量数据分布存储技术
C.虚拟化技术 D.海量数据管理技术
3.撰写数据分析报告的原则不包括( )
A.需要通过各种方法采集到的原始数据
B.要图文并茂,让读者一目了然,富有启发性
C.确保分析过程科学严谨,分析方法选择恰当
D.得出明确的结论,针对问题提出建议和解决方案
4.下列关于数据分析报告作用,不包括( )
A.数据分析结果的呈现 B.记录项目实施各项日志
C.数据分析项目的总结 D.为决策者提供决策依据
5.撰写数据分析报告时,应注意一些问题,以下说法错误的是( )
A.报告中的内容要有逻辑性,注意衔接
B.分析问题和阐述结论要客观准确,合理利用图表等形式是表达的内容清晰、直观
C.分析报告中引用他人资料,可不用注明资料的来源
D.提出的措施、方案或行动策略,应当积极且具有建设性
6.大数据处理的一般过程是( )
A.清洗 B.分析 C.采集 D.挖掘
7.要直观地展示某同学高二学年连续几次考试成绩的变化的情况 ,最合适的图表类型是( )
A.条形 B.柱状图 C.饼图 D.折线图
8.下列关于大数据及其处理的说法,不正确的是( )
A.大数据蕴含巨大的价值,但因其数据量庞大,所以“提纯”数据是人们一直努力的目标
B.电商的个性化精准推荐,是因为知道了人们都买某些商品的原因
C.处理大数据时,一般采用分治思想
D.HBase 是采用基于列的存储方式,具有良好的横向扩展能力
9.在大数据分析中,以下哪个技术不是用于处理大规模数据集?( )
A.分布式计算 B.内存计算 C.云计算 D.单线程计算
10.下列有关pandas-Series的说法错误的是( )
A.包含一个数组的数据和一个与数据关联的索引,是二维数据结构
B.其索引值默认是从0起递增的整数
C.可用列表、字典等创建Series数据结构
D.其索引可以指定,类型可以为字符串型
11.晓洁在撰写数据分析报告时,梳理了以下几个环节应该需要注意的事项,错误的是( )
A.标题页——包含标题、作者、报告日期,标题还应短小精悍,体现数据分析的核心内容
B.前言——包含分析背景、分析目的、分析思路
C.正文——包含数据分析事实的观点、给出明确的结论、具体建议或解决方案
D.附录——包括名词解释、数据收集方式、调查问卷、分析方法说明和参考资料等
12.图结构中的每个顶点( )与其他顶点有边相连,数据元素之间是( )的关系。
A.都可以;一对多 B.都可以;多对多
C.不都可以;多对多 D.不都可以;一对多
13.下列关于数据分析报告的说法不正确的是( )
A.数据分析报告一般的结构是总-分-总
B.关注数据质量是做好数据分析报告的前提
C.数据分析报告中的数据必须用文字的形式呈现
D.数据分析报告的常见类型有专题分析报告、综合分析报告、日常数据通报等
14.下列关于数据分析报告的表述正确的是( )
A.数据分析要基于可靠的数据源 B.数据分析报告就是数据分析流程工作汇报
C.基于相同的数据一定能得到完全相同的分析结果 D.数据分析报告只宜对大数据进行分析
15.想通过分析某同学语文历次考试成绩的分数情况,预测他的语文下一次考试成绩,其基本步骤是( )。
①数据预处理 ②数据采集 ③分析报告 ④数据分析 ⑤可视化表达
A.②④①⑤③ B.②①⑤③④ C.②①④⑤③ D.②③①⑤④
16.下列关于分布式系统架构Hadoop及其主要模块的说法,不正确的是( )
A.Hadoop计算平台适用于静态数据的批处理计算
B.分布式文件系统HDFS是一个高度容错性系统,可以部署在普通计算机上
C.分布式数据库HBase主要用来存储结构化数据
D.MapReduce是一种并行编程模型,帮助用户编写处理大规模数据集的并行运算
17.通过数据分析报告,可以将分析结果、可行性建议及其他有价值的信息传递给使用者,以下因素中哪一项不是数据分析报告必须具备的基本组成部分( )
A.标题面 B.正文 C.网站地址 D.结论建议
18.下列不是HDFS优点的是( )
A.高容错性 B.适合单线程处理 C.适合大数据处理 D.流式文件访问
19.小申将一个月内每天的书籍销售量绘制了箱形图,以下可以用于数据分析报告的是( )
A.有两天的销售量非常高
B.这个月中销售量最大的一天,值在[300,400]之间
C.这个月的书籍销售量中位数在100左右
D.这个月中每天的销售量差异不大
20.某网络购物平台使用大数据技术采集大量客户的购物行为数据,通过对客户购物行为数据进行分析,找出购买商品之间的关联关系,从而帮助电商制定更加精准的营销策略。图为客户网购行为数据分析的部分结果。
频繁项集
支持度
牛奶——啤酒
0.5
尿布——啤酒
0.477272727
面包——啤酒
0.477272727
尿布——面包——啤酒
0.340909091
面包——牛奶——啤酒
0.340909091
尿布——牛奶——啤酒
0.318181818
鸡蛋——啤酒
0.295454545
尿布——面包——牛奶——啤酒
0.25
尿布——牛奶——面包
0.25
观察图,对频繁2项集{牛奶,啤酒}和{面包,啤酒}进行连接,生成的候选3项集为( )
A.{尿布,面包,啤酒} B.{面包,牛奶,啤酒}
C.{尿布,牛奶,啤酒} D.{尿布,牛奶,面包}
试卷第1页,共3页
试卷第1页,共3页
学科网(北京)股份有限公司
学科网(北京)股份有限公司
参考答案:
1.A
【详解】本题考查数据分析。
交叉分析法是一种用于分析两个或多个变量之间相互关系的基本数据分析法。它通过将统计分析数据制作成二维交叉表格,将具有一定联系的变量分别设置为行变量和列变量,两个变量在表格中的交叉结点即为变量值,通过表格体现变量之间的关系。这种方法在市场调研项目中应用广泛,因为它能让复杂的数据关系简单化,便于理解和分析。故正确答案为:选项A。
2.ABCD
【详解】本题考查云计算。虚拟化技术是云计算的基础,通过将物理资源抽象为虚拟资源,实现资源的动态分配和弹性扩展。海量数据分布存储技术能够将数据分散存储在多个节点上,提高存储系统的容量和可靠性。海量数据管理技术能够有效管理和处理大量的数据,支持云计算的数据分析和计算需求。云平台管理技术能够统一管理和调度云计算平台的各种资源,实现资源的自动化配置和弹性伸缩。故正确答案为ABCD。
3.A
【详解】本题考查的是数据分析报告。撰写数据分析报告的原则包括:要图文并茂,让读者一目了然,富有启发性;确保分析过程科学严谨,分析方法选择恰当;得出明确的结论,针对问题提出建议和解决方案。但不包括需要通过各种方法采集到的原始数据。故本题应选A。
4.B
【详解】本题主要考查数据分析报告。数据分析报告的作用不包括记录项目实施各项日志,故本题选B选项。
5.C
【详解】本题考查数据分析相关内容。数据分析报告是一种有结构的文档,目的在于根据特定目标受众的需求,总结、解释和以可视化的方式呈现数据分析的结果。此类报告通常包括数据描述、分析方法、结果和结论,并提供洞察以解决问题或支持决策。它应该具有可读性强、信息准确、清晰明了的特点,以帮助受众理解和应用数据的洞察。A选项,数据分析报告中的内容要有逻辑性,注意衔接,选项正确。B选项,分析问题和阐述结论要客观准确,合理利用图表等形式是表达的内容清晰、直观,选项正确。C选项,数据分析报告的撰写引用他人资料时,需要说明资料的来源,选项错误。D选项,数据分析报告提出的措施、方案或行动策略,应当积极且具有建设性,选项正确。故本题答案是C选项。
6.ABCD
【详解】本题考查大数据。采集、清洗、分析和挖掘,这四个步骤构成了大数据处理的一般流程。其中,采集和清洗是数据准备的关键步骤,分析和挖掘则是提取价值的核心过程。这个过程可能需要反复迭代,以不断优化和完善大数据的处理和利用。故正确答案为ABCD。
7.D
【详解】本题考查图表。图表种类:柱形图,柱形图用于显示一段时间内的数据变化或显示各项之间的比较情况。折线图,折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。饼图,常用于统计学模块。条形图,条形图显示各个项目之间的比较情况。面积图,面积图强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。要直观地展示某同学高二学年连续几次考试成绩的变化的情况 ,最合适的图表类型是折线图。故本题选D。
8.B
【详解】本题考查大数据相关内容。大数据的特征是数据量大、速度快、数据类型多、价值密度低。A选项, 大数据来源广泛多样,数据标准不统一,指标口径杂乱,数据整合和衔接困难,而应用和处理大数据要求强大的机器算法能迅速地完成数据的价值“提纯”,这是大数据区分于传统数据挖掘最显著的特征,选项正确。B选项,电商平台个性化推荐系统是基于大数据挖掘、处理、清洗、分析的一种智能商务平台,不是基于大数据精确分析了用户购买商品的原因,选项错误。C选项,处理大数据时,一般采用分治思想,选项正确。D选项,HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且是基于列而不是基于行的模式,选项正确。故本题答案是B选项。
9.D
【详解】本题考查大数据分析。在大数据分析中,分布式计算、内存计算和云计算都能够有效地处理大规模数据集。分布式计算通过将计算任务分布在多个节点上并行处理来提高处理能力;内存计算利用内存的高速读写特性加速数据处理;云计算则提供了强大的计算和存储资源来应对大规模数据处理需求。而单线程计算由于其在单个线程上顺序执行任务,处理效率较低,无法胜任大规模数据集的处理工作。故答案为:D。
10.A
【详解】 本题考查的是Series对象相关知识。Series对象是一种一维的数据结构,包含一个数组的数据和一个与数据关联的索引。故本题应选A。
11.C
【详解】本题考查数据分析报告相关内容。数据分析报告是一种有结构的文档,目的在于根据特定目标受众的需求,总结、解释和以可视化的方式呈现数据分析的结果。此类报告通常包括数据描述、分析方法、结果和结论,并提供洞察以解决问题或支持决策。它应该具有可读性强、信息准确、清晰明了的特点,以帮助受众理解和应用数据的洞察。数据分析报告包括标题、目录、前言、正文、结论、附录等部分。标题是对数据分析报告的高度概括。标题不仅要体现数据分析的主题,并且能够激发读者的阅读兴趣。前言是数据分析报告的一个重要组成部分,主要阐述分析的背景和目的、需要解决的问题、运用的分析思路和方法、预期的效果或结论等。正文是数据分析报告的核心部分,正文要系统地闻述数据分析的过程与结果,其中给出的事实、观点及分析论证必须严谨合理、逻辑性强。结论是对整个数据分析报告的总结,应包括依据数据分析结果得出的结论、建议和解决问题的方案等,结论要和正文相互衔依据数相互呼应。ABD选项说法正确,C选项说法错误。故本题答案是C选项。
12.B
【详解】本题主要考查数据结构。图结构中的每个顶点都可以与其他顶点有边相连,数据元素之间是多对多的关系,故本题选B选项。
13.C
【详解】本题考查数据分析相关内容。ABD选项说法正确。C选项,数据分析报告中的数据可以用文本、表格、图形等多种形式呈现,说法错误。故本题答案是C选项。
14.A
【详解】本题考查数据分析报告相关内容。数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。数据分析报告不仅是对整个数据处理过程的总结与展示,更能为决策提供参考。通过数据分析报告,可以将分析结果、可行性建议及其他有价值的信息传递给使用者。基于相同的数据不一定能得到完全相同的分析结果。BCD选项表述不正确,A选项表述正确。故本题答案是A选项。
15.C
【详解】本题考查数据分析步骤的相关知识点
首先是数据采集,然后是数据预处理,其次是数据分析,再可视化表达,最后分析报告。故本题选C选项
16.C
【详解】本题考查大数据。
分布式数据库HBase主要用来存储结构化数据:这是不正确的。HBase是一个开源的非关系型分布式数据库,它主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,并可通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。故正确答案为:选项C。
17.C
【详解】本题主要考查数据分析报告的描述。数据分析报告的基本组成部分包括标题页、前言、正文、结论和建议、附录,故本题选C选项。
18.B
【详解】本题考查大数据处理。HDFS 是一种分布式文件系统,具有高容错性,通过数据冗余和副本机制可以在节点出现故障时保证数据的可靠性;HDFS 适合处理大规模的大数据,能够存储和管理海量的数据;支持流式文件访问,一次写入、多次读取,适合批处理式的大数据处理。然而,HDFS 是为了处理大规模数据的批处理任务而设计的,并不适合单线程处理这种小规模、交互性强的任务。故答案为:B。
19.BC
【详解】本题主要考查数据分析。由图可知,可以用于数据分析报告的是:这个月中销售量最大的一天,值在[300,400]之间;这个月的书籍销售量中位数在100左右,故本题选BC选项。
20.B
【详解】本题考查大数据技术应用。频繁2项集{牛奶,啤酒}和{面包,啤酒}连接生成候选3项集时,我们要找到共同的元素并合并:{牛奶,啤酒}和{面包,啤酒}有一个共同元素“啤酒”,所以生成的候选3项集为{牛奶,面包,啤酒}。根据上述分析,题目给出的候选项集中,只有{面包,牛奶,啤酒}是从频繁2项集{牛奶,啤酒}和{面包,啤酒}连接生成的。故答案为:B。
答案第1页,共2页
答案第1页,共2页
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$