内容正文:
第四章 数据处理与应用
一、选择题
1.数据存储的常用单位中,1KB等于多少字节?( )
A.1000字节 B.1024字节 C.1048字节 D.1073字节
2.某个部门要统计职工的考勤、销售量、工资及奖励情况,职工的工资和奖励可以通过公式从考勤和销售量中计算得到,下列可方便地实现这些功能的软件是( )
A.Word B.ACDSee C.FrontPage D.Excel
3.高一上学期半期考后,小赵老师对班上同学的数学成绩进行了分析,他计算了全班同学数学成绩的中位数和众数,小赵老师采用的分析方法是( )
A.位置平均数 B.对比分析法 C.平均分析法 D.交叉分析法
4.下列说法正确的是( )
A.HDFS是一个容错性较低的系统,适合部署在廉价的机器上
B.MapReduce是一种聚合式的并行编程模型
C.常见的中文分词算法有基于词典的分词、基于统计的分词和基于规则的分词
D.标签云通过给特征词赋予权重进行统计分析
5.采集杭州市内的微博数据进行研究,用不同颜色表示心情,在区域地图上展示不同地域的人们在不同时间点情绪的变化。该研究使用的文本数据分析是( )
A.特征提取 B.标签云 C.文本情感分析 D.词频统计
6.在Excel某列单元格中,快速填充2022—2024年每月最后一天日期的最优操作方法是( )
A.在第一个单元格中输入“2022-01-31”,然后使用MONTH函数填充其余35个单元格
B.在第一个单元格中输入“2022-01-31”,拖动填充柄,然后使用智能标记自动填充其余35个单元格
C.在第一个单元格中输入“2022-01-31”,然后使用格式刷直接填充其余35个单元格
D.在第一个单元格中输入“2022-01-31”,然后执行“开始”选项卡中的“填充”命令
7.下列关于文本数据分析与应用的说法,错误的是( )
A.标签云是文本可视化的一种方式
B.标签云用词频表现文本特征
C.文本情感分析的研究领域是专门、单一的
D.文本情感分析应用于多个不同领域
8.数据按获取的渠道可分为直接数据和间接数据。下列属于直接数据的是( )
A.从书籍中获取的数据 B.在互联网上搜索到的数据
C.通过调查问卷获取的数据 D.从媒体资源中得到的数据
9.对数据进行分析和处理,以下效率最低的是( )
A.用电子表格软件进行数据分析 B.借助在线数据分析平台进行数据分析
C.使用编程工具进行数据分析 D.人工计算
10.下列语言中不属于主流数据分析语言的是( )
A.Python语言 B.MATLAB语言 C.C语言 D.R语言
11.对两个或两个以上的数据进行差异分析,以揭示事物发展变化或差距,并且可以准确、量化地表示出这种变化或差距,这种数据分析方法是( )
A.平均分析法 B.结构分析法 C.量化分析法 D.对比分析法
12.下列有关数据分析的说法错误的是( )
A.选择哪种数据分析方法,需要根据具体问题而定
B.通过数据分析,可以提炼出有价值、有意义的数据,以便指导决策
C.数据分析只能对数值型数据进行统计分析
D.数据分析可以依靠人工方式、电子表格软件、在线数据分析平台或编写程序完成
13.小明搭建“室内环境实时监测系统”,系统结构示意图如图所示。智能终端通过接口接收传感器采集的数据,IoT模块(网络模块)传送数据到Web服务器并保存到数据库。客户端通过浏览器访问Web服务器,获得各种数据信息,数据的统计、分析、呈现等功能主要在Web服务器中完成,当环境信息出现异常,是由服务器直接发出各种报警信息,如邮件和短信等。关于该系统中数据采集与处理的说法,不正确的是 ( )
A.该系统的数据分析结果只能用表格形式呈现 B.该系统传输的数据为数字信号
C.该系统的智能终端通过传感器采集信息 D.该系统可以通过无线网络接收传感器的数据
14.下图是根据某旅游景点门票销售统计表建立的图表,该图表的类型是( )
A.柱形图 B.折线图 C.饼图 D.条形图
15.使用Excel建立班级信息表,如下图所示是其中的一部分,可以确定电话号码一列的数据属于( )
A.数值型 B.文本型 C.货币型 D.科学计数
16.学习小组在调查同学的爱好情况,通过问卷收集了一些数据,小明负责去除数据中的重复部分,小明所做的工作是数据处理的哪一步( )
A.数据收集 B.数据整理 C.数据分析 D.数据呈现
17.在Excel 2010中,假定B2单元格的内容为数值15,B3单元格的内容为20,则公式=$B$2+B$3的值为( )
A.40 B.25 C.150 D.35
二、填空题
18.在Excel中,若要对一列数据进行排序,可以使用工具栏中的 按钮。
19.Excel的排序是指按照某种属性的递增或递减规律重新排列,该属性称为 。
20.在Excel工作表中,B4:E6单元区域包含的单元格个数为( )。
21.如下图所示,在Excel中,请把计算学生“总分”的操作步骤补充完整。
操作步骤:
(1)在F3单元格中输入公式① ,然后单击编辑栏左侧的按钮;
(2)单击“编辑”菜单中的“② ”命令;
(3)选中“③ ”区域,单击“编辑”菜单中的粘贴命令。
22.图结构中的每个顶点( )与其他顶点有边相连,数据元素之间是( )的关系。
三、判断题
23.大数据技术中不包括大数据预处理技术。( )
24.大数据由于数据量大,服务器一般采用分布式文件存储或数据库存储。( )
25.已知C3单元格与C4单元格的值均为0,C4单元格中公式为“=C3=C4” ,则C4单元格显示的内容为#N/A。( )
26.折线图适用于描述数据之间的比例分配关系。( )
四、操作题
27.按照试题要求,完成下列问题:
第1小题:打开“考生文件夹\Co11igate\189”文件夹中的文件“体质健康统计表.x1sx”,完成以下操作并保存。
(1)在B13:D13单元格中,使用函数法计算各项目的最大值。
(2)使用公式求算BMI指数,填入E3:E12单元格中,(BMI指数=体重(kg)/(身高(m)*身高(m))。保留两位小数。
(3)用IF函数将BMI指数介于18.5和25之间的,在“健康信息”列中对应的单元格填入“正常”,否则填入“注意体重”。(提示:如在F3单元格中应填入如图所示信息:)
(4)以单元格区域A2:B12为数据源,生成“簇状柱形图”图表,图表标题为“身高对比图”。
(5)保存文档并关闭WPS。
文件素材:
试卷第1页,共3页
试卷第1页,共3页
学科网(北京)股份有限公司
参考答案:
1.B
【详解】本题考查数据存储相关内容。在计算机科学中,数据存储的单位通常采用二进制系统,其中1KB等于1024字节。故本题答案是B选项。
2.D
【详解】本题考查不同软件的功能。Word主要用于文字处理和文档排版。ACDSee是一款图像浏览和管理软件。FrontPage是用于网页制作的软件。而Excel是电子表格软件,擅长数据的计算、统计和分析。故答案为:D。
3.A
【详解】本题考查数据的分析。
中位数:中位数是将一组数据从小到大(或从大到小)排列后,位于中间位置的数。如果数据量是奇数,则中位数是正中间的数;如果数据量是偶数,则中位数是中间两个数的平均值。中位数是一种位置平均数,它反映了数据的中心位置。众数:众数是一组数据中出现次数最多的数。它可能不唯一,也可能不存在(如果所有数据都出现相同次数或数据量很少且各不相同)。众数也是描述数据分布的一个重要特征。小赵老师通过计算全班同学数学成绩的中位数和众数来进行分析,这种方法属于位置平均数的分析。故正确答案为:选项A。
4.C
【详解】本题考查数据可视化表达相关内容。HDFS是一个高度容错性的系统,适合部署在廉价的机器上;MapReduce是一种分布式的并行编程模型;标签云用词频表现文本特征,文本情感分析通过给特征词赋予权重进行统计分析。常见的中文分词算法有基于词典的分词、基于统计的分词和基于规则的分词。故本题答案是C选项。
5.C
【详解】本题考查数据分析。文本情感分析指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。故答案为:C。
6.B
【详解】本题考查Excel。A 选项,使用MONTH函数填充不能直接实现按每月最后一天日期的填充要求,此方法不合适。B 选项,在第一个单元格中输入“2022 - 01 - 31”,拖动填充柄后,使用智能标记可以自动识别填充序列规律,自动填充其余35个单元格,能够快速准确地实现2022-2024年每月最后一天日期的填充,是最优操作方法。C 选项,格式刷主要用于复制单元格的格式设置,不能用于填充不同的日期数据,此方法无法达到要求。D 选项,“开始”选项卡中的“填充”命令,不能智能地按照每月最后一天日期的规律进行填充。故答案为:B。
7.C
【详解】本题考查数据分析与应用。文本情感分析作为一个多学科交叉的研究领域,主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。故答案为:C。
8.C
【详解】本题考查数据采集。直接数据是通过第一手资料获得的数据,通常是通过调查、实验、观测等方式直接获取的。间接数据是从已有的资料中获取的数据,如书籍、互联网、媒体资源等。通过调查问卷获取的数据属于直接数据,因为它是通过调查人员直接收集的第一手资料。故答案为:C。
9.D
【详解】本题考查数据分析与处理。结合选项,显然人工计算效率最低,故选D。
10.C
【详解】本题考查的是数据分析工具。R是用于统计分析、绘图的语言和操作环境。MATLAB语言是数值计算和科学编程语言,可进行各种数值计算、数据分析、图形绘制和模拟等。Python语言可以利用第三方库进行数据分析。故本题应选C。
11.D
【详解】本题考查数据分析。对两个或两个以上的数据进行差异分析,以揭示事物发展变化或差距,并且可以准确、量化地表示出这种变化或差距,这种数据分析方法是对比分析法。因此,正确答案是:D。
12.C
【详解】本题考查的是数据分析。数据分析也可以对文本、图像等数据进行分析。故选C。
13.A
【详解】本题考查数据采集与处理。数据分析结果可用多种方式呈现。故答案为:A。
14.A
【详解】本题考查图表相关内容。条形图,也称为bar chart(柱状图),是一种图形表示法,用于展示数据,其中数据的多少是通过条形的高度或长度来表示的,条形图可以分为简单条形图和复式条形图等多种形式,条形图可以横向或纵向放置,当条形图纵向放置时,它也被称为柱形图(column chart);折线图是一条弯折或平滑的线条,它通过连接数据点的线条来显示趋势和模式,可以显示随时间或其他连续变量而变化的数据趋势;饼图的形状类似于一块圆饼,根据数据源的数值来划分不同大小的饼块,而直观地展示这些数值在整体中的占比情况。故本题答案是A选项。
15.B
【详解】本题考查Excel操作相关内容。数值型是指所有代表数量的数字形式,如企业的产值和利润、学生成绩、个人的身高体重等,数值可以是正数,也可以是负数,并且都可以用于计算。文本通常是指一些非数值性的文字、符号等,如企业名称、驾校考试科目、员工姓名等,此外,很多不需要进行数值计算的数字也可以保存为文本形式,如电话号码、身份证号码、银行卡号等。货币型主要用来表示货币值,货币类型数据存储为64位(8个字节)整型的数值形式,其小数点左边有15位数字,右边有4为数字。科学计数格式以指数表示法显示一个数字,将部分数字替换为 E+n,其中E(指数) 将前一个数乘以10到第n个幂。由图可知,电话号码列单元格左上角有三角形符号,说明是文本型数据,故本题答案是B选项。
16.B
【详解】本题考查数据处理相关内容。数据处理一般包括四个过程,收集数据、整理数据、描述数据、分析数据。去除数据中的重复部分属于数据整理。故本题答案是B选项。
17.D
【详解】本题考查的是Excel相关知识。=$B$2+B$3表示将B2单元格的内容与B3单元格的内容相加。=$B$2+B$3=15+20=35。选D。
18.排序(或升序/降序)
【详解】本题考查Excel操作相关内容。 在Excel中,排序是一项基本的操作,它可以帮助我们按照一定的顺序整理数据,使其更加有条理。若要对一列数据进行排序,可以使用工具栏中的排序按钮。故本题答案是:排序(或升序/降序)。
19.关键字
【详解】本题考查的是EXCEL排序。EXCEL是按照关键字排序的,关键字又分为主要关键字和次要关键字,如下图:
20.12
【详解】本题考查的是Excel表格。如图所示,包括的单元格为3行4列,共12个单元格。
21. =SUM(C3:E3) 或=C3+D3+E3 复制 F4:F7
【详解】本题考查的是Excel求和的操作。(1)F3单元格是求C3、D3和F3的分数和,故答案为=SUM(C3:E3) 或=C3+D3+E3。(2)(3)F4:F7需要填充对应公式,其操作步骤是在F3单元格,右键复制命令,然后到目标区域F4:F7粘贴公式。
22. 都可以 多对多
【详解】本题考查的是数据结构。图结构中的每个顶点都可以与其他顶点有边相连,数据元素之间是多对多对的关系。
23.错误
【详解】本题主要考查大数据技术。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等),故表述错误。
24.√
【详解】本题考查大数据存储相关知识点
大数据由于数据量大,服务器一般采用分布式文件存储或数据库存储。表述正确
25.错误
【详解】本题考查对Excel表格中公式应用的理解。“=C3=C4”是判断C3和C4单元格是否内容一致。本题中C4单元格的内容为“=C3=C4”。故题干描述错误。
26.错误
【详解】本题考查数据可视化。折线图主要用于描述数据随时间或其他连续变量的变化趋势,它能够清晰地展示数据的波动和变化过程,而不是用于描述数据之间的比例分配关系。比例分配关系通常用饼图、条形图或堆积柱状图来表示,这些图表能够直观地显示各部分相对于整体的比例。因此,折线图不适用于描述数据之间的比例分配关系。故说法错误。
27.
【详解】本题考查WPS表格。本题为上机操作题,具体按照操作步骤进行。
答案第1页,共2页
答案第1页,共2页
学科网(北京)股份有限公司
$$