内容正文:
4.3 大数据典型应用(分层作业)
【基础达标】
1.下列关于大数据及数据处理的说法,不正确的是( )
A.大数据的应用,避免了用户隐私信息泄露的风险
B.处理大数据时一般采用分治思想
C.大数据要分析的是全体数据,能接受数据的混杂性
D.文本数据处理的过程主要包括分词、特征提取、数据分析和结果呈现等
答案:A
详解:本题考查的是大数据及数据处理。大数据的应用并不能避免用户隐私信息泄露的风险,相反,大数据在收集、存储和处理大量用户数据时,若防护不当,还可能增加用户隐私信息泄露的风险。而B 选项,处理大数据时采用分治思想是常见且有效的方法;C 选项,大数据分析全体数据且能接受数据混杂性是其特点;D 选项,文本数据处理过程包括分词、特征提取、数据分析和结果呈现等是正确的流程。故选A。
2.学校要统计学生的视力情况,最合适的数据可视化图表是( )
A.折线图 B.饼图 C.散点图 D.雷达图
答案:B
详解:本题考查的是数据可视化表达。学校统计学生的视力情况,通常涉及分类数据(如视力正常、近视、远视等类别的学生人数或比例),目的是直观展示各部分与整体的关系。饼图:最适合展示分类数据的占比情况,例如不同视力类别的学生比例。它能清晰直观地反映整体分布(如近视学生占总人数的百分比),符合“统计”需求。折线图:主要用于显示数据随时间变化的趋势(如每月视力变化),但题干未涉及时间维度,不适用。散点图:用于分析两个变量之间的关系(如视力与用眼时间的关系),但题干仅涉及单一变量(视力情况),不适用。雷达图:适用于多维度数据比较(如一个学生在视力、听力等多方面的表现),但题干是统计多个学生的单一属性(视力),不适用。故选B。
3.阅读下列代码段
import pandas as pd
a=[ ]
str1=["birds","fly","fly","sky","birds","fly"]
for word in str1:
a.append({"word":word,"count":1})
df=pd.DataFrame(a)
df1=df.groupby("word",as_index=False).sum( )
df2=df1.sort_values("count",ascending=False)
若要查看df1对象的列标题,下列代码正确的是( )
A.df1.columns B.df1.index C.df1.values D.df1.T
答案:A
详解:本题考查的是pandas数据分析。DataFrame对象的index、columns、values、T属性分别用于查看行索引、列标题、值和行列转置。故选A。
4.下列大数据服务中,应用了交通大数据的是( )
A.医疗误诊预警 B.个性化商品推荐
C.出行路线规划 D.土壤智能监测
答案:C
详解:本题考查交通大数据应用。交通大数据可反映交通流量、道路状况等交通相关信息,出行路线规划需要依据这些交通大数据来规划出最优路线。而医疗误诊预警主要应用医疗大数据,个性化商品推荐应用商业消费大数据,土壤智能监测应用土壤环境大数据。故答案为:C。
5.智能运动手环应用中,心率监测数据、步数统计数据的来源是( )
A.网络爬虫 B.API接口 C.统计报表 D.传感器
答案:D
详解:本题考查传感器。智能运动手环中的心率监测数据是通过光学传感器等检测血液流动情况来获取,步数统计数据则是依靠加速度传感器感知手环的运动状态来统计,这些数据均来源于手环内置的传感器。而网络爬虫是用于从网页上抓取数据的程序;API接口是不同系统之间进行数据交互的接口;统计报表是对数据进行整理和呈现的一种形式,它们都不是心率监测数据和步数统计数据的直接来源。故答案为:D。
6.下列各领域的应用中,未使用大数据的是( )
A.社交平台对海量用户数据进行处理和分析,构建用户画像,实现精准的广告投放
B.使用办公软件对某高校近五年的毕业生就业去向进行统计与分析
C.对网络流量数据进行监测和分析,实现网络攻击检测、威胁预警等目标
D.购物平台在分析用户的历史浏览、购买、搜索等行为基础上,向用户推荐个性化的商品
答案:B
详解:本题考查大数据应用。社交平台对海量用户数据处理分析构建用户画像、对网络流量数据监测分析实现网络攻击检测和威胁预警、购物平台分析用户历史行为进行个性化商品推荐,这些都涉及对大量数据的处理和分析,属于大数据的应用。而使用办公软件对某高校近五年的毕业生就业去向进行统计与分析,数据量相对较小,未达到大数据所要求的海量数据规模和复杂处理程度。故答案为:B。
【能力提升】
1.某调研小组采集了各个地区的苹果售价和进价的相关数据,存储在“apple.xlsx”文件中,部分数据如图所示。
使用下列程序段处理“apple.xlsx”文件,对象df中的数据将( )
import pandas as pd
df= pd.read_excel(" apple.xlsx")
df.drop("采价点",axis=1)
df.drop(0)
df_data.sort_values("售价",inplace= True)
A.按“售价”升序排序 B.不再包含“采价点”数据列
C.删除了第一行记录 D.增加了一个数据行
答案:A
详解:本题考查pandas数据分析。drop()函数能删除某一行或某一列数据,但不会改变原有df对象中的数据,而是通过返回另一个DataFrame对象来存放改变后的数据,所以第3、4行代码并没有改变原有df对象,所以选项B、C错误。sort_values()可以按值进行排序,默认升序排序,参数inplace= True表示不创建新的对象,直接对原始对象进行修改,所以正确答案为A。
2.电商平台都具有查询和排序功能,小李从平台上搜集了几款手表的数据,存放在文件“手表.xlsx”中,如下表所示,执行如下Python程序段:
品牌
型号
价格
华为手表
WATCH GT
1288
华为手表
WATCH GT2
1438
苹果手表
Apple Watch SE
2188
华为手表
WATCH GT3
1688
苹果手表
Apple Watch Series 7
2999
#DataFrame对象使用at[]方法可以根据行标签和列标签选取单个值
#如:df.at[0,"型号"]的值为:"WATCH GT"
import pandas as pd
df= pd.read_excel("手表.xlsx")
price={}
for j in range(len(df)):
if df.at[j,"品牌"] not in price:
price[df.at[j,"品牌"]]=[df.at[j,"型号"],df.at[j,"价格"]]
else:
if price[df.at[j,"品牌"]][1]> df.at[j,"价格"]:
price[df.at[j,"品牌"]][1]= df.at[j,"价格"]
price[df.at[j,"品牌"]][0]= df.at[j,"型号"]
print(price)
输出结果为( )
A.{"华为手表": ["WATCH GT3",1688],"苹果手表": [" Apple Watch Series7",2999]}
B.{"华为手表": ["WATCH GT",1288],"苹果手表": [" Apple Watch SE",2188]}
C.{"华为手表": ["WATCH GT2",1438],"苹果手表": [" Apple Watch SE",2188]}
D.{"苹果手表": [" Apple Watch Series7",2999],"华为手表": ["WATCH GT",1288]}
答案:B
详解:本题考查pandas数据分析。分析代码可知,依次遍历DataFrame对象,循环变量j是行索引,通过at[]方法可以依次得到“品牌”这一列的所有数据,当该品牌未在price字典中出现过时,将其以格式“品牌:[型号,价格]”的键值对形式添加到字典中,当该品牌出现过时,依次将当前产品的价格与字典中该品牌的商品价格进行比价,若价格低于字典中产品的价格,就用当前产品型号和价格替换掉字典中对应的产品,所以price存储的是每个品牌价格最低的产品。故选B。
3.某Python程序如下:
s="san xian lian meng."
dic={}
for i in s:
if i in dic:
dic[i]+=1
else:
dic[i]=1
在输出的字典dic中,dic["n"]的值为( )
A.1 B.2 C.3 D.4
答案:D
详解:本题考查的是字符串的操作。该程序用于统计字符串 s 中每个字符出现的次数,并将结果存储在字典 dic中。字符串s的值为"san xian lian meng."。"n"共出现了4次,故选D。
4.高德地图App在导航服务中调用北斗卫星系统,其日定位请求次数超过3000亿次,使道路交通情况预测的准确度得到提高。下列有关高德地图App的说法,正确的是( )
A.高德地图App数据传输时不需要传输介质
B.根据交通路况实时更新导航路线采用批处理计算
C.用户在使用导航数据的同时自身也在产生数据
D.因导航中数据体量大,预测未来交通情况采取抽样数据分析
答案:C
详解:本题考查数据和大数据的基本概念。A选项数据必须依附载体。B选项交通路况属于流数据,需要进行实时处理。D选项大数据是对全体数据进行处理,而不是抽样数据。故选C。
【链接真题】
(2025高二·浙江·专题练习)1.小明搜集了某网络购物平台2021年1月1日至2021年9月30日的日用化妆品销售数据,原始数据如图a所示。
(1)小明对数据进行了整理,下列操作不恰当的是 (单选,填字母)。
A.发现记录中有6条重复,对这6条记录进行了删除
B.发现记录中有38处数据项缺失,直接删除相关记录
C.将某条记录中订单日期“2050-6-9”订正为“2021-6-9”
D.将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
(2)小明发现数据中仍有极少量时间段外的记录混杂其中,可以利用Python及pandas模块进行处理。请回答问题:
全部数据保存于变量df中,为筛选出订单日期为2021年第一季度内的所有记录,可以执行Python语句df1= ,df1中保存筛选结果。(提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足多个条件)
A.df[(df['订单日期']<='2021-1-1')&(df['订单日期']<='2021-3-31')]
B.df[(df['订单日期']>='2021-1-1')&(df['订单日期']>='2021-3-31')]
C.df[(df['订单日期']>='2021-1-1')&(df['订单日期']<='2021-3-31')]
(3)经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10名的情况,编写如下Python程序段:
#数据整理结果保存于变量df1中,代码略
g = df1.groupby('所在地市',as_index= False).sum()
print( )
则画线处的代码为 (多选,填字母)
A.g.sort_values('订购数量',ascending = False)[0: 10]
B.g.sort_values('订购数量',ascending = True).tail(10)
C.g.sort_values('订购数量',ascending = True)[0: 10]
D.g.sort_values('订购数量',ascending = False).head(10)
答案:(1)B;(2)C;(3)ABD
详解:本题考查pandas数据分析。
(1)缺失数据要具体情况具体分析,不能直接删除,选项B错误;
(2)保留dfl中的筛选结果,所以应该选择1月1日到3月31日,所以正确答案为C;
(3)A选项,按照订购数量进行降序排序,通过切片选取前10行数据;B选项,按照订购数量进行升序排序,通过tail()函数选取后10行数据;D选项,按照订购数量进行降序排序,通过head()函数选取前10行数据;C选项筛选的是“订购数量”后10名的情况。故选ABD。
(2025高二·浙江·专题练习)2.使用百度搜索关键词“人工智能”,将采集到的结果数据存储为AI.txt文件,如图所示。
(1)文件“AI.txt”中的数据为 (选填:“结构化数据”或“非结构化数据”)
(2)处理“AI.txt”中的数据生成“AI_new.txt”文件的过程,一般称为 。
(3)编写如下Python程序,读取“AI.txt”文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在画线处填写合适代码,完善程序。
import jieba
text= open("AI.txt").read()
word_counts={} #建立空字典,用于存放词语及其出现的次数
words= jieba.lcut(text,cut_all= False) #分词
for word in words:
if len(word) == 1: #过滤掉单字
continue
else:
word_counts[word]=① #出现次数累加1
#使用word_counts计数词语word在words中出现次数
word_list= list(word_counts.items()) #返回所有键值对信息,生成列表
print(word_list)
word_list.sort(key= lambda x: x[1],reverse= True) #按词语出现次数降序排序
for i in range(20): #显示前20个词语及其出现次数
word,times=②
print(word,times)
程序中画线处代码应为:
① ;② 。
(4)根据统计的词频制作的标签云如图所示,标签云中最能体现“AI.txt”中文本特征的词有 (写出3—5个)。
答案:(1)非结构化数据;(2)分词;(3)①word_counts. get(word, 0)+1,②word_list[i];(4)人工智能、智能、方法、计算机、学科等。
详解:本题考查文本数据处理。
(1)文本数据是非结构化数据。
(2)将连续的字序列按照一定的规范重新组合成词序列的过程称为分词。
(3)①将大于2个长度的词存储在counts字典中,相应的key值加1,dict. get(key[, value])函数可以返回指定键的值,如果键不在字典中返回默认值None或者设置的默认值,故①处空填word_counts.get(word, 0)+1。②构建标签云的数据,来源于前20个词语,使用for循环逐一取出,故②处空填word_list[i]。
(4)标签云用词频表现文本特征,一般以文字大小的形式代表词语的重要性,故答案为人工智能、智能、方法、计算机、学科等。
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$
4.3 大数据典型应用(分层作业)
【基础达标】
1.下列关于大数据及数据处理的说法,不正确的是( )
A.大数据的应用,避免了用户隐私信息泄露的风险
B.处理大数据时一般采用分治思想
C.大数据要分析的是全体数据,能接受数据的混杂性
D.文本数据处理的过程主要包括分词、特征提取、数据分析和结果呈现等
2.学校要统计学生的视力情况,最合适的数据可视化图表是( )
A.折线图 B.饼图 C.散点图 D.雷达图
3.阅读下列代码段
import pandas as pd
a=[ ]
str1=["birds","fly","fly","sky","birds","fly"]
for word in str1:
a.append({"word":word,"count":1})
df=pd.DataFrame(a)
df1=df.groupby("word",as_index=False).sum( )
df2=df1.sort_values("count",ascending=False)
若要查看df1对象的列标题,下列代码正确的是( )
A.df1.columns B.df1.index C.df1.values D.df1.T
4.下列大数据服务中,应用了交通大数据的是( )
A.医疗误诊预警 B.个性化商品推荐
C.出行路线规划 D.土壤智能监测
5.智能运动手环应用中,心率监测数据、步数统计数据的来源是( )
A.网络爬虫 B.API接口 C.统计报表 D.传感器
6.下列各领域的应用中,未使用大数据的是( )
A.社交平台对海量用户数据进行处理和分析,构建用户画像,实现精准的广告投放
B.使用办公软件对某高校近五年的毕业生就业去向进行统计与分析
C.对网络流量数据进行监测和分析,实现网络攻击检测、威胁预警等目标
D.购物平台在分析用户的历史浏览、购买、搜索等行为基础上,向用户推荐个性化的商品
【能力提升】
1.某调研小组采集了各个地区的苹果售价和进价的相关数据,存储在“apple.xlsx”文件中,部分数据如图所示。
使用下列程序段处理“apple.xlsx”文件,对象df中的数据将( )
import pandas as pd
df= pd.read_excel(" apple.xlsx")
df.drop("采价点",axis=1)
df.drop(0)
df_data.sort_values("售价",inplace= True)
A.按“售价”升序排序 B.不再包含“采价点”数据列
C.删除了第一行记录 D.增加了一个数据行
2.电商平台都具有查询和排序功能,小李从平台上搜集了几款手表的数据,存放在文件“手表.xlsx”中,如下表所示,执行如下Python程序段:
品牌
型号
价格
华为手表
WATCH GT
1288
华为手表
WATCH GT2
1438
苹果手表
Apple Watch SE
2188
华为手表
WATCH GT3
1688
苹果手表
Apple Watch Series 7
2999
#DataFrame对象使用at[]方法可以根据行标签和列标签选取单个值
#如:df.at[0,"型号"]的值为:"WATCH GT"
import pandas as pd
df= pd.read_excel("手表.xlsx")
price={}
for j in range(len(df)):
if df.at[j,"品牌"] not in price:
price[df.at[j,"品牌"]]=[df.at[j,"型号"],df.at[j,"价格"]]
else:
if price[df.at[j,"品牌"]][1]> df.at[j,"价格"]:
price[df.at[j,"品牌"]][1]= df.at[j,"价格"]
price[df.at[j,"品牌"]][0]= df.at[j,"型号"]
print(price)
输出结果为( )
A.{"华为手表": ["WATCH GT3",1688],"苹果手表": [" Apple Watch Series7",2999]}
B.{"华为手表": ["WATCH GT",1288],"苹果手表": [" Apple Watch SE",2188]}
C.{"华为手表": ["WATCH GT2",1438],"苹果手表": [" Apple Watch SE",2188]}
D.{"苹果手表": [" Apple Watch Series7",2999],"华为手表": ["WATCH GT",1288]}
3.某Python程序如下:
s="san xian lian meng."
dic={}
for i in s:
if i in dic:
dic[i]+=1
else:
dic[i]=1
在输出的字典dic中,dic["n"]的值为( )
A.1 B.2 C.3 D.4
4.高德地图App在导航服务中调用北斗卫星系统,其日定位请求次数超过3000亿次,使道路交通情况预测的准确度得到提高。下列有关高德地图App的说法,正确的是( )
A.高德地图App数据传输时不需要传输介质
B.根据交通路况实时更新导航路线采用批处理计算
C.用户在使用导航数据的同时自身也在产生数据
D.因导航中数据体量大,预测未来交通情况采取抽样数据分析
【链接真题】
(2025高二·浙江·专题练习)1.小明搜集了某网络购物平台2021年1月1日至2021年9月30日的日用化妆品销售数据,原始数据如图a所示。
(1)小明对数据进行了整理,下列操作不恰当的是 (单选,填字母)。
A.发现记录中有6条重复,对这6条记录进行了删除
B.发现记录中有38处数据项缺失,直接删除相关记录
C.将某条记录中订单日期“2050-6-9”订正为“2021-6-9”
D.将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
(2)小明发现数据中仍有极少量时间段外的记录混杂其中,可以利用Python及pandas模块进行处理。请回答问题:
全部数据保存于变量df中,为筛选出订单日期为2021年第一季度内的所有记录,可以执行Python语句df1= ,df1中保存筛选结果。(提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足多个条件)
A.df[(df['订单日期']<='2021-1-1')&(df['订单日期']<='2021-3-31')]
B.df[(df['订单日期']>='2021-1-1')&(df['订单日期']>='2021-3-31')]
C.df[(df['订单日期']>='2021-1-1')&(df['订单日期']<='2021-3-31')]
(3)经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10名的情况,编写如下Python程序段:
#数据整理结果保存于变量df1中,代码略
g = df1.groupby('所在地市',as_index= False).sum()
print( )
则画线处的代码为 (多选,填字母)
A.g.sort_values('订购数量',ascending = False)[0: 10]
B.g.sort_values('订购数量',ascending = True).tail(10)
C.g.sort_values('订购数量',ascending = True)[0: 10]
D.g.sort_values('订购数量',ascending = False).head(10)
(2025高二·浙江·专题练习)2.使用百度搜索关键词“人工智能”,将采集到的结果数据存储为AI.txt文件,如图所示。
(1)文件“AI.txt”中的数据为 (选填:“结构化数据”或“非结构化数据”)
(2)处理“AI.txt”中的数据生成“AI_new.txt”文件的过程,一般称为 。
(3)编写如下Python程序,读取“AI.txt”文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在画线处填写合适代码,完善程序。
import jieba
text= open("AI.txt").read()
word_counts={} #建立空字典,用于存放词语及其出现的次数
words= jieba.lcut(text,cut_all= False) #分词
for word in words:
if len(word) == 1: #过滤掉单字
continue
else:
word_counts[word]=① #出现次数累加1
#使用word_counts计数词语word在words中出现次数
word_list= list(word_counts.items()) #返回所有键值对信息,生成列表
print(word_list)
word_list.sort(key= lambda x: x[1],reverse= True) #按词语出现次数降序排序
for i in range(20): #显示前20个词语及其出现次数
word,times=②
print(word,times)
程序中画线处代码应为:
① ;② 。
(4)根据统计的词频制作的标签云如图所示,标签云中最能体现“AI.txt”中文本特征的词有 (写出3—5个)。
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$