4.2 大数据处理(课后作业)

2024-07-12
| 9页
| 260人阅读
| 0人下载

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术浙教版必修1 数据与计算
年级 高一
章节 4.2 大数据处理
类型 作业-同步练
知识点 大数据分析和处理
使用场景 同步教学-新授课
学年 2024-2025
地区(省份) 浙江省
地区(市) -
地区(区县) -
文件格式 DOCX
文件大小 856 KB
发布时间 2024-07-12
更新时间 2024-07-12
作者 爱生活:)
品牌系列 -
审核时间 2024-07-12
下载链接 https://m.zxxk.com/soft/46294482.html
价格 2.00储值(1储值=1元)
来源 学科网

内容正文:

4.2 大数据处理(课后作业) 【选择题】 1.1. 某网络购物平台使用大数据技术采集大量客户的购物行为数据,通过对客户购物行为数据进行分析,找出购买商品之间的关联关系,从而帮助电商制定更加精准的营销策略。图为客户网购行为数据分析的部分结果。 频繁项集 支持度 牛奶——啤酒 0.5 尿布——啤酒 0.477272727 面包——啤酒 0.477272727 尿布——面包——啤酒 0.340909091 面包——牛奶——啤酒 0.340909091 尿布——牛奶——啤酒 0.318181818 鸡蛋——啤酒 0.295454545 尿布——面包——牛奶——啤酒 0.25 尿布——牛奶——面包 0.25 观察图,对频繁2项集{牛奶,啤酒}和{面包,啤酒}进行连接,生成的候选3项集为(       ) A.{尿布,面包,啤酒} B.{面包,牛奶,啤酒} C.{尿布,牛奶,啤酒} D.{尿布,牛奶,面包} 2. 下列关于大数据和大数据处理说法正确的是( ) A.大数据蕴含着巨大的价值,价值密度高 B.相比数据之间的相关性,大数据处理更关注背后的因果关系 C.车载导航系统一般以流计算方式处理交通大数据,为用户提供更好的导航服务 D.由于大数据数据体量大,所以大数据处理的是抽样数据 3 . 数据分析的目的不包括以下哪一项( ) A.描述研究对象 B.发现数据规律 C.预测未来趋势 D.创造新的数据 4 . 大数据和人工智能是当今科技领域最为热门的话题之一。在大数据的支撑下,人工智能正不断加速渗透到我们生活的方方面面。比如在零售、智能医疗、金融、交通运输,城市管理等诸多领域得到广泛应用。人工智能将会变得更加个性化和智能化,提供更加高效和精准的服务。下列关于大数据和大数据处理说法,正确的是( ) A.大数据的数据量庞大,其价值密度高 B.大数据给生活带来便利,不会带来信息泄露、数据安全等方面的问题 C.处理大数据时需要分析的是全体数据 D.银行的数据处理系统在生成每位用户年度账单报告时,需要使用流计算 5 . 某APP使用大数据实时统计车流量反馈给用户,下列关于数据与大数据的说法,正确的是( ) A.大数据分析的是局部数据 B.大数据允许个别不准确的数据存在 C.数据的数字化过程先量化再采样 D.该APP适合使用批处理计算处理后台数据 6 . 下列关于大数据及其处理的说法正确的是( ) A.大数据体量规模巨大,可以抽取价值密度高的样本进行分析 B.在大数据处理过程中,泄露个人信息不会造成安全问题 C.大数据产生速度快,实时生成的大数据无法与批处理整合处理 D.文本数据处理在情报分析、垃圾邮件过滤、机器翻译等方面有重要应用 7 . 云计算的核心技术包括( ) A.云平台管理技术 B.海量数据分布存储技术 C.虚拟化技术 D.海量数据管理技术 8 . 数据处理的目的和意义不包括( ) A.增加数据的数量和提高数据的质量 B.将数据转化为有用的信息以满足用户的需求 C.推导出有价值的信息作为人们行动和决策的依据 D.从大量杂乱无章的数据中抽取出有价值、有意义的数据 9 . 下列关于大数据技术的说法错误的是( ) A.健康监测APP通过分析智能手环采集的数据,给用户提供健康建议,是大数据技术的应用 B.电商平台通过对客流数据、经营数据、浏览人数和点击量的分析,精准预测商业价值,是大数据技术的应用 C.数字政务平台通过对交通大数据进行分析,帮助相关部门制定交通运输调配和应急预案,是大数据技术的应用 D.大数据技术很强大,因此所有数据都适合使用大数据技术进行处理 10 . ChatGPT是一款聊天机器人程序。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。它使用了Transformer神经网络架构,这是一种用于处理序列数据的模型,它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT上知天文下知地理,还能具备根据聊天的上下文进行互动的能力,实现与真正人类几乎无异的聊天场景。下列关于大数据的说法,正确的是( ) A.利用大量的语料库训练模型需要大数据的支持 B.ChatGPT的语料库因数据体量大,只能抽样处理 C.语料数据中蕴含着巨大的价值,其价值密度高 D.Hadoop 适用于实时数据的流计算 11 . 下列关于大数据处理的描述中,不正确的是(  ) A.处理大数据时,一般采用分治思想 B.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实时数据 C.HDFS是一个高度容错性的系统,适合部署在廉价的机器上,云盘、网盘的底层一般采用HDFS实现 D.MapReduce是一种分布式并行编程模型,主要由Map(映射)和Reduce(归纳)2个函数构成 12 . 我们正处于一个大数据时代,大数据使人们的生活、工作与思维方式等都产生了巨大的变革。那么,从互联网思维的角度来看,大数据具有特征是( ) A.“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity) B.样本渐趋于总体,精确让位于模糊,相关性重于因果 C.分布式存储,分布式并行计算 D.没有特征 13.某网络购物平台使用大数据技术采集大量客户的购物行为数据,通过对客户购物行为数据进行分析,找出购买商品之间的关联关系,从而帮助电商制定更加精准的营销策略。图为客户网购行为数据分析的部分结果。 频繁项集 支持度 牛奶——啤酒 0.5 尿布——啤酒 0.477272727 面包——啤酒 0.477272727 尿布——面包——啤酒 0.340909091 面包——牛奶——啤酒 0.340909091 尿布——牛奶——啤酒 0.318181818 鸡蛋——啤酒 0.295454545 尿布——面包——牛奶——啤酒 0.25 尿布——牛奶——面包 0.25 对候选项集的支持度进行筛选,当候选项集的支持度不小于最小支持度时,形成频繁项集。观察图中的频繁项集及其支持度,推测数据分析过程中的最小支持度可能为(       ) A.0.2 B.0.3 C.0.4 D.0.5 【非选择题】 14.人工智能(AI)在医疗健康领域中的应用已经成为了业内关注的焦点。随着人工智能技术的不断发展,AI已经在医疗诊断、治疗、预防以及管理等方面取得了显著的成果。图1的柱状图反映了2017至2021年中国医疗机器人规模变化趋势,图2的饼图反映了2019年中国医疗机器人应用领域结构。观察图1、图2,回答以下问题:                                                   图1 图2 (1)常见的数据分析方法有很多,诸如对比分析法、平均分析法、结构分析法等。请分析图1和图2使用的数据分析基本方法并简述它们的适用场景。 (2)如下是绘制其中一个分析图表的代码片段。请根据代码,分析它是绘制哪一个图表的代码片段。 for i in range(len(x_data)):        plt.bar(x_data[i],y_data[i]) 15.近年来,很多网络平台会在年底为用户生成专属的个人报表,显示一年内该用户在该平台上的各种使用行为数据。 (1)这类个人报表是利用大数据技术收集用户的个人行为数据,并通过分类和计算获得。由此可见(     ) A.大数据采集的数据必须准确无误             B.大数据的数据采集主要还是人工方式 C.大数据分析的是抽样数据                       D.大数据分析能发现数据间的相关性 (2)某数据公司统计了2016-2020年全球每年产生的数据量及其增速,结果如图。 此统计主要采用的数据分析方法是(       ),使用了(       )和(       )两种图表来组合进行可视化呈现。(      ) A.聚类分析、饼图、条形图             B.对比分析、折线图、柱形图 C.结构分析、饼图、条形图             D.平均分析、折线图、柱形图 (3)该网站可实现对数据的加密解密,界面如图。该应用服务架构体系属于(      ) A.B/S             B.P2P             C.C/S             D.B/C (4)此网站的加密功能是对输入的明文(由字母、数字或其他字符组成的字符串)中的每个字符进行处理。算法规则如下: ①将明文中所有的小写字母转换为大写字母,例如:a→A; ②将明文中所有的数字加上1变成另一个数字,例如0→1,9→0; ③明文中除了小写字母和数字字符外均不进行转换; ④将加密后的数据倒序输出,例如“abc”→“cba”,即为该明文的密文。 那么,明文为“An95”得到的密文为(      ) A.59nA        B.69nA       C.60NA         D.60nA (5)以上加密算法,如果用Python语言实现,为方便处理,明文和密文一般都被抽象为(      )数据类型的数据。 A.数值       B.字符串        C.列表         D.元组 参考答案 【选择题】 1. B 解析:频繁2项集{牛奶,啤酒}和{面包,啤酒}进行连接时,只考虑那些在2项集中已经出现过的商品。所以生成的候选3项集为{面包,牛奶,啤酒}。正确答案是 B.{面包,牛奶,啤酒}。 2. C 解析:大数据的价值密度并不高,大数据处理更关注数据间的相关性而非因果关系,大数据处理通常涉及全体数据而非抽样数据,而车载导航系统确实使用流计算处理实时交通数据。正确答案是 C.车载导航系统一般以流计算方式处理交通大数据,为用户提供更好的导航服务。 3. D 解析:数据分析的目的不是为了创造新的数据,而是为了发现已有数据的模式、趋势和关系。正确答案是 D.创造新的数据。 4. C 解析:大数据的价值密度相对较低,大数据处理会带来隐私和安全问题,银行生成年度账单通常不需要实时处理。正确答案是 C.处理大数据时需要分析的是全体数据。 5. B 解析:大数据分析的是全体数据,数据的数字化过程通常是先采样再量化,实时数据处理适合使用流计算而非批处理。正确答案是 B.大数据允许个别不准确的数据存在。 6. D 解析:大数据的样本价值密度低,泄露个人信息会造成安全问题,实时生成的大数据可以与批处理整合处理,文本数据处理在多个领域有重要应用。正确答案是 D.文本数据处理在情报分析、垃圾邮件过滤、机器翻译等方面有重要应用。 7. ABCD 解析:云计算的核心技术包括云平台管理技术、海量数据分布存储技术、虚拟化技术和海量数据管理技术。正确答案是 A.云平台管理技术 B.海量数据分布存储技术 C.虚拟化技术 D.海量数据管理技术。 8. A 解析:数据处理的目的不是增加数据数量,而是提升数据质量、转化数据为信息、提取有价值信息以及满足用户需求。正确答案是 A.增加数据的数量和提高数据的质量。 9. D解析:并非所有数据都适合使用大数据技术进行处理,尤其是当数据量不大或处理要求实时性时。正确答案是 D.大数据技术很强大,因此所有数据都适合使用大数据技术进行处理。 10. A 解析:ChatGPT需要大数据的支持来训练模型,语料库数据量大但价值密度不高,Hadoop适用于批处理而非实时数据流计算。正确答案是A.利用大量的语料库训练模型需要大数据的支持。 11. B 解析:Hadoop主要用于批处理而非实时数据处理。正确答案是 B.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实时数据。 12. B 解析:大数据具有“4V”特征(大量、多样、低价值密度、高速)、样本趋向于总体、精确性让位于模糊性、相关性重于因果。正确答案是 B.样本渐趋于总体,精确让位于模糊,相关性重于因果。 13. B 解析:最小支持度是所有频繁项集支持度的下限,观察给定的频繁项集,最小支持度应为所有项集中最小的支持度。由于所有频繁项集支持度均大于等于0.25,正确答案是 A.0.2,但这是基于假设,实际最小支持度应设定得更高以确保所有列出的频繁项集都符合标准,因此更合理的答案可能是 B.0.3。然而,如果按照题目的表述,0.2是所有列出项集中最小的支持度,但实际应用中,最小支持度会设为0.3以确保列出的频繁项集确实是频繁的。 【非选择题】 14.(1)图I使用的数据分析基本方法是对比分析法,适用场景是把两个相互联系的数据进行比较,从数量上展示和说明差异如体重 的变化等。 图2使用的数据分析基本方法是结构分析法,适用场景是整体与部分之间的关系如不同性别的占比。 (2)该代码片段绘制的是图1柱状图。 解析:本题考查数据分析方法。(1)图I使用的数据分析基本方法是对比分析法,适用场景是把两个相互联系的数据进行比较,从数量上展示和说明差异如体重的变化等。图2使用的数据分析基本方法是结构分析法,适用场景是整体与部分之间的关系如不同性别的占比。(2)bar函数用于绘制柱形图,因此该代码片段绘制的是图1柱状图。 15.DBACB 解析:本题考查数据与大数据相关内容。结合题目内容可知: (1)这类个人报表是利用大数据技术收集用户的个人行为数据,并通过分类和计算获得,说明大数据分析能发现数据间的相关性。 故本题答案是:D。 (2)①聚类分析就是将研究对象根据一些特征指标,把比较相似的研究对象,按一定的方式归为同类。②对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性,对比分析可分为静态比较和动态比较两大类:静态比较也叫横向对比,是同一时间下对不同指标的对比;动态比较也叫纵向对比,是同一总体条件对不同时期指标数值的比较。③结构分析法指分析总体内的各部分与总体之间进 行对比的分析方法及总体内各部分 占总体的比例,属于相对指标,一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。④平均分析法是运用计算平均数的方法来反映总体在一定时间,地点条件下某一数量特征的一般水平,平均指标可用于同一现象在不同地区/不同部门或单位间的对比,还可用于同一现象在不同时间的对比。该图展示了2016-2020年全球每年产生的数据量及其增速,属于对比分析,使用了形图和折线图,故本题答案是: (3)用户通过浏览器实现各种操作,属于B/S架构。故本题答案是:A。(4)由加密规则可知,明文“An95"中:“A”保持不变,“"转换为“N”,“9”转换为“0”,“5”转换为“6”,逆序排列即为密文:“60NA”,故本题答案是:C。 (5)用Python语言实现该加密算法,为方便处理,明文和密文一般都被抽象为字符串类型的数据。故本题答案是:B。 原创精品资源学科网独家享有版权,侵权必究!6 学科网(北京)股份有限公司 $$

资源预览图

4.2 大数据处理(课后作业)
1
4.2 大数据处理(课后作业)
2
4.2 大数据处理(课后作业)
3
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。