内容正文:
数据与大数据 大数据处理
学考要点1数据与大数据
【必修1数据与计算第28~32页 指导意见第9~13页】
1.大数据的概念及特征
大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转化为价值。数据量大并不一定就是大数据。大数据的特征有:
(1)数据体量巨大:人类社会的数据量在不断刷新一个个新的量级单位,已经从TB、PB级别跃升至EB、ZB级别。
(2)速度快:一是数据产生的速度快,包括爆发式产生和累积产生;二是数据处理的速度快,高速率实时数据处理。
(3)数据类型多:大数据的数据来源多,既有人工产生的,也有机器自动产生的。各种结构化、半结构化和非结构化数据共存是大数据的普遍现象。
(4)价值密度低:大数据蕴藏着巨大价值,但因其数据量庞大,可能发挥价值的仅是其中非常小的部分,价值密度相对较低。但价值密度低不等于价值低。
2.大数据思维
(1)大数据要分析的是全体数据,而不是抽样数据。
(2)对于数据不再追求精确性,而是能够接受数据的混杂性。
(3)不一定强调对事物因果关系的探求,而是更加注重它们的相关性。
3.大数据对社会的影响
(1)大数据让生活更便利。
(2)大数据让决策更精准。
(3)大数据带来新的就业需求。
(4)大数据带来新的社会问题。
学考要点2大数据处理
【必修1数据与计算第123~150页,第138~150页 指导意见第19~25页】
1.大数据处理的基本思想
处理大数据时,一般采用分治思想。分治就是把一个复杂的问题分成两个或更多个相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。
2.大数据处理的类型和架构
数据类型 数据特征 处理方式 软件或平台
静态数据 在处理时已收集完成、在计算时不会发生改变 批处理计算 Hadoop、Spark等
流数据 不间断地、持续地到达的实时数据,具有时效性,比如根据交通路况实时更新导航路线 流计算 Storm、Heron等
图数据 现实世界中以图的形式呈现的一些数据,如社交网络、道路交通等 图计算 Pregel、GraphX等
(1)批处理计算
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。
①分布式文件系统HDFS:主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。目前,云盘、网盘的底层一般采用HDFS实现。
②分布式数据库HBase:建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,具有良好的横向扩展能力,可管理PB级的大数据。
③分布式并行计算模型MapReduce:能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳) 2个函数构成。核心处理思想是将任务分解并分发到多个节点上进行处理,最后汇总输出。
(2)流计算
通过流计算系统,可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadoop、编程语言等整合后可开发出功能
强大的实时计算与分析应用。处理流数据的软件系统主要有IBM InfoSphere Streams、Twitter Storm、Yahoo!S4、银河流数据处理平台(淘宝)、Facebook Puma等。
(3)图计算
目前通用的图处理软件主要包括两类:一类是图数据库,如Neo4j、InfiniteGraph、OrientDB等;另一类是并行图处理系统,如Google Pregel、Apache Giraph、卡内基梅隆大学的GraphLab、运行于Spark平台的GraphX等。
(4)实时处理与批处理的整合
Twitter开源了其大数据处理系统Summingbird,该系统实现了批处理和流计算在一个平台架构下的整合(Hadoop+Storm)。开发者在同一个平台既可以做批处理,也可以做流计算,还可以进行两种模式的混合使用。
3.文本数据处理
(1)文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
(2)文本数据处理的一般过程:典型的文本处理过程主要包括分词、
特征提取、数据分析、结果呈现等。
①中文分词:将连续的字序列按照一定的规范重新组合成词序列的过程,也就是将一个汉字序列切分成一个一个单独的词。常见的中文分词算法有基于词典的分词方法、基于统计的分词方法、基于规则的分词方法。
A.基于词典的分词方法:也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见的分词系统有jieba分词。
B.基于统计的分词方法:依据上下文中相邻字出现的频率统计,同时
出现的次数越高就越可能组成一个词。一般将其与基于词典的分词方法结合使用。
C.基于规则的分词方法:通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。该分词方法目前还处于试验阶段。
②特征提取
A.特征词:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。目前,大多数中文文本分析中都采用词作为特征项。通常可直接用分词算法和词频统计得出的结果作为特征词。
B.特征提取:一般采用的方式为根据专家的知识挑选有价值的特征,或者用数学建模的方法构造评估函数自动选取特征等。目前大多采用评估函数进行特征提取的方式。
(3)文本数据分析与应用:在取得特征词后,对文本的分析就需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。
①标签云:标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。标签云广泛应用于报纸、杂志等传统媒体和互联网。
②文本情感分析:文本情感分析是指通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。文本情感分析主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。
4.数据可视化
(1)数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
(2)可视化的作用
①快捷观察与追踪数据:利用可视化技术,可以将处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。
②实时分析数据:利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。
③增强数据的解释力与吸引力:利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们的阅读兴趣。
(3)可视化的工具
主要用于数据可视化的工具有大数据魔镜、Gephi、Tableau等,也可以使用Python、R等计算机语言编写程序实现数据的可视化。此外,还有一些优秀的可视化工具库,如基于JavaScript的D3.js、Highcharts、Google Charts等,基于Python的matplotlib等。
(4)可视化的基本方法
类别 数据间关系的描述 可视化方法
有关时间趋势的可视化 时间序列数据变化的过程和趋势 柱形图、折线图等
有关比例的可视化 各部分的大小及其占总体比例的情况 饼图、环形图等
有关关系的可视化 变量之间的关联性和分布关系 散点图、气泡图等
有关差异的可视化 包含多种变量的对象与同类之间的差异和联系 雷达图
有关空间关系的可视化 地理数据或基于地理数据的分析结果 地图
例1 下列关于大数据的说法不正确的是( )
A.处理大数据一般采用分治思想
B.文本数据处理是大数据处理的重要分支之一
C.大数据技术可以处理非结构化数据
D.大数据处理的数据整体价值密度高
【解析】 大数据具有数据规模大、处理速度快、数据类型多、价值密度低等特征,选项D错误。
D
变式1 下列关于大数据的说法不正确的是( )
A.大数据一般具有数据规模大、处理速度快、数据类型多、价值密度低四个特征
B.大数据追求数据的精确性,处理大数据时要保证每个数据准确无误
C.大数据中,各种结构化、半结构化和非结构化数据共存
D.大数据更注重事物的相关性而不是因果关系
【解析】 大数据不追求精确性,能够接受数据的混杂性。当数据量大到一定程度时,个别数据的不准确就显得不那么重要了。选项B错误。
B
变式2 下列关于数据与大数据的说法正确的是( )
A.数据是现代科学研究的重要资源
B.大数据的数据量庞大,价值密度高
C.计算机中的数据都以ASCII码的形式存储
D.大数据的应用降低了用户隐私信息泄露的风险
【解析】 选项B,大数据价值密度低,选项错误;选项C,ASCII码是对数字、字母以及一些符号的编码,计算机中的数据是以二进制的形式存储的,选项错误;选项D,大数据的应用提高了信息泄露的风险,选项错误。
A
变式3 下列关于数据和大数据的说法正确的是( )
A.数字和文字是数据常见的表现形式
B.未经数字化的数据不能被记录和传输
C.大数据蕴含着巨大的价值,价值密度很高
D.大数据为社会各层面带来便利,不存在任何安全隐患
A
【解析】 选项B,文字、数字、音频、图像等载体都可以对数据进行记录和传输,选项错误;选项C,大数据蕴含着巨大的价值,但其价值密度低,选项错误;选项D,大数据为社会各层面带来便利,但存在安全隐患,可能泄露个人隐私,选项错误。
变式4 (2024·浙江1月选考)下列关于数据与信息的说法正确的是( )
A.数据以二进制方式编码后才能存储在计算机中
B.大数据技术不能处理非结构化数据
C.同一数据经解释后产生的信息都是相同的
D.信息加工处理后不会产生更有价值的信息
A
【解析】 选项A,计算机里的数据都是以二进制的形式进行存储的,选项正确;选项B,大数据的特征之一是数据类型多,包含结构化数据、半结构化数据和非结构化数据,大数据技术能处理非结构化数据,选项错误;选项C,人们对相同的数据可以有不同的解释,可以获得不一样的信息,选项错误;选项D,信息经过加工处理后,可以产生更有价值的信息,选项错误。
例2 (2023·浙江7月学考)小张从北京出差至杭州。出发前,他在手机上登录12306 售票系统购买火车票、完成支付,检票时刷身份证通过闸机。到杭州站下车后,小张在手机导航软件中通过语音输入目的地规划行程路线,打车前往宾馆,途中,导航软件会在地图上实时显示道路拥堵状况等信息。下列关于该材料中数据与数据处理的说法不正确的是( )
A.火车票上的文字是数据的一种表现形式
B.大数据处理技术能增强导航服务的智能性
C.导航数据的可视化有利于观察和分析数据
D.用语音规划行程路线时无须对用户语音进行数字化
D
【解析】 数据是对客观事物的符号表示,如图形、数字、文字、字母等,选项A正确;大数据代表着数据量大、速度快、种类繁多的信息资产,挖掘、分析大数据可以充分发挥其巨大的价值,选项B正确;数据可视化是将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程,导航数据的可视化有利于观察和分析数据,选项C正确;用语音规划行程路线时,必须将用户的语音信号转化为二进制代码,才能被导航软件处理,选项D错误。
变式1 下列关于大数据处理的说法不正确的是( )
A.处理大数据时,一般采用分治思想
B.对历史数据一般采用批处理方式
C.大数据处理时要求所有的数据都准确
D.大数据分析的是全体数据,而不是抽样数据
【解析】 大数据不再追求数据的精确性,当数据量大到一定程度时,个别数据的不准确不会影响结果,选项C错误。
C
变式2 下列关于Hadoop架构的说法正确的是( )
A.采用MapReduce编程模型处理大规模数据集
B.不能运行于大规模计算机集群上
C.采用NTFS文件系统管理数据文件
D.是一个对大数据进行聚合式处理的基础软件框架
【解析】 选项B,Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,选项错误;选项C,采用分布式文件系统HDFS管理数据文件,选项错误;选项D,Hadoop 是一个分布式系统基础架构,选项错误。
A
变式3 下列数据处理不属于文本数据处理的是( )
A.根据白名单和黑名单机制进行垃圾邮件的识别
B.在线客服通过自动应答技术回答问题
C.实时监测景区的人流数据,控制过多的游客进入景区
D.分析消费者的意见数据和挖掘用户观点来辅助运营决策
【解析】 实时监测景区的人流数据,属于视频等流媒体数据处理,选项C符合题意。
C
变式4 编写一个Python 程序,为一篇主题为“碳中和”的文章制作标签云,标签云如图所示。下列说法不正确的是( )
A. 这篇文章是结构化数据
B.该程序可以使用jieba 模块进行分词
C.基于词典和基于统计的分词方法一般是结合使用的
D.标签云用词频表现文本特征,词频越高的文字越大
【解析】 文本内容是非结构化数据,选项A错误。
A
变式5 (2024·舟山中学学考模拟)下列关于大数据与大数据处理的说法正确的是( )
A.大数据可以采用抽样数据分析,目的是让处理速度更快
B.在大数据商品个性化推荐中,要分析人们购买商品的原因,从而提供精准推荐
C.文本数据处理一般先提取特征再进行分词、数据分析等处理
D.静态大数据的批处理可以和流数据的实时处理相整合,降低切换延时时间
D
【解析】 选项A,大数据要分析的是全体数据而不是抽样数据,即使为了加快处理速度也不应该分析抽样数据,选项错误;选项B,大数据要分析数据的相关性,而不是因果关系,大数据商品个性化推荐中也是分析用户购买商品之间的关联性,而不是分析用户购买的原因,选项错误;选项C,文本处理的一般步骤是分词、特征提取、数据分析和结果呈现,没有分词前不能提取特征,选项错误。
变式6 下列关于数据可视化的说法不正确的是( )
A.标签云是基于语句的文本内容可视化
B.数据可视化是将数据以图形图像等形式表示
C.数据可视化可以直观地呈现数据中蕴含的信息
D.数据可视化增强了数据的解释力与吸引力
【解析】 标签云用词频表现文本特征,选项A错误。
A
$$