内容正文:
复习课件
第5章 数据处理和可视化表达
高中信息技术粤教版2019 必修1
大数据
01
数据采集
02
数据分析
03
数据可视化表达
04
复习内容总览
大数据
PART 01
第1节 大数据 知识结构
第1节 大数据 知识点一
是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合, 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1、大数据的定义
教材第101页
第1节 大数据 知识点二
2、大数据的特征
教材第102页
方面1:从互联网产生大数据的角度
①大量(Volume):数据体量巨大
②多样(Variety) :数据类型繁多
③低价值密度(Value):价值密度低
④高速(Velocity):变化速度快
第1节 大数据 知识点二
2、大数据的特征
教材第102页
方面2:从互联网思维的角度
①样本渐趋于总体
②精确让位于模糊
③相关性重于因果
第1节 大数据 知识点二
2、大数据的特征
教材第102页
方面3:从大数据存储与计算的角度
①分布式存储
②分布式并行计算
第1节 大数据 知识点三
3、传统数据和大数据的对比
教材第103页
传统数据 大数据
数据量小 数据体量巨大
数据类型少 数据类型繁多
价值密度高 价值密度低
更新速度慢 更新速度快
追求数据精准性 追求数据模糊性
本地存储 分布式存储
第1节 大数据 知识点四
4、大数据对日常生活的影响
教材第103页
积极影响
①方便支付
②方便出行
③方便购物与产品推介
④方便看病与诊断病情
第1节 大数据 知识点四
4、大数据对日常生活的影响
教材第103页
消极影响
①个人隐私泄露
②信息伤害与诈骗
第1节 大数据 提升练习
1.大数据、人工智能的迅猛发展和普及,为杭州亚运场馆加入了许多数智化创新元素。例如电竞中心运用全感知的5G数字基座,接入了设备数量超万台、数据类型达10万种以上的数字驾驶舱”,可以实现场馆的智能化管理,也可借助人行、车行设备系统实现对车辆数据、通行数据、检票数据的流量分析及预警。下列关于大数据, 说法正确的是( )
A.电竞中心采集的大数据数据量庞大,价值密度相对较低
B.数字驾驶舱内的数据,都是机器产生的
C.5G数字基座内的数据产生速度极快,但处理速度较慢
D.对通行、检票数据等进行流量分析及预警时需追求数据的精确性
【答案】A
第1节 大数据 提升练习
2. 大数据的特征包括( )
①体大 ②变化快 ③多样性 ④价值密度高
A.①②③
B.①③④
C.②③④
D.①②④
【答案】A
数据采集
PART 02
第2节 数据采集 知识结构
第2节 数据采集 知识点一
1、数据采集的方法
教材第104页
第1:系统日志采集法
在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
第2节 数据采集 知识点一
1、数据采集的方法
教材第104页
第1:系统日志采集法
➱监视系统中发生的事件
➱检查错误发生的原因
➱寻找受到攻击时攻击者留下的痕迹
第2节 数据采集 知识点一
1、数据采集的方法
教材第104页
第2:网络数据采集法
通过网络爬虫或者网站公开API等方式从网站上获取数据信息。
第2节 数据采集 知识点一
1、数据采集的方法
教材第104页
第2:网络数据采集法
网络爬虫:从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
第2节 数据采集 知识点二
2、数据采集的工具
教材第104页
Python网络数据采集第三方库
(1)numpy:构建科学计算的软件库。
(2)scipy:工程和学科软件库,包括线性代数、和统计等模块。
(3)pandas:快速简单的数据操作、聚合和可视化呈现。
(4)matplotlib:2D绘图库。
第2节 数据采集 知识点二
2、数据采集的工具
教材第104页
第三方库导入模块方式
第2节 数据采集 知识点三
3、数据存储方式
教材第107-108页
(1)把数据存在本地内部
(2)把数据放在第三方公共或私有的“云端”存储
第2节 数据采集 知识点四
4、数据的保护
教材第108-109页
数据安全保护指:数据不被破坏、更改、泄露或丢失。
数据安全保护技术
(1)安装杀毒软件和防火墙
(2)拷贝、备份、复制、镜像、持续备份等技术
只能防备数据安全隐患
此方法更彻底、有效
第2节 数据采集 知识点四
4、数据的保护
教材第108-109页
加密技术通常分为对称式加密和非对称式加密两大类。
(1)对称式加密指加密和解密用的是同一个密钥。
(2)非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则不能打开加密数据。
数据安全保护技术
第2节 数据采集 知识点四
4、数据的保护
教材第108-109页
隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐私泄露的问题。
数据的隐私保护
第2节 数据采集 知识点四
4、数据的保护
教材第108-109页
(1)技术手段
①数据收集时进行数据精度处理
②数据共享时进行访问控制
③数据发布时进行人工加扰
④数据分析时进行数据匿名处理
数据的隐私保护
第2节 数据采集 知识点四
4、数据的保护
教材第108-109页
(2)提高自身的保护意识
(3)对数据使用者进行道德和法律的约束
数据的隐私保护
第2节 数据采集 提升练习
1.下列有关数据采集的说法,错误的是( )
A.现如今数据的获取以机器获取为主
B.网络爬虫可在短时间内获取大量来自自然信源的数据
C.日常生活中常利用传感器获取数据
D.户可通过应用程序接口从互联网上采集所需数据
【答案】B
第2节 数据采集 提升练习
2.学校需要统计高中一年级新生对冬装、夏装校服的需求并进行订购,下列数据采集方式不恰当的是( )
A.政教处到各班级现场统计
B.各班班主任班会课统计后汇总
C.学生家长填写学校发放的在线问卷
D.咨询其他学校
【答案】D
数据分析
PART 03
第3节 数据分析 知识结构
第3节 数据分析 知识点一
在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
1、数据分析的定义
教材第111页
第3节 数据分析 知识点二
2、数据分析的组成
教材第112页
(1)特征探索
①对数据进行预处理
②发现和处理缺失值、异常数据
③绘制直方图
④观察分析数据的分部特征
⑤求最大值、最小值、极差等描述性统计量
第3节 数据分析 知识点二
2、数据分析的组成
教材第113页
(2)关联分析
分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
常见案例:超市某些商品捆绑促销,新高考选修学科的选择。
第3节 数据分析 知识点二
2、数据分析的组成
教材第115页
(3)聚类分析
一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果。
常见的算法: K-Means算法,自下而上的聚类分析方法。
第3节 数据分析 知识点二
2、数据分析的组成
教材第115页
(4)建立模型
(5)模型评价
第3节 数据分析 知识点三
3、数据分类
教材第116页
是数据分析处理中最基本的方法,基于样本数据先训练构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别的功能。
常见的数据分类技术:贝叶斯分类技术
第3节 数据分析 知识点三
3、数据分类
教材第116页
(1)人物:贝叶斯,英国数学家
(2)条件概率:是指事件A在另外一个事件B已经发生条件下的发生概率,表示为P(A|B),读作“在B的条件下A的概率”。
(3)贝叶斯发现在事件B出现的前提下事件A出现的概率,等于事件A出现的前提下事件B出现的概率乘以事件A出现的概率再除以事件B出现的概率。
贝叶斯分类技术
第3节 数据分析 知识点三
3、数据分类
教材第116页
贝叶斯定理
贝叶斯分类技术
第3节 数据分析 提升练习
1.以下哪个不是数据分析过程中可能遇到的问题? ( )
A.数据缺失
B.数据不一致
C.数据过时
D.数据过多
【答案】D
第3节 数据分析 提升练习
2.数据分析的主要用途是( )
A.数据存储
B.数据加密
C.信息提取
D.数据展示
【答案】C
数据可视化表达
PART 04
第4节 数据可视化表达 知识结构
第4节 数据可视化表达 知识点一
以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
1、数据可视化的定义
教材第119页
第4节 数据可视化表达 知识点二
2、数据可视化呈现类型
教材第119页
(1)探索类
帮助人们发现数据背后的价值
(2)解释类
简单明了地呈现数据
第4节 数据可视化表达 知识点三
(1)有关趋势的分析:分组柱形图、堆叠柱形图、折线图、柱线混合图
(2)有关比例的分析:百分比圆环图、饼图、圈图、堆叠面积图
(3)有关逻辑关系的分析:散点图、雷达图、网络关系图、词云
(4)有关空间关系的分析:数据地图、动态热力图、3D动态显示图
3、数据分析类型以及对应的可视化呈现
教材第119页
第4节 数据可视化表达 知识点四
4、数据可视化表达的工具
教材第120-121页
(1)Seaborm
主要关注统计模型的可视化,基于且高度依赖Matplotib
(2)Bokeh
能实现交互式可视化,独立于Matplotib ,能通过浏览器与数据驱动文档的风格呈现。
第4节 数据可视化表达 提升练习
1.在Excel中,若要直观的呈现全校男女同学的比例,最适宜的图表类型是( )
A.折线图
B.柱形图
C.饼图
D.影图
【答案】C
第4节 数据可视化表达 提升练习
2.下列关于数据可视化的说法,正确的是( )
A.数据可视化是指静态数据的可视化
B.决定数据可视化表现形式的是数据结构
C.可视化探究具有关联性数据的分布关系可用散点图
D.可视化展现时间趋势类的数据可用雷达图
【答案】C
第5章 数据处理和可视化表达
高中信息技术浙教版2019 必修1
谢谢观看
$$