内容正文:
5.2数据的采集
EDUCATION
1
目
录
01
数据采集的方法和工具
02
数据的存储
03
数据的保护
2
新课导入
数据的来源?
互联网、物联网
采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,制定数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。
01
数据采集的方法和工具
4
5.2.1 数据采集的方法和工具
1
系统日志采集法
2
网络数据采集法
3
其他数据采集法
系统日志采集法
系统日志是记录系统中硬件、软件和系统问题的信息文件。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
操作系统日志
应用程序日志
安全日志
网络数据采集法
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
互联网、物联网
网络爬虫是什么?
网络爬虫的起始点是什么?
网络爬虫的作用。
可以自动采集网络数据的程序代码
编写一个爬虫程序从百度上下载5张玫瑰花图片。
项目案例
一个或若干个网页的URL
(统一资源定位符)
通过爬虫可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。
使用Python语言的第三方库来实现爬虫编写
requests库——获取网页信息
bs4库(beautifulsoup)——解析HTML页面
xlwt库——调用Excel模块,将获取的有用信息写入表格文件保存
NumPy库 ——构建科学计算最基础的软件库
Scipy库——工程和科学软件库
Pandas ——主要用于快速简单的数据操作、聚合和可视化呈现
Matplotlib ——Python绘图库
import module
关键字 模块名
from module import name
关键字 模块名 关键字 方法名
import NumPy
关键字 模块名
from NumPy import sqrt
关键字 模块名 关键字 方法名
其他数据采集法
传感器
02
数据的存储与保护
11
01
02
一种是把数据存在本地内部
把数据放在第三方公共或私有的“云端”存储
数据存储的方式
12
数据的存储
本地内部存储
第三方云存储
存储卡
本地电脑硬盘
光盘
数据存储服务器
供应商
用户
管理
运营
维护
访问权限
存储空间
存储数据
数 据 的保护
保护数据不被破坏、更改、泄露或丢失
数据的安全保护、数据的隐私保护
14
数据的安全保护
数据安全保护指数据不被破坏、更改、泄露或丢失。
1.安装杀毒软件、防火墙
2.拷贝、备份、复制、镜像、持续备份等技术
3.加密技术:
对称式加密(加密和解密用的是同一个密钥)
非对称式加密(加密和解密用是两个不同的密钥,必须配对使用)
只能防备数据安全隐患
更为彻底、有效的方法
隐私泄露的途径
数据的隐私保护
隐私泄露的
解决办法
1
2
3
技术手段
提高自身保护意识
对数据使用者进行道德和法律上的约束
1
2
3
数据收集时——数据精度处理
数据共享时——访问控制
数据发布时——人工加扰
4
数据分析时——数据匿名处理
数据的隐私保护:
数据的隐私保护
1.技术手段
常用的隐私保护手段有:
① 数据收集——进行数据精度处理;
② 数据共享——进行访问控制;
③ 数据发布——进行人工加扰;
④ 数据分析——进行数据匿名处理等。
2.提高隐私保护意识
3.对数据使用者进行道德或法律约束
巩固练习
1.随着技术的发展,数据采集的手段日益丰富。下列不属于数据采集的是( )
A.用手机播放音乐
B.疫情防控专用通道测体温
C.潜水器潜入海底进行取样,提取样本特征
D.汽车尾气检测系统获取实时数据
2、无论对于个人还是企业,数据安全隐患无处不在,一旦数据泄露或丢失,就有可能造成巨大的损失。下面说法不正确的是( )
A.对于个人而言,在硬盘上做好重要文件的备份就能确保数据安全
B.《中华人民共和国网络安全法》的实行,说明国家对于网络数据安全越来越重视
C.使用手机中的定位、导航、移动支付,都有可能造成隐私的泄露
D.对于企业而言,可以利用复制、镜像、持续备份等技术做好数据保护
A
A
巩固练习
3、下列选项中,均属于数据采集工具的是( )
A.网络爬虫、传感器
B.问卷、报纸
C.移动App、杂志
D.摄像机、电视机
4、我们常用来存储数据的存储进制有很多种,但是( )仅能按顺序文件方式存取。
A.磁带 B.硬盘 C.U盘 D.光盘
5、人口普查时,社区工作人员逐户上门登记人口信息的过程主要属于( )
A.信息的传递 B.信息的处理 C.信息的采集 D.信息的存储
A
C
A
巩固练习
6.网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的( )开始获取。
A. URL B. WWW C. HTML D. XML
7.利用Python采集网络数据时,导入扩展库的关键字是import。( )
8.网络数据采集法主要通过网络爬虫或网站公开API的方式获取网络爬虫,从网页的WWW开始获取。( )
9.数据采集的基本方法包括系统日志采集、网络数据采集等方法。( )
A
√
×
√
课堂小结
安全共享数据、创造数据价值、发挥数据的作用
存储
本地内部存储
第三方云存储
保护
安全保护技术
隐私保护
实践:自主阅读课本110页,了解什么是网络缓存? 同时查找自己的Internet临时文件。
演示完毕感谢观看
EDUCATION
24
Lavf58.20.100
Bilibili VXCode Swarm Transcoder v0.3.75
$$