内容正文:
5.2.2数据的存储与保护
1
数据的存储
一、本地内部存储
本地电脑硬盘
存储卡
光盘
数据存储服务器
2
数据的存储
二、第三方云存储
3
数据的存储
二、第三方云存储
供应商
用户
管理
运营
维护
访问权限
存储空间
存储数据
4
数据的存储
数据的存储方式
5
数据的保护
数据的安全隐患
数据保护
刻不容缓
6
数据的保护
数据安全保护技术
1、安装杀毒软件和防火墙
7
数据的保护
数据安全保护技术
2、拷贝、备份、复制、镜像、持续备份
8
数据的保护
数据安全保护技术
2、拷贝、备份、复制、镜像、持续备份
1、安装杀毒软件和防火墙
3、加密:对称式加密
非对称式加密
9
数据的保护
数据的隐私保护
大数据时代,信息传播的速度更快,范围更大
10
数据的保护
数据的隐私保护
11
数据的保护
数据的隐私保护
12
爬虫数据下载
13
爬虫数据下载
下载图片:
open(文件名, 模式)
模式:只读(r),写入(w),追加(+)等。
这个参数是非强制的,默认文件访问模式为只读(r)。为wb,是以二进制格式打开一个文件只用于写入。 如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。
response.content。获得response对象的二进制形式。
14
爬虫数据下载
爬虫小结
request.get(url,headers=headers)
模拟发出请求
获得回应
取出html
BS4梳理
BeautifulSoup(html,’lxml’)
查找同类
soup.find_all(“标记”,”属性”=“”)
爬内容:
item.find (“标记”,”属性”=“”).get_text()
爬属性值:
<标记 属性1=属性值 属性2=属性值 ... ... >内容</标记>
item.find (“标记”,”属性”=“”).attrs[“属性”]
rsp.text
网址
用户代理
for循环
15
爬虫数据下载
把爬到的数据存入Excel(openpyxl库)
import openpyxl
wb = openpyxl.Workbook()
实例化一个工作簿
ws = wb.active
激活的工作表
ws.title = “电影top250"
设置工作表名
ws.append([“序号”,“片名”,“地址"])
追加表头
wb.save(“movie.xlsx")
保存工作簿
列表
ws.append((sn,name,url))
16
爬虫数据下载
完整参考代码:
拓展:
如何爬取连续的多个网页?
17
爬虫数据下载
有人说爬虫简单
有人说爬虫简单,于是我学了简单的爬虫。
为了解析网页学了HTML:
为了存储数据并理解原理学了MySQL和MongoDB;
为了构建增量和分布式爬虫学了redis;
为了解决网页加密与混淆学了JavaScript;
为了优化开发效率和处理滑动验证码学了selenium和pyppeteer;
为了处理数字验证码学了卷积神经网络;
为了爬取的数据更有价值学了numpy、pandas和sklearn;
为了更直观的理解数据学了matplotlib和altair;
为了爬取手机APP解决反编译我学了……
学学学……学个屁!
看到这个的留言,先心疼他三秒钟,这或许是我见到总结最到位的Python爬虫从入门到精通的心路历程!
18
$