内容正文:
5.2.1 数据采集的方法和工具
学习目标
明确数据应用项目的需求
能制定数据采集的需求清单
知道数据采集的方法和工具
一、系统日志采集法——临时文件
1.概念:记录系统硬件、软件和系统问题的信息文件
查看日志的方法:控制面板系统安全管理工具查看事件日志
2.内容
一、系统日志采集法——临时文件
1.概念:记录系统硬件、软件和系统问题的信息文件
2.内容:操作系统日志、应用程序日志、安全日志
3.作用:
监视系统中发生的事件
检查错误发生的原因
寻找受到攻击时攻击者留下的痕迹
二、 网络数据采集法
1.概念:通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息
在网址后加robots.txt,可以查看本网页是否能被爬取
例如:https://www.baidu.com/robots.txt
二、 网络数据采集法
2.网络爬虫的基本工作流程:
根据网页代码的标签名和属性,提取数据
控制器
解析器
存储器
二、 网络数据采集法
2.网络爬虫的基本工作流程如下:
首先,选取一部分精心挑选的种子URL;
然后,将这些URL放入待抓取URL队列;
接着,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
最后,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
二、 网络数据采集法
2. 网络爬虫。例如:百度的爬虫Baiduspider 360的爬虫叫360Spider
百度spider
用户
其他网站
关键字 主要内容 网址 时间
索引
索引数据库
检索
保存
二、 网络数据采集法
3.Html
Html:超文本标志语言的缩写,网页代码的基本组成部分
Html元素:决定网页的内容和结构,包含标签、注释等
标签:网页代码最基本的组成单位
<标签名 属性1 属性2 …>标签内容</标签名>
开始标签
结束标签
属性格式:属性名称=属性值
浏览器网页
显示的内容
二、 网络数据采集法
3.Html标签
<标签名 属性1 属性2 …>标签内容</标签名>
开始标签
结束标签
浏览