内容正文:
5.2 数据的采集
1
网购平台为什么总能知道你想买什么?
5.2 数据的采集
2
01
数据采集的方法和工具
数据的存储和保护
CONTENTS
02
5.2 数据的采集
3
1.数据采集的方法和工具
1
系统日志采集法
2
网络数据采集法
3
其他数据采集法
5.2 数据的采集
4
系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
系统日志采集法
5.2 数据的采集
5
是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
网络数据采集法
5.2 数据的采集
6
API(Application Programming Interface,应用程序接口)是一组定义、程序及协议的集合,通过 API接口实现计算机软件之间的相互通信。
URL(Uniform Resource Locator,统一资源定位符)是因特网的万维网服务程序上用于指定信息位置的表示方法。它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。
5.2 数据的采集
7
网络爬虫:(又称为网页蜘蛛,网络机器人)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
5.2 数据的采集
8
Python 中的扩展库
(1)NumPy。
NumPy(Numerical Python)是构建科学计算最基础的软件库,为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化,可以提升性能,加快执行速度。
5.2 数据的采集
9
Python 中的扩展库
(2)SciPy。
SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。SciPy的主要功能建立在 NumPy 的基础之上,因此它的数组大量使用了NumPy。它通过其特定的子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。
5.2 数据的采集
10
Python 中