5.2-1数据采集的工具和方法课件 2021—2022学年粤教版（2019）信息技术必修一数据与计算

2022-03-08

| 17页

| 2557人阅读

| 73人下载

普通

资源信息

学段	高中
学科	信息技术
教材版本	高中信息技术粤教版必修1 数据与计算
年级	高一
章节	5.2.1 数据采集的方法和工具
类型	课件
知识点	-
使用场景	同步教学
学年	2022-2023
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	1.02 MB
发布时间	2022-03-08
更新时间	2022-03-18
作者	双笙178
品牌系列	-
审核时间	2022-03-08
下载链接	https://m.zxxk.com/soft/32736542.html
价格	0.50储值（1储值=1元）
来源	学科网

内容正文：

5.2.1 数据采集的方法和工具学习目标明确数据应用项目的需求能制定数据采集的需求清单知道数据采集的方法和工具一、系统日志采集法——临时文件 1.概念：记录系统硬件、软件和系统问题的信息文件查看日志的方法：控制面板系统安全管理工具查看事件日志 2.内容一、系统日志采集法——临时文件 1.概念：记录系统硬件、软件和系统问题的信息文件 2.内容：操作系统日志、应用程序日志、安全日志 3.作用：监视系统中发生的事件检查错误发生的原因寻找受到攻击时攻击者留下的痕迹二、网络数据采集法 1.概念：通过网络爬虫、网络公开API（应用程序接口）等方法从网站上获取数据信息在网址后加robots.txt，可以查看本网页是否能被爬取例如：https://www.baidu.com/robots.txt 二、网络数据采集法 2.网络爬虫的基本工作流程：根据网页代码的标签名和属性，提取数据控制器解析器存储器二、网络数据采集法 2.网络爬虫的基本工作流程如下：首先，选取一部分精心挑选的种子URL；然后，将这些URL放入待抓取URL队列；接着，从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。最后，分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。二、网络数据采集法 2. 网络爬虫。例如：百度的爬虫Baiduspider 360的爬虫叫360Spider 百度spider 用户其他网站关键字主要内容网址时间索引索引数据库检索保存二、网络数据采集法 3.Html Html:超文本标志语言的缩写，网页代码的基本组成部分 Html元素：决定网页的内容和结构，包含标签、注释等标签：网页代码最基本的组成单位 <标签名属性1 属性2 …>标签内容</标签名> 开始标签结束标签属性格式：属性名称=属性值浏览器网页显示的内容二、网络数据采集法 3.Html标签 <标签名属性1 属性2 …>标签内容</标签名> 开始标签结束标签浏览

资源预览图

5.2-1数据采集的工具和方法课件 2021—2022学年粤教版（2019）信息技术必修一数据与计算

所属专辑

学科

2021-2022学年高中信息技术粤教版（2019）必修1课件

高一信息技术普通专辑 28 份文档

2625人已阅读

5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版（2019）信息技术必修一 数据与计算

资源信息

内容正文：

资源预览图

5.2-1数据采集的工具和方法课件 2021—2022学年粤教版（2019）信息技术必修一数据与计算