5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算

2022-03-08
| 17页
| 2541人阅读
| 73人下载
普通

资源信息

学段 高中
学科 信息技术
教材版本 高中信息技术粤教版必修1 数据与计算
年级 高一
章节 5.2.1 数据采集的方法和工具
类型 课件
知识点 -
使用场景 同步教学
学年 2022-2023
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 1.02 MB
发布时间 2022-03-08
更新时间 2022-03-18
作者 双笙178
品牌系列 -
审核时间 2022-03-08
下载链接 https://m.zxxk.com/soft/32736542.html
价格 0.50储值(1储值=1元)
来源 学科网

内容正文:

5.2.1 数据采集的方法和工具 学习目标 明确数据应用项目的需求 能制定数据采集的需求清单 知道数据采集的方法和工具 一、系统日志采集法——临时文件 1.概念:记录系统硬件、软件和系统问题的信息文件 查看日志的方法:控制面板系统安全管理工具查看事件日志 2.内容 一、系统日志采集法——临时文件 1.概念:记录系统硬件、软件和系统问题的信息文件 2.内容:操作系统日志、应用程序日志、安全日志 3.作用: 监视系统中发生的事件 检查错误发生的原因 寻找受到攻击时攻击者留下的痕迹 二、 网络数据采集法 1.概念:通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获取数据信息 在网址后加robots.txt,可以查看本网页是否能被爬取 例如:https://www.baidu.com/robots.txt 二、 网络数据采集法 2.网络爬虫的基本工作流程: 根据网页代码的标签名和属性,提取数据 控制器 解析器 存储器 二、 网络数据采集法 2.网络爬虫的基本工作流程如下: 首先,选取一部分精心挑选的种子URL; 然后,将这些URL放入待抓取URL队列; 接着,从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。 最后,分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。 二、 网络数据采集法 2. 网络爬虫。例如:百度的爬虫Baiduspider 360的爬虫叫360Spider 百度spider 用户 其他网站 关键字 主要内容 网址 时间 索引 索引数据库 检索 保存 二、 网络数据采集法 3.Html Html:超文本标志语言的缩写,网页代码的基本组成部分 Html元素:决定网页的内容和结构,包含标签、注释等 标签:网页代码最基本的组成单位 <标签名 属性1 属性2 …>标签内容</标签名> 开始标签 结束标签 属性格式:属性名称=属性值 浏览器网页 显示的内容 二、 网络数据采集法 3.Html标签 <标签名 属性1 属性2 …>标签内容</标签名> 开始标签 结束标签 浏览

资源预览图

5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
1
5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
2
5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
3
5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
4
5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
5
5.2-1数据采集的工具和方法 课件 2021—2022学年粤教版(2019)信息技术必修一 数据与计算
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。