1.3使用网页爬虫爬取网页数据教学课件+学习单-2022电子工业版七年级下册

2024-05-11

| 2份

| 21页

| 384人阅读

| 5人下载

精品

资源信息

学段	初中
学科	信息科技
教材版本	初中信息科技电子工业版（2022）第二册（七年级下）
年级	七年级
章节	1.3 使用网络爬虫爬取网页数据
类型	课件
知识点	-
使用场景	同步教学-新授课
学年	2024-2025
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	ZIP
文件大小	31.86 MB
发布时间	2024-05-11
更新时间	2024-05-11
作者	xkw_069034126
品牌系列	-
审核时间	2024-05-11
下载链接	https://m.zxxk.com/soft/45082067.html
价格	2.50储值（1储值=1元）
来源	学科网

内容正文：

情境导入：本单元项目式主题：校园科技节为了使制作出的网页更加吸引人，我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多，如何快速获取这些信息呢? 《1.3使用网页爬虫爬取网页数据》 2023年电子工业出版社七年级下册 -第1单元解密互联网中的信息编码 - 珠珠老师信息科技课件 2022新版课标内容 1 活动1：认识网络爬虫 2 活动2：编程实现网络爬虫《目录》信息科技 3 活动3：熟悉网络爬虫的“君子协议” 01 认识网络爬虫活动1 01.知识点讲解一般情况下，我们是通过在网页上搜索、复制、粘贴来获取需要的数据，但是如果需要获取的数据量特别大，这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫) 来实现对数据的自动化采集。活动1：认识网络爬虫 01 什么是网络爬虫 01.知识点讲解网络爬虫就是模拟我们浏览网页的行为，再将站点返回的HTML代码放到本地，保存并使用。 01 网络爬虫小总结活动1：认识网络爬虫原则上只要浏览器能做的事情，爬虫都能做！ 02 编程实现网络爬虫活动2 01.知识点讲解使用Python语言可以方便地编写网络爬虫的程序，获取网页中的信息。活动2：编程实现网络爬虫 02 接下来教师演示使用python语言编写获取网页信息的网络爬虫程序。 01.知识点讲解活动2：编程实现网络爬虫 02 (１)启动mPython,单击mPython窗口左上角的“硬件编程”,打开下拉列表，选择“Python”,进入Python代码编程界面，按以下步骤编写程序。 (２)使用requests模块和lxml模块加载网络爬虫程序： (３)用requests模块的get)方法获取爬虫需要“爬”的网页地址，将网页文本保存在变量txt中，再将网页文本解析为HTML文档： 01.知识点讲解活动2：编程实现网络爬虫 02 (５)输出爬虫“爬”到的内容： (４)使用HTML的xpath()方法定位爬虫的位置，并将“爬”到的内容保存在列表变量title中：（６）运行程序，在mPython窗口右侧可以看到程序的运行结果。 01.知识点讲解上述程序中用到了Python语言的两个扩展模块，下面介绍安装扩展模块的方法。在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框，在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮，若出现“Successfully installed”,就表示requests模块安装好了，然后可以按同样的方法安装Ixml模块。 02 知识拓展活动2：编程实现网络爬虫加载网络爬虫程序需要的模块 01.知识点讲解 XPath(XML Path Language)是一种小型查询语言，用于在XML(可扩展标记语言)文档中查找信息。可以采用以下方法获取网页中指定位置的XPath地址： (1)使用浏览器打开网页，按F12键进入开发者模式，查看网页源代码； (2)单击“选取页面中的元素”按钮,选中要抓取的网页内容，对应的，开发者窗格中会有一段高亮显示的代码； (3)将鼠标指针指向高亮代码部分，并在其上面右击； (4)打开快捷菜单，执行“复制”→“复制XPath”命令，如下图所示，就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。 02 活动2：编程实现网络爬虫获取网页中指定位置的XPath路径地址 01.知识点讲解 02 活动2：编程实现网络爬虫获取网页中指定位置的XPath路径地址需要注意的是，虽然用网络爬虫获取网站内容的方法有很多，但使用网络爬虫并不能获取所有希望获取的网站内容，如封装过的网页或动态网页，以及做了屏蔽网络爬虫设置的网站等，都无法获取。 03 熟悉网络爬虫的“君子协议” 活动3 在使用网络爬虫爬取网络信息时，可以随便爬取吗?爬取到的信息都可以随便使用吗?结合使用网络爬虫的体验，尝试制订合理的网络爬虫协议，并写在导学案中。讨论与交流 01.知识点讲解 03 活动3：熟悉网络爬虫的“君子协议” 01.知识点讲解为了规范网络爬虫的使用，一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。协议规定：网站管理员在网站域名的根目录下存放一个Robots.txt文本文件，文件里指定该网站的哪些内容可以爬取，哪些内容不可以爬取。使用网络爬虫程序采集网站信息前，要先阅读该网站的这个文件，根据文件的规则来采集网站的数据。我们在使用网络爬虫爬取网页数据时，要严格遵守网站的Robots协议，在爬取要使用的信息前，应先进行审查，如发现用户的个人信息或商业秘密，应及时停止爬取并删除已

资源预览图

所属专辑

学科

初中信息技术7年级下册同步教学（课件+教学设计）电子工业版

七年级信息科技普通专辑 24 份文档

1460人已阅读

1.3使用网页爬虫爬取网页数据 教学课件+学习单-2022电子工业版 七年级下册

资源信息

内容正文：

资源预览图

1.3使用网页爬虫爬取网页数据教学课件+学习单-2022电子工业版七年级下册