内容正文:
情境导入:
本单元项目式 主题:校园科技节
为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢?
《1.3使用网页爬虫爬取网页数据》
2023年电子工业出版社 七年级下册
-第1单元 解密互联网中的信息编码 -
珠珠老师
信息科技 课件
2022新版课标内容
1
活动1:认识网络爬虫
2
活动2:编程实现网络爬虫
《目录》
信息科技
3
活动3:熟悉网络爬虫的“君子协议”
01
认识网络爬虫
活动1
01.知识点讲解
一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫) 来实现对数据的自动化采集。
活动1:认识网络爬虫
01
什么是网络爬虫
01.知识点讲解
网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。
01
网络爬虫小总结
活动1:认识网络爬虫
原则上只要浏览器能做的事情,爬虫都能做!
02
编程实现网络爬虫
活动2
01.知识点讲解
使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。
活动2:编程实现网络爬虫
02
接下来教师演示使用python语言编写获取网页信息的网络爬虫程序。
01.知识点讲解
活动2:编程实现网络爬虫
02
(1)启动mPython,单击mPython窗口左上角的“硬件编程”,打开下拉列表,选择“Python”,进入Python代码编程界面,按以下步骤编写程序。
(2)使用requests模块和lxml模块加载网络爬虫程序:
(3)用requests模块的get)方法获取爬虫需要“爬”的网页地址,将网页文本保存在变量txt中,再将网页文本解析为HTML文档:
01.知识点讲解
活动2:编程实现网络爬虫
02
(5)输出爬虫“爬”到的内容:
(4)使用HTML的xpath()方法定位爬虫的位置,并将“爬”到的内容保存在列表变量title中:
(6)运行程序,在mPython窗口右侧可以看到程序的运行结果。
01.知识点讲解
上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。
在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。
02
知识
拓展
活动2:编程实现网络爬虫
加载网络爬虫程序需要的模块
01.知识点讲解
XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
可以采用以下方法获取网页中指定位置的XPath地址:
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
02
活动2:编程实现网络爬虫
获取网页中指定位置的XPath路径地址
01.知识点讲解
02
活动2:编程实现网络爬虫
获取网页中指定位置的XPath路径地址
需要注意的是,虽然用网络爬虫获取网站内容的方法有很多,但使用网络爬虫并不能获取所有希望获取的网站内容,如封装过的网页或动态网页,以及做了屏蔽网络爬虫设置的网站等,都无法获取。
03
熟悉网络爬虫的“君子协议”
活动3
在使用网络爬虫爬取网络信息时,可以随便爬取吗?爬取到的信息都可以随便使用吗?结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。
讨论与交流
01.知识点讲解
03
活动3:熟悉网络爬虫的“君子协议”
01.知识点讲解
为了规范网络爬虫的使用,一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。
协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已