内容正文:
《1.3使用网页爬虫爬取网页数据》教学设计
教学内容分析
本节课是2022年电子工业出版社出版的七年级下册第一单元第3课。本节课分为三个活动:“认识网络爬虫”“编程实现网络爬虫”“熟悉网络爬虫的君子协议”三部分内容组成。学生通过小组合作探究学习逐步掌握本节课的知识点,具备一定的小组合作能力、探究能力、创新能力等,提升信息社会责任,综合提升信息素养。
教学目标及核心素养指向
1、认识网络爬虫,了解网络爬虫的概念与工作过程;(信息意识、计算思维)
2、能用mpython编程实现网络爬虫;(信息意识、计算思维、数字化学习与创新)
3、了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。(信息意识、计算思维、数字化学习与创新、信息社会责任)
教学重难点
教学重点:
1、认识网络爬虫,了解网络爬虫的概念与工作过程
设计原因:了解网络爬虫的原理是本节课的主要内容,知识点的渗透需要作为重点内容。
教学难点:
1、能用mpython编程实现网络爬虫,了解网络爬虫“君子协议”的概念,掌握网络爬虫的“君子协议”规定和注意事项。
设计原因:在知道网络爬虫的基础上进行操作对学生来说比较困难,所以此部分对学生来说难度较高,应作为难点内容。
教学过程
1、情境导入(3分钟)
教师活动
学生活动
情境引入:为了使制作出的网页更加吸引人,我们决定多找一些我国科技领域重大创新成果的相关图片或文本来丰富网页。但是网络上相关信息太多,如何快速获取这些信息呢?
学生听教师引导生活中的案例,学生讨论,回答提问
设计意图:
激发学生对网络爬虫的学习兴趣并快速进入学习状态。
2、新知讲授(35分钟)
教师活动
学生活动
活动1:认识网络爬虫
播放微视频:什么是网络爬虫
一般情况下,我们是通过在网页上搜索、复制、粘贴来获取需要的数据,但是如果需要获取的数据量特别大,这种方式就显得费时费力。我们可以通过编制网络爬虫程序(以下简称为网络爬虫) 来实现对数据的自动化采集。
网络爬虫注意事项:网络爬虫就是模拟我们浏览网页的行为,再将站点返回的HTML代码放到本地,保存并使用。
原则上只要浏览器能做的事情,爬虫都能做!
活动2:编程实现网络爬虫
使用Python语言可以方便地编写网络爬虫的程序,获取网页中的信息。
加载网络爬虫程序需要的模块
上述程序中用到了Python语言的两个扩展模块,下面介绍安装扩展模块的方法。
在mPython的Python编程界面中单击上方的“添加库”,再单击“PIP安装”,打开一个对话框,在对话框中输入扩展库名称“requests”,如下图所示。单击“安装”按钮,若出现“Successfully installed”,就表示requests模块安装好了,然后可以按同样的方法安装Ixml模块。
获取网页中指定位置的XPath路径地址
XPath(XML Path Language)是一种小型查询语言,用于在XML(可扩展标记语言)文档中查找信息。
可以采用以下方法获取网页中指定位置的XPath地址:
(1)使用浏览器打开网页,按F12键进入开发者模式,查看网页源代码;
(2)单击“选取页面中的元素”按钮,选中要抓取的网页内容,对应的,开发者窗格中会有一段高亮显示的代码;
(3)将鼠标指针指向高亮代码部分,并在其上面右击;
(4)打开快捷菜单,执行“复制”→“复制XPath”命令,如下图所示,就可以把选中内容对应的XPath地址复制到操作系统的剪贴板上。
活动3:熟悉网络爬虫的君子协议
新知讲授
为了规范网络爬虫的使用,一些搜索引擎从业者和网站站长定下了“君子协议”——Robots协议(爬虫协议、机器人协议),其全称是网络爬虫排除标准。
协议规定:网站管理员在网站域名的根目录下存放一个Robots.txt文本文件,文件里指定该网站的哪些内容可以爬取,哪些内容不可以爬取。使用网络爬虫程序采集网站信息前,要先阅读该网站的这个文件,根据文件的规则来采集网站的数据。
我们在使用网络爬虫爬取网页数据时,要严格遵守网站的Robots协议,在爬取要使用的信息前,应先进行审查,如发现用户的个人信息或商业秘密,应及时停止爬取并删除已爬取的信息。
学生通过教师的讲解,以小组合作的方式,开展探讨交流,完成任务
活动1:认识网络爬虫
学生听讲
活动2:编程实现网络爬虫
学生听讲
活动3:熟悉网络爬虫的君子协议
小组合作交流
在使用网络爬虫爬取网络信息时,可以随便爬取吗?爬取到的信息都可以随便使用吗?结合使用网络爬虫的体验,尝试制订合理的网络爬虫协议,并写在导学案中。
小组合作 项目实施
1.使用Python编程爬取我国科技领域的重大创新成果,选取你认为合适的内容,并进行适当编辑,放入“科技创新自主可控”的网页中。
2.