内容正文:
中物理
第三单元 我的课外读物
——网络爬虫
川教版(2019) 信息技术(九年级上册)
第1节 爬取网络信息
学易同步精品课堂
1
课堂导入
同学们:
随着信息技术的迅速发展,互联网上涌现出了大量的信息,网络爬虫可以有效地筛选并提取我们需要的信息。本单元我们将通过完成“我的课外读物”项目,掌握Python网络爬虫的编写技术,学会处理和保存信息的方法。
学习目标
1
1.分析任务要达到的目标。
2.学会将任务分解成小任务并梳理出方法和步骤。
3. 学会在Python中使用requests模块访问网络,获取信息。
2
目录
一、明确任务
二、实现方法
三、Python爬虫访问网页
明确任务
一
一、明确任务
明确任务
一
网上有很多书目介绍的网站,我们以“京东商城”为例,网址是
“https://www.jd.com/chanpin/459613.html”。
我们可以用python程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来,还可以进行简单的处理,最后得到我们想要的信息。
我们按以下步骤来进行:
1.搜索满足要求的网站;
2.编写程序从网页获取信息;
3.筛选出所需信息;
4.将信息转化成表格的格式;
5.保存信息;
6.使用/分析信息。
上面的过程可以概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。
明确任务
一
用Python编写爬虫程序
访问网页
获取网页内容
筛选出所需信息
调整所需信息格式
保存需要的信息
分析信息
( )信息
( )信息
( )信息
( )信息
获取
处理
保存
使用/分析
实现方法
二
二、实现方法
实现方法
二
“我的课外读物”项目用Python爬虫编程实现所需知识和方法。
所属步骤 流程说明 所需知识、方法
获取信息 访问网页、获取网页内容 requests模块的使用方法
处理信息 筛选信息、整理信息 使用BeautifulSoup模块调用lxml解析器清除不需要的html内容
保存信息 保存信息至文件 文件保存、写操作
使用/分析信息 根据需求使用、分析信息 用Excel排序,或使用pandas模块排序
实现方法
二
上表中的知识与方法,是我们编写爬虫程序的基础,表中列举的requests和
BeautifulSoup模块需要提前安装。
安装方法如下:
打开cmd命令提示符,输入pip install requests,按回车键开始下载安装。
打开cmd命令提示符,输入pip install beautifulsoup4,按回车键开始下载安装。
只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。
Python爬虫访问网页
三
三、Python爬虫访问网页
编写程序,让程序访问网络并获取我们需要的信息,这样的程序,我们把它叫做“网络爬虫”。
Python爬虫访问网页
三
首先,请从浏览器中打开“京东商城”的网页,页面上有很多书,每本书有书籍名、内容简介、好评数、作者、价格等信息,如下图所示:
在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如<html>…</html> , <head>…</head>,<span class=“title”>…<lspan>, <div class=“price”>…<ldiv>这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示,如下图所示:
Python爬虫访问网页
三
我们使用requests模块的get函数,可以获取这个页面的源代码。
Python爬虫访问网页
三
将上面代码保存为文件“我的课外读物.py”,然后执行。执行结果如下图所示:
通过上面代码中的五条语句获取到网页的源代码。但是我们不需要全部的内容,只需要书籍名称及它的好评数和价格、作者、内容简介等信息。
Python爬虫访问网页
三
仔细观察源代码,发现书籍名称代码中有一些相同的代码:
<spanclass=“title”>…</span>。这就是Html标签,书籍名称不同,但标签中的class=“title”却是相同的,我们使用class=“title”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字,统一大小写、规范填写。如下表所示:
查找内容 起始标签 结束标签 关键字
书籍名 <span> </span> class="title"
内容简介
好评数
价格
<em>
</em>
class="curr"
<div>
</div>
class="p-commit"
<strong>
</strong>
cla