3.1 爬取网络信息（课件）-九年级信息技术上册同步精品课堂（川教2019版）

2021-11-08

| 21页

| 808人阅读

| 18人下载

精品

资源信息

学段	初中
学科	信息科技
教材版本	初中信息科技川教版（2019）九年级上册
年级	九年级
章节	第1节爬取网络信息
类型	课件
知识点	-
使用场景	同步教学
学年	2023-2024
地区（省份）	全国
地区（市）	-
地区（区县）	-
文件格式	PPTX
文件大小	912 KB
发布时间	2021-11-08
更新时间	2023-04-09
作者	喜鹊
品牌系列	-
审核时间	2021-11-08
下载链接	https://m.zxxk.com/soft/31294683.html
价格	3.00储值（1储值=1元）
来源	学科网

内容正文：

中物理第三单元我的课外读物 ——网络爬虫川教版（2019）信息技术（九年级上册）第1节爬取网络信息学易同步精品课堂 1 课堂导入同学们：随着信息技术的迅速发展，互联网上涌现出了大量的信息，网络爬虫可以有效地筛选并提取我们需要的信息。本单元我们将通过完成“我的课外读物”项目，掌握Python网络爬虫的编写技术，学会处理和保存信息的方法。学习目标 1 1.分析任务要达到的目标。 2.学会将任务分解成小任务并梳理出方法和步骤。 3. 学会在Python中使用requests模块访问网络，获取信息。 2 目录一、明确任务二、实现方法三、Python爬虫访问网页明确任务一一、明确任务明确任务一网上有很多书目介绍的网站，我们以“京东商城”为例，网址是 “https://www.jd.com/chanpin/459613.html”。我们可以用python程序把这个网页的信息获取下来，对信息进行筛选和整理，并且保存下来，还可以进行简单的处理，最后得到我们想要的信息。我们按以下步骤来进行： 1.搜索满足要求的网站; 2.编写程序从网页获取信息; 3.筛选出所需信息; 4.将信息转化成表格的格式; 5.保存信息; 6.使用/分析信息。上面的过程可以概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。明确任务一用Python编写爬虫程序访问网页获取网页内容筛选出所需信息调整所需信息格式保存需要的信息分析信息（）信息（）信息（）信息（）信息获取处理保存使用/分析实现方法二二、实现方法实现方法二 “我的课外读物”项目用Python爬虫编程实现所需知识和方法。所属步骤流程说明所需知识、方法获取信息访问网页、获取网页内容 requests模块的使用方法处理信息筛选信息、整理信息使用BeautifulSoup模块调用lxml解析器清除不需要的html内容保存信息保存信息至文件文件保存、写操作使用/分析信息根据需求使用、分析信息用Excel排序，或使用pandas模块排序实现方法二上表中的知识与方法，是我们编写爬虫程序的基础，表中列举的requests和 BeautifulSoup模块需要提前安装。安装方法如下：打开cmd命令提示符，输入pip install requests，按回车键开始下载安装。打开cmd命令提示符，输入pip install beautifulsoup4，按回车键开始下载安装。只要掌握了这些知识，就可以编写出符合我们需求的爬虫程序。 Python爬虫访问网页三三、Python爬虫访问网页编写程序，让程序访问网络并获取我们需要的信息，这样的程序，我们把它叫做“网络爬虫”。 Python爬虫访问网页三首先，请从浏览器中打开“京东商城”的网页，页面上有很多书，每本书有书籍名、内容简介、好评数、作者、价格等信息，如下图所示：在页面上点击右键，选择“查看页面源代码”，这些源代码就是一些纯文本。有如<html>…</html> , <head>…</head>，<span class=“title”>…<lspan>， <div class=“price”>…<ldiv>这些文本，它们叫Html标签，用来控制页面文本或者图片在网页中的显示，如下图所示： Python爬虫访问网页三我们使用requests模块的get函数，可以获取这个页面的源代码。 Python爬虫访问网页三将上面代码保存为文件“我的课外读物.py”，然后执行。执行结果如下图所示：通过上面代码中的五条语句获取到网页的源代码。但是我们不需要全部的内容，只需要书籍名称及它的好评数和价格、作者、内容简介等信息。 Python爬虫访问网页三仔细观察源代码，发现书籍名称代码中有一些相同的代码： <spanclass=“title”>…</span>。这就是Html标签，书籍名称不同，但标签中的class=“title”却是相同的，我们使用class=“title”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字，统一大小写、规范填写。如下表所示：查找内容起始标签结束标签关键字书籍名 <span> </span> class="title" 内容简介好评数价格 <em> </em> class="curr" <div> </div> class="p-commit" <strong> </strong> cla

资源预览图

所属专辑

学科

九年级信息技术上册同步精品课堂（川教2019版）

九年级信息科技普通专辑 12 份文档

3916人已阅读