3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)

2021-11-08
| 21页
| 801人阅读
| 18人下载
精品

资源信息

学段 初中
学科 信息科技
教材版本 初中信息科技川教版(2019)九年级上册
年级 九年级
章节 第1节 爬取网络信息
类型 课件
知识点 -
使用场景 同步教学
学年 2023-2024
地区(省份) 全国
地区(市) -
地区(区县) -
文件格式 PPTX
文件大小 912 KB
发布时间 2021-11-08
更新时间 2023-04-09
作者 喜鹊
品牌系列 -
审核时间 2021-11-08
下载链接 https://m.zxxk.com/soft/31294683.html
价格 3.00储值(1储值=1元)
来源 学科网

内容正文:

中物理 第三单元 我的课外读物 ——网络爬虫 川教版(2019) 信息技术(九年级上册) 第1节 爬取网络信息 学易同步精品课堂 1 课堂导入 同学们: 随着信息技术的迅速发展,互联网上涌现出了大量的信息,网络爬虫可以有效地筛选并提取我们需要的信息。本单元我们将通过完成“我的课外读物”项目,掌握Python网络爬虫的编写技术,学会处理和保存信息的方法。 学习目标 1 1.分析任务要达到的目标。 2.学会将任务分解成小任务并梳理出方法和步骤。 3. 学会在Python中使用requests模块访问网络,获取信息。 2 目录 一、明确任务 二、实现方法 三、Python爬虫访问网页 明确任务 一 一、明确任务 明确任务 一 网上有很多书目介绍的网站,我们以“京东商城”为例,网址是 “https://www.jd.com/chanpin/459613.html”。 我们可以用python程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来,还可以进行简单的处理,最后得到我们想要的信息。 我们按以下步骤来进行: 1.搜索满足要求的网站; 2.编写程序从网页获取信息; 3.筛选出所需信息; 4.将信息转化成表格的格式; 5.保存信息; 6.使用/分析信息。 上面的过程可以概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。 明确任务 一 用Python编写爬虫程序 访问网页 获取网页内容 筛选出所需信息 调整所需信息格式 保存需要的信息 分析信息 ( )信息 ( )信息 ( )信息 ( )信息 获取 处理 保存 使用/分析 实现方法 二 二、实现方法 实现方法 二 “我的课外读物”项目用Python爬虫编程实现所需知识和方法。 所属步骤 流程说明 所需知识、方法 获取信息 访问网页、获取网页内容 requests模块的使用方法 处理信息 筛选信息、整理信息 使用BeautifulSoup模块调用lxml解析器清除不需要的html内容 保存信息 保存信息至文件 文件保存、写操作 使用/分析信息 根据需求使用、分析信息 用Excel排序,或使用pandas模块排序 实现方法 二 上表中的知识与方法,是我们编写爬虫程序的基础,表中列举的requests和 BeautifulSoup模块需要提前安装。 安装方法如下: 打开cmd命令提示符,输入pip install requests,按回车键开始下载安装。 打开cmd命令提示符,输入pip install beautifulsoup4,按回车键开始下载安装。 只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。 Python爬虫访问网页 三 三、Python爬虫访问网页 编写程序,让程序访问网络并获取我们需要的信息,这样的程序,我们把它叫做“网络爬虫”。 Python爬虫访问网页 三 首先,请从浏览器中打开“京东商城”的网页,页面上有很多书,每本书有书籍名、内容简介、好评数、作者、价格等信息,如下图所示: 在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如<html>…</html> , <head>…</head>,<span class=“title”>…<lspan>, <div class=“price”>…<ldiv>这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示,如下图所示: Python爬虫访问网页 三 我们使用requests模块的get函数,可以获取这个页面的源代码。 Python爬虫访问网页 三 将上面代码保存为文件“我的课外读物.py”,然后执行。执行结果如下图所示: 通过上面代码中的五条语句获取到网页的源代码。但是我们不需要全部的内容,只需要书籍名称及它的好评数和价格、作者、内容简介等信息。 Python爬虫访问网页 三 仔细观察源代码,发现书籍名称代码中有一些相同的代码: <spanclass=“title”>…</span>。这就是Html标签,书籍名称不同,但标签中的class=“title”却是相同的,我们使用class=“title”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字,统一大小写、规范填写。如下表所示: 查找内容 起始标签 结束标签 关键字 书籍名 <span> </span> class="title" 内容简介 好评数 价格 <em> </em> class="curr" <div> </div> class="p-commit" <strong> </strong> cla

资源预览图

3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
1
3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
2
3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
3
3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
4
3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
5
3.1 爬取网络信息(课件)-九年级信息技术上册同步精品课堂(川教2019版)
6
所属专辑
相关资源
由于学科网是一个信息分享及获取的平台,不确保部分用户上传资料的 来源及知识产权归属。如您发现相关资料侵犯您的合法权益,请联系学科网,我们核实后将及时进行处理。