内容正文:
中物理
第三单元 我的课外读物
——网络爬虫
川教版(2019) 信息技术(九年级上册)
第3节 爬虫中的法律和道德
学易同步精品课堂
1
课堂导入
同学们:
前面两节中,我们学习了如何爬取和处理网络信息,今天,我们要来了解一下有关网络爬虫的法律规定,以及我们在进行网络信息爬取和处理时应注意的问题。
学习目标
1
1. 了解编写爬虫程序可能带来的法律和道德问题。
2. 了解并遵守爬虫道德规范。
2
目录
一、法律规定
二、案例分析
三、拓展阅读
法律规定
一
一、法律规定
法律规定
一
全国人民代表大会常务委员会在2016年11月7日通过了《中华人民共和国网络安全法》,2017年6月1日正式实施。
法律规定:
任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息;爬取数据过程中不应侵犯他人的知识产权。
我们在编写爬虫程序时,一定要遵守相关道德准则和法律法规。
案例分析
二
二、案例分析
案例分析
二
案例一:
教室里有两个同学在说什么,我们也过去听听吧。
听见欢欢说:爬虫真好玩,我准备在我的个人网站上加个“欢欢推荐四川旅游”栏目。把九寨沟、杜甫草堂等这些四川风景名胜景区的相关评价“爬”取出来放到这个栏目上,这样我的网站访问量肯定会大大提升。
乐乐说:恩,好主意,还可以再加个“乐乐推荐四川美食”……
分析:
公开的数据不一定被允许用于第三方盈利,这样可能会面临法律风险。成熟的大数据公司在爬取并使用一个网站的数据时,一般都需要专业的律师进行审核,看是否有禁止爬取或者禁止用于商业用途的相关内容。
案例分析
二
案例二:
欢欢说:这次半期考试的成绩我们只能看到自己的,看不到其他人的,我想知道我在年级上排名多少呢。
乐乐说:我写了一个爬虫程序从学校教务处的网站上爬取到了所有人的半期考试成绩,再进行加工处理,可以看到每个人每个学科的成绩,还有排名呢。我到时候发一份给你看看。
分析:
每个人只能通过登录自己的账号查看自己的成绩。编写程序爬取所有人的成绩,甚至公开数据,可能违反学校相关规定。
案例分析
二
案例三:
互联网公司A向网络用户提供生活服务App,主要内容是商户基本信息及点评信息。互联网公司B使用技术手段在此App上爬取了商户的基本信息及点评信息,用户使用其运营的地图App查询位置时,无须跳转至A公司运营的生活服务App界面,就可直接在地图App界面获取商户的基本信息和点评信息。
分析:
互联网公司B使用技术手段爬取并使用互联网公司A软件平台的用户点评等内容,被认定为构成不正当竞争。
拓展阅读
三
三、拓展阅读
——如何查看Robots协议
Robots协议,又称作爬虫协议,全名是网终爬虫排除标准
(RobotsExclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以爬取,哪些不可以爬取,通常是一个robots.txt文本文件,一般放在网站的根目录下。
拓展阅读
三
搜索引擎爬虫爬取的网站的第一个文件便是Robots文件,可以在浏览器的地址栏上使用“主域名/robots.txt”来查看,如下图所示:
在上图中我们可以看到里面有很多脚本语言,主要是下面三种:
User-agent:爬虫名称
Disallow:目录
Allow:目录
拓展阅读
三
1.User-agent:爬虫名称
代表下面设置的规则对这个“爬虫名称”是有效的,如果有很多条的
“User-agent:”,就会有多个爬虫受到限制。如
“User-agent:Baiduspider”,是指对百度爬虫有限制。
拓展阅读
三
2.Disallow:目录
指定不允许爬取的目录,如果只为/,则表示不允许爬取所有页面。如
“Disallow:/baidu"。
3.Allow:目录
指定允许爬取的目录,用来排除某些限制、一般是和Disallow一起使用,不会单独使用。
拓展阅读
三
我们来观看一段视频,加深一下印象。
3
课堂小结
拓展阅读
爬虫中的法律
和道德
法律规定
任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息;爬取数据过程中不应侵犯他人的知识产权。
案例分析
1.Robots协议,又称作爬虫协议,全名是网终爬虫排除标准(RobotsExclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以爬取,哪些不可以爬取,通常是一个robots.txt文本文件。
2.了解脚本语言。
通过对三个案例的分析,让我们了解到:我们在编写爬虫程序时应遵守相关法律和道德规范。
THANKS
“
”
Lavf58.28.100
$