内容正文:
2019沪教版高中信息技术——选择性必修3《数据管理与分析》
项目七 揭示网上书店图书销售情况
——分析、呈现并解释数据(2)
学习目标:
· 了解数据分析及可视化的常用工具,并了解各种工具的适用场景。
· 掌握常用图表的绘制方法,并能根据需要选择合适的图表。
· 理解相关性分析的概念,并能通过图表绘制或相关系数的计算发现变量的相关关系。
教学重点难点:
重点:Python的图表绘制方法。
难点:绘制图表前数据的整理,Python中用来绘制各种图表的函数的使用。
教学准备:
软硬件环境:计算机教室、anaconda、电子表格软件
教学素材:某市交通轨迹点数据、网上书店数据集
教学过程:
教学环节
导案
学案
设计意图
新课导入
回顾上节课所学知识:
1、数据分析的基本流程是什么?
2、数据可视化的基本概念是什么?
数据可视化是指将数据分析的结构通过表格、图形或图像等形式显示出来,再进行交互处理的理论、方法和技术。
3、数据可视化的基本工具哪些?具有什么样的优势?
学生回答
回顾上节课所学知识,引入本节课主题,明确本节课学习任务。
使用图表发现相关性
引导学生绘制折线图,发现图书购买数、收藏数、好评数和差评数之间的相关性。
参考代码:
了解使用图表发现相关性,提高学生Python编程能力。
计算相关系数
引导学生使用Python的pandas库,计算图书购买数、收藏数、好评数和差评数这四个变量的pearson相关系数、spearman相关系数、Kendall Tau相关系数。
1. Pearson (皮尔森)相关系数
Pearson 相关系数又称积差相关系数或简单相关系数,用于衡量连续变量的相关指怀。它一般适用于两个变量呈线性相关的情况,通常用字母 r 表示。当两个变量的标准差都不为零时, Pearson 相关系效才有定义,其适用范围包括:
(1)两个变量之间是线性关系,且都是连续数据;
(2)两个变量的总体是正态分布,或接近正态的单峰分布;
(3)两个变量的观测值是成对的,每对观测值之间相互独立。
2. Spearman (斯皮尔曼等级)相关系数
Spearman 相关系数又称秩相关系数,是利用两个变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围较广。
3. Kendall Tau (肯德尔等级)相关系数
Kendall Tau 相关系数是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。 Kendall Tau 相关系数经常用希腊字母 (tau)表示。 Kendall Tau 相关系数与 Spearman 相关系数对数据条件的要求相同。
尝试编写程序,找出网上书店用户数据的相关性。
参考代码:
import matplotlib.pyplot as plt
import pandas as pd
# 数据
sale = [18609, 22633, 19257, 23859, 17858, 16019, 16384, 16301, 19993, 23178, 15935, 18823]
collect = [19125, 22512, 18052, 20847, 18167, 16046, 16401, 19077, 21649, 20873, 17497, 16516]
goodview = [3107, 4602, 3995, 7355, 2587, 2726, 5255, 5908, 7786, 6724, 3551, 4174]
badview = [2740, 2930, 3857, 2590, 4620, 5582, 2756, 2581, 2648, 4327, 4777, 3067]
bookrack = pd.DataFrame({u'购买': sale, u'收藏': collect, u'好评': goodview, u'差评': badview})
bookrack.plot()
print(bookrack.corr())
print(bookrack.corr('kendall'))
print(bookrack.corr('spearman'))
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.title(u"图书销售情况折线图")
plt.xlabel(u"月份")
plt.ylabel(u"数量")
plt.show()
掌握三种相关系数,以及程序的编写。
思考与讨论
组织学生分析、讨论散点图和相关系数分别适用于什么情况。
思考与讨论散点图和相关系数的使用情况。
散点图是一中常用的直观分析法,通常将数据绘制在二维平面或者三维空间