内容正文:
数据的分析(一)
学习目标
了解数据分析的常用方法。
了解数据分析
自学讨论
观看视频,思考:什么是数据分析?
自学讨论
通过分析各游戏位置职能,并结合数据分析的特点,可知每个游戏位置都与数据分析有关联。但是,辅助位置的职能和数据分析最相关。
辅助需要收集和分析大量信息数据,像敌方五人的位置分布数据,以此来判断敌方的进攻或防守意图,提前做好视野布置或保护队友准备。还要分析队友状态数据(血量、蓝量等),适时提供治疗或护盾。辅助对数据的综合分析和运用,更像是数据分析岗位对多维度数据整合分析,为团队决策提供支持,所以辅助位置职能和数据分析最为相关 。
自学讨论
了解数据分析
数据分析是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
水资源分布现状
过去旅游业的发展情况
了解事物的现状
诊断过去的发展历程
预测房价走向
预测未来经济发展的走向
自学讨论
了解数据分析
如果旅游服务平台希望通过了解用户的旅游喜好和旅游习惯,来增加平台的订单量。
平台
了解用户喜好和习惯,
预测用户购买行为。
诊断过去,预测未来!
自学讨论
了解数据分析
如果旅游服务平台希望通过了解用户的旅游喜好和旅游习惯,来增加平台的订单量。
平台
了解疫情变化,
预测疫情变化。
诊断过去,预测未来!
自学讨论
了解数据分析的常用方法
①特征探索
②关联分析
③聚类分析
④数据分类
⑤建立模型和模型评价
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理,发现缺失数据、重复数据、异常数据等
数据清洗,发现和处理缺失值、异常数据
绘制直方图
数据预处理
观察数据的分布特征
求最大值、最小值、极差等描述性统计量
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理
姓名 语文 数学 英语
小明 93 77
小王 898 90 85
小陈 59 78 75
缺失值
异常值
补全
修正
小陈 59 78 75
重复
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理
[1]数据清洗,发现缺失值
把价格为零的数据变为空值
缺失值用64(均值)代替
自学讨论
微视频:数据清洗
自学讨论
了解数据分析的常用方法
这段代码是用Python进行数据清洗、处理缺失值的代码:
x=0 # 初始化一个计数器x,用于记录处理的缺失值数量
data["price"][(data["price"] == 0)] = None # 将data数据中"price"列里值为0的元素替换为None
for i in data.columns: # 遍历data的所有列名,这里的columns就是指数据结构中列的集合
for j in range(len(data)): # 遍历每一列中的每一个元素,len(data)获取数据的行数
if (data[i].isnull())[j]: # 判断第i列的第j个元素是否为空(缺失值),isnull()用于检测缺失值
data[i][j] = "64" # 如果是缺失值,就将该位置的值替换为字符串"64"
x+=1 # 每处理一个缺失值,计数器x加1
print(x) # 打印处理的缺失值的总数
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理
[2]异常值处理中,利用画散点图发现异常值部分
评论数异常为>200000
价格异常为>2300
数据分布不均匀
自学讨论
了解数据分析的常用方法
这段代码的目的是对数据进行处理,找到异常值,并绘制价格(横轴)与评论数(纵轴)的散点图(这段代码并不完整):
data2 = data.T #将数据 data 进行转置操作,改变数据的行列方向
price = data2.values[2] #从转置后的数据 data2 中提取第三行(索引为2,因为Python索引从0开始)的数据,并赋值给 price 变量,推测这一行数据代表价格相关信息
comt = data2.values[3] #从 data2 中提取第四行(索引为3)的数据,赋值给 comt 变量,推测这一行数据代表评论数相关信息
plt.xlabel('price') #使用 matplotlib 库( plt 是其常用的别名)设置图形的X轴标签为 price ,目的是让看图者知道X轴代表的含义
plt.ylabel('comt') #设置图形的Y轴标签为 comt ,表明Y轴代表评论数
pyt.plot(price, comt, "o") #使用 matplotlib 库(用于数据可视化的库)绘制散点图, price 作为X轴数据, comt 作为Y轴数据, "o" 表示绘制圆形的散点标记
plt.show() #显示绘制好的图形
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理
[3]处理异常数据,评论数异常为>200000,价格异常为>2300,再重新绘制散点图
line=len(data.values)
col=len(data.values)
da=data.values
for i in range(0,line):
for j in range(0,col):
if (da[i][2]>2300):
da[i][2]=“36”
if (da[j][3]>200000):
da[i][j]=“58”
价格用36代替
评论数用58代替
数据分布均匀
自学讨论
了解数据分析的常用方法
①特征探索:主要任务是对数据进行预处理
[4]求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
绘制价格直方图
绘制销售数直方图
plt.hist() 绘制直方图
自学讨论
[4]求最大值、最小值、极差、组距,绘制价格直方图和评论数直方图
结论:
价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈
结论:
销量在10以下的商品种类最多,大部分商品销量一般。此价位的商品竞争最激烈
绘制价格直方图
绘制销售数直方图
自学讨论
微视频:绘制价格直方图
自学讨论
单选题:数据特征探索的主要任务是对数据进行预处理,以下不属于该过程的是( )
A.数据清洗
B.异常数据处理
C.数据缺失处理
D.数据分类处理
自学讨论
了解数据分析的常用方法
②关联分析:对大量数据进行分析,企图发现数据之间的关联性和相关性。
指导商品摆放
制定促销策略
寻找潜在用户
自学讨论
了解数据分析的常用方法
②关联分析
典型案例:尿布与啤酒
如何进行关联分析?
https://www.bilibili.com/video/av367504200/
自学讨论
了解数据分析的常用方法
②关联分析:以典型案例《尿布与啤酒》为例
[1]扫描数据,建立项集,统计频率次数
序号 商品
1 可乐,鸡蛋,火腿
2 可乐,尿布,啤酒
3 可乐,尿布,啤酒,火腿
4 尿布,啤酒
C1项集 出现
频率次数
[可乐]
[鸡蛋]
[火腿]
[尿布]
[啤酒]
3
1
2
3
3
自学讨论
了解数据分析的常用方法
②关联分析
[2]计算各个集合的支持度
支持度:
某商品或商品组合在所有订单中出现的概率。
例如(此例子与上页无关):
支持度越高,说明购买这个组合的顾客越多。
它们可能适合“捆绑销售”。
自学讨论
了解数据分析的常用方法
②关联分析
[2]计算各个集合的支持度
C1项集 出现
频率次数 支持度
[可乐] 3
[鸡蛋] 1
[火腿] 2
[尿布] 3
[啤酒] 3
3/4=0.75
1/4=0.25
2/4=0.5
3/4=0.75
3/4=0.75
自学讨论
了解数据分析的常用方法
②关联分析
[3]设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1
C1项集 出现
频率次数 支持度
[可乐] 3 0.75
[鸡蛋] 1 0.25
[火腿] 2 0.5
[尿布] 3 0.75
[啤酒] 3 0.75
频繁项集L1
[可乐]
[火腿]
[尿布]
[啤酒]
自学讨论
了解数据分析的常用方法
②关联分析
[4]将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2
频繁项集L1
[可乐]
[火腿]
[尿布]
[啤酒]
候选项集C2 支持度
[可乐,火腿] 2/4=0.5
[可乐,尿布] 2/4=0.5
[可乐,啤酒] 2/4=0.5
[火腿,尿布] 1/4=0.25
[火腿,啤酒] 1/4=0.25
[尿布,啤酒] 3/4=0.75
频繁项集L2
[可乐,火腿]
[可乐,尿布]
[可乐,啤酒]
[尿布,啤酒]
自学讨论
了解数据分析的常用方法
②关联分析
[5]重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集
频繁项集L2
[可乐,火腿]
[可乐,尿布]
[可乐,啤酒]
[尿布,啤酒]
候选项集C3 支持度
[可乐,火腿,尿布] 2/4=0.5
[可乐,火腿,啤酒] 2/4=0.5
[可乐,尿布,啤酒] 3/4=0.75
频繁项集L3
[可乐,尿布,啤酒]
自学讨论
了解数据分析的常用方法
关联分析在各领域的应用
商业领域
社会民生
文娱体育
气象关联分析
交通事故成因分析
……
影视演员组合
球员最优组合
……
购物篮分析
穿衣搭配推荐
……
金融行业
银行客户交叉销售分析
银行营销方案推荐
……
自学讨论
单选题:某超市曾经研究销售数据,发现购买商品A的人购买商品B的概率很大,这种属于数据的( )
A.聚类分析
B.关联分析
C.分类分析
D.回归分析
任务:运行“关联分析.py”程序,体验使用python程序对“order.xls”中的数据进行关联分析。
检测巩固
任务:请复制以下网址,打开浏览器,粘贴到地址栏,按下回车键,打开《数据的分析(一)》的练习页面,点击开始考试按钮,直接开始练习。本次练习满分4分,加2分。每人只有一次练习机会,请认真作答。
记得写上姓名+学号!
检测巩固
https://www.umu.cn/ssu_3IAwQ1e79
归纳总结
√
√
感/谢/观/看
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Lorem ipsum dolor sit amet, consectetuer adipiscing elit.
GAN
XIE
GUAN
KAN
行业PPT模板http:///hangye/
Lavf58.29.100
Packed by Bilibili XCoder v2.0.2
Lavf57.62.100
Lavf57.62.100
$$