内容正文:
桐城市第八中学 吕凤冲
5.3 数据的分析(2)
粤教版 信息技术必修一《数据与计算》第五章第三节
1
问
情
境
第五章 数处理和可视化表达
5.3 数据的分析 (2)
问
情
境
思考:
抖音是如何识别用户的兴趣和喜好的?
第五章 数处理和可视化表达
5.3 数据的分析 (2)
知识回顾
第五章 数处理和可视化表达
5.3 数据的分析 (2)
聚类分析
游戏一:
“站队游戏”(聚类分析)
游戏规则:随机选出两位学生把自己的姓名贴贴在黑板上,随后依次随机走出一位同学,后面走出的同学可以根据自己的意愿,把自己的姓名贴在任何一位同学的姓名贴旁边,直到游戏结束。
第五章 数处理和可视化表达
5.3 数据的分析 (2)
聚类分析
项目范例:
村庄姓氏的分布
汪
黄
李
张
姓名 姓氏数值 经度 纬度
李*阳 23.58 108.26 31.29
李*升 28.56 103.99 37.92
李*妍 22.71 104.74 35.14
李* 24.1 108.22 31.07
李*彤 28.24 105.46 39.96
李* 23.64 108.84 36.62
李*鹏 23.56 101.72 38.17
李*瑩 27.04 100.25 35.53
第五章 数处理和可视化表达
5.3 数据的分析 (2)
聚类分析
学生活动一:
完成分组活动探究,请按照老师提供的基本操作指引进行操作。导入5.2节采集的数据,并运行聚类分析Python程序代码。在观察程序对数据进行聚类分析的结果时,填写活动记录表。祝你顺利完成活动!
观察以下几个方面:
是否有异常点:留意是否有与其他数据点相比较异常的数据点存在。
边界区域是否清晰:注意观察不同组之间的边界是否能够清楚地分辨出来。
组的大小、紧密度和分离度:观察每个组中有多少个数据点。紧密聚集意味着这些数据点的相似度高。
数据点的分布和形状:观察散点图,看看有多少组数据,可以通过颜色或符号来区分不同组的数据点。
第五章 数处理和可视化表达
5.3 数据的分析 (2)
聚类分析
特点
不需要先给定分类标准
能够自动进行分类
达到“物以类聚、人以群分”的效果
聚类分析:
是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
k-Means算法
中文名:K-平均算法
特点:自下而上的聚类分析方法
第五章 数处理和可视化表达
5.3 数据的分析 (2)
k-Means算法:
U X Y
1 0.5 2
2 0.8 3
3 1.2 0.6
4 1.6 2.2
5 2.2 1.8
6 2.4 3.6
7 2.5 2.8
8 2.8 1.6
9 3 2.5
10 4 1
样本数据集合
k=2,样本点分为两组
聚类分析
第五章 数处理和可视化表达
5.3 数据的分析 (2)
k-Means算法:
聚类分析
k=2,样本点数据分成两组
d1
d2
d1
d2
第五章 数处理和可视化表达
5.3 数据的分析 (2)
0.5 0.8 1.2 1.6 2.2 2.4 2.5 2.8 3 4 2 3 0.6 2.2 1.8 3.6 2.8 1.6 2.5 1
k-Means算法:
聚类分析
k=2,样本点数据分成两组
1.6 ,2.3
3.3 ,1.7
d1
d2
第五章 数处理和可视化表达
5.3 数据的分析 (2)
0.5 0.8 1.2 1.6 2.2 2.4 2.5 2.8 3 4 2 3 0.6 2.2 1.8 3.6 2.8 1.6 2.5 1
聚类分析
思考:聚类分析在日常生活中有哪些方面的具体应用?
市场营销
01
定位目标市场
优化营销策略
产品推荐
02
分析购买历史和偏好
提供个性化的产品推荐
社交网络
03
用户推荐
广告定向
健康管理
04
个性化的治疗方案
预测疾病风险
第五章 数处理和可视化表达
5.3 数据的分析 (2)
数据分类
游戏二:
“站队游戏”(数据分类)
游戏规则:已有两个队伍,例如队伍的相关特征分别是:
类别 特征A 特征B 特征C
A组 有相同的姓氏拼音如:"Wang" 喜欢读书的人 喜欢运动的人
B组 有相同的姓氏拼音如:"Zhang" 喜欢音乐的人 喜欢旅游的人
预测新成员的类别(当新成员不完全符合条件时,根据特征的相似度来选择。学生可以根据自己的判断,选择类别。)
第五章 数处理和可视化表达
5.3 数据的分析 (2)
项目范例:
姓氏的预测
数据分类
姓 姓氏数值 经度 纬度
张 39.99 108.6 52.72
张 39.97 109.63 56.22
张 38.67 110.94 56.48
张 39.95 115.38 41.13
汪 20.07 127.71 28.17
汪 22.24 127.61 28.81
汪 20.46 127.3 35.05
汪 21.36 126.25 33.18
样本数据
第五章 数处理和可视化表达
5.3 数据的分析 (2)
数据分类
学生活动二:
类别 特征A 特征B 特征C
类别A 182.8 81.6 30
类别A 180.4 86.1 29
类别A 170.0 77.1 30
类别A 180.4 74.8 28
类别B 152.4 45.3 24
类别B 167.6 68.0 26
类别B 165.2 58.9 25
类别B 175.2 68.0 27
完成分组活动探究,请按照老师提供的基本操作指引进行操作。并运行数据分类Python程序代码。对实验数据的类别进行预测。祝你顺利完成活动!
一组实验数据:
特征A:182.8
特征B:58.9
特征C:26
并填写活动记录表。
样本数据
二组实验数据:
特征A:128.8
特征B:158
特征C:4.7
第五章 数处理和可视化表达
5.3 数据的分析 (2)
数据分类
思路:
先基于样本数据训练构建分类函数或者分类模型(分类器);
然后用分类器将待分类数据进行分类。
应用:预测
基于样本数据记录
根据分类准则自动对未知数据进行推广描述
从而实现对未知数据进行预测
常用的方法:
贝叶斯分类技术
计算待分类样本属于不同类别的概率,然后将其归类为具有最大概率的类别。
第五章 数处理和可视化表达
5.3 数据的分析 (2)
数据分类
思考:数据分类在日常生活中有哪些方面的具体应用?
垃圾邮件过滤
01
数据分类可用于识别和过滤垃圾邮件,将其与正常邮件区分开来,提高电子邮件的有效性和安全性。
语音识别
02
数据分类可用于训练语音识别模型,在语音识别技术中广泛应用,如语音助手、语音指令识别等。
金融风险评估
03
数据分类可用于识别和评估金融中的风险,如信用风险评估、欺诈检测等。
客户分类
04
数据分类可用于将客户分组,帮助企业了解不同客户群体的需求和偏好,以便更好地进行市场分析和精准营销。
第五章 数处理和可视化表达
5.3 数据的分析 (2)
课堂小结
第五章 数处理和可视化表达
5.3 数据的分析 (2)
课后作业
**作业1:实际问题的数据分析**
01
描述问题或主题:
根据自己选择的主题,例如体育、健康、社交媒体、环境等,并描述为什么选择这个主题。解释问题的背景和重要性。
03
运用数据分析方法:
运用所学的数据分析方法,包括特征探索、关联分析、聚类分析和数据分类等,以解决或回答问题。他们可以使用工具如Excel、Python等进行数据处理和分析。
05
总结分析方法和步骤:
学生需总结所选择的分析方法和步骤,并解释为什么选择了这些特定的方法。他们可以讨论这些方法的优势、适用性和局限性。
收集相关数据:
学生可以选择从公开数据集中获取相关数据,如政府公开数据、学术研究数据等。如果没有相应的公开数据集,他们可以自己创建一个小型数据集,可以通过问卷调查、观察实验、网络数据收集等方式获得数据。
02
提供数据分析结果和结论:
呈现他们的数据分析结果,并从中得出结论。他们可以使用图表、可视化工具和描述性统计等来展示分析结果,并解释结论的意义。
04
第五章 数处理和可视化表达
5.3 数据的分析 (2)
拓展延伸
**作业2:数据分析工具研究**
4
3
1
2
选择一个工具或库进行深入研究
学生可以选择Python中的Pandas、Matplotlib或Scikit-Learn等数据分析工具之一进行研究。
提供实际应用案例
使用Pandas进行数据清洗和处理、使用Matplotlib进行数据可视化、使用Scikit-Learn进行机器学习
详细了解所选择工具的主要功能和应用领域。说明该工具在数据分析中的优势和特点。
了解该工具的主要功能和用途
学生应按照简洁易懂的方式,撰写一份教程或报告,向同学们介绍如何使用所选择的工具进行数据分析。
撰写简短的教程或报告
第五章 数处理和可视化表达
5.3 数据的分析 (2)
THANKS
桐城市第八中学 吕凤冲
Lavf58.28.100
$