内容正文:
信息技术 高中一年级 沪科版 第四章第二节
了解机器学习中的
数据采集与预处理
广西南宁市马山县第三高级中学 韦春亦
1
目 录
CONTENTS
课程重难点
重点:1.数据在机器学习流程中的核心作用:通过MNIST数据集的划分理解它的不同用途。 2.数据预处理的核心——向量化:理解将图像像素矩阵转换为一维数组的必要性与方法。
难点:1.区分“验证集”与“测试集”在模型训练与评估中的不同角色。
2.将图像的视觉信息与计算机处理的数值信息建立联系,理解“向量化”的本质。
情境导入
热点引路
1
初探流程明晰概念
2
深度探究一
数据的向量化
3
实践体验代码验证
4
融会贯通总结提升
5
作业设计
6
2
情境导入
热点引路
1
3
4
探讨题目
同学们,这些‘聪明’的AI模型,它们的‘智慧’是从何而来?
是靠程序员一条条指令编码出来的吗?
模型的智慧源于对海量数据的学习
5
多种多样的数据
各种各样的模型
多种字体
各种颜色
不同大小
复杂背景
?
问题的预处理
数据的采集
6
初探流程
明晰概念
2
数据采集→建立模型→验证模型→评估模型→应用模型
回顾与讲解:数据是起点和根基。
7
初探流程
明晰概念
2
8
初探流程
明晰概念
2
9
初探流程
明晰概念
2
1
WHAT是什么:
70000张手写数字灰度图。
2
WHERE怎么来:
250人书写,人工标注
(“标注”是给数据贴标签,是监督学习的关键)
3
HOW怎么用:
详细讲解数据集的划分
10
初探流程
明晰概念
2
(1)WHAT是什么:
70000张手写数字灰度图。
11
初探流程
明晰概念
2
(2)WHERE怎么来:
250人书写,人工标注
数字1
数字3
数字5
数字7
数字0
数字2
数字4
数字6
数字8
数字9
12
初探流程
明晰概念
2
Ⅰ
训练集 (Train, 55000):用于“学习”,建立模型。
(3)HOW怎么用:
详细讲解数据集的划分
Ⅱ
验证(Validation, 5000):用于“模拟考试”,初步验证和调参。
Ⅲ
测试集 (Test, 10000):用于“最终大考”,客观评估模型性能。
13
深度探究一
数据的向量化
3
探究向量化的必要性与方法
14
深度探究一
数据的向量化
3
000000·····000000
28x28=784位
15
深度探究一
数据的向量化
3
一维数组
是许多机器学习算法的标准输入格式,简化了数据处理流程和模型结构。
为什么
要将矩阵
转化为一维数组?
16
深度探究一
数据的向量化
3
方法相同,
只是矩阵中的数值
只有0和1,
拉平后的一维数组
同样由0和1构成。
如果是二值图像,该如何完成向量化?
17
实践体验
代码验证
4
编程实现数据读取与可视化
通过代码的实践操作,
让学生亲眼见证“向量”如何变回“图像”,
深刻理解了数据向量化,
建立坚实的数据理性认识。
18
实践体验
代码验证
4
运行配套代码mnist_explorer.py
从训练集中随机取出一张图片的向量,通过reshape和matplotlib库将其还原为图像并显示。
运行配套代mnist_explorer.py
用 input_data.read_data_sets
读取MNIST数据。
运行配套代mnist_explorer.py
同时打印出该图片对应的标签。
(1)演示
19
实践体验
代码验证
4
(2)实践
挑战任务:
尝试修改代码,显示验证集或测试集中的图片;尝试显示一张二值化处理后的图片
(将灰度值大于0.5的
设为1,否则为0)
学生动手运行代码,观察并记录输出。
20
实践体验
代码验证
4
展示成果
互相点评
(3)分享与点评
21
融会贯通
总结提升
5
构建完整的知识闭环强化课堂记忆
22
融会贯通
总结提升
5
(1)回顾总结
23
AI热点
机器学习流程
MNIST数据集
数据预处理(向量化)
代码实践
5
时代
热点
强调
核心
发展
展望
2025年AI热门大模型,它们正是依赖于比MNIST庞大亿万倍的数据和更复杂的预处理技术。
数据的质量(如标注准确性、多样性)直接决定AI的天花板,未来在数据科学领域深入探索。
数据就是AI的石油,预处理更像是是炼油厂。没有高质量的数据和精心的预处理,再先进的算法也无法发挥其作用与威力。
(2)价值升华
融会贯通
总结提升
24
作业设计
6
通过讨论AI大模型对海量数据的需求,辩证地思考数据应用可能初步建立负责任地使用数据和发展AI技术的责任感。
【基础性作业】
与
【拓展性作业】
25
【基础性作业】
1.在智慧中小学平台完成本课的课后练习题,
主要考查数据集划分、向量化等核心概念。
2.撰写一段学习反思(100-150字),描述你对“数据是AI基石”这句话的新理解,并提交至平台。
作业设计
6
26
【拓展性作业】
方案A(理论研究):调研除MNIST外,计算机视觉领域另一个著名的开源数据集(如CIFAR-10),试着撰写一份简短的调研报告,比较它与MNIST的异同。
方案B(编程实践):修改课堂代码,尝试将MNIST的灰度图像全部转换为二值图像,并统计数字‘0’和‘1’在训练集中各有多少个样本。
(选做,鼓励完成。)
作业设计
6
27
下课
28
$