内容正文:
情境:短视频推荐系统的 “数据魔法”
小明是一位航天爱好者,经常在家中与父母讨论航天相关知识. 2025年5月22日晚上,小明在刷短视频时,突然刷到了神舟二十号航天员乘组圆满完成第一次出舱活动的视频.
思考:为什么这个视频会出现在小明的短视频推荐页中?
平台是如何知道小明喜欢这类内容的?
第十四章 统计
14.1 获取数据的基本途径及相关概念
案例 1:全国人口普查
(1)普查目的:第七次全国人口普查将全面查清中国人口数量、
结构、分布、城乡住房等方面情况,为完善人口发展战略和政策体系,
促进人口长期均衡发展,科学制定国民经济和社会发展规划,推动经济
高质量发展,开启全面建设社会主义现代化国家新征程,向第二个百年
奋斗目标进军,提供科学准确的统计信息支持;
(2)普查对象:普查标准时点 (2020年11月1日零时) 在中华人民共和国
境内的自然人以及在中华人民共和国境外但未定居的中国公民,不包括
在中华人民共和国境内短期停留的境外人员;
(3)普查内容:主要调查人口和住户的基本情况,包括姓名、公民身份号码、性别、年龄、民族、受教育程度、行业、职业、迁移流动、婚姻生育、死亡、住房等情况.
案例 2:抽样检测
某养鱼场今年初在一池塘放养了 10000 尾鲤鱼苗. 为了解这批鱼苗生长的情况,决定从池塘中捞 40 尾鱼进行调查. 调查人员分别从鱼塘的东、西、南、北、中五个方位各随机捞起 8 尾鲤鱼,分别测量其质量,并记录下健康状况.称量和观测后将 40 尾鱼放回鱼塘.
下面是 40 尾鱼的质量(单位:g):
根据上述数据,调查人员分别算得 40 尾鱼的质量的平均数约为 401.5,标准差约为 19.3 . 这说明这批鱼苗生长较快,且个体之间差异不大.
结合健康状况的观测结果,作出调查结论:这批鱼的生长情况良好.
普查 抽样检测
优点 确定调查对象简单,
准确性高 迅速、及时;
节约人力、物力、财力
缺点 成本太高、时间上不容许、
考察方法具有破坏性 由部分推及全体,
结果具有不确定性
试一试:请举出一些生活中用到普查或抽样检测的例子.
普查和抽样检测的优缺点
例1:医生是如何检验某人的血液中血脂含量是否偏高的?你觉得这样做的合理性是什么?
解:医生在检验人的血液中血脂含量是否偏高时,通常是抽取少量的血液进行检验,然后由此作出推断,确定血脂含量.
合理性:医生在检验时是不可能将一个人的血液都抽出来进行普查的.
例2:在汽车的安全测试中,有一项碰撞试验,目的是评估当汽车遇到猛烈撞击时的损坏程度,给出相应的等级. 你觉得这项试验可以实施普查吗?
解:这里要调查的是:在汽车碰撞试验中,汽车的是损坏程度;
这项试验不能实施普查,因为这项试验对汽车的破坏几乎是毁灭性的.只能从同款汽车中抽取若干量汽车进行试验,然后由此推断,认为这一款汽车在经历猛烈撞击时的表现都会如此.
练一练:分别说出下列活动适合哪种调查方式.
1.为订购集体活动的服装,需要了解每位同学的身高、腰围等;
2.为了全面了解我国人口状况;
3.了解潜在顾客对新产品包装意见;
4.想实时了解观看时政新闻的人数情况;
5.为了掌握第二产业、第三产业的发展规模、结构、效益等信息;
6.质监部门测试电子产品的防水性能.
普查
普查
抽样检测
普查
抽样检测
抽样检测
一般地,在获取数据时,我们把所考察对象(某一项指标的数据)的全体叫作总体,把组成总体的每一个考察对象叫作个体,从总体中所抽取的一部分个体叫作总体的一个样本 ,样本中个体的数目叫作样本容量.
如案例 2 中,从10000 尾鲤鱼苗中捞 40 尾鱼进行调查.
总体:10000 尾鲤鱼苗的总质量;
个体:每尾鲤鱼苗的质量;
样本:被捞出的 40 尾鲤鱼苗的总质量
样本容量: 40
(注意样本容量是一个数字,无单位)
案例 3:“学生身高调查”
同学们,新学期到了,某学校准备定制新校服,需要了解咱们全校学生的身高情况,以此来确定不同尺码校服的生产数量. 已知全校有 2000 名学生,要一个个测量身高,工作量实在太大了,那该怎么办呢?
思考:想一想,为什么要抽取样本呢?
通过分析这 100 名学生身高的情况,如平均身高、不同身高段的人数分布等,我们就能大致推测出全校学生身高的整体情况,也就是总体分布;
分析:我们把全校 2000 名学生的身高看作一个整体,这个整体就叫做总体,这里总体包含的个体数量是 2000;
但逐一测量太麻烦,我们可以从全校学生中抽取一部分学生,比如随机挑选 100 名学生来测量身高,这被抽取出来的 100 名学生的身高,就构成了一个样本,而 100 就是这个样本里个体的数量,也就是样本容量;
例 3:为了解某校学生的消费能力,某小组选择在学校超市门口购物的学生进行调查. 你认为这样的调查结果会怎样?
解:这项调查的总体应为该校全体学生的消费能力;
该调查小组选择的受访者为去学校超市购物的学生,而这部分学生的消费能力并不能很好地代表全体学生,所以结果是片面的.
由于样本是随机的,误差是不可避免的,所以要想从样本出发,对总体作出基本合理的判断,就要求样本能够很好地代表总体;
例如,如果全校有40%的学生去学校超市购物,那么样本中去学校超市购物的学生也近似40%.
在抽样检测中,首先需要确定调查对象,即明确总体.
对总体来说,人们最看重的是它的各类数据所占的百分比,总体中各类数据的百分比清楚了,这个总体也就清楚了.
总体中各类数据的百分比称为总体的分布.
其次,在抽取样本时,要尽可能地使得样本的分布与总体的分布相同,所谓样本能很好地代表总体,就是指样本的分布与总体的分布近似相同.
回顾:根据本课所学,回答下列问题.
1. 常用的获取数据的途径有哪些?举例说明.
2. 普查与抽样检测分别有什么优缺点?
3. 举例说明,总体、个体、样本、样本容量的概念.
用户行为追踪: “当你观看、点赞、评论或分享视频时,这些行为会被记录为数据;如你昨天点赞了‘无人机航拍’的视频,平台就知道你对科技类内容感兴趣” .
思考1:“为什么你从未搜索过神舟二十号航天员乘组圆满完成第一次出舱活动的相关信息,但还是刷到了该视频”
AI算法与个性化推荐:结合搜索结果,通过“相似用户”推荐逻辑,协同过滤算法会基于用户行为数据计算相似度,推荐“相似用户喜欢但当前用户未观看”的内容;
思考2:“如果你在短视频APP搜索‘高考志愿填报’,那么平台会在接下来的几天频繁推送相关内容 ,这背后是如何实现的?”
数据推送机制:结合搜索结果,实时数据接入大模型后,系统会通过自然语言处理识别用户意图,触发个性化推送策略,从而疯狂推送相关内容.
课后作业:调查家人使用的智能设备(如健康手环、智能家居),分析其数据收集与推送机制.
$