内容正文:
第四章 数据处理与应用
4.1 常用表格数据的处理
学习目标
学会根据实际需求,对表格数据进行简单整理、计算。
学会使用数据排序功能,把数据变为有序。
学会使用数据筛选功能,筛选出符合要求的数据。
能采用合适的方法分析数据和可视化呈现数据,并能从中提取有用信息,形成结论。
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
在生产生活中,人们经常遇到以二维表方式组织存储的数据,如成绩数据、家庭收支数据等。
数据处理的核心是数据,数据的质量直接影响数据分析的结果。但获取的数据并不都是优质的,常常存在缺失、重复、错误、数量级不同等问题。因此,在数据分析和数据挖掘前,通常先对数据进行整理。
那我们针对不同的数据问题要如何进行整理呢?
知识点一:数据整理
新课讲授
数据整理的目的:是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
常见的数据问题:数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。
数据缺失
最简单的方法是忽略含有缺失值的实例或属性(数据集不完整,致使后续统计结果出现偏差。)。
通常采用平均值、中间值或概率统计值来填充缺失值。
数据重复
重复数据会导致数据冗余,浪费存储空间和网络带宽,在数据分析中还可能会误导用户。
可以采用基于字段或基于记录的算法进行检测,在进一步审核的基础上进行合并或删除等处理。
数据异常
不符合一般规律的数据对象。
可能是要去掉的噪音,也可能是含有重要信息的数据对象。
逻辑
错误
数据集中的属性值与实际值不符,或违背业务规则或逻辑。
通过检测字段中各属性有效数据值的范围可以判断该值错误。
格式不一致
不同来源的数据可能存在格式不一致的情况。
需要进行统一标准化表达的数据转换,以便形成一个适合后续分析和挖掘的描述形式。
知识点二:数据计算
数据计算是数据处理的常用方法之一。
日常简单的数据处理可以使用Excel软件完成;
专业的数据处理和统计分析工具软件有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。
Excel,你值得拥有!
曾经,有一堆数据摆放在我的面前,我没有头绪整理,等到我抓狂的时候才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我再来一次的机会,我会对那堆数据说5个字:我要修理你! 如果非要使用武器,我希望是…… EXCEL!
公式:在Excel软件中,可以应用 = 表达式进行数据的计算。公式以“=”开头,表达式是由常数、函数、单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型)。
例如:
=E3+46
=E4+F4
=SUM(E3:E5)/3
单元格引用:是指对工作表中的单元格或单元格区域的引用。
单元格地址
E3
区域地址
连续区域
E3:G4
不连续区域
E3:G3,E5:G6
相对引用
相对引用和绝对引用:公式不仅用于计算,更重要的是构建计算模型。
从编辑栏中可看出:引用的单元格区域发生改变
绝对引用:在列号或行号前都加上$号,则无论公式复制或移动到哪,引用的单元格地址的行或列都不会改变。
运算符:
算术运算符:用于进行基本的数学运算
算术运算符 含义 举例
+ 加法运算 =A5+B3
- 减法运算 =66-B3
* 乘法运算 =D3*50
/ 除法运算 =D6/C3
% 百分号 =40%
^ 乘方运算 =3^3
比较运算符:用于比较两个值,结果为逻辑值TRUE或FALSE
运算符 描述 举例 值
= 等于 =B6="团员"
< > 不等于 =B2<>10
< 小与 =60<32 FALSE(假)
> 大于 =66>35 TRUE(真)
<= 小于等于 =B2<=B3
>= 大于等于 =B2>=100
文本运算符&:可以连接一个或多个文本字符串,生成
一段文本。
函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。单击fx插入函数,或在编辑栏直接输入公式。
记住要输入“=”
知识点三:数据图表呈现
图表是用视觉形式向人们展示数据的一种方法。
通常依据数据间的关系选择相应的图表类型。
常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。
柱形图:用于显示一段时间内的数据变化或显示各项之间的比较情况。
折线图:可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势。
饼图:主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
雷达图:也称为网络图\蜘蛛图\星图。
可以表示不同对象多个