内容正文:
5.2&5.3&5.4
数据采集、分析与可视化表达
授课人:斯郎卓玛
处理数据的一般过程
数据采集
数据分析
数据可视化表达
请制定一份
暑假旅游计划
数据采集
数据分析
数据可视化表达
数据的采集方法
▷ 网络数据采集法
▷ 系统日志采集法
▷ 其他数据采集法
数据采集
数据分析
数据可视化表达
系统日志采集法
1
系统日志,是记录系统中硬件、软件和系统问题的信息文件。
系统日志包括操作系统日志、应用程序日志和安全日志。
采集方法:
在目标主机安装一个小程序,将日志信息有选择地定向推送到日志服务器上进行存储、监控和管理。
数据采集
数据分析
数据可视化表达
网络数据采集法
2
指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
网络爬虫?
数据采集
数据分析
数据可视化表达
其他数据采集法
3
如:
将文字录入电脑——键盘打字、扫描仪扫描
记录课堂活动——照相机拍照、摄像机摄像等
记录一段声音——麦克风录音
手机、智能手环等内置了多种传感器(指纹、磁场)
......
数据采集
数据分析
数据可视化表达
小红书
手动采集
数据采集
数据分析
数据可视化表达
找到数据后
该
做什么呢?
存 储
数据采集
数据分析
数据可视化表达
本地存储
云 存 储
两种方式
数据采集
数据分析
数据可视化表达
常见云存储平台
谷歌云
百度网盘
亚马逊云
阿里云
数据采集
数据分析
数据可视化表达
存储在电脑硬盘中
如果电脑中病毒,数据丢失怎么办
?
数据保护
数据安全保护指数据不被破坏、更改、泄露或丢失。
数据安全保护技术
保护数据的方法:
数据的隐私保护
数据采集
数据分析
数据可视化表达
数据采集
数据分析
数据可视化表达
数据安全保护技术
安装杀毒软件和防火墙(只能防备数据安全隐患)
采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护
(更为彻底、有效的方法)
数据采集
数据分析
数据可视化表达
数据加密技术:防止他人对机密的数据进行非法访问、删除、修改、拷贝等
对称式加密
非对称式加密
数据采集
数据分析
数据可视化表达
隐私泄露的途径
数据隐私保护
数据采集
数据分析
数据可视化表达
数据隐私保护
一、技术手段:
1、数据收集时,进行数据精度处理
2、数据共享时,进行访问控制
3、数据发布时,进行人工加扰
4、数据分析时,进行数据匿名处理
除此之外,还需要提高自身保护意识,完善法律和道德上的约束。
二、提高自身保护意识
三、对数据使用者进行道德和法律上的约束
数据采集
数据分析
数据可视化表达
去哪些地方旅游最有性价比?
景点数、景点间的距离、计划旅游天数、出行费......
分析数据
数据采集
数据分析
数据可视化表达
数据采集
数据分析
数据可视化表达
1
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,
绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差、组距
等描述性统计量。
朗诵比赛评委打分
评委 1 2 3 4 5 6
分数 10.0 8.2 8.9 7.8 8.1 4.0
分数
8.2 8.9 7.8 8.1
数据采集
数据分析
数据可视化表达
2
商品关联 —— 顾客购买习惯 —— 商家制定销售策略
关联分析 就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个
事物中某些属性同时出现的规律和模式。
数据采集
数据分析
数据可视化表达
3
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个
分类的标准,聚类分析能够从样本数据出发,自动进行分类。
游戏一:“站队游戏”(聚类分析)
游戏规则:随机选出两位学生把自己的姓名贴贴在黑板上,随后依次随机走出一位同学,后面走出的同学可以根据自己的意愿,把自己的姓名贴在任何一位同学的姓名贴旁边,直到游戏结束。
K-平均算法
数据采集
数据分析
数据可视化表达
4
多如牛毛 狐假虎威 画蛇添足
风吹草动 胸有成竹 昙花一现
耳闻目睹 腹背受敌 头重脚轻
数据分类 是数据分析处理中最基本的方法。数据分类基于样本数据先训练构建分类函数或分类模型,该分类器具有将待分类数据映射到某一特点类别的功能。
贝叶斯分类技术
数据采集
数据分析
数据可视化表达
聚类分析:
暑假适合穷游的城市
数据分类:
大胆去&不建议
人均800r+
数据采集
数据分析
数据可视化表达
分析完数据后需要干嘛呢?
想一想呢?
数据的可视化表达是指以图形、图像、地图、动画等生动、易于理解的方式展现数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
数据采集
数据分析
数据可视化表达
表5-5 数据分析类型及其对应的可视化呈现
国家统计局网站
数据采集
数据分析
数据可视化表达
数据可视化表达
图1 柱形图
图2 饼图
图3 雷达图
人均最低值
景德镇 桂林 西安 武汉 柳州 贵阳 重庆 成都 舟山 青岛 北京 桂林 苏州 淄博 三亚 南京 长沙 西藏 澳门 新疆 人均花费小于1000 人均花费大于1000 700 900 900 700 900 800 600 900 900 800 900 800 1000 1000 1500 1000 1000 6000 7000 5000
人均花费
人均最低值 景德镇 桂林 西安 武汉 柳州 贵阳 重庆 成都 舟山 青岛 北京 桂林 苏州 淄博 三亚 南京 长沙 西藏 澳门 新疆 人均花费小于1000 人均花费大于1000 700 900 900 700 900 800 600 900 900 800 900 800 1000 1000 1500 1000 1000 6000 7000 5000
人均花费
人均最低值 景德镇 桂林 西安 武汉 柳州 贵阳 重庆 成都 舟山 青岛 北京 桂林 苏州 淄博 三亚 南京 长沙 西藏 澳门 新疆 700 900 900 700 900 800 600 900 900 800 900 800 1000 1000 1500 1000 1000 6000 7000 5000
数据采集
数据分析
数据可视化表达
Lavf58.46.101
$