内容正文:
第四章
数据处理与应用
1、常用表格数据的处理
2、大数据处理
3、大数据典型应用
学习目标:
1、理解Hadoop的组成和功能
2、掌握大数据处理类型
未来,已发生改变……
大数据的关键技术
大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况或判定研究质量等。
大数据的魅力
大数据的魅力
顾客 一次购买商品
1 面包、黄油、尿布、牛奶
2 咖啡、糖、小甜饼、鲑鱼
3 面包、黄油、咖啡、尿布、牛奶、鸡蛋
4 面包、黄油、鲑鱼、鸡
5 鸡蛋、面包、黄油
6 鲑鱼、尿布、牛奶
7 面包、茶叶、糖、鸡蛋
8 咖啡、糖、鸡、鸡蛋
9 面包、尿布、牛奶、盐
10 茶叶、鸡蛋、小甜饼、尿布、牛奶
经关联分析,可发现顾客经常同时购买的商品:尿布牛奶
什么是分治思想?
分--将问题分解为规模更小的子问题
治--将规模更小的子问题逐个击破
合--将已解决的子问题合并,最终得出原问题的解
正如“不同的锁需要不同的钥匙”企业中不同的应用场景数据不同的计算模式,需要使用不同的大数据技术
不同的计算模式需要使用不同的产品
大数据处理类型?
一、批处理计算
设想:硬盘读取速度永远满足要求!
你发现:目前的硬盘容量是1T,速度100MB/s
要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。
而Hadoop就是一个并行处理海量数据的工具。
Hadoop 诞生于大搜索应用
Doug Cutting
MapReduce | GFS | BigTable
Hadoop是什么?
是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据批处理计算。
方便用户便捷处理海量数据。
目前Yahoo!(雅虎)是最主要的贡献者。
批处理计算
国内外那些企业用Hadoop?
数据仓库,商业智能 (facebook,twitter,淘宝,京东,暴风,新浪,58同城....,移动大云)
互联网广告计算 (亿赞普,科捷,各类大互联网企业)
大搜索引擎项目 (Yahoo,国产盘古,人民搜