内容正文:
第六章 大数据时代数据的组织 (知识清单)
【知识结构】
【考点清单】
1.分布式存储系统利用分布在不同物理位置的服务器来分担系统存储任务,既能提高数据存储的安全性,又能提升系统数据访问的速度,同时也具有较好的可扩展性。
2.实时查询系统的两个特殊性:能实现上千个请求的实时响应和支持后续商品信息的更改。
3.用某种数据结构组织并存储数据:能体现数据间的逻辑关系、能为后续查询提供算法支持。
4.基于数据间线性关系的数据结构设计包括数组和链表。
5.在一个链表中插入一个新元素,时间复杂度为O(1),大大优于采用数组时O(n)的线性复杂度。
6.二分查找算法之所以效率较高,首先是因为数据是有序的,其次是利用有序性进行跨区间、跳跃性的比较,从而避免低效的逐个依次比较。实现的思路是首先将数据进行有序化处理,然后像二分查找一样确定比较的关键节点,根据新元素与关键节点的比较结果来高效地取舍剩余的查找区间。
7.关键节点起到一个索引表的作用,帮助算法快速定位到一个较小的插入区间,然后只需将索引位置对应到原链表,即可找到最终的插入位置。
8.对各级索引表中的关键节点进行增加和删除的实现方法:①增设关键节点;②删除关键节点。
9.在一个有序链表中通过索引表跳跃着进行查找,所以称为“跳跃表”,跳跃表是威廉 · 皮尤(William Pugh)于1990年发明并提出的一种数据结构。
10.大部分的内存数据库主要从以下几个方面来提升数据的处理性能:①减少对磁盘的访问;②对数据进行分级存储;③采用改进后的数据结构来组织、存储数据。
11.POI是“Point of Interest” 的 缩 写, 可 以翻译成“兴趣点”,有些时候也叫作“Point of Information”,即“信息点”。电子地图上一般用气泡图标来表示POI。
12.衡量POI数据价值的指标有:空间位置的准确性和覆盖率、空间位置的数量。
13.POI数据一般以表记录或点状数据集的形式存在,如以表结构形式储存于Oracle的大型数据库中,其数据结构主要包含下列数据:点要素属于的矩形分幅的网格号、唯一标识号、点的POI分类编码、POI名称(汉字和拼音)、POI电话、POI地址和POI的经纬度坐标等。
14.Hadoop作为Google云计算技术的开源实现,提供了一种超大规模、高可靠性、高可扩展性的存储及计算海量数据的框架,可以在海量的POI数据组织管理方面获得更方便的体验和更低廉的成本。
15.POI数据的组织主要涉及空间索引问题,空间索引是指依据空间对象的位置和形状或者空间对象之间的某种空间关系,按一定的顺序排列的一种数据结构。
16.网格索引的空间索引技术是将一幅地图的地理范围均等划分为M行N列,即规则地划分为二维空间数据,得到M×N个小矩形网格区域。
17.GeoHash算法把一个坐标点映射到一个字符串上,每一个字符串代表的就是一个以经纬度划分的矩形区域。
18.GeoHash算法用类似四叉树的方法来寻求一个点,对经度和纬度不断地进行二分,最终确定到想要的精度。
原创精品资源学科网独家享有版权,侵权必究!
学科网(北京)股份有限公司
学科网(北京)股份有限公司
$$