Hadoop之HBase
从BigTable说起:
BigTable用于解决互联网的搜索问题
1. 建立互联网的索引
爬虫持续不断的抓取新的网页,这些网页每一页一行的存储到BIgTable中
MapReduce计算作业运行在整个表上,生成索引,为网络搜索应用做准备
2. 搜索互联网
用户发起网络搜索请求
搜索网络应用查询建立好的索引,从BigTable中得到网页
提交用户
HBase:高可靠,高性能,面向列,可伸缩的分布式数据库。存储非结构化或者半结构数据的松散数据。
与传统的关系型数据库之间的主要区别
1. 数据索引:关系型数据库都有一个主索引,或者有多个二级索引。HBase只有一个索引,行键。HBase中的所有的访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来。
2. 数据维护:HBase在数据修改之后会保留旧的数据和新的数据
3. 可伸缩性:可以轻易的增加集群。