随笔分类 -  Hadoop/BigData

摘要:为什么要用Hbase- Hbase的诞生是因为现有的关系型数据库已经无法在硬件上满足疯狂增长的数据了,而且因为需要实时的数据提取Memcached也无法满足- Hbase适合于无结构或半结构化数据,适合于schema变动的情况- Hbase天生适合以时间轴做查询 Werner Vogels,可以关注一下他的博客(Amazon的CTO) 分布式计算系统的CAP定理:在理論計算機科學中, CAP定理... 阅读全文
posted @ 2014-05-04 21:13 Elaine Shi 阅读(3927) 评论(0) 推荐(2) 编辑
摘要:首先来了解一下HDFS的一些基本特性 HDFS设计基础与目标 硬件错误是常态。因此需要冗余 流式数据访问。即数据批量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理 大规模数据集 简单一致性模型。为了降低系统复杂度,对文件采用一次性写多次读的逻辑设计,即是文件一经写入,关闭,就再也不能修改 程序采用“数据就近”原则分配节点执行 HDFS... 阅读全文
posted @ 2013-05-18 23:16 Elaine Shi 阅读(10352) 评论(0) 推荐(0) 编辑
摘要:为什么会将Page Rank放在hadoop学习笔记里,是因为hadoop课程第一周就重点提到了Google当年三大论文(GFS, Map-Reduce和Big Table)以及hadoop思想的来源,并提到了page rank与Map-reduce解决方案下的PR算法,关于如何应用分布式计算来处理上万亿网页的Page rank的Map-reduce思想现在还没有搞清楚,在这之前,颇费了些周章去理解page rank的基本算法。有几篇文章讲述得非常清楚,(更是觉得数学是趋势所需,没有好的数学包括线性/高数/离散等很多路径将走不通)说实话,培训课件中关于Page Rank算法的讲解实在是太抽象了 阅读全文
posted @ 2013-05-08 23:59 Elaine Shi 阅读(4735) 评论(4) 推荐(0) 编辑
摘要:本篇讲了在Ubuntu下安装hadoop0.20.2完全分布式集群的过程 阅读全文
posted @ 2013-05-08 23:18 Elaine Shi 阅读(69553) 评论(9) 推荐(2) 编辑