随笔分类 - hadoop
摘要:一。impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query P...
阅读全文
摘要:参考ibm文章 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html该系列分为三部分 第 2 部分: 深入推荐引擎相关算法 - 协同过滤第 3 部分: 深入推荐引擎...
阅读全文
摘要:一 。QJM简介和原理 hadoop集群环境 namenode元数据保存在一台机器中 存在单点故障 传统的高可用解决方案 至少有一台从机 用于备份主机数据,同一时间只有主机对外提供服务,如果主机宕机 从机能够自动接管主机服务,从机为了同步主机的数据 必须定期同步主...
阅读全文
摘要:一。hdfs原理和架构 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throug...
阅读全文
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作...
阅读全文
摘要:1->下载hadoop-1.2.1.tar.gztar -zxvf hadoop-1.2.1.tar.gz 解压 这里假设解压的文件在 /root/soft2->创建 hadoop 账户groupadd hadoopuseradd -g haddop -d /hom...
阅读全文