随笔分类 -  hadoop

摘要:一。impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query P... 阅读全文
posted @ 2018-04-25 09:42 饺子吃遍天 阅读(997) 评论(0) 推荐(0) 编辑
摘要:参考ibm文章 https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html该系列分为三部分 第 2 部分: 深入推荐引擎相关算法 - 协同过滤第 3 部分: 深入推荐引擎... 阅读全文
posted @ 2018-04-13 16:24 饺子吃遍天 阅读(1020) 评论(0) 推荐(0) 编辑
摘要:一 。QJM简介和原理 hadoop集群环境 namenode元数据保存在一台机器中 存在单点故障 传统的高可用解决方案 至少有一台从机 用于备份主机数据,同一时间只有主机对外提供服务,如果主机宕机 从机能够自动接管主机服务,从机为了同步主机的数据 必须定期同步主... 阅读全文
posted @ 2017-10-21 09:18 饺子吃遍天 阅读(297) 评论(0) 推荐(0) 编辑
摘要:一。hdfs原理和架构 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throug... 阅读全文
posted @ 2017-10-20 10:19 饺子吃遍天 阅读(175) 评论(0) 推荐(0) 编辑
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作... 阅读全文
posted @ 2015-04-14 11:19 饺子吃遍天 阅读(198) 评论(0) 推荐(0) 编辑
摘要:1->下载hadoop-1.2.1.tar.gztar -zxvf hadoop-1.2.1.tar.gz 解压 这里假设解压的文件在 /root/soft2->创建 hadoop 账户groupadd hadoopuseradd -g haddop -d /hom... 阅读全文
posted @ 2015-03-31 21:57 饺子吃遍天 阅读(173) 评论(0) 推荐(0) 编辑