摘要:
工作中一般使用的都是zookeeper和Hbase的分布式集群. more /etc/profile cd /usr/local zookeeper-3.4.5.tar.gzzookeeper在安装部署的时候,节点数量必须是不少于三个的奇数个.===================... 阅读全文
摘要:
Hbase简介: hadoop-database,hadoop领域中的数据库.是一个高可靠,高性能,面向列的,可伸缩(非常容易的加一些计算节点)的分布式的存储管理系统. 在廉价的pc server上搭建起大规模结构化存储集群,和hadoop非常相似,Hbase是利用Hadoop的hdfs... 阅读全文
摘要:
Hadoop中只适用于Hbase分布式部署,hadoop的HA自动切换.概述: zookeeper是应用于分布式应用的,是一个分布式协调服务.实现分布式应用,同步,配置管理,分组还有命名服务的.实现分布式应用中的协调服务.侧重于高性能,高可靠,还有顺序访问,HDFS只做存储,出发点不一样,都... 阅读全文
摘要:
hive中的表与hdfs中的文件通过metastore关联起来的.Hive的数据模型:内部表,分区表,外部表,桶表受控表(managed table):包括内部表,分区表,桶表 内部表: 我们删除表的时候在hdfs上对应的目录及数据文件一同被删除了. 分区表: 分区:把数据放在不同的磁盘文件中,... 阅读全文
摘要:
Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面... 阅读全文
摘要:
联盟实际上是一个单独的集群,集群里面包含很多的NameService共享同样的DataNode,同一份数据只上传一份,block块相同,一个集群中删除,另一个集群中还是存在的.同一份数据只是在namespace中注册了一下.联盟是共享同一个datanode,相同的数据还是一份viewfs跨隶属于同一... 阅读全文
摘要:
yarn包括两块,一个是ResourceManager,主要的作用是管理集群上的资源,目前hadoop版本上,管理的只有cpu和内存. 另外一个叫NodeManager,这上面会跑我们的程序,叫ApplicationMaster,我们的MapReduce在上面的跑的不叫做Application... 阅读全文
摘要:
自动切换的HA,比手动切换HA集群多了一个zookeeper集群机器分配: zookeeper:hadoop4,hadoop5,hadoop6 namenode:hadoop4,hadoop5 datanode:hadoop4,hadoop5,hadoop6 journalnode:hado... 阅读全文
摘要:
ssh-copy-id -i hadoop5含义: 节点hadoop4上执行ssh-copy-id -i hadoop5的含义是把hadoop4上的公钥id_rsa.pub的内容追加到hadoop5的授权文件authorized_keys中。 zookeeper在hadoop2中... 阅读全文
摘要:
配置linux基本环境: -->java、ip、hostname、hosts、iptables、chkconfig、ssh环境配置hadoop2.2安装在linux64位机器上,需要对源码进行编译: 首先安装google的protobuf yum install glibc-he... 阅读全文