摘要: sqoop 沟通hdfs和关系型数据库的桥梁,可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs 下载:Apache 提供的工具 安装: 要求必须有jdk 和 hadoop的支持,并且有版本要求。 上传到linux中,进行解压 sqoop可以通过JAVA_HOME找到jdk 阅读全文
posted @ 2016-08-21 00:11 周蓬勃 阅读(265) 评论(0) 推荐(0) 编辑
摘要: zookeeper原理 zookeeper为了保证可靠性,不能用一台机器,而应该是一个集群 为了保证zookeeper集群数据能够一致,必须有一个拍板说了算的人,这就是leader,其他的是follower。 某一时刻集群里只能有且仅有一个leader。 leader可以执行增删改和查询操作,而fo 阅读全文
posted @ 2016-08-21 00:08 周蓬勃 阅读(593) 评论(0) 推荐(0) 编辑
摘要: zookeeper的java api操作 创建会话: Zookeeper(String connectString,int sessionTimeout,Watcher watcher) Zookeeper(String connectString,int sessionTimeout,Watche 阅读全文
posted @ 2016-08-21 00:07 周蓬勃 阅读(4528) 评论(0) 推荐(0) 编辑
摘要: zookeeper的shell下操作 进入%ZK_HOME%/bin 执行zkCli.sh [-server ip:port] #如不指定,则连接本机 创建: create [-s] [-e] path data acl #创建数据节点 --其中 -s表示顺序节点 -e表示临时节点,两个都不加则是持 阅读全文
posted @ 2016-08-21 00:06 周蓬勃 阅读(336) 评论(0) 推荐(0) 编辑
摘要: zookeeper集群的搭建 需要先安装jdk,并且配置jdk的环境变量 下载zookeeper的安装包 上传到linux集群环境下 解压安装包 tar -zxvf zookeeper-3.4.7.tar.gz 进入conf目录,复制zoo-sample.cfg为zoo.cfg,通过修改zoo.cf 阅读全文
posted @ 2016-08-21 00:05 周蓬勃 阅读(215) 评论(0) 推荐(0) 编辑
摘要: Zookeeper 1.Zookeeper概述 Zookeeper是一个工具,可以实现集群中的分布式协调服务。 所谓的分布式协调服务,就是在集群的节点中进行可靠的消息传递,来协调集群的工作。 Zookeeper之所以能够实现分布式协调服务,靠的就是它能够保证分布式数据一致性。 所谓的分布式数据一致性 阅读全文
posted @ 2016-08-21 00:04 周蓬勃 阅读(5850) 评论(0) 推荐(1) 编辑
摘要: HIVE的UDF 新建java工程,导入hive相关包,导入hive相关的lib。 创建类继承UDF 自己编写一个evaluate方法,返回值和参数任意。 为了能让mapreduce处理,String要用Text处理。 将写好的类打成jar包,上传到linux中 在hive命令行下,向hive注册U 阅读全文
posted @ 2016-08-21 00:03 周蓬勃 阅读(182) 评论(0) 推荐(0) 编辑
摘要: HIVE语法 0.数据类型 TINYINT - byte SMALLINT - short INT - int BIGINT - long BOOLEAN - boolean FLOAT - float DOUBLE - double STRING - String TIMESTAMP - Time 阅读全文
posted @ 2016-08-21 00:01 周蓬勃 阅读(297) 评论(0) 推荐(0) 编辑
摘要: HIVE外部表 分区表 外部表 创建hive表,经过检查发现TBLS表中,hive表的类型为MANAGED_TABLE. 在真实开发中,很可能在hdfs中已经有了数据,希望通过hive直接使用这些数据作为表内容。 此时可以直接创建出hdfs文件夹,其中放置数据,再在hive中创建表管来管理,这种方式 阅读全文
posted @ 2016-08-21 00:00 周蓬勃 阅读(3018) 评论(1) 推荐(0) 编辑