摘要: 一、Datax简介 ​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 二、框架设计 DataX本身作为离线数据同步框架,采用Framework + pl 阅读全文
posted @ 2018-11-05 09:27 tianyafu 阅读(9245) 评论(0) 推荐(0) 编辑
摘要: python 3.X连接mysql python 2.X连接mysql使用的是MySQLdb模块,但是在python 3.X中,MySQLdb还不支持,所以如果在3.X版本中需要使用pymysql模块。 pymysql的具体方法如下: 1.在连接mysql前,先创建测试表: 2.准备配置文件: 3. 阅读全文
posted @ 2018-10-22 09:31 tianyafu 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 写入: HBase写可以分为单行写和批量写: 单行写使用了void put(Put put) throws IOException方法 在创建Put对象时使用构造器: Put(byte[] row) 传入一个行键 并使用add(byte[] famliy,byte[] qualifier)方法指定列 阅读全文
posted @ 2018-10-08 13:56 tianyafu 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 一、协处理器是什么 协处理器是HBase提供的允许我们在regionserver上运行我们自己编写的代码的框架。 二、协处理器的介绍 Hbase主要为我们提供了两类协处理器:observer和endpoint。 observer: observer类协处理器类似于数据库中的触发器(官网上是这么说的) 阅读全文
posted @ 2018-09-08 16:27 tianyafu 阅读(638) 评论(0) 推荐(0) 编辑