打杂滴 - 博客园

kettle实现sqlserver与mysql的连接并写入mysql

摘要： 1.新建转换databasejoin 2.添加两个db连接 mysql的db连接kettlemysql以及sqlserver2008的db连接kettlesql 前提是在\data-integration\lib目录下要有mysql-connector-java-5.1.39.jar以及jtds-1 阅读全文

posted @ 2018-10-12 16:41 打杂滴阅读(3005) 评论(0) 推荐(0)

kettle实现简单的增量同步

摘要：下载 pdi-ce-7.0.0.0-25.zip 解压安装jdk 1.7以上的版本配置环境变量下载并将mysql-connector-java-5.1.39.jar 拷贝到 \data-integration\lib目录下 1.新增转换命名为testsetvar,保存的文件名为testsetv 阅读全文

posted @ 2018-10-12 15:25 打杂滴阅读(1763) 评论(0) 推荐(0)

Kettle入门

摘要： kettle 水壶正如其名“水壶”，将各个地方的水倒进水壶里，再用水壶倒入不同的容器。勺子－Spoon.bat/spoon.sh 图形界面工具，就是启动上图主界面的命令行。 ketchen 厨房 pan 平底锅作业脚本的后缀是kjb，转换脚本的后缀是ktr jdk环境变量的配置新建系统变量J 阅读全文

posted @ 2018-10-09 13:51 打杂滴阅读(303) 评论(0) 推荐(0)

spark快速大数据分析

摘要：从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算阅读全文

posted @ 2018-10-09 11:26 打杂滴阅读(150) 评论(0) 推荐(0)

HDFS 原理解析

摘要：源自https://www.cnblogs.com/duanxz/p/3874009.html Namenode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表, 接收用户的操作请求。文件包括： ①fsimage:元数据镜像文件。存储某一时段阅读全文

posted @ 2018-09-28 17:22 打杂滴阅读(257) 评论(0) 推荐(0)

sparksql进阶

摘要： scala> val df=spark.read.json("/tmp/pdf1json")df: org.apache.spark.sql.DataFrame = [age: bigint, fv: bigint ... 1 more field] scala> df.show+ + + +|ag 阅读全文

posted @ 2018-09-26 14:46 打杂滴阅读(1537) 评论(0) 推荐(0)

Oozie

摘要：使用Oozie的主要目的是为了管理不同类型的作业在Hadoop系统中处理。作业之间的依赖关系是由有向无环图的形式指定。Oozie 的消费信息以及在工作流中指定负责其执行的顺序正确。这样，用户同时管理保存整个工作流程。此外 Oozie 有指定执行特定工作频率规定。阅读全文

posted @ 2018-09-19 16:04 打杂滴阅读(101) 评论(0) 推荐(0)

模式设计

摘要：按天划分表的模式一天一张表如果用户登录日志 login_20180101,login_20180102 在hive中可以使用按天分区，这样查询效率高，而且比按天分表看起来更清新明了 hive> create table loginfo(userid int,logintime timestamp) 阅读全文

posted @ 2018-09-18 13:49 打杂滴阅读(102) 评论(0) 推荐(0)

hive 索引

摘要： hive 有限的支持索引，不支持主键外键，可以对表添加索引，也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源。创建索引需要指定索引处理器如 as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' in tab 阅读全文

posted @ 2018-09-18 11:32 打杂滴阅读(433) 评论(0) 推荐(0)

Kylin简介

摘要： Apache Kylin™是由eBay开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。底层存储用的是HBase，数据输入与cube building 阅读全文

posted @ 2018-09-17 13:50 打杂滴阅读(430) 评论(0) 推荐(0)

努力，奋斗

公告

2018年10月12日

kettle实现sqlserver与mysql的连接并写入mysql

kettle实现简单的增量同步

2018年10月9日

Kettle入门

spark快速大数据分析

2018年9月28日

HDFS 原理解析

2018年9月26日

sparksql进阶

2018年9月19日

Oozie

2018年9月18日

模式设计

hive 索引

2018年9月17日

Kylin简介