随笔分类 - ETL

Otter入门简介

摘要：一、Otter简介 1.1 otter是什么？ otter 译意：水獭，数据搬运工语言：纯java开发定位：基于数据库增量日志解析，准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统。Ottter是由阿里开源的一个数据同步产品,它的最初的目的是为了解决阅读全文

posted @ 2015-11-30 23:36 duanxz 阅读(7936) 评论(0) 推荐(0) 编辑

Canal入门

摘要：配置mysql 1、mysql开启binlog mysql默认没有开启binlog，修改mysql的my.cnf文件，添加如下配置，注意binlog-format必须为row，因为binlog如果为STATEMENT或者MIXED,则binlog中记录的是sql语句，不是具体的数据行，canal就无阅读全文

posted @ 2015-11-30 23:27 duanxz 阅读(2130) 评论(0) 推荐(0) 编辑

kettle实现文本文件数据抽取方法

摘要：KETTLE做调度的思路是，把一个有特定格式的的文本文件，写入ORACLE数据库表，具体方法见如下操作：首先来看下文本文件的内容：1|test12|test23|test3通过|进行分割的。具体操作方法：打开KETTLE，新建立一个转换，拖出来如下控件：下面我们来看每个空间具体的配置：1文本文件输入... 阅读全文

posted @ 2015-07-14 09:54 duanxz 阅读(4421) 评论(0) 推荐(0) 编辑

数据仓库之ETL漫谈

摘要：ETL，Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为：数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)ETL贯穿其各个环节。一、数据抽取：可以理解为是把源数据的数据抽取到O... 阅读全文

posted @ 2015-07-07 23:04 duanxz 阅读(5526) 评论(0) 推荐(0) 编辑

kettle连接hadoop&hdfs图文详解

摘要：1 引言：项目最近要引入大数据技术，使用其处理加工日上网话单数据，需要kettle把源系统的文本数据load到hadoop环境中2 准备工作：1 首先要了解支持hadoop的Kettle版本情况，由于kettle资料网上较少，所以最好去官网找,官网的url:http://wiki.pentaho.c... 阅读全文

posted @ 2015-07-07 23:03 duanxz 阅读(7944) 评论(0) 推荐(0) 编辑

kettle作业（job）调用转换，设置变量，写日志到数据库中【转】

摘要：首先建立转换：从数据库表到日志表输入的设置：日志设置：新建job:转换选择刚才建好的输出日志转换。变量设置如下：此ID就是转换中的${ID}，执行job，可以看到控制台输出日志结果：黑色字体部分中只写出了id=1的一条记录。最后补充，将转换的日志写到数据库中：打开转换>ctrl+t>日志选项卡>转换... 阅读全文

posted @ 2015-07-03 17:56 duanxz 阅读(9951) 评论(0) 推荐(0) 编辑

ETL之Tungsten Replicator

摘要：1 概述 1.1 介绍 Tungsten Replicator是数据库集群和复制供应商Continuent推出的高性能、开源的数据复制引擎，是Continuent最先进的集群解决方案的核心组件之一，特别适合作为异构数据库之间数据迁移的解决方案。 Tungsten Replicator最新的稳定版本是阅读全文

posted @ 2015-07-03 17:48 duanxz 阅读(6715) 评论(0) 推荐(0) 编辑

Loading Data into HDFS

摘要：How to use a PDI job to move a file into HDFS.PrerequisitesIn order to follow along with this how-to guide you will need the following:HadoopPentaho D... 阅读全文

posted @ 2015-07-03 17:36 duanxz 阅读(487) 评论(0) 推荐(0) 编辑

可用于Hadoop下的ETL工具——Kettle

摘要：看大家分享了好多hadoop相关的一些内容，我为大家介绍一款ETL工具——Kettle。 Kettle是pentaho公司开源的一款ETL工具，跟hadoop一样，也是java实现，其目的就是做数据整合中时数据的抽取（Extract）、转换（Transformat）、加载（Load）工作。Kett... 阅读全文

posted @ 2015-07-03 17:23 duanxz 阅读(2130) 评论(0) 推荐(0) 编辑

kettle初探

摘要：Kettle是Pentaho的一个组件，主要用于数据库间的数据迁移，到我用过的4.2版，还不支持noSQL，不知道4.4是不是支持了。 Kettle自己有三个主要组件：Spoon，Kitchen，Pan。其中Spoon是一个图形化的界面，用于windows的时候，先设置环境变量：pentaho_... 阅读全文

posted @ 2015-06-13 12:02 duanxz 阅读(445) 评论(0) 推荐(0) 编辑

filebeat6.2.3收集多个日志源多个topic输出

摘要：下载解压配置filebeat.yml 运行filebeat 阅读全文

posted @ 2012-07-24 13:41 duanxz 阅读(2179) 评论(0) 推荐(0) 编辑

windows系统安装运行filebeat

摘要：下载安装包下载地址：https://www.elastic.co/downloads/beats/filebeat解压到指定目录打开解压后的目录，打开filebeat.yml进行配置。 1：配置 Filebeat prospectors->path 这里的路径是所要收集日志的路径 2：配置 ena 阅读全文

posted @ 2012-07-24 11:02 duanxz 阅读(3697) 评论(0) 推荐(0) 编辑

Filebeat入门

摘要：一、概述 Filebeat是一个日志文件托运工具，在你的服务器上安装客户端后，filebeat会监控日志目录或者指定的日志文件，追踪读取这些文件（追踪文件的变化，不停的读），并且转发这些信息到elasticsearch或者logstarsh中存放。以下是filebeat的工作流程：当你开启file 阅读全文

posted @ 2012-07-23 15:46 duanxz 阅读(1070) 评论(0) 推荐(0) 编辑

Filebeat的架构分析、配置解释与示例

摘要：写在前边的话在看filebeat之前我们先来看下Beats，Beats 平台是 Elastic.co 从 packetbeat 发展出来的数据收集器系统。beat 收集器可以直接写入 Elasticsearch，也可以传输给 Logstash。其中抽象出来的 libbeat，提供了统一的数据发送方阅读全文

posted @ 2012-07-19 14:26 duanxz 阅读(1119) 评论(0) 推荐(0) 编辑

昵称： duanxz
园龄： 13年11个月
粉丝： 2430
关注： 22

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 - ETL

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论