随笔 - 2228  文章 - 4  评论 - 371  阅读 - 1109万

随笔分类 -  ETL

Otter入门简介
摘要:一、Otter简介 1.1 otter是什么? otter 译意: 水獭,数据搬运工 语言: 纯java开发 定位: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统。Ottter是由阿里开源的一个数据同步产品,它的最初的目的是为了解决 阅读全文
posted @ 2015-11-30 23:36 duanxz 阅读(7936) 评论(0) 推荐(0) 编辑
Canal入门
摘要:配置mysql 1、mysql开启binlog mysql默认没有开启binlog,修改mysql的my.cnf文件,添加如下配置,注意binlog-format必须为row,因为binlog如果为STATEMENT或者MIXED,则binlog中记录的是sql语句,不是具体的数据行,canal就无 阅读全文
posted @ 2015-11-30 23:27 duanxz 阅读(2130) 评论(0) 推荐(0) 编辑
kettle实现文本文件数据抽取方法
摘要:KETTLE做调度的思路是,把一个有特定格式的的文本文件,写入ORACLE数据库表,具体方法见如下操作:首先来看下文本文件的内容:1|test12|test23|test3通过|进行分割的。具体操作方法:打开KETTLE,新建立一个转换,拖出来如下控件:下面我们来看每个空间具体的配置:1文本文件输入... 阅读全文
posted @ 2015-07-14 09:54 duanxz 阅读(4421) 评论(0) 推荐(0) 编辑
数据仓库之ETL漫谈
摘要:ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。大多数据仓库的数据架构可以概括为:数据源-->ODS(操作型数据存储)-->DW-->DM(data mart)ETL贯穿其各个环节。​一、数据抽取: 可以理解为是把源数据的数据抽取到O... 阅读全文
posted @ 2015-07-07 23:04 duanxz 阅读(5526) 评论(0) 推荐(0) 编辑
kettle连接hadoop&hdfs图文详解
摘要:1 引言:项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把源系统的文本数据load到hadoop环境中2 准备工作:1 首先要了解支持hadoop的Kettle版本情况,由于kettle资料网上较少,所以最好去官网找,官网的url:http://wiki.pentaho.c... 阅读全文
posted @ 2015-07-07 23:03 duanxz 阅读(7944) 评论(0) 推荐(0) 编辑
kettle作业(job)调用转换,设置变量,写日志到数据库中【转】
摘要:首先建立转换:从数据库表到日志表输入的设置:日志设置:新建job:转换选择刚才建好的输出日志转换。变量设置如下:此ID就是转换中的${ID},执行job,可以看到控制台输出日志结果:黑色字体部分中只写出了id=1的一条记录。最后补充,将转换的日志写到数据库中:打开转换>ctrl+t>日志选项卡>转换... 阅读全文
posted @ 2015-07-03 17:56 duanxz 阅读(9951) 评论(0) 推荐(0) 编辑
ETL之Tungsten Replicator
摘要:1 概述 1.1 介绍 Tungsten Replicator是数据库集群和复制供应商Continuent推出的高性能、开源的数据复制引擎,是Continuent最先进的集群解决方案的核心组件之一,特别适合作为异构数据库之间数据迁移的解决方案。 Tungsten Replicator最新的稳定版本是 阅读全文
posted @ 2015-07-03 17:48 duanxz 阅读(6715) 评论(0) 推荐(0) 编辑
Loading Data into HDFS
摘要:How to use a PDI job to move a file into HDFS.PrerequisitesIn order to follow along with this how-to guide you will need the following:HadoopPentaho D... 阅读全文
posted @ 2015-07-03 17:36 duanxz 阅读(487) 评论(0) 推荐(0) 编辑
可用于Hadoop下的ETL工具——Kettle
摘要:看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle。 Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做数据整合中时数据的抽取(Extract)、转换(Transformat)、加载(Load)工作。Kett... 阅读全文
posted @ 2015-07-03 17:23 duanxz 阅读(2130) 评论(0) 推荐(0) 编辑
kettle初探
摘要:Kettle是Pentaho的一个组件,主要用于数据库间的数据迁移,到我用过的4.2版,还不支持noSQL,不知道4.4是不是支持了。 Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变 量:pentaho_... 阅读全文
posted @ 2015-06-13 12:02 duanxz 阅读(445) 评论(0) 推荐(0) 编辑
filebeat6.2.3收集多个日志源 多个topic输出
摘要:下载 解压 配置filebeat.yml 运行filebeat 阅读全文
posted @ 2012-07-24 13:41 duanxz 阅读(2179) 评论(0) 推荐(0) 编辑
windows系统安装运行filebeat
摘要:下载安装包 下载地址:https://www.elastic.co/downloads/beats/filebeat解压到指定目录打开解压后的目录,打开filebeat.yml进行配置。 1:配置 Filebeat prospectors->path 这里的路径是所要收集日志的路径 2:配置 ena 阅读全文
posted @ 2012-07-24 11:02 duanxz 阅读(3697) 评论(0) 推荐(0) 编辑
Filebeat入门
摘要:一、概述 Filebeat是一个日志文件托运工具,在你的服务器上安装客户端后,filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并且转发这些信息到elasticsearch或者logstarsh中存放。 以下是filebeat的工作流程:当你开启file 阅读全文
posted @ 2012-07-23 15:46 duanxz 阅读(1070) 评论(0) 推荐(0) 编辑
Filebeat的架构分析、配置解释与示例
摘要:写在前边的话 在看filebeat之前我们先来看下Beats,Beats 平台是 Elastic.co 从 packetbeat 发展出来的数据收集器系统。beat 收集器可以直接写入 Elasticsearch,也可以传输给 Logstash。其中抽象出来的 libbeat,提供了统一的数据发送方 阅读全文
posted @ 2012-07-19 14:26 duanxz 阅读(1119) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示