随笔分类 -  大数据

streamsets excel 数据处理
摘要:streamsets 有一个directory的origin 可以方便的进行文件的处理,支持的格式也比较多,使用简单 pipeline flow 配置 excel 数据copy 因为使用的是容器,会有数据copy 容器的一步 因为使用的是容器,会有数据copy 容器的一步 容器id 结合实际查询: 阅读全文

posted @ 2018-08-21 09:24 荣锋亮 阅读(1225) 评论(0) 推荐(0) 编辑

streamsets Processors 说明
摘要:Processors 表示对于一种数据操作处理,在pipeline中可以应用多个Processors, 同时根据不同的执行模式,可以分为独立模式的,集群模式、边缘模式(agent),以及 帮助测试的测试Processors 独立pipelineonly Record Deduplicator - R 阅读全文

posted @ 2018-08-21 09:22 荣锋亮 阅读(917) 评论(0) 推荐(0) 编辑

streamsets record header 属性
摘要:record 的header 属性可以在pipeline 逻辑中使用。 有写stages 会为了特殊目录创建reord header 属性,比如(cdc)需要进行crud 操作类型的区分 你可以使用一些processor 去创建或者更新record 的header 属性信息 一个简单的header处 阅读全文

posted @ 2018-08-20 15:56 荣锋亮 阅读(974) 评论(0) 推荐(0) 编辑

streamsets 错误记录处理
摘要:我们可以在stage 级别,或者piepline 级别进行error 处理配置 pipeline的错误记录处理 discard(丢踢) send response to Origin pipeline传递错误记录回microservice origin ,同时包含了错误的record 个数以及met 阅读全文

posted @ 2018-08-20 15:16 荣锋亮 阅读(945) 评论(0) 推荐(0) 编辑

streamsets 丢踢无关数据
摘要:对于不需要的数据,streamsets 可以方便的设置丢踢,我们可以通过定义require 字段或者前置条件进行配置 require(必须字段) 必须字段是必须存在一条record 中的,对于不存在的,系统根据配置的error 处理规则进行处理,require 字段 可以在processor exe 阅读全文

posted @ 2018-08-20 14:59 荣锋亮 阅读(392) 评论(0) 推荐(0) 编辑

streamsets 数据流设计
摘要:streamsets 支持branch(分支)&& merge(合并)模式的数据流 branch 数据流 如下图: 我们可以根据数据包含的字段进行拆分,不同的数据流处理自己关注的数据 merge 合并数据流 如下图: 可以将多个数据流,发送到同一个stage(阶段),但是不是进行数据的合并,数据的处 阅读全文

posted @ 2018-08-20 14:45 荣锋亮 阅读(1837) 评论(0) 推荐(0) 编辑

streamsets origin 说明
摘要:origin 是streamsets pipeline的soure 入口,只能应用一个origin 在pipeline中, 对于运行在不同执行模式的pipeline 可以应用不同的origin 独立模式 集群模式 edge模式(agent) 开发模式(方便测试) standalone(独立模式)组件 阅读全文

posted @ 2018-08-20 14:27 荣锋亮 阅读(1723) 评论(0) 推荐(0) 编辑

streamsets http client && json parse && local fs 使用
摘要:streamsets 包含了丰富的组件,origin processer destination 测试例子为集成了http client 以及json 处理 启动服务 使用docker 创建pipeline 添加http client 组件 配置http client http 服务地址: http 阅读全文

posted @ 2018-08-20 13:45 荣锋亮 阅读(2127) 评论(0) 推荐(0) 编辑

streamsets 包管理
摘要:streamsets 自带一个包管理,可以方便的进行三方组件的添加,比如我们需要处理mongodb 数据,默认是没有添加这个组件的,操作如下: 选择包管理 选择组件 安装 点击安装 提示界面 安装完成,重启应用 使用 添加 配置 添加 配置 阅读全文

posted @ 2018-08-19 22:52 荣锋亮 阅读(771) 评论(0) 推荐(0) 编辑

kudu 虚拟机环境使用
摘要:安装 curl -s https://raw.githubusercontent.com/cloudera/kudu-examples/master/demo-vm-setup/bootstrap.sh | bash 备注: 会比较慢,可以使用其他的下载工具,提前下载放到目录即可,同时默认会自动启动 阅读全文

posted @ 2018-08-19 00:46 荣锋亮 阅读(304) 评论(0) 推荐(0) 编辑

kudu yum 安装
摘要:yum 源 http://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/cloudera-kudu.repo [cloudera-kudu] # Packages for Cloudera's Distribution for kudu, Versio 阅读全文

posted @ 2018-08-19 00:45 荣锋亮 阅读(497) 评论(0) 推荐(0) 编辑

streamsets docker 安装试用
摘要:docker 安装 docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector 简单demo 登陆 账户 admin admin 账户 admin admin 登陆完成 阅读全文

posted @ 2018-08-19 00:37 荣锋亮 阅读(1305) 评论(0) 推荐(0) 编辑

memsql filesystem pipeline 试用
摘要:一些功能类似drill ,比如s3,file 。。。 创建file pipeline 准备file mkdir -p /opt/db/ touch books.txt 内容如下: The Catcher in the Rye, J.D. Salinger, 1945 Pride and Prejud 阅读全文

posted @ 2018-06-20 11:18 荣锋亮 阅读(414) 评论(0) 推荐(0) 编辑

memsql 多节点部署
摘要:以前部署使用的是docker,这个测试使用的是阿里云的机器 没有使用企业版,使用的是开发版,为一个master 多个Leaf 机器列表 172.31.128.165 172.31.128.166 172.31.128.167 172.31.128.168 下载软件包 wget http://down 阅读全文

posted @ 2018-06-20 09:49 荣锋亮 阅读(659) 评论(0) 推荐(0) 编辑

memsql 基本安装试用
摘要:备注:使用docker 进行安装 1. 基本准备 a. 环境检查(必须,不然会有服务启动异常的问题) docker run --rm memsql/quickstart check-system b. 启动 docker run -d -p 3306:3306 -p 9000:9000 --name 阅读全文

posted @ 2018-04-05 19:27 荣锋亮 阅读(4489) 评论(0) 推荐(0) 编辑

apache phoenix 安装试用
摘要:备注: 本次安装是在hbase docker 镜像的基础上配置的,主要是为了方便学习,而hbase搭建有觉得 有点费事,用镜像简单。 1. hbase 镜像 docker pull harisekhon/hbase 2. 启动hbase docker run -d -p 2181:2181 -p 8 阅读全文

posted @ 2017-12-11 13:44 荣锋亮 阅读(660) 评论(0) 推荐(0) 编辑

cockroachdb 安装试用(单机伪分布式)
摘要:1. 下载 以下地址,选择对应的操作系统版本即可 https://www.cockroachlabs.com/docs/stable/install-cockroachdb.html 2. 启动 // 启动命令 cockroach start --insecure \ --host=xxxxx // 阅读全文

posted @ 2017-11-15 22:08 荣锋亮 阅读(2442) 评论(0) 推荐(0) 编辑

debezium 数据变更工具使用
摘要:1. 作用 简单概述就是CDC(change data capture),实时数据分析领域用的比较多 2. 简单使用(基于官网的docker 说明) 备注: 测试没有使用守护进程模式为了方便测试 a. zookeeper docker run -it --rm --name zookeeper -p 阅读全文

posted @ 2017-10-01 10:45 荣锋亮 阅读(5538) 评论(10) 推荐(0) 编辑

kafka ksql && docker 安装试用
摘要:备注: 使用docker 模式进行安装 1. 准备docker 环境(需要docker-compose) docker 的安装不需要进行多描述了,直接yum 或者源码编译也可以 2. 安装 kafa 以及ksql git clone git@github.com:confluentinc/ksql. 阅读全文

posted @ 2017-09-01 16:06 荣锋亮 阅读(684) 评论(0) 推荐(0) 编辑

piwik docker 安装
摘要:备注: 生产环境使用docker-compose 1. 安装docker && docker-compose 此处略过 2. 下载docker-compose 的文件 https://github.com/indiehosters/piwik 操作如下: git clone https://gith 阅读全文

posted @ 2017-07-27 17:47 荣锋亮 阅读(955) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示