大数据 - 随笔分类(第5页) - 荣锋亮

streamsets excel 数据处理

摘要：streamsets 有一个directory的origin 可以方便的进行文件的处理，支持的格式也比较多，使用简单 pipeline flow 配置 excel 数据copy 因为使用的是容器，会有数据copy 容器的一步因为使用的是容器，会有数据copy 容器的一步容器id 结合实际查询：阅读全文

posted @ 2018-08-21 09:24 荣锋亮阅读(1225) 评论(0) 推荐(0) 编辑

streamsets Processors 说明

摘要：Processors 表示对于一种数据操作处理，在pipeline中可以应用多个Processors，同时根据不同的执行模式，可以分为独立模式的，集群模式、边缘模式（agent），以及帮助测试的测试Processors 独立pipelineonly Record Deduplicator - R 阅读全文

posted @ 2018-08-21 09:22 荣锋亮阅读(917) 评论(0) 推荐(0) 编辑

streamsets record header 属性

摘要：record 的header 属性可以在pipeline 逻辑中使用。有写stages 会为了特殊目录创建reord header 属性，比如（cdc）需要进行crud 操作类型的区分你可以使用一些processor 去创建或者更新record 的header 属性信息一个简单的header处阅读全文

posted @ 2018-08-20 15:56 荣锋亮阅读(974) 评论(0) 推荐(0) 编辑

streamsets 错误记录处理

摘要：我们可以在stage 级别，或者piepline 级别进行error 处理配置 pipeline的错误记录处理 discard（丢踢） send response to Origin pipeline传递错误记录回microservice origin ，同时包含了错误的record 个数以及met 阅读全文

posted @ 2018-08-20 15:16 荣锋亮阅读(945) 评论(0) 推荐(0) 编辑

streamsets 丢踢无关数据

摘要：对于不需要的数据，streamsets 可以方便的设置丢踢，我们可以通过定义require 字段或者前置条件进行配置 require（必须字段）必须字段是必须存在一条record 中的，对于不存在的，系统根据配置的error 处理规则进行处理，require 字段可以在processor exe 阅读全文

posted @ 2018-08-20 14:59 荣锋亮阅读(392) 评论(0) 推荐(0) 编辑

streamsets 数据流设计

摘要：streamsets 支持branch（分支）&& merge（合并）模式的数据流 branch 数据流如下图：我们可以根据数据包含的字段进行拆分，不同的数据流处理自己关注的数据 merge 合并数据流如下图：可以将多个数据流，发送到同一个stage（阶段），但是不是进行数据的合并，数据的处阅读全文

posted @ 2018-08-20 14:45 荣锋亮阅读(1837) 评论(0) 推荐(0) 编辑

streamsets origin 说明

摘要：origin 是streamsets pipeline的soure 入口，只能应用一个origin 在pipeline中，对于运行在不同执行模式的pipeline 可以应用不同的origin 独立模式集群模式 edge模式（agent）开发模式（方便测试） standalone（独立模式）组件阅读全文

posted @ 2018-08-20 14:27 荣锋亮阅读(1723) 评论(0) 推荐(0) 编辑

streamsets http client && json parse && local fs 使用

摘要：streamsets 包含了丰富的组件，origin processer destination 测试例子为集成了http client 以及json 处理启动服务使用docker 创建pipeline 添加http client 组件配置http client http 服务地址： http 阅读全文

posted @ 2018-08-20 13:45 荣锋亮阅读(2127) 评论(0) 推荐(0) 编辑

streamsets 包管理

摘要：streamsets 自带一个包管理，可以方便的进行三方组件的添加，比如我们需要处理mongodb 数据，默认是没有添加这个组件的，操作如下：选择包管理选择组件安装点击安装提示界面安装完成，重启应用使用添加配置添加配置阅读全文

posted @ 2018-08-19 22:52 荣锋亮阅读(771) 评论(0) 推荐(0) 编辑

kudu 虚拟机环境使用

摘要：安装 curl -s https://raw.githubusercontent.com/cloudera/kudu-examples/master/demo-vm-setup/bootstrap.sh | bash 备注：会比较慢，可以使用其他的下载工具，提前下载放到目录即可，同时默认会自动启动阅读全文

posted @ 2018-08-19 00:46 荣锋亮阅读(304) 评论(0) 推荐(0) 编辑

kudu yum 安装

摘要：yum 源 http://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/cloudera-kudu.repo [cloudera-kudu] # Packages for Cloudera's Distribution for kudu, Versio 阅读全文

posted @ 2018-08-19 00:45 荣锋亮阅读(497) 评论(0) 推荐(0) 编辑

streamsets docker 安装试用

摘要：docker 安装 docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector 简单demo 登陆账户 admin admin 账户 admin admin 登陆完成阅读全文

posted @ 2018-08-19 00:37 荣锋亮阅读(1305) 评论(0) 推荐(0) 编辑

memsql filesystem pipeline 试用

摘要：一些功能类似drill ，比如s3，file 。。。创建file pipeline 准备file mkdir -p /opt/db/ touch books.txt 内容如下： The Catcher in the Rye, J.D. Salinger, 1945 Pride and Prejud 阅读全文

posted @ 2018-06-20 11:18 荣锋亮阅读(414) 评论(0) 推荐(0) 编辑

memsql 多节点部署

摘要：以前部署使用的是docker，这个测试使用的是阿里云的机器没有使用企业版，使用的是开发版，为一个master 多个Leaf 机器列表 172.31.128.165 172.31.128.166 172.31.128.167 172.31.128.168 下载软件包 wget http://down 阅读全文

posted @ 2018-06-20 09:49 荣锋亮阅读(659) 评论(0) 推荐(0) 编辑

memsql 基本安装试用

摘要：备注：使用docker 进行安装 1. 基本准备 a. 环境检查（必须，不然会有服务启动异常的问题） docker run --rm memsql/quickstart check-system b. 启动 docker run -d -p 3306:3306 -p 9000:9000 --name 阅读全文

posted @ 2018-04-05 19:27 荣锋亮阅读(4489) 评论(0) 推荐(0) 编辑

apache phoenix 安装试用

摘要：备注：本次安装是在hbase docker 镜像的基础上配置的,主要是为了方便学习，而hbase搭建有觉得有点费事，用镜像简单。 1. hbase 镜像 docker pull harisekhon/hbase 2. 启动hbase docker run -d -p 2181:2181 -p 8 阅读全文

posted @ 2017-12-11 13:44 荣锋亮阅读(660) 评论(0) 推荐(0) 编辑

cockroachdb 安装试用（单机伪分布式）

摘要：1. 下载以下地址，选择对应的操作系统版本即可 https://www.cockroachlabs.com/docs/stable/install-cockroachdb.html 2. 启动 // 启动命令 cockroach start --insecure \ --host=xxxxx // 阅读全文

posted @ 2017-11-15 22:08 荣锋亮阅读(2442) 评论(0) 推荐(0) 编辑

debezium 数据变更工具使用

摘要：1. 作用简单概述就是CDC(change data capture),实时数据分析领域用的比较多 2. 简单使用（基于官网的docker 说明）备注：测试没有使用守护进程模式为了方便测试 a. zookeeper docker run -it --rm --name zookeeper -p 阅读全文

posted @ 2017-10-01 10:45 荣锋亮阅读(5538) 评论(10) 推荐(0) 编辑

kafka ksql && docker 安装试用

摘要：备注：使用docker 模式进行安装 1. 准备docker 环境（需要docker-compose） docker 的安装不需要进行多描述了,直接yum 或者源码编译也可以 2. 安装 kafa 以及ksql git clone git@github.com:confluentinc/ksql. 阅读全文

posted @ 2017-09-01 16:06 荣锋亮阅读(684) 评论(0) 推荐(0) 编辑

piwik docker 安装

摘要：备注：生产环境使用docker-compose 1. 安装docker && docker-compose 此处略过 2. 下载docker-compose 的文件 https://github.com/indiehosters/piwik 操作如下： git clone https://gith 阅读全文

posted @ 2017-07-27 17:47 荣锋亮阅读(955) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (3865)

随笔档案 (4872)

文章分类 (205)

文章档案 (175)

.net 安全揭秘

DB

geohash 学习

graphql

IE 浏览器

IIS

IOT

open xml

REST 设计

sharepoint

sql server CLR

SSIS 学习

UML

vsto

web

Web service

windows 服务

插件开发

复杂事件处理

技术

类库

流量分析

敏捷

移动

运维