随笔分类 -  数据分析

上一页 1 ··· 52 53 54 55 56

streamsets 丢踢无关数据
摘要:对于不需要的数据,streamsets 可以方便的设置丢踢,我们可以通过定义require 字段或者前置条件进行配置 require(必须字段) 必须字段是必须存在一条record 中的,对于不存在的,系统根据配置的error 处理规则进行处理,require 字段 可以在processor exe 阅读全文

posted @ 2018-08-20 14:59 荣锋亮 阅读(392) 评论(0) 推荐(0) 编辑

streamsets 数据流设计
摘要:streamsets 支持branch(分支)&& merge(合并)模式的数据流 branch 数据流 如下图: 我们可以根据数据包含的字段进行拆分,不同的数据流处理自己关注的数据 merge 合并数据流 如下图: 可以将多个数据流,发送到同一个stage(阶段),但是不是进行数据的合并,数据的处 阅读全文

posted @ 2018-08-20 14:45 荣锋亮 阅读(1837) 评论(0) 推荐(0) 编辑

streamsets origin 说明
摘要:origin 是streamsets pipeline的soure 入口,只能应用一个origin 在pipeline中, 对于运行在不同执行模式的pipeline 可以应用不同的origin 独立模式 集群模式 edge模式(agent) 开发模式(方便测试) standalone(独立模式)组件 阅读全文

posted @ 2018-08-20 14:27 荣锋亮 阅读(1723) 评论(0) 推荐(0) 编辑

streamsets http client && json parse && local fs 使用
摘要:streamsets 包含了丰富的组件,origin processer destination 测试例子为集成了http client 以及json 处理 启动服务 使用docker 创建pipeline 添加http client 组件 配置http client http 服务地址: http 阅读全文

posted @ 2018-08-20 13:45 荣锋亮 阅读(2127) 评论(0) 推荐(0) 编辑

kudu 虚拟机环境使用
摘要:安装 curl -s https://raw.githubusercontent.com/cloudera/kudu-examples/master/demo-vm-setup/bootstrap.sh | bash 备注: 会比较慢,可以使用其他的下载工具,提前下载放到目录即可,同时默认会自动启动 阅读全文

posted @ 2018-08-19 00:46 荣锋亮 阅读(304) 评论(0) 推荐(0) 编辑

kudu yum 安装
摘要:yum 源 http://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/cloudera-kudu.repo [cloudera-kudu] # Packages for Cloudera's Distribution for kudu, Versio 阅读全文

posted @ 2018-08-19 00:45 荣锋亮 阅读(497) 评论(0) 推荐(0) 编辑

streamsets docker 安装试用
摘要:docker 安装 docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector 简单demo 登陆 账户 admin admin 账户 admin admin 登陆完成 阅读全文

posted @ 2018-08-19 00:37 荣锋亮 阅读(1305) 评论(0) 推荐(0) 编辑

cratedb 集群 docker-compose 安装试用
摘要:关于集群的配置说明可以参考官方文档,或者es 文档 详细代码参考 https://github.com/rongfengliang/cratedb-cluster-docker 参考配置 docker-compose version: "3" services: crate1: image: cra 阅读全文

posted @ 2018-08-06 10:25 荣锋亮 阅读(771) 评论(0) 推荐(0) 编辑

goaccess nginx日志分析工具简单使用
摘要:goaccess 是一个比较方便的支持实时的日志分析工具,比较方便,同时安装&&配置简单 安装 centos yum yum install -y goaccess 运行 我的nginx 使用yum 安装,路径都是默认的 cd /var/log/nginx goaccess access.log - 阅读全文

posted @ 2018-07-22 21:38 荣锋亮 阅读(1691) 评论(0) 推荐(0) 编辑

memsql filesystem pipeline 试用
摘要:一些功能类似drill ,比如s3,file 。。。 创建file pipeline 准备file mkdir -p /opt/db/ touch books.txt 内容如下: The Catcher in the Rye, J.D. Salinger, 1945 Pride and Prejud 阅读全文

posted @ 2018-06-20 11:18 荣锋亮 阅读(414) 评论(0) 推荐(0) 编辑

memsql 多节点部署
摘要:以前部署使用的是docker,这个测试使用的是阿里云的机器 没有使用企业版,使用的是开发版,为一个master 多个Leaf 机器列表 172.31.128.165 172.31.128.166 172.31.128.167 172.31.128.168 下载软件包 wget http://down 阅读全文

posted @ 2018-06-20 09:49 荣锋亮 阅读(659) 评论(0) 推荐(0) 编辑

apache phoenix 安装试用
摘要:备注: 本次安装是在hbase docker 镜像的基础上配置的,主要是为了方便学习,而hbase搭建有觉得 有点费事,用镜像简单。 1. hbase 镜像 docker pull harisekhon/hbase 2. 启动hbase docker run -d -p 2181:2181 -p 8 阅读全文

posted @ 2017-12-11 13:44 荣锋亮 阅读(660) 评论(0) 推荐(0) 编辑

openfaas 架构介绍
摘要:此为官方介绍 Overview of OpenFaaS Function Watchdog You can make any Docker image into a serverless function by adding the Function Watchdog (a tiny Golang 阅读全文

posted @ 2017-10-08 12:14 荣锋亮 阅读(3132) 评论(0) 推荐(0) 编辑

debezium 数据变更工具使用
摘要:1. 作用 简单概述就是CDC(change data capture),实时数据分析领域用的比较多 2. 简单使用(基于官网的docker 说明) 备注: 测试没有使用守护进程模式为了方便测试 a. zookeeper docker run -it --rm --name zookeeper -p 阅读全文

posted @ 2017-10-01 10:45 荣锋亮 阅读(5538) 评论(10) 推荐(0) 编辑

kafka ksql && docker 安装试用
摘要:备注: 使用docker 模式进行安装 1. 准备docker 环境(需要docker-compose) docker 的安装不需要进行多描述了,直接yum 或者源码编译也可以 2. 安装 kafa 以及ksql git clone git@github.com:confluentinc/ksql. 阅读全文

posted @ 2017-09-01 16:06 荣锋亮 阅读(684) 评论(0) 推荐(0) 编辑

一款直接时空处理分析的开源数据库---geomesa
摘要:一款直接时空处理分析的开源数据库 geomesa,可用于交通轨迹数据存储分析等相关领域, 在分布式列数据库的基础上进行扩展,目前支持Accumulo, HBase, Cassandra, and Kafka等作为底层存储。 地址链接: http://www.geomesa.org/ 一款直接时空处理 阅读全文

posted @ 2017-06-10 20:44 荣锋亮 阅读(1893) 评论(0) 推荐(0) 编辑

drill 表&&视图使用
摘要:1. table create table table_name as select * from storage_name.dbname.tablename create table table_name as select * from storage_name.dbname.tablename 阅读全文

posted @ 2017-06-04 16:30 荣锋亮 阅读(441) 评论(0) 推荐(0) 编辑

drill 数据库查询方式简单说明
摘要:1. mysql select * from mysql-storage.mysqldb.mysqltable select * from mysql-storage.mysqldb.mysqltable 2. oracle select * from oracle-storage.username 阅读全文

posted @ 2017-06-02 11:06 荣锋亮 阅读(511) 评论(0) 推荐(0) 编辑

drill java && spring jdbc 连接使用
摘要:原生 jdbc 连接 1. maven 包 <dependency> <groupId>org.apache.drill.exec</groupId> <artifactId>drill-jdbc-all</artifactId> <version>1.10.0</version> </depend 阅读全文

posted @ 2017-05-31 19:38 荣锋亮 阅读(904) 评论(0) 推荐(0) 编辑

上一页 1 ··· 52 53 54 55 56

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示