随笔分类 -  大数据

apache knox apache hdaoop 生态的rest api && 应用网关
摘要:apache knox apache hdaoop 是生态中的一个est api && 应用网关,以下是一张来自官方的参考图,提供了组件的说明 参考组件 说明 apache knox 是apache hadoop 生态中一个很不错的工具,值得试用 参考资料 https://knox.apache.o 阅读全文

posted @ 2020-09-23 19:18 荣锋亮 阅读(366) 评论(0) 推荐(0) 编辑

streamsets 源码构建
摘要:依赖构建工具 git 1.9+ oracle jdk 8 docker 1.10+ maven 3.3.9+ nodejs npm grunt-cli md5sum git 1.9+ oracle jdk 8 docker 1.10+ maven 3.3.9+ nodejs npm grunt-cl 阅读全文

posted @ 2019-11-30 11:42 荣锋亮 阅读(2112) 评论(5) 推荐(0) 编辑

genie 来自netflix 的分布式大数据调度服务
摘要:Genie是Netflix开发的联合作业编排引擎。Genie提供REST-ful API来运行各种大数据工作,如Hadoop,Pig,Hive,Spark,Presto,Sqoop等。它还提供用于管理许多分布式处理集群的元数据以及在其上运行的命令和应用程序的API。 说明 官方同时也提供了docke 阅读全文

posted @ 2019-07-31 08:49 荣锋亮 阅读(893) 评论(0) 推荐(0) 编辑

dbt 集成presto试用
摘要:dbt 团队提供了presto 的adapter同时也是一个不错的的参考实现,可以学习 当前dbt presto 对于版本的要求是0.13.1 对于当前最新版本的还不支持,同时需要使用源码安装pip 包 dbt presto pip 包安装 clone 代码包 git clone https://g 阅读全文

posted @ 2019-07-11 16:40 荣锋亮 阅读(721) 评论(0) 推荐(0) 编辑

presto docker简单试用
摘要:starburstdata 团队提供了一个docker 版本的presto,其中已经内置了几个connectors tpch tpcds memory backhole jmx system pull docker images 镜像稍大,最好使用加速 docker pull starburstda 阅读全文

posted @ 2019-07-10 15:39 荣锋亮 阅读(2806) 评论(0) 推荐(0) 编辑

lyft amundsen简单试用
摘要:昨天有说过amundsen 官方为我们提供了dockerc-compose 运行的参考配置,以下是一个来自官方的 quick start clone amundsen 代码 amundsen 使用了git 子模块,同时我们运行demo,需要的项目也在里边 git clone --recurse-su 阅读全文

posted @ 2019-06-05 10:58 荣锋亮 阅读(2120) 评论(0) 推荐(0) 编辑

amundsen 来自lyft 的开源数据发现平台
摘要:amundsen 是来自lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及 数据处理框架 参考架构图 说明 从官方介绍以及github代码仓库可以看出还是比较全的整体解决方案,很值得研究学习下,同时官方提供的基于docker-compose 的可运行环境可以简化我们环 阅读全文

posted @ 2019-06-04 20:13 荣锋亮 阅读(3435) 评论(0) 推荐(0) 编辑

timescaledb 集成 madlib
摘要:github 上有人提出了一个问题(2017 很早了),然后搜索timescaledb 的docs 文档,发现有 一片介绍的文章,所以尝试运行下 备注: 环境使用虚拟机安装(没有使用docker madlib 的原因,实际上可以尝试基于timescaledb 的镜像改造) 安装madlib 这个可以 阅读全文

posted @ 2019-01-21 20:15 荣锋亮 阅读(912) 评论(0) 推荐(0) 编辑

madlib centos yum 包安装
摘要:使用centos 测试安装madlib sql 机器学习类库 安装步骤 添加pg 10 repo yum install https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-7-x86_64/pgdg-centos10-10-2. 阅读全文

posted @ 2019-01-21 13:02 荣锋亮 阅读(710) 评论(0) 推荐(0) 编辑

apache geode 试用
摘要:使用docker 运行,文档参考的官方的5 分钟学习文档 拉取镜像 docker pull apachegeode/geode docker pull apachegeode/geode docker pull apachegeode/geode docker pull apachegeode/ge 阅读全文

posted @ 2019-01-10 16:15 荣锋亮 阅读(1416) 评论(0) 推荐(0) 编辑

airflow-operator 可以管理airflow 的kuberntes 自定义controller && crd
摘要:使用airflow-operator 我们可以让airflow 可以很方便的运行在k8s集群环境中,当前还在开发中 主要分为两部分:airflowbbase && airfowcluster 自定义资源。 可以用来做以下事情: 创建&&管理airflow 部署的k8s 资源 更新关联的k8s资源,当 阅读全文

posted @ 2018-11-30 11:10 荣锋亮 阅读(762) 评论(0) 推荐(0) 编辑

Stream processing with Apache Flink and Minio
摘要:转自:https://blog.minio.io/stream-processing-with-apache-flink-and-minio-10da85590787 Modern technology trends like Machine Learning, Deep Learning, Art 阅读全文

posted @ 2018-11-28 08:36 荣锋亮 阅读(1270) 评论(0) 推荐(0) 编辑

ClickHouse 简单试用
摘要:ClickHouse 具有强劲的数据分析能力,同时支持标准sql 查询,内置了好多聚合参数 同时可以方便的使用表函数连接不同的数据源(url,jdbc,文件目录。。。) 测试使用docker安装 参考项目 https://github.com/rongfengliang/clickhouse-doc 阅读全文

posted @ 2018-11-01 09:24 荣锋亮 阅读(4178) 评论(0) 推荐(0) 编辑

drill 集成开源s3 存储minio
摘要:drill 支持s3数据的查询,同时新版的通过简单配置就可以实现minio 的集成 测试使用docker 运行drill 参考 https://www.cnblogs.com/rongfengliang/p/9846899.html,minio 安装也可以使用docker minio bucket 阅读全文

posted @ 2018-10-25 08:54 荣锋亮 阅读(495) 评论(0) 推荐(0) 编辑

docker 方式运行drill
摘要:drill 1.14 版本已经官方支持使用docker 直接运行可,还是比较方便的,尽管镜像 有点大,但是实际测试使用还是比较方便的,实际上自己做一个也比较简单。 下载镜像 docker pull drill/apache-drill:1.14.0 运行 命令行模式 docker run -i -- 阅读全文

posted @ 2018-10-24 23:15 荣锋亮 阅读(543) 评论(0) 推荐(0) 编辑

yugabyte 集成JanusGraph测试
摘要:yugabyte 集成图数据库JanusGraph,原理比较简单就是yugabyte 内置Cassandra,配置好JanusGraph 的访问就可以了。 使用docker 模式部署 创建yugabyte 集群(docker cli ) 下载部署工具 mkdir ~/yugabyte && cd ~ 阅读全文

posted @ 2018-10-15 15:12 荣锋亮 阅读(797) 评论(0) 推荐(0) 编辑

streamsets 集成 rabbitmq 以及benthos stream 处理框架
摘要:benthos 是一个stream 处理框架,streamsets 也是,但是两者可以通过不同的工具进行集成起来 一般我们可以使用http 服务,消息中间件(kafka、rabbitmq 。。。) 使用docker-compose 运行 服务配置 docker-compose 文件 version: 阅读全文

posted @ 2018-08-31 15:37 荣锋亮 阅读(1924) 评论(0) 推荐(0) 编辑

All the Apache Streaming Projects: An Exploratory Guide
摘要:The speed at which data is generated, consumed, processed, and analyzed is increasing at an unbelievably rapid pace. Social media, the Internet of Thi 阅读全文

posted @ 2018-08-30 16:28 荣锋亮 阅读(476) 评论(0) 推荐(0) 编辑

apache spark kubernets 部署试用
摘要:spark 是一个不错的平台,支持rdd 分析stream 机器学习。。。 以下为使用kubernetes 部署的说明,以及注意的地方 具体的容器镜像使用别人已经构建好的 deploy yaml 文件 deploy-k8s.yaml apiVersion: extensions/v1beta1 ki 阅读全文

posted @ 2018-08-30 15:12 荣锋亮 阅读(885) 评论(1) 推荐(0) 编辑

apache flink kubernetes 运行试用
摘要:类似docker-compose 运行模式,使用的是deploy 的模式 deploy yaml 文件 deploy-k8s-yaml apiVersion: extensions/v1beta1 kind: Deployment metadata: name: jobmanager namespa 阅读全文

posted @ 2018-08-29 13:43 荣锋亮 阅读(2748) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示