随笔分类 -  apache spark

dremio nessie 集成玩法
摘要:昨天我简单写了dremio 集成nessie 的玩法, 实际上dremio 与nessie 的集成可以分为两大类,一类是使用nessie 做为catalog 服务 (当然也是支持写入iceberg 的),一类是基于外部工具(spark,flink) 使用nessie 做为metadata stora 阅读全文

posted @ 2023-12-30 13:55 荣锋亮 阅读(82) 评论(0) 推荐(0) 编辑

apache spark connect 试用
摘要:spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa 阅读全文

posted @ 2023-08-22 22:02 荣锋亮 阅读(459) 评论(0) 推荐(0) 编辑

spark on k8s 开发部署简单实践
摘要:实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储(当然dophinscheduler 也是支持自己的资源库的) 参考图 玩法说明 基于gitlab 进行代码管理,通过ci 阅读全文

posted @ 2023-08-21 22:38 荣锋亮 阅读(134) 评论(0) 推荐(0) 编辑

dolphinscheduler 调度spark on k8s
摘要:dolphinscheduler 对于k8s的支持可以使用spark任务模式选择k8s 配置,当然也可以直接通过k8s 集成通过容器镜像模式运行,两种方式各有利弊,但是完全基于k8s模式会比较方便些 集成玩法说明 spark 任务模式 此模式我们需要配置SPARK_HOME 给每个dolphinsc 阅读全文

posted @ 2023-07-30 10:27 荣锋亮 阅读(923) 评论(0) 推荐(0) 编辑

apache spark conenct 提升spark 能力
摘要:spark 是一个很强大的工具,但是大家可能也会使用比较费事,包含了集群管理,以及多租户管理,所以社区开发了不少基于spark 的扩展,apachekyuubi 就是一个典型提供了多租户以及直接使用sql 进行spark 操作的能力 原有spark 集成模式 新spark 集成模式 说明 apach 阅读全文

posted @ 2022-07-09 20:19 荣锋亮 阅读(129) 评论(0) 推荐(0) 编辑

All the Apache Streaming Projects: An Exploratory Guide
摘要:The speed at which data is generated, consumed, processed, and analyzed is increasing at an unbelievably rapid pace. Social media, the Internet of Thi 阅读全文

posted @ 2018-08-30 16:28 荣锋亮 阅读(473) 评论(0) 推荐(0) 编辑

apache spark kubernets 部署试用
摘要:spark 是一个不错的平台,支持rdd 分析stream 机器学习。。。 以下为使用kubernetes 部署的说明,以及注意的地方 具体的容器镜像使用别人已经构建好的 deploy yaml 文件 deploy-k8s.yaml apiVersion: extensions/v1beta1 ki 阅读全文

posted @ 2018-08-30 15:12 荣锋亮 阅读(882) 评论(1) 推荐(0) 编辑

导航