apache kyuubi + dremio 集成试用
主要是一个玩法的集成,使用apache kyuubi 简化spark 的使用,而且如果我们集成数据库存储格式也是很方便的(感谢网易做出的贡献)
参考图
简单说明:
我们直接基于apache kyuubi 进行delta lake 的操作,数据存储到minio s3 中,然后使用dremio 强大的能力(数据加速,数据集成能力)方便的进行数据查询分析
环境准备
- 下载安装apache kyuubi (使用了最近的版本)
参考连接,注意新版本是没有直接集成spark的需要自己下载,同时delta lake 的包也是需要自己配置的
https://kyuubi.apache.org/releases.html - 下载spark
可以使用apache kyuubi 1.2 github 上提供的直接解压就放到externals 目录下 - delta lake 以及s3 集成
需要自己下载软件包,我已经提供好了一个,可以直接使用,参考github ,这些软件包可以直接放到spark 的jars 目录
https://github.com/rongfengliang/delta-lake-s3-jars
- delta lake 配置
conf/kyuubi-defaults.conf 文件
kyuubi.frontend.bind.host 0.0.0.0
kyuubi.frontend.bind.port 10019
# minio s3 集成,
spark.hadoop.fs.s3a.access.key=minio
spark.hadoop.fs.s3a.secret.key=minio123
spark.hadoop.fs.s3a.endpoint=localhost:9000
spark.hadoop.fs.s3a.path.style.access=true
spark.hadoop.fs.s3a.connection.ssl.enabled=false
spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension
spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog
spark.databricks.delta.retentionDurationCheck.enabled=false
- dremio s3 部署
version: "3"
services:
s3:
image: minio/minio
environment:
- "MINIO_ACCESS_KEY=minio"
- "MINIO_SECRET_KEY=minio123"
command: server /data --console-address ":9001"
ports:
- "9000:9000"
- "9001:9001"
app:
image: dremio/dremio-oss:19.0
ports:
- "9047:9047"
- "31010:31010"
启动&集成试用
- 启动
启动之后还需要创建s3 bucket (delta-lake),不然基于apache kyuubi 创建表会提示bucket 不存在的
./bin/kyuubi run
docker-compose up -d
- 创建table
CREATE TABLE events9 (
eventId STRING,
eventType STRING,
data STRING)
USING DELTA
LOCATION 's3a://delta-lake/firstdemo' // 指定s3 路径
insert into events9 values('1111','11111','11111') // 写入数据
- dremio 集成
配置数据源
数据查询
说明
以上是基于apache kyuubi 集成dremio 的一个玩法,我们基于spark 的能力加上dremio 强大的查询能力,进行数据分析是很灵活的,apache kyuubi 是一个好东西
参考资料
https://github.com/rongfengliang/delta-lake-s3-jars
https://kyuubi.apache.org/releases.html
https://docs.delta.io/latest/delta-storage.html#amazon-s3
https://www.cnblogs.com/rongfengliang/p/14928505.html
https://docs.dremio.com/deployment/dist-store-config/
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2020-11-14 tanka 基本试用
2020-11-14 godoc的写法
2020-11-14 tanka灵活可重用的k8s 配置语言
2018-11-14 drone 1.0 docker-compose 运行试用
2018-11-14 阿里Dragonfly docker p2p 镜像分发试用
2018-11-14 使用distillery&&docker 部署phoenix 应用