apache spark connect 试用
spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了
connect server 启动
实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中
- 启动
./sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.1
- 查看效果
应该会有一个java 进程
- 页面效果
python 应用
需要按足昂pyspark 同时可能需要一些其他的依赖包,比如grpcio,运行环境基于了venv
- app.py
from pyspark.sql import SparkSession
from datetime import datetime, date
from pyspark.sql import Row
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
df = spark.createDataFrame([
Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()
- 效果
- 监控页面
job 任务
说明
可能运行需要以来一个pip 包,按照提示安装即可,spark connect 还是很强大的,但是目前conect 缺少安全访问,通信协议上使用了grpc,这个具体可以看看官方的一些介绍,基于connect 可以简化spark的访问,对于开发以及调试也比较友好,目前我是基于本地模式
运行的,yarn 模式应该也是没有问题的,但是k8s 模式还需要测试, 后边我整理下测试结果
参考资料
https://www.databricks.com/blog/2022/07/07/introducing-spark-connect-the-power-of-apache-spark-everywhere.html
https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_connect.html
https://stackoverflow.com/questions/36183486/importerror-no-module-named-google
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· spring官宣接入deepseek,真的太香了~
2022-08-22 nginx proxy_cache 无法生效问题解决
2021-08-22 基于cloudevents+easy-rules+centraldogma 进行基于规则的业务开发
2021-08-22 mercurius 基于fastify 的graphql server 以及gateway 服务
2021-08-22 如何测试easy-rules 的spel 表达式
2021-08-22 easy-rules-centraldogma-spring-boot-starter spel 模版格式说明
2020-08-22 odyssey prometheus 监控
2020-08-22 odyssey 试用