apache spark connect 试用

spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了

connect server 启动

实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中

  • 启动
./sbin/start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.1
  • 查看效果

应该会有一个java 进程

 

  • 页面效果

 

python 应用

需要按足昂pyspark 同时可能需要一些其他的依赖包,比如grpcio,运行环境基于了venv

  • app.py
 
from pyspark.sql import SparkSession
from datetime import datetime, date
from pyspark.sql import Row
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
df = spark.createDataFrame([
    Row(a=1, b=2., c='string1', d=date(2000, 1, 1), e=datetime(2000, 1, 1, 12, 0)),
    Row(a=2, b=3., c='string2', d=date(2000, 2, 1), e=datetime(2000, 1, 2, 12, 0)),
    Row(a=4, b=5., c='string3', d=date(2000, 3, 1), e=datetime(2000, 1, 3, 12, 0))
])
df.show()
  • 效果

 

  • 监控页面

job 任务

 

说明

可能运行需要以来一个pip 包,按照提示安装即可,spark connect 还是很强大的,但是目前conect 缺少安全访问,通信协议上使用了grpc,这个具体可以看看官方的一些介绍,基于connect 可以简化spark的访问,对于开发以及调试也比较友好,目前我是基于本地模式
运行的,yarn 模式应该也是没有问题的,但是k8s 模式还需要测试, 后边我整理下测试结果

参考资料

https://www.databricks.com/blog/2022/07/07/introducing-spark-connect-the-power-of-apache-spark-everywhere.html
https://spark.apache.org/docs/latest/api/python/getting_started/quickstart_connect.html
https://stackoverflow.com/questions/36183486/importerror-no-module-named-google

posted on   荣锋亮  阅读(504)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
· spring官宣接入deepseek,真的太香了~
历史上的今天:
2022-08-22 nginx proxy_cache 无法生效问题解决
2021-08-22 基于cloudevents+easy-rules+centraldogma 进行基于规则的业务开发
2021-08-22 mercurius 基于fastify 的graphql server 以及gateway 服务
2021-08-22 如何测试easy-rules 的spel 表达式
2021-08-22 easy-rules-centraldogma-spring-boot-starter spel 模版格式说明
2020-08-22 odyssey prometheus 监控
2020-08-22 odyssey 试用

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示