spark-sql jdbc连接参数优化
1,sparkSQK -jdbc
官方文档 https://spark.apache.org/docs/3.2.1/sql-data-sources-jdbc.html
- 支持的数据库
DB2
MariaDB
MS Sql
Oracle
PostgreSQL
- 访问数据库可通过
- spark.read().jdbc(driver,tableName,'分区规则(字符串数组)',properties)连接
- spark.format("jdbc")
.option('url','连接地址')
.option('driver','驱动名称')
.option('dbtable','表名称')
.option('driver','xxx')
...
- 可配置参数
- partitionColumn, lowerBound, upperBound :分区字段,下界值,上界值,该三个值必须同时配置
- numPartitions :分区数量,spark可以根据上界、下届以及数量自己平均分配分区
- fetchsize :读一次读多少条,适合大数据量配置
- batchSize : 写 一次写多少数据,适合大数据量配置
- isolationLevel 数据库隔离级别
- 代码实例
Dataset<Row> ds= spark.read()
.option("partitionColumn", "出生年月日").option("lowerBound", "1921-01-01").option("upperBound", "2032-01-01").option("numPartitions", 20)
.option("fetchsize", "1000")
.jdbc(dbUrl, "tableName", properties);
分类:
spark
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统