07 2024 档案
摘要:Spark批处理小文件合并 /** * * @param sparkSession * @param absDir 要进行小文件合并的路径 * @param partitionSize 分块的大小(一般 128 ,即 128M ) * @param isDeleteBak 是否删除备份路径数据,1:
阅读全文
摘要:SQLAlchemy 2.0 版本检查 import sqlalchemy sqlalchemy.__version__ 建立连接-engine 任何 SQLAlchemy 应用程序的开始都是一个称为Engine的对象。此对象充当连接到特定数据库的中心源,既提供一个工厂,又提供一个称为 连接池 的存
阅读全文
摘要:Spark算子是分为行动子算子和转换算子的,只有遇到行动算子,计算任务才会生成一个Job任务,当算子行动算子多起来,并且交织复杂的时候,Spark去追溯数据血缘就会比较耗时了,通常我们都会直接通过persist算子存储中间的计算结果,减少数据的重复计算。 // 存储中间计算结果,避免Spark重复计
阅读全文