spakr-sql 持久化操作对 自动生成的每条数据的唯一 ID的影响
背景
项目中的Spark程序中需要针对处理的每条数据进行唯一标识,所以使用了Spark 内置的 monotonically_increasing_id() 函数
自动ID生成 monotonically_increasing_id()
import static org.apache.spark.sql.functions.*;
dateset.withColumn("ID",monotonically_increasing_id());
持久化对 自动生成ID的影响
下图可视,对于同一条数据来讲,持久化前show的和持久化后show的 唯一ID发生了变化 由 98 变成了 97 ,原因待后续有空深入研究,如果使用到了ID 推荐 持久化之后再进行show
Spark 临时视图数据和RDD等数据持久化需要注意的点
https://blog.csdn.net/nanfeizhenkuangou/article/details/121276117
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?