摘要: 在Spark Streaming程序中,我们经常需要使用有状态的流来统计一些累积性的指标,比如各个商品的PV。简单的代码描述如下,使用mapWithState()算子: val productPvStream = stream.mapPartitions(records => { var resul 阅读全文
posted @ 2020-03-13 15:32 sw_kong 阅读(679) 评论(0) 推荐(0) 编辑
摘要: 场景描述 如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。那么我就需要一个东西保存历史状态State。 首先区分一下两个概念,state一般指一个具体的task/operator的状态。而checkpoint则表示了一个Job,在一个特定时刻的一份全局状态 阅读全文
posted @ 2020-03-13 15:02 sw_kong 阅读(1909) 评论(0) 推荐(0) 编辑