摘要: partitionAggregate是针对于每个partition,而不是每个batch,对每个partition当中的tuple做聚合 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 以上代码 batch1的 阅读全文
posted @ 2018-03-23 18:36 nickt 阅读(135) 评论(0) 推荐(0) 编辑
摘要: batchGlobal把同属于一个batch的tuples分配到相同的partition当中。 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 分析以上代码:使用FixedBatchSpout发射数据,每个ba 阅读全文
posted @ 2018-03-23 18:35 nickt 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 下代码使用broadcast做repartition, 广播,会把tuples分配到所有的partitions当中, 如果有5个partition,则会把原tuples复制5份,分配到5个partition去 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/a 阅读全文
posted @ 2018-03-23 16:11 nickt 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 如下代码使用global做repartition, 数据流中的所有tuple都被分配到同一个partition当中(partition id最小的那个), 省略部分代码,省略部分可参考:https://blog.csdn.net/nickta/article/details/79666918 输出: 阅读全文
posted @ 2018-03-23 15:49 nickt 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 如下代码使用partitionBy做repartition, partitionBy即根据相应字段的值按一定算法,把tuple分配到目标partition当中(Target Partition = hash(fields) % (number of target partition)), 相同值会被 阅读全文
posted @ 2018-03-23 15:36 nickt 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 本例包括Storm Trident中shuffle与parallelismHint的使用。 代码当中包括注释 maven 输出结果如下:一共14条 tuples,分布上0-4的partition里 <Fri Mar 23 14:17:13 CST 2018[partition1-Thread-146 阅读全文
posted @ 2018-03-23 14:26 nickt 阅读(167) 评论(0) 推荐(0) 编辑