摘要:用的是ShuffleGrouping分组方式,并行度设置为3 这是跑下来的结果 参考代码StormTopologyShufferGrouping.java package yehua.storm; import java.util.Map; import org.apache.storm.Confi
阅读全文
摘要:先模拟产生一些数据 我把这些数据摘一部分下来 参考代码KafkaProducer.java 先在kafka创建topic 两个副本5个分区 可以看到topic创建成功 总结一下前面的流程 下面再新建一个maven项目stormpProject0521 依赖文件: 依赖文件pom.xml参考代码 参考
阅读全文
摘要:storm是一条一条数据处理,spark是一批数据处理的,storm才是真正意义的实时数据处理。 1、fileBeat类似flume用来采集日志的,fileBeat是轻量级的,对性能消化不大,而flume比较消化性能。 2、fileBeat会实时监控前端机,然后把数据实时写到Kafka集群里面。 3
阅读全文
摘要:下图来说明什么是雪崩现象: 当spout发送的速度非常快,而bolt的处理速度很慢,spout源源不断地向内存中发送tuple,这样下去迟早会把内存撑爆,这样就叫做雪崩现象! 怎么处理雪崩问题呢 第一个方法不能有很好的保障,第二种方法可能会导致spout的严重的数据延迟,所以实际在应该中是两个方法结
阅读全文
摘要:应用场景: 第一种方法 参考代码StormTopologyTimer1.java 方法二: 所以我们应该这么干 这个方法也ok的,这个不同于前面的在main里设置定时,这个是在bolt里设置,这个方法就是针对bolt设置,针对某一个bolt设置定时任务! 参考代码StormTopologyTimer
阅读全文
摘要:消息确认机制: 在数据发送的过程中可能会数据丢失导致没能接收到,spout有个超时时间(默认是30S),如果30S过去了还是没有接收到数据,也认为是处理失败。 运行结果都是处理成功 参考代码StormTopologyAcker.java
阅读全文