摘要:
问题描述: kafka在指定key进行分区的时候,若某一个分区异常,则发往这个分区的数据均会失败;没有指定key进行分区的便不会出现改问题。 看一下producer的源码: public int partition(String topic, Object key, byte[] keyBytes, 阅读全文
摘要:
下面给出yaml配置,只有input和output,中间可以自定义数据转换pipeline 当前的数据从kafka中取出来就是json格式,所以不需要进行处理转换,输出段使用http_client组件,配置批处理提高吞吐量 遇到的问题: 1.后台出现publish timeout,提交的频率太高,b 阅读全文
摘要:
问题: SparkStreaming 流式流式任务总是异常退出,看过worker的日志后发现再爬取一个二进制文件时会出现堆内存溢出的问题,将该文件下载下来后发现该文件的大小只有8m左右,我们的任务设置的worker内存为3G,正常来说是不会导致内存溢出的。网络爬虫的框架使用的是webmagic,于是 阅读全文
摘要:
output组件的使用记录 file output: file: codec: all-bytes delimiter: "" path: '/home/data/aaa.resource' processors: - archive: format: json_array - type: json 阅读全文
摘要:
input常用组件的记录: generate benthos的任务运行必须要有一个输入作为触发条件,比如当处理文件时,配置的目录下有相应的文件触发任务的运行。 但是有的需求肯能没有输入,此时可以用input中的generate,generate可以定时的触发一次推动任务向下流转。 举例: 定时查数据 阅读全文
摘要:
一句话概述: kafka重平衡机制以为了保证一个消费者组中消费环境发生变化后仍能够负载均衡的一种机制。(消费策略的转移)。 重平衡发生的几种情况: 有新的消费者加入Consumer Group。 有消费者宕机下线。消费者并不一定需要真正下线,例如遇到长时间的GC、网络延迟导致消费者长时间未向Grou 阅读全文
摘要:
本文讨论了五种实现方案: jmxtrans+influxdb +grafana jmx_exporter +ps + grafana kafka_exporter + ps + grafana cmak logi_kafkamanager JMXTrans + InfluxDB + Grafana 阅读全文
摘要:
项目要求使用kafka的事务,遇到了一些问题,研究了下kafka的事务机制记录一下。 kafka事务是为了实现: Exactly Once即正好一次语义 操作的原子性 有状态操作的可恢复性 kafka的幂等性可以实现Exactly Once语义,幂等性提供了单会话单分区的Exactly-Once 语 阅读全文
摘要:
本文结合日志打印与源码分析下kafka冲平衡的机制: 几种触发rebalance的场景: 测试环境,版本: kafka 1.1.0,订阅主题test6,三个分区;三个consumer. 最初的分配方案:每一个消费者会消费一个指定的分区。 1.两次poll的时间间隔超过maxpollinterval 阅读全文
摘要:
问题描述: 在脚本中调用了source /etc/profile,脚本出现了很奇怪的问题,还没有经过初始化的函数运行了多次,导致部分变量没有获取,脚本执行失败。 代码示例: #!bin/sh test(){ #do something } init_param(){ } main(){ source 阅读全文