摘要:
这篇对事件分析做简单总结 用事件的概念来描述用户的行为,包含时间,地点,人物,方式等要素,这也是常见的做法 1、是什么? 事件分析是基于用户的行为数据,也就是事件数据,对用户行为进行多维度,多条件的指标分析和统计,分析用户的行为模式。 常见的指标有:此类行为的次数,用户数,属性值的统计数,总和,均值 阅读全文
摘要:
前段时间有个朋友遇到kafka集群的topic太多出现too many file类似的错误,只能搭建新的集群。 查找一些资料发现问题是: topic太多造成partition过多。partition是kafka的最小并行单元,每个partition都会在对应的broker上有日志文件。 当topic 阅读全文
摘要:
一、ACK机制 为保证 producer 发送的数据,能可靠的发送到指定的 topic,topic 的每个 partition 收到 producer 发 送的数据后,都需要向 producer 发送 ack(acknowledgement 确认收到),如果 producer 收到 ack,就会进行 阅读全文
摘要:
kafka ISR out of ysnc 异常 原因:可能是3个broker节点,其中两个从节点由于网络等其他原因同步复本出现问题或者有延迟,变成不能同步的副本(其中的消息偏移量与leader节点的不一致),然后leader挂了或者出现问题无法正常运行,应该要进行再次选举。这时取决于unclean 阅读全文
摘要:
kafka消费者重新平衡问题 使用java的API消费kafka数据时,由于kafka集群稳定性或网络问题,commit提交超时, expm=Commit cannot be completed since the group hasalready rebalanced and assigned t 阅读全文
摘要:
kafka的API基本上上就是消费者和生产者,可以使用不同语言操作这些API,也有很多组件,框架可以作为kafka的生产者或消费者,下面简单介绍几种 1、java 生产者 public class KafkaProducer { public static void main(String[] ar 阅读全文
摘要:
kafka是分布式的,需要多台机器,并且保证机器之间是免密登录,同时需要用zookeeper集群负责管理 1、kafka版本选择,从官网下载即可,我这里用的是 kafka_2.11-0.11.0.3.tgz 2、brokers节点分配,注意一定是奇数台节点 3、解压并软链 tar -zxvf /so 阅读全文
摘要:
这一篇介绍的来介绍一下我在工作中接触到的用户行为分析系统。在这个系统中主要负责功能开发,计算逻辑开发,日志检测告警等,数据处理,数据准清洗备也有涉及。 用户行为分析在现在这个时期已经是一个比较常见,使用很广的一个词,在互联网公司,有大数据团队的基本上都会提供这样一套分析系统,以及近年来也出现了很多专 阅读全文
摘要:
1、消息队列介绍 在介绍kafka之前先简单提一下消息队列,或发布与订阅消息系统。这个系统很重要,其特点是消息(数据)的发送者不会直接将消息发送给接受着,发布者将消息发送给系统,然后接收者订阅这个消息,以此来接收消息。就像订阅杂志一样。 消息队列从简单的消息队列或进程之间的通信到多个应用之间到多个系 阅读全文
摘要:
1、presto是什么 Presto是由Facebook开发的一个分布式SQL查询引擎,是专门设计为用来专门进行大数据实时查询计算而设计和开发的产品。 它是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。 2、presto特点 prest 阅读全文