摘要: nginx的日志文件没有rotate功能。如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linu... 阅读全文
posted @ 2015-05-25 17:51 TonyChai 阅读(3681) 评论(0) 推荐(0) 编辑
摘要: 参考官网site:http://kafka.apache.org/documentation.html#basic_ops_cluster_expansionhttps://cwiki.apache.org/confluence/display/KAFKA/Replication+tools#Rep... 阅读全文
posted @ 2015-05-25 17:39 TonyChai 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 学习Kafka的读书笔记,暂未把文章设为翻译类型,因为并非直译文档。水平有限,还请路过高手指正。 “最多(发送)一次”(At most once):消息可以丢失但绝不会重新发送; “至少(发送)一次”(At least once):消息绝不会丢失但是可能会被重新发送; “仅(发送)一次”(Exact... 阅读全文
posted @ 2015-05-25 16:39 TonyChai 阅读(846) 评论(0) 推荐(0) 编辑
摘要: 总结下自己在尝试Kafka分区迁移过程中对这部分知识的理解,请路过高手指正。关于Kafka数据迁移的具体步骤指导,请参考如下链接:http://www.cnblogs.com/dycg/p/3922352.html原文作者写的非常清晰。本文主要侧重自己对相关Kafka源代码的理解:generateA... 阅读全文
posted @ 2015-05-25 16:37 TonyChai 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 先解释下两个概念:high watermark (HW) 它表示已经被commited的最后一个message offset(所谓commited, 应该是ISR中所有replica都已写入),HW以下的消息都已被ISR中各个replica同步,从而保持一致。HW以上的消息可能是脏数据:部分repl... 阅读全文
posted @ 2015-05-25 16:31 TonyChai 阅读(1218) 评论(0) 推荐(0) 编辑
摘要: 1.ProducerRecord 含义:发送给Kafka Broker的key/value值对2.内部数据结构:-- Topic(名字)-- PartitionID (可选)-- Key[(可选)-- Value3.生产者记录(简称PR)的发送逻辑: 若指定Partition ID,则PR被发送至指... 阅读全文
posted @ 2015-05-25 16:24 TonyChai 阅读(2307) 评论(0) 推荐(0) 编辑
摘要: 在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flume的问题总结在Flume的使用过程中,遇到的主要问题如下... 阅读全文
posted @ 2015-05-25 15:10 TonyChai 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系... 阅读全文
posted @ 2015-05-25 15:09 TonyChai 阅读(1585) 评论(0) 推荐(0) 编辑
摘要: flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 一、什么是Flume? flume 作为 cloudera 开发... 阅读全文
posted @ 2015-05-25 14:44 TonyChai 阅读(728) 评论(0) 推荐(0) 编辑