摘要: 一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能。 EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志 阅读全文
posted @ 2016-06-26 20:13 成都笨笨 阅读(3020) 评论(0) 推荐(0) 编辑
摘要: 一个稳定可靠的系统离不开监控,我们不仅监控服务是否存活,还要监控系统的运行状况。运行状况主要是对这些组件的核心metrics采集、抓取、分析和报警。 一、监控的数据 监控的日志数据一般包括: v APP、PC、Web 等系统运行Log:采用Flume-NG搜集 v 用户日志 : 采用Flume-NG 阅读全文
posted @ 2016-06-26 20:06 成都笨笨 阅读(6365) 评论(0) 推荐(0) 编辑
摘要: 大数据已经成为一种发展趋势,得到越来越多的公司参与。最近从事大数据系统设计开发和推荐引擎方面的工作,分几篇文章两个系列把自己的心得记录一下, 和大家分享一下大数据方面的经验。 整个平台包括监控系统、日志分析系统、推荐系统。按数据业务步骤划分,分为数据采集、清洗、存储、分析和服务。整个数据流程如下图: 阅读全文
posted @ 2016-06-26 20:02 成都笨笨 阅读(2009) 评论(2) 推荐(0) 编辑
摘要: 下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用。像推荐系统、DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的。 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 上图表明机器学习是数据通过 阅读全文
posted @ 2016-06-26 19:55 成都笨笨 阅读(4218) 评论(0) 推荐(0) 编辑