摘要: Hadoop日志分析系统项目需求: 需要统计一下线上日志中某些信息每天出现的频率,举个简单的例子,统计线上每天的请求总数和异常请求数。线上大概几十台服务器,每台服务器大概每天产生4到5G左右的日志,假设有30台,每台5G的,一天产生的日志总量为150G。处理方案: 方案1:传统的处理方式,写个JAVA日志分析代码,部署到每台服务器进行处理,这种方式部署起来耗时费力,又不好维护。 方案2:采用Hadoop分布式处理,日志分析是Hadoop集群系统的拿手好戏。150G每天的日志也算是比较大的数据量了,搭个简单的Hadoop集群来处理这些日志是再好不过的了。Hadoop集群的搭建: 参见这两篇文章. 阅读全文
posted @ 2013-07-14 09:48 cstar(小乐) 阅读(1650) 评论(0) 推荐(0) 编辑