摘要:
每次接触一个新的知识之前我都抱有恐惧之心,因为总认为自己没有接触到的知识都很高大上,比如上篇介绍到的Hadoop的安装与使用与本篇要介绍的Spark,其实在自己真正琢磨以后才发现本以为高大上的知识其实也不过如此。 由于Spark是最新火起来的处理大数据的框架,国内教程资源少之甚少,所以本篇文章是本人 阅读全文
摘要:
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx(或者其他方式,我们 阅读全文