摘要:
Hadoop离线项目介绍(不包括程序) Hadoop离线项目介绍(不包括程序) 一:项目场景 1.需求分析 根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中 需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上 需要明确收集字段的相关信息,而且需要考虑到后期的 阅读全文
摘要:
ETL的数据来源,处理,保存 ETL的数据来源,处理,保存 1.ETL 数据来源:HDFS 处理方式:Mapreduce 数据保存:HBase 2.为什么保存在Hbase中 数据字段格式不唯一/不相同/不固定,采用hbase的动态列的功能非常适合 因为我们的分析一般情况下,是对于部分事件数据进行分析 阅读全文
摘要:
关于hadoop中yarn的运行原理整理 一:对yarn的理解 1.关于yarn的组成 大约分成主要的四个。 Resourcemanager,Nodemanager,Applicationmaster,container 2.Resourcemanager(RM)的理解 RM是全局资源管理器,负责整 阅读全文