摘要: hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。 1.系统 8080,80 用于tomcat和apache的端口。 22 ssh的端口 2. 阅读全文
posted @ 2016-04-04 14:01 Raymoc 阅读(4584) 评论(0) 推荐(2) 编辑
摘要: 网站日志流量复杂分析hadoophive需求会话信息表:键名描述对应Track表字段session_id会话IDsessionId,会话IDguid访客idglobel userId,独立访客ID,不清cookies时不会变化guidtrackerU访问的渠道id,取该会话中第一个trackerUtrackerU 渠道landing_url着落页,第一个访问URLurllanding_url_r... 阅读全文
posted @ 2016-04-02 21:39 Raymoc 阅读(1389) 评论(0) 推荐(0) 编辑
摘要: Flume在企业大数据仓库架构中位置及功能hadoop数据仓库flume数据仓库架构1、如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flume获得。在HDFS或Hbase中,如果要进行实时查询用Impala(内存),如果是分析可以用Hive,Mapreduce分析。用Oozie来调用工作流执行任务。2、左边是数据的来源:系统日志文件,应用文件(... 阅读全文
posted @ 2016-04-01 06:10 Raymoc 阅读(642) 评论(0) 推荐(0) 编辑
摘要: Hue的安装与部署hadoophueHue 简介Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。很早以... 阅读全文
posted @ 2016-04-01 02:03 Raymoc 阅读(7629) 评论(1) 推荐(0) 编辑
摘要: Hive中的数据倾斜 hive 1. 什么是数据倾斜 mapreduce中,相同key的value都给一个reduce,如果个别key的数据过多,而其他key的较少,就会出现数据倾斜。通俗的说,就是我们在处理的时候数据分布的不均,导致了数据大量集中在某一点。造成了数据的热点。 其实在mapreduc 阅读全文
posted @ 2016-03-27 11:59 Raymoc 阅读(5413) 评论(1) 推荐(1) 编辑
摘要: Hive的三种Join方式 hive Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。 参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins Common/Shuffle/Redu 阅读全文
posted @ 2016-03-26 19:43 Raymoc 阅读(32121) 评论(1) 推荐(5) 编辑
摘要: 如何每日增量加载数据到Hive分区表hadoophiveshellcrontab加载数据数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中每日加载前一天的日志文件数据到表db_track.track_log1. 数据存储数据日志文件,放入某个目录下,每天日志文件放入同一个目录eg: 20160316 - 目录名称日志文件数据,每个小时生成一个文件,一天总共有二十四... 阅读全文
posted @ 2016-03-26 04:48 Raymoc 阅读(16894) 评论(0) 推荐(1) 编辑