Raymoc

2016年4月4日

摘要： hadoop系统部署时用到不少端口。有的是Web UI所使用的，有的是内部通信所使用的，有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。 1.系统 8080，80 用于tomcat和apache的端口。 22 ssh的端口 2. 阅读全文

posted @ 2016-04-04 14:01 Raymoc 阅读(4654) 评论(0) 推荐(2)

2016年4月2日

网站日志流量复杂分析

摘要：网站日志流量复杂分析hadoophive需求会话信息表：键名描述对应Track表字段session_id会话IDsessionId，会话IDguid访客idglobel userId，独立访客ID，不清cookies时不会变化guidtrackerU访问的渠道id，取该会话中第一个trackerUtrackerU 渠道landing_url着落页，第一个访问URLurllanding_url_r... 阅读全文

posted @ 2016-04-02 21:39 Raymoc 阅读(1427) 评论(0) 推荐(0)

2016年4月1日

Flume在企业大数据仓库架构中位置及功能

摘要： Flume在企业大数据仓库架构中位置及功能hadoop数据仓库flume数据仓库架构1、如下图所示，外部数据中，关系型数据库导入到HDFS用sqoop，由Nginx产生的文件实时监控用Flume获得。在HDFS或Hbase中，如果要进行实时查询用Impala（内存），如果是分析可以用Hive，Mapreduce分析。用Oozie来调用工作流执行任务。2、左边是数据的来源：系统日志文件，应用文件（... 阅读全文

posted @ 2016-04-01 06:10 Raymoc 阅读(665) 评论(0) 推荐(0)

Hue的安装与部署

摘要： Hue的安装与部署hadoophueHue 简介Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。很早以... 阅读全文

posted @ 2016-04-01 02:03 Raymoc 阅读(7703) 评论(1) 推荐(0)

2016年3月27日

Hive中的数据倾斜

摘要： Hive中的数据倾斜 hive 1. 什么是数据倾斜 mapreduce中，相同key的value都给一个reduce，如果个别key的数据过多，而其他key的较少，就会出现数据倾斜。通俗的说，就是我们在处理的时候数据分布的不均，导致了数据大量集中在某一点。造成了数据的热点。其实在mapreduc 阅读全文

posted @ 2016-03-27 11:59 Raymoc 阅读(5455) 评论(1) 推荐(1)

2016年3月26日

Hive的三种Join方式

摘要： Hive的三种Join方式 hive Hive中就是把Map，Reduce的Join拿过来，通过SQL来表示。参考链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins Common/Shuffle/Redu 阅读全文

posted @ 2016-03-26 19:43 Raymoc 阅读(32392) 评论(1) 推荐(5)

如何每日增量加载数据到Hive分区表

摘要：如何每日增量加载数据到Hive分区表hadoophiveshellcrontab加载数据数据加载到Hive分区表（两个分区，日期（20160316）和小时（10））中每日加载前一天的日志文件数据到表db_track.track_log1. 数据存储数据日志文件，放入某个目录下,每天日志文件放入同一个目录eg: 20160316 - 目录名称日志文件数据，每个小时生成一个文件，一天总共有二十四... 阅读全文

posted @ 2016-03-26 04:48 Raymoc 阅读(16992) 评论(0) 推荐(1)

公告