随笔分类 -  【53】Hadoop生态

摘要:一、调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。二、调优的总体概述 从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成,其中mapper阶段包括数据的读取、map处理以及写出操作( 阅读全文
posted @ 2019-07-09 17:29 cac2020 阅读(313) 评论(0) 推荐(0) 编辑
摘要:环境 hadoop-2.6.5 hive-1.2.1 一、Hive和Hbase整合如果使用Hive进行分析,Hive要从Hbase取数据(当然可以直接将数据存到Hive),那么就需要将Hive和HBase做整合,将hbase的列映射到hive即可。 步骤1:把hive-hbase-handler-1 阅读全文
posted @ 2019-07-09 16:25 cac2020 阅读(941) 评论(0) 推荐(0) 编辑
摘要:环境 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 新增用户指标分析(1)用户分析模块 (2)浏览器分析模块 根据分析效果图,找出分析的维度:用户分析是指某个时间段内的数量变化,浏览器用户分析自然就是某个浏览器在某个时间段内的数量变化,那么根据现有条件确定统计分类的种类, 阅读全文
posted @ 2019-07-09 11:17 cac2020 阅读(556) 评论(1) 推荐(0) 编辑
摘要:环境 hadoop-2.6.5 首先要知道为什么要做数据清洗?通过各个渠道收集到的数据并不能直接用于下一步的分析,所以需要对这些数据进行缺失值清洗、格式内容清洗、逻辑错误清洗、非需求数据清洗、关联性验证等处理操作,转换成可用的数据。具体要做的工作可以参考文章:数据清洗的一些梳理 当了解ETL之后,有 阅读全文
posted @ 2019-07-03 09:10 cac2020 阅读(1269) 评论(0) 推荐(0) 编辑
摘要:环境 sqoop-1.4.6 一、基本命令1、帮助命令 查看某个命令的帮助,比如导入 [root@node101 ~]# sqoop help import Warning: /usr/local/sqoop-1.4.6/../hbase does not exist! HBase imports 阅读全文
posted @ 2019-07-02 10:35 cac2020 阅读(494) 评论(0) 推荐(0) 编辑
摘要:环境 sqoop-1.4.6 Sqoop:将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具。 两个版本:两个版本完全不兼容,sqoop1使用最多:sqoop1:1.4.xsqoop2:1.99.x 同类产品:DataX 阿里顶级数据交换工具 一、架 阅读全文
posted @ 2019-07-01 15:46 cac2020 阅读(773) 评论(0) 推荐(0) 编辑
摘要:环境 apache-flume-1.6.0 一、多agent连接 1、node101配置 option2 2、node102配置 option1 3、启动顺序先启动node102-flume,后启动node101-flume,看一下flume启动顺序就知道,要先创建sink,然后创建channel, 阅读全文
posted @ 2019-06-28 16:50 cac2020 阅读(626) 评论(1) 推荐(0) 编辑
摘要:环境 apache-flume-1.6.0 Flume是分布式日志收集系统。可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase;同类工具:Facebook Scribe,Apache chukwa,淘宝Time Tunnel 应用场景图 一、Flume核心组件1、Event: 一个 阅读全文
posted @ 2019-06-28 09:43 cac2020 阅读(637) 评论(0) 推荐(0) 编辑
摘要:环境 tengine-2.1.0 Tengine是由淘宝网发起的Web服务器项目。它在Nginx的基础上,针对大访问量网站的需求,添加了很多高级功能和特性。Tengine的性能和稳定性已经在大型的网站如淘宝网,天猫商城等得到了很好的检验。它的最终目标是打造一个高效、稳定、安全、易用的Web平台。 一 阅读全文
posted @ 2019-06-27 16:23 cac2020 阅读(330) 评论(0) 推荐(0) 编辑
摘要:环境 js java 一、埋点分析,是网站分析的一种常用的数据采集方法。数据埋点是一种良好的私有化部署数据采集方式。 二、页面数据收集事件的分析和设计1、针对不同分析模块,需要不同的数据,来设计页面事件:(1)用户基本信息就是用户的浏览行为信息分析,只需要pageview事件就可以了;(2)浏览器信 阅读全文
posted @ 2019-06-01 15:15 cac2020 阅读(870) 评论(0) 推荐(0) 编辑
摘要:通过收集电商网站用户购物操作日志记录,依据这些日志,分用户基本信息分析模块、浏览器信息分析模块、地域信息分析模块、用户浏览深度分析模块、外链数据分析模块、订单分析模块以及事件分析模块七个维度来进行分析,然后通过报表图表等形式展示出来。 1、概念:(1)用户/访客:表示同一个浏览器代表的用户。唯一标示 阅读全文
posted @ 2019-05-31 16:57 cac2020 阅读(759) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 elasticsearch-2.2.0 第一步:获取数据主流搜索引擎,会使用爬虫,来获取网站的html数据,常用的工具有nutch,Python(主流),wge 阅读全文
posted @ 2019-03-12 18:21 cac2020 阅读(892) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 elasticsearch-2.2.0 一、Rest简介Representational State Transfer一种软件架构风格,而不是标准,只是提供了一 阅读全文
posted @ 2019-03-12 11:13 cac2020 阅读(2547) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 一、概念ElasticSearch: 基于Lucene全文搜索框架; 实时的高扩展的分布式的开源搜索引擎; Java开发,基于RESTful web接口; Lu 阅读全文
posted @ 2019-03-11 17:12 cac2020 阅读(293) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 同类产品:Azkaban 一、简介Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流 阅读全文
posted @ 2019-03-11 13:01 cac2020 阅读(14709) 评论(0) 推荐(1) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一、Impala shell 1、进入impala:impala-shell; 2、显示数据库,数据表show databases;show tab 阅读全文
posted @ 2019-03-08 14:47 cac2020 阅读(5445) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一、ImpalaImpala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hi 阅读全文
posted @ 2019-03-08 14:22 cac2020 阅读(1189) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 zookeeper-3.4.11 Hue是一个开源的Apache Hadoop UI系统,基于Python Web框架Django实现,支持任何版本Hadoop 阅读全文
posted @ 2019-03-08 09:49 cac2020 阅读(722) 评论(0) 推荐(0) 编辑
摘要:登录CM 1、版本选择 免费版本的CM5已经去除50个节点数量的限制。 各个Agent节点正常启动后,可以在当前管理的主机列表中看到对应的节点。 选择要安装的节点,点继续。 接下来,出现以下包名,说明本地Parcel包配置无误,直接点继续就可以了。 点击,继续,如果配置本地Parcel包无误,那么下 阅读全文
posted @ 2019-03-07 16:35 cac2020 阅读(685) 评论(0) 推荐(0) 编辑
摘要:环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 zookeeper-3.4.11 搭建方案: 一、系统环境准备:1、网络配置所有节点:vi /etc/sysconfig/networkvi /etc/host 阅读全文
posted @ 2019-03-07 16:20 cac2020 阅读(495) 评论(0) 推荐(0) 编辑