Fork me on GitHub
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 31 下一页
摘要: Oozie的功能模块 workflow 由多个工作单元组成 工作单元之间有依赖关系 MR1->MR2->MR3->result hadoop jar:提交1个MR oozie:监控当前工作单元状态,完成之后自动提交下一个工作单元scheduler crontab:是linux简单调度脚本 定时调度工 阅读全文
posted @ 2019-03-03 15:15 kris12 阅读(1035) 评论(0) 推荐(0) 编辑
摘要: 1.kafka Manager 1.上传压缩包kafka-manager-1.3.3.15.zip到集群 2.解压到/opt/module 3.修改配置文件conf/application.conf kafka-manager.zkhosts="kafka-manager-zookeeper:218 阅读全文
posted @ 2019-03-03 00:43 kris12 阅读(1625) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 数据层:结构化数据+非结构化数据+日志信息(大部分为结构化) 传输层: flume(采集日志 >存储性框架(如HDFS、kafka、Hive、Hbase))+ sqoop(关系型数据性数据库里数据 >hadoop)+ kafka(将实时日志在线 >sparkstream在数据进行实时处理 阅读全文
posted @ 2019-02-27 22:54 kris12 阅读(2206) 评论(0) 推荐(1) 编辑
摘要: HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(931) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.1 优点 1) 基于内存运算,不需要把中间结果写入磁盘,省掉了 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(1487) 评论(0) 推荐(0) 编辑
摘要: 1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提 高集群管理的效率。 功能 1) 管理:对集群进行管理 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(3634) 评论(0) 推荐(1) 编辑
摘要: 1. 自定义Source说明 实时监控MySQL,从MySQL中获取数据传输到HDFS或者其他存储框架,所以此时需要我们自己实现MySQLSource。 2. 自定义MySQLSource步骤 根据官方说明自定义mysqlsource需要继承AbstractSource类并实现Configurabl 阅读全文
posted @ 2019-02-24 14:32 kris12 阅读(1124) 评论(0) 推荐(0) 编辑
摘要: ETL清洗数据 导Jar包 <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>RELEASE</version> </dependency> <dependency 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(1003) 评论(0) 推荐(0) 编辑
摘要: 概述 http://flume.apache.org/FlumeUserGuide.html http://flume.apache.org/ http://archive.apache.org/dist/flume/ Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(884) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop压缩配置 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支 阅读全文
posted @ 2019-02-20 00:40 kris12 阅读(674) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 31 下一页
levels of contents