摘要: 1. Flume介绍 1.1 Flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 1.2 系统功能 1 阅读全文
posted @ 2020-02-17 15:30 岚樱 阅读(313) 评论(0) 推荐(0) 编辑
摘要: Azkaban安装部署 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.g Azkaban: 用页面 的形式监控任务执行的状态 时间节点。 MySQL 目前az 阅读全文
posted @ 2020-02-17 15:28 岚樱 阅读(260) 评论(0) 推荐(0) 编辑
摘要: Spark相关问题 Spark比MR快的原因? 1) Spark的计算结果可以放入内存,支持基于内存的迭代,MR不支持。 2) Spark有DAG有向无环图,可以实现pipeline的计算模式。 3) 资源调度模式:Spark粗粒度资源调度,MR是细粒度资源调度。 资源复用:Spark中的task可 阅读全文
posted @ 2020-01-03 08:08 岚樱 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 一、 hive流程 hive与hdfs 和 yarn、mr 交互 动态 First : hive从 hdfs中拉取数据 ( .txt文件) Second : hive 与 SQL 交互。。。即 获取 模板信息 ※ : 模板信息 三个映射 A 表 与 文件 B 字段 与 文件内容 C 分割符 deli 阅读全文
posted @ 2020-01-02 20:41 岚樱 阅读(300) 评论(0) 推荐(0) 编辑