2018 年 7月 13 日随笔档案 - QueryMarsBo

2018年7月13日

摘要：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 l.采集数据源，即source——监控文件目录 : spooldir 2.下沉目标，即sink——HDFS文件系统 : hdfs sink 3.source和sin 阅读全文

posted @ 2018-07-13 16:29 QueryMarsBo 阅读(223) 评论(0) 推荐(0) 编辑

13_Hive优化

摘要： Hive优化要点：优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有阅读全文

posted @ 2018-07-13 16:04 QueryMarsBo 阅读(200) 评论(0) 推荐(0) 编辑

02_ Flume的安装部署及其简单使用

摘要：一.Flume的安装部署: Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境安装包的下载地址为：http://www-us.apache.org/dist/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 1. 上传安装包到数据源所在节点阅读全文

posted @ 2018-07-13 15:25 QueryMarsBo 阅读(268) 评论(0) 推荐(0) 编辑

01_日志采集框架Flume简介及其运行机制

摘要：离线辅助系统概览： 1.概述：在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 1.1 Flume介绍： Flume是一阅读全文

posted @ 2018-07-13 14:20 QueryMarsBo 阅读(524) 评论(0) 推荐(0) 编辑

12_Hive实战案例_累计报表_级联求和

摘要：注：Hive面试题：累积报表数据文件：有如下访客访问次数统计表 t_access_times 需要输出报表：t_access_times_accumulate 实现步骤：创建表，并将数据加载到表中： 1、第一步，先求每个用户的月总金额 2、第二步，将月总金额表自己连接自己 3、第三步，从上一阅读全文

posted @ 2018-07-13 10:07 QueryMarsBo 阅读(512) 评论(0) 推荐(0) 编辑

QueryMarsBo

公告