摘要: 配置flume集群参考https://www.cnblogs.com/jifengblog/p/9277793.html load-balance负载均衡 介绍 负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。 Load balancing Sink Processor 能够 阅读全文
posted @ 2018-07-07 17:59 ji丶 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 采集目录到HDFS 使用flume采集目录需要启动hdfs集群 spooldir source 监控指定目录 如果目录下有新文件产生 就采集走 注意!!! 此组件监控的目录不能有同名的文件产生 一旦有重名文件:报错 罢工 注意!!! 此组件监控的目录不能有同名的文件产生 一旦有重名文件:报错 罢工 阅读全文
posted @ 2018-07-07 17:25 ji丶 阅读(4680) 评论(0) 推荐(0) 编辑
摘要: 概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(chann 阅读全文
posted @ 2018-07-07 17:09 ji丶 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 概述 序列化(Serialization)是指把结构化对象转化为字节流。 反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。 Jav 阅读全文
posted @ 2018-07-07 15:35 ji丶 阅读(1680) 评论(0) 推荐(0) 编辑
摘要: MapReduce 的输入输出 MapReduce 框架运转在<key,value> 键值对上,也就是说,框架把作业的输入看成是一组<key,value>键值对,同样也产生一组<key,value>键值对作为作业的输出,这两组键值对可能是不同的。 一个 MapReduce 作业的输入和输出类型如下图 阅读全文
posted @ 2018-07-07 15:20 ji丶 阅读(1177) 评论(0) 推荐(0) 编辑
摘要: 一个完整的 mapreduce 程序在分布式运行时有三类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、MapTask:负责 map 阶段的整个数据处理流程 3、ReduceTask:负责 reduce 阶段的整个数据处理流程 设计构思 MapReduce 是一个分布式 阅读全文
posted @ 2018-07-07 14:44 ji丶 阅读(2147) 评论(0) 推荐(0) 编辑
摘要: 1 . NameNode 概述 a、 NameNode 是 HDFS 的核心。 b、 NameNode 也称为 Master。 c、 NameNode 仅存储 HDFS 的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。 d、 NameNode 不存储实际数据或数据集。数据本身实际存储在 阅读全文
posted @ 2018-07-07 13:28 ji丶 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 上线的网站每天都会产生日志数据。假如有这样的需求:要求在凌晨 24 点开始操作前一天产生的日志文件,准实时上传至 HDFS 集群上。 该如何实现?实现后能否实现周期性上传需求?如何定时? Linux crontab: : crontab -e 0 0 * * * /shell/ uploadFile 阅读全文
posted @ 2018-07-07 13:13 ji丶 阅读(1416) 评论(0) 推荐(0) 编辑
摘要: 配置windows平台的Hadoop环境 在 windows 上做 HDFS 客户端应用开发,需要设置 Hadoop 环境,而且要求是windows 平台编译的 Hadoop,不然会报以下的错误: 参考:https://blog.csdn.net/huyishero/article/details/ 阅读全文
posted @ 2018-07-07 12:58 ji丶 阅读(261) 评论(0) 推荐(0) 编辑
摘要: Shell命令选项 Shell常用命令 - - ls 使用方法:hadoop fs -ls [-h] [-R] <args> 功能:显示文件、目录信息。 示例:hadoop fs -ls /user/hadoop/file1 - - mkdir 使用方法:hadoop fs -mkdir [-p] 阅读全文
posted @ 2018-07-04 22:32 ji丶 阅读(325) 评论(0) 推荐(1) 编辑