ji丶

2018年7月7日

摘要：配置flume集群参考https://www.cnblogs.com/jifengblog/p/9277793.html load-balance负载均衡介绍负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。 Load balancing Sink Processor 能够阅读全文

posted @ 2018-07-07 17:59 ji丶阅读(420) 评论(0) 推荐(0) 编辑

Flume采集目录及文件到HDFS案例

摘要：采集目录到HDFS 使用flume采集目录需要启动hdfs集群 spooldir source 监控指定目录如果目录下有新文件产生就采集走注意！！！此组件监控的目录不能有同名的文件产生一旦有重名文件：报错罢工注意！！！此组件监控的目录不能有同名的文件产生一旦有重名文件：报错罢工阅读全文

posted @ 2018-07-07 17:25 ji丶阅读(4680) 评论(0) 推荐(0) 编辑

Apache Flume简介及安装部署

摘要：概述 Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(chann 阅读全文

posted @ 2018-07-07 17:09 ji丶阅读(445) 评论(0) 推荐(0) 编辑

MapReduce序列化及分区的java代码示例

摘要：概述序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。 Jav 阅读全文

posted @ 2018-07-07 15:35 ji丶阅读(1680) 评论(0) 推荐(0) 编辑

MapReduce输入输出的处理流程及combiner

摘要： MapReduce 的输入输出 MapReduce 框架运转在<key,value> 键值对上，也就是说，框架把作业的输入看成是一组<key,value>键值对，同样也产生一组<key,value>键值对作为作业的输出，这两组键值对可能是不同的。一个 MapReduce 作业的输入和输出类型如下图阅读全文

posted @ 2018-07-07 15:20 ji丶阅读(1177) 评论(0) 推荐(0) 编辑

MapReduce框架结构及代码示例

摘要：一个完整的 mapreduce 程序在分布式运行时有三类实例进程： 1、MRAppMaster：负责整个程序的过程调度及状态协调 2、MapTask：负责 map 阶段的整个数据处理流程 3、ReduceTask：负责 reduce 阶段的整个数据处理流程设计构思 MapReduce 是一个分布式阅读全文

posted @ 2018-07-07 14:44 ji丶阅读(2147) 评论(0) 推荐(0) 编辑

HDFS原理

摘要： 1 ． NameNode 概述 a、 NameNode 是 HDFS 的核心。 b、 NameNode 也称为 Master。 c、 NameNode 仅存储 HDFS 的元数据：文件系统中所有文件的目录树，并跟踪整个集群中的文件。 d、 NameNode 不存储实际数据或数据集。数据本身实际存储在阅读全文

posted @ 2018-07-07 13:28 ji丶阅读(363) 评论(0) 推荐(0) 编辑

shell定时采集数据到HDFS

摘要：上线的网站每天都会产生日志数据。假如有这样的需求：要求在凌晨 24 点开始操作前一天产生的日志文件，准实时上传至 HDFS 集群上。该如何实现？实现后能否实现周期性上传需求？如何定时？ Linux crontab: : crontab -e 0 0 * * * /shell/ uploadFile 阅读全文

posted @ 2018-07-07 13:13 ji丶阅读(1416) 评论(0) 推荐(0) 编辑

HDFS的JavaAPI

摘要：配置windows平台的Hadoop环境在 windows 上做 HDFS 客户端应用开发，需要设置 Hadoop 环境,而且要求是windows 平台编译的 Hadoop,不然会报以下的错误: 参考：https://blog.csdn.net/huyishero/article/details/ 阅读全文

posted @ 2018-07-07 12:58 ji丶阅读(261) 评论(0) 推荐(0) 编辑

2018年7月4日

HDFS基本操作

摘要： Shell命令选项 Shell常用命令 - - ls 使用方法：hadoop fs -ls [-h] [-R] <args> 功能：显示文件、目录信息。示例：hadoop fs -ls /user/hadoop/file1 - - mkdir 使用方法：hadoop fs -mkdir [-p] 阅读全文

posted @ 2018-07-04 22:32 ji丶阅读(325) 评论(0) 推荐(1) 编辑

内容选自各渠道资料，谢谢！

公告