随笔分类 - hadoop
摘要:hadoop 里支持许多压缩算法。压缩的好处主要有两点:1. 减少了文件占用的存储空间,原来上 T 的文件可能压缩完以后只需要两三百 G 的空间即可;2. 文件的体积小了以后,数据传输的速度自然就快了。在现在的大数据环境下,这两点显得更加重要。所以现在 hdfs 文件系统上存的文件,如果数据量大到一
阅读全文
摘要:下载,解压,前面的例子太多了,此处略。 kafka官网: http://kafka.apache.org/ 具体说明可以参考此官网地址: http://kafka.apache.org/documentation/ 一、 安装和解压 略. 二、配置和启动及测试、分析 2.1 单实例 [root@ma
阅读全文
摘要:概览 1- flume简介 2- 系统要求 3- 安装和配置 4- 启动和测试 一、flume的简介 官网地址: http://flume.apache.org/ 1- 概述 Flume是一种分布式,可靠且可用的服务,用于高效地收集,汇总和移动大量日志数据。它具有基于流式数据流的简单而灵活的架构。它
阅读全文
摘要:基本命令: [root@master shell]# cd ${HBASE_HOME}[root@master hbase]# pwd/opt/hbase [root@master hbase]# ./bin/hbase shell hbase(main):001:0> status1 active
阅读全文
摘要:hive的官网地址为: https://hive.apache.org/index.html 入门指南: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 目录: https://cwiki.apache.org/conf
阅读全文
摘要:hadoop的安装请看http://www.cnblogs.com/zhangmin1987/p/8808711.html 一、Hbase简介 Apache HBase™是Hadoop数据库,这是一个分布式,可扩展的大数据存储。 当您需要随机,实时读取/写入您的大数据时使用Apache HBase™
阅读全文
摘要:目录 1- zookeeper的作用 2- haddop集群上的zookeeper的安装和配置 3- 集群安装 4- 启动 5- 问题汇总 一、zookeeper的作用 简单点说就是分布式服务器之间在交互上的协调。 ZooKeeper作为分布式系统中重要的组件,目前在业界使用越来越广泛,ZooKee
阅读全文
摘要:hadoop3.1的结构请查看http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 一、环境准备 1- 三台linux机器(本例为虚拟机) 机器1 192.168.234.129 m
阅读全文