随笔分类 - (遗弃)Hadoop
摘要:简介: Apache Kafka 是一个 Scala 语言编写的可扩展、分布式、高性能的容错消息发布、订阅系统。 官网地址:http://kafka.apache.org 中文教程:http://www.orchome.com/kafka/index 下载地址:http://mirror.bit.e
阅读全文
摘要:简介: Apache hive 存储方式跟压缩格式! 1、Text File # 创建一张 Text File 存储格式、不压缩的外部表 # 原始文件 9.8G,加载到该表中需要花费 1015.974 秒 ( 这里可以优化,不使用 load 指令,直接 put 文件到数据表目录 ) # 总共 271
阅读全文
摘要:简介: Apache HBase 是一个分布式的、面向列的开源 NoSQL 数据库。具有高性能、高可靠性、可伸缩、面向列、分布式存储的特性。 HBase 的数据文件最终落地在 HDFS 之上,所以在 Hadoop 集群中,DataNode 节点都需安装 HBase Worker Node。 另外,H
阅读全文
摘要:简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化、非结构化数据转换的工具。 一、安装 MySQL、导入测试数据 1、文档链接:http://www.cnblogs.com/wangxiaoqiangs/p/5336048.html 2、导入测试数据
阅读全文
摘要:简介: YARN 多租户资源池配置 当多用户同在一个 hadoop 集群作业时,就需要对资源进行有效的限制,例如区分测试、正式资源等 一、查看默认资源池 # 访问:http://192.168.1.25:8088/cluster/scheduler 即 master.hadoop # 可以看到默认的
阅读全文
摘要:简介: HDFS High Availability Using the Quorum Journal Manager Hadoop 2.x 中,HDFS 组件有三个角色:NameNode、DataNode、Secondary NameNode 1、NameNode 保存着 HDFS 的元数据信息,
阅读全文
摘要:简介: Apache ZooKeeper 是一个分布式应用的高性能协调服务,功能包括:配置维护、统一命名、状态同步、集群管理、仲裁选举等。 下载地址:http://apache.fayea.com/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz
阅读全文
摘要:简介: 官网 http://flume.apache.org 文档 https://flume.apache.org/FlumeUserGuide.html hadoop 生态系统中,flume 的职责是收集数据,一般用作收集各种日志数据。 Source -> Channel -> Sink 这是一
阅读全文
摘要:简介: Apache hive 是基于 Hadoop 的一个开源的数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,将 SQL 语句转换为 MapReduce 任务执行。 Apache hive 数据库仓库工具管理着两类数据:MetaData ( 这里我们存储在远
阅读全文
摘要:简介: Apache Hadoop 集群安装文档 软件:jdk-8u111-linux-x64.rpm、hadoop-2.8.0.tar.gz http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.t
阅读全文
摘要:简介: Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具,通过该管理工具可以方便的部署、配置、监控集群。 Cloudera 公司自己发布的 Hadoop 版本叫 CDH,全称 Cloudera Distribution Hadoop。 环境介绍: 192
阅读全文