随笔分类 -  (遗弃)Hadoop

摘要:简介: Apache Kafka 是一个 Scala 语言编写的可扩展、分布式、高性能的容错消息发布、订阅系统。 官网地址:http://kafka.apache.org 中文教程:http://www.orchome.com/kafka/index 下载地址:http://mirror.bit.e 阅读全文
posted @ 2017-11-14 12:59 WangXiaoQiang 阅读(2335) 评论(0) 推荐(0) 编辑
摘要:简介: Apache hive 存储方式跟压缩格式! 1、Text File # 创建一张 Text File 存储格式、不压缩的外部表 # 原始文件 9.8G,加载到该表中需要花费 1015.974 秒 ( 这里可以优化,不使用 load 指令,直接 put 文件到数据表目录 ) # 总共 271 阅读全文
posted @ 2017-11-10 17:09 WangXiaoQiang 阅读(1317) 评论(0) 推荐(0) 编辑
摘要:简介: Apache HBase 是一个分布式的、面向列的开源 NoSQL 数据库。具有高性能、高可靠性、可伸缩、面向列、分布式存储的特性。 HBase 的数据文件最终落地在 HDFS 之上,所以在 Hadoop 集群中,DataNode 节点都需安装 HBase Worker Node。 另外,H 阅读全文
posted @ 2017-06-13 19:27 WangXiaoQiang 阅读(442) 评论(0) 推荐(0) 编辑
摘要:简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化、非结构化数据转换的工具。 一、安装 MySQL、导入测试数据 1、文档链接:http://www.cnblogs.com/wangxiaoqiangs/p/5336048.html 2、导入测试数据 阅读全文
posted @ 2017-06-02 16:16 WangXiaoQiang 阅读(2126) 评论(0) 推荐(0) 编辑
摘要:简介: YARN 多租户资源池配置 当多用户同在一个 hadoop 集群作业时,就需要对资源进行有效的限制,例如区分测试、正式资源等 一、查看默认资源池 # 访问:http://192.168.1.25:8088/cluster/scheduler 即 master.hadoop # 可以看到默认的 阅读全文
posted @ 2017-05-23 15:39 WangXiaoQiang 阅读(2241) 评论(0) 推荐(0) 编辑
摘要:简介: HDFS High Availability Using the Quorum Journal Manager Hadoop 2.x 中,HDFS 组件有三个角色:NameNode、DataNode、Secondary NameNode 1、NameNode 保存着 HDFS 的元数据信息, 阅读全文
posted @ 2017-05-22 14:31 WangXiaoQiang 阅读(620) 评论(0) 推荐(0) 编辑
摘要:简介: Apache ZooKeeper 是一个分布式应用的高性能协调服务,功能包括:配置维护、统一命名、状态同步、集群管理、仲裁选举等。 下载地址:http://apache.fayea.com/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz 阅读全文
posted @ 2017-05-04 19:12 WangXiaoQiang 阅读(759) 评论(0) 推荐(0) 编辑
摘要:简介: 官网 http://flume.apache.org 文档 https://flume.apache.org/FlumeUserGuide.html hadoop 生态系统中,flume 的职责是收集数据,一般用作收集各种日志数据。 Source -> Channel -> Sink 这是一 阅读全文
posted @ 2017-04-25 18:27 WangXiaoQiang 阅读(599) 评论(0) 推荐(0) 编辑
摘要:简介: Apache hive 是基于 Hadoop 的一个开源的数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,将 SQL 语句转换为 MapReduce 任务执行。 Apache hive 数据库仓库工具管理着两类数据:MetaData ( 这里我们存储在远 阅读全文
posted @ 2017-04-14 16:52 WangXiaoQiang 阅读(518) 评论(0) 推荐(0) 编辑
摘要:简介: Apache Hadoop 集群安装文档 软件:jdk-8u111-linux-x64.rpm、hadoop-2.8.0.tar.gz http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.t 阅读全文
posted @ 2017-04-12 18:21 WangXiaoQiang 阅读(828) 评论(0) 推荐(0) 编辑
摘要:简介: Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具,通过该管理工具可以方便的部署、配置、监控集群。 Cloudera 公司自己发布的 Hadoop 版本叫 CDH,全称 Cloudera Distribution Hadoop。 环境介绍: 192 阅读全文
posted @ 2017-03-27 12:01 WangXiaoQiang 阅读(3317) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示