2019年1月7日

HBase(3)-安装与Shell操作

摘要: 一. 安装 1. 启动Zookeeper集群 2. 启动Hadoop集群 3. 上传并解压HBase 4. 修改配置文件 5. 分发HBase 6. 启动服务 7. 查看HBase页面 http://hadoop100:16010 二. Shell操作 cd到hbase的目录下 1. 基本操作 进入 阅读全文

posted @ 2019-01-07 18:57 nt杨 阅读(318) 评论(0) 推荐(0) 编辑

Hbase(2)-HBase简介

摘要: 一. HBase的特点 1. 海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。 2. 列式存储 这里的列式存储其实说的是列族存储 阅读全文

posted @ 2019-01-07 18:33 nt杨 阅读(219) 评论(0) 推荐(0) 编辑

Hbase(1)-MySQL海量数据存储的启发

摘要: 宽表拆分 有一张user表,记录了用户的信息,,如果表中的列有很多,就称之为宽表,为了提升效率,会进行垂直拆分 拆分后 将用户的信息分为基本信息和其他信息,页面一开打就需要展示的信息为基本信息,其他信息例如订单,收货地址等等需要用户点击后才需要到的 高表拆分 表中如果有很多行,就称之为高表,为了提高 阅读全文

posted @ 2019-01-07 18:15 nt杨 阅读(334) 评论(0) 推荐(0) 编辑

2019年1月4日

Kafka(1)-概述

摘要: 一. 内部原理 1. 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。 2. 发布/订阅 阅读全文

posted @ 2019-01-04 18:30 nt杨 阅读(215) 评论(0) 推荐(0) 编辑

Flume(5)-Ganglia监控

摘要: 一. 安装Ganglia 1. 安装httpd服务与php 2. 安装其他依赖 3. 安装ganglia Ganglia由gmond、gmetad和gweb三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gm 阅读全文

posted @ 2019-01-04 18:14 nt杨 阅读(367) 评论(0) 推荐(0) 编辑

2019年1月3日

Flume(4)-监控模型

摘要: 一. 监控端口数据 首先启动Flume任务,监控本机44444端口,服务端; 然后通过netcat工具向本机44444端口发送消息,客户端; 最后Flume将监听的数据实时显示在控制台。 1. 安装netcat 功能描述:netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表 阅读全文

posted @ 2019-01-03 19:35 nt杨 阅读(885) 评论(0) 推荐(0) 编辑

2019年1月2日

Flume(3)-安装部署

摘要: 一. 下载 Flume官网地址 http://flume.apache.org/ 文档查看地址 http://flume.apache.org/FlumeUserGuide.html 下载地址 http://archive.apache.org/dist/flume/ 二. 安装 将apache-f 阅读全文

posted @ 2019-01-02 18:32 nt杨 阅读(151) 评论(0) 推荐(0) 编辑

Flume(2)-拓扑结构与Agent内部原理

摘要: 一. 拓扑结构 1. 串行模式 这种模式是将多个flume给顺序连接起来了,从最初的source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的flume数量, flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点flume宕机,会影响整个传输系统。 2. 单Source多C 阅读全文

posted @ 2019-01-02 18:19 nt杨 阅读(583) 评论(1) 推荐(0) 编辑

Flume(1)-概述与组成架构

摘要: 一. 定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 二. 优点 1. 可以和任意集中式存储进程集成。 2. 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。 3. flum 阅读全文

posted @ 2019-01-02 18:08 nt杨 阅读(1891) 评论(0) 推荐(0) 编辑

2018年12月23日

Hive(10)-文件存储格式

摘要: Hive支持的存储数据的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 一. 列式存储和行式存储 左边为逻辑表,右边第一个为行式存储,第二个为列式存储 1. 行式存储的特点 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 阅读全文

posted @ 2018-12-23 21:26 nt杨 阅读(250) 评论(0) 推荐(0) 编辑

导航