2018 年 8月随笔档案 - Frankdeng

Phoenix的安装使用与SQL查询HBase

摘要：一. Phoenix的简介 1. 什么是phoenix 现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Phoenix。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术，具有低延迟、事务性、可使用sql、提阅读全文

posted @ 2018-08-26 10:16 Frankdeng 阅读(15436) 评论(0) 推荐(1) 编辑

HBase应用之微博案例

摘要：一. 需求分析 1) 微博内容的浏览，数据库表设计 2) 用户社交体现：关注用户，取关用户 3) 拉取关注的人的微博内容二. 代码实现代码设计总览： 1.创建命名空间以及表名的定义 //获取配置 conf private Configuration conf = HBaseConfigurati 阅读全文

posted @ 2018-08-25 22:37 Frankdeng 阅读(3057) 评论(0) 推荐(2) 编辑

HBase（十）HBase性能调优总结

摘要：一. HBase的通用优化 1 高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期，均衡 RegionServer 的负载，如果 Hmaster 挂掉了，那么整个 HBase 集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以 HBase 支持对阅读全文

posted @ 2018-08-25 11:22 Frankdeng 阅读(16078) 评论(0) 推荐(1) 编辑

HBase（九）HBase表以及Rowkey的设计

摘要：一命名空间 1 命名空间的结构 1) Table：表，所有的表都是命名空间的成员，即表必属于某个命名空间，如果没有指定，则在 default 默认的命名空间中。 2) RegionServer group：一个命名空间包含了默认的 RegionServer Group。 3) Permissio 阅读全文

posted @ 2018-08-19 22:17 Frankdeng 阅读(25600) 评论(1) 推荐(0) 编辑

HBase（八）HBase的协处理器

摘要：一、协处理器简介 1、起源 Hbase 作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(<0.92)Hbase 中，统计数据表的总行数，需要使用 Counter 方法，执行一次 MapReduce Job 才能得到。虽然 HB 阅读全文

posted @ 2018-08-18 22:15 Frankdeng 阅读(12849) 评论(0) 推荐(0) 编辑

HBase（七）Hbase过滤器

摘要：一、过滤器（Filter）基础API中的查询操作在面对大量数据的时候是非常苍白的，这里Hbase提供了高级的查询方法：Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤，基于Hbase本身提供的三维有序（主键有序、列有序、版本有序），这些Filter可以高效的完成查询过滤的阅读全文

posted @ 2018-08-17 22:12 Frankdeng 阅读(2823) 评论(2) 推荐(1) 编辑

HBase（六）HBase整合Hive，数据的备份与MR操作HBase

摘要：一.数据的备份与恢复 1. 备份停止 HBase 服务后，使用 distcp 命令运行 MapReduce 任务进行备份，将数据备份到另一个地方，可以是同一个集群，也可以是专用的备份集群。即，把数据转移到当前集群的其他目录下（也可以不在同一个集群中）: 1. 备份停止 HBase 服务后，使用阅读全文

posted @ 2018-08-16 22:02 Frankdeng 阅读(3146) 评论(0) 推荐(3) 编辑

HBase（五）HBase的API操作

摘要：一、项目环境搭建新建 Maven Project，新建项目后在 pom.xml 中添加依赖：二、HBase API操作表和数据注意，这部分的学习内容，我们先学习使用老版本的 API，接着再写出新版本的 API 调用方式。因为在企业中，有些时候我们需要一些过时的 API 来提供更好的兼容性。 1 阅读全文

posted @ 2018-08-15 18:52 Frankdeng 阅读(5532) 评论(0) 推荐(1) 编辑

HBase（四）HBase集群Shell操作

摘要：一、进入HBase命令行在你安装的随意台服务器节点上，执行命令：hbase shell，会进入到你的 hbase shell 客户端说明，先看一下提示。其实是不是有一句很重要的话：讲述了怎么获得帮助，怎么退出客户端 help 获取帮助 help：获取所有命令提示 help "dml" ：获取阅读全文

posted @ 2018-08-14 23:53 Frankdeng 阅读(3897) 评论(0) 推荐(1) 编辑

HBase（三）HBase架构与工作原理

摘要：一、系统架构注意：应该是每一个 RegionServer 就只有一个 HLog，而不是一个 Region 有一个 HLog。从HBase的架构图上可以看出，HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemSto 阅读全文

posted @ 2018-08-13 23:45 Frankdeng 阅读(16088) 评论(2) 推荐(5) 编辑

HBase（二）CentOS7.5搭建HBase1.2.6HA集群

摘要：一、安装前提 1、HBase 依赖于 HDFS 做底层的数据存储 2、HBase 依赖于 MapReduce 做数据计算 3、HBase 依赖于 ZooKeeper 做服务协调 4、HBase源码是java编写的，安装需要依赖JDK 1、版本选择打开官方的版本说明http://hbase.apac 阅读全文

posted @ 2018-08-12 21:49 Frankdeng 阅读(5123) 评论(1) 推荐(1) 编辑

数据仓库理论（一）

摘要：一数据仓库的概念 1 什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。阅读全文

posted @ 2018-08-12 19:52 Frankdeng 阅读(30063) 评论(2) 推荐(2) 编辑

Hive SQL综合案例

摘要：一 Hive SQL练习之影评案例案例说明现有如此三份数据：1、users.dat 数据格式为： 2::M::56::16::70072，共有6040条数据对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipco 阅读全文

posted @ 2018-08-12 18:54 Frankdeng 阅读(10938) 评论(1) 推荐(4) 编辑

Hive（十）Hive性能调优总结

摘要：一、Fetch抓取 1、理论分析 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default 阅读全文

posted @ 2018-08-12 18:32 Frankdeng 阅读(18827) 评论(2) 推荐(7) 编辑

HBase（一）HBase入门简介

摘要：一 HBase 的起源 HBase 的原型是 Google 的 BigTable 论文，受到了该论文思想的启发，目前作为 Hadoop 的子项目来开发维护，用于支持结构化的数据存储。 Apache HBase™是Hadoop数据库，这是一个分布式，可扩展的大数据存储。当您需要随机，实时读取/写入您阅读全文

posted @ 2018-08-11 22:54 Frankdeng 阅读(2795) 评论(0) 推荐(2) 编辑

kafka可视化客户端工具（Kafka Tool）的基本使用

摘要：1、下载下载地址：http://www.kafkatool.com/download.html 2、安装根据不同的系统下载对应的版本，我这里kafka版本是1.1.0，下载kafka tool 2.0.1。双击下载完成的exe图标，傻瓜式完成安装。 3、简单使用 kafka环境搭建请参考：Ce 阅读全文

posted @ 2018-08-10 10:50 Frankdeng 阅读(194652) 评论(16) 推荐(5) 编辑

Kafka（五）Kafka的API操作和拦截器

摘要：一 kafka的API操作 1.1 环境准备 1）在eclipse中创建一个java工程 2）在工程的根目录创建一个lib文件夹 3）解压kafka安装包，将安装包libs目录下的jar包拷贝到工程的lib目录下，并build path。 4）启动zk和kafka集群，在kafka集群中打开一个消费阅读全文

posted @ 2018-08-05 18:58 Frankdeng 阅读(7315) 评论(0) 推荐(1) 编辑

Kafka（四）Kafka在zookeeper中的存储

摘要：一 Kafka在zookeeper中存储结构图二分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 2.2 partition状态信息 /brokers/topics/[topic]/partitions/[ 阅读全文

posted @ 2018-08-05 14:22 Frankdeng 阅读(9848) 评论(0) 推荐(1) 编辑

Kafka（三）Kafka的高可用与生产消费过程解析

摘要：一 Kafka HA设计解析 1.1 为何需要Replication 在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可被消费，这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Pro 阅读全文

posted @ 2018-08-02 23:52 Frankdeng 阅读(9885) 评论(3) 推荐(6) 编辑

Kafka（二）CentOS7.5搭建Kafka2.11-1.1.0集群与简单测试

摘要：一、下载下载地址： http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二、kafka安装集群规划 Zookeeper集群安装参考： CentOS7.5搭建Zookeeper3.4.12 阅读全文

posted @ 2018-08-01 20:59 Frankdeng 阅读(17259) 评论(2) 推荐(2) 编辑

Kafka（一）Kafka的简介与架构

摘要：一、简介 1.1 概述 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级阅读全文

posted @ 2018-08-01 20:03 Frankdeng 阅读(43212) 评论(1) 推荐(18) 编辑

Frankdeng

08 2018 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论