返回顶部 Fork me on GitHub

08 2018 档案

摘要:一. Phoenix的简介 1. 什么是phoenix 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Phoenix。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提 阅读全文
posted @ 2018-08-26 10:16 Frankdeng 阅读(15436) 评论(0) 推荐(1) 编辑
摘要:一. 需求分析 1) 微博内容的浏览,数据库表设计 2) 用户社交体现:关注用户,取关用户 3) 拉取关注的人的微博内容 二. 代码实现 代码设计总览: 1.创建命名空间以及表名的定义 //获取配置 conf private Configuration conf = HBaseConfigurati 阅读全文
posted @ 2018-08-25 22:37 Frankdeng 阅读(3057) 评论(0) 推荐(2) 编辑
摘要:一. HBase的通用优化 1 高可用 在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对  阅读全文
posted @ 2018-08-25 11:22 Frankdeng 阅读(16078) 评论(0) 推荐(1) 编辑
摘要:一 命名空间 1 命名空间的结构 1) Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定, 则在 default 默认的命名空间中。 2) RegionServer group:一个命名空间包含了默认的 RegionServer Group。 3) Permissio 阅读全文
posted @ 2018-08-19 22:17 Frankdeng 阅读(25600) 评论(1) 推荐(0) 编辑
摘要:一、协处理器简介 1、 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HB 阅读全文
posted @ 2018-08-18 22:15 Frankdeng 阅读(12849) 评论(0) 推荐(0) 编辑
摘要:一、过滤器(Filter) 基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的 阅读全文
posted @ 2018-08-17 22:12 Frankdeng 阅读(2823) 评论(2) 推荐(1) 编辑
摘要:一.数据的备份与恢复 1. 备份 停止 HBase 服务后,使用 distcp 命令运行 MapReduce 任务进行备份,将数据备份到另一个地方,可以是同一个集群,也可以是专用的备份集群。 即,把数据转移到当前集群的其他目录下(也可以不在同一个集群中): 1. 备份 停止 HBase 服务后,使用 阅读全文
posted @ 2018-08-16 22:02 Frankdeng 阅读(3146) 评论(0) 推荐(3) 编辑
摘要:一、项目环境搭建 新建 Maven Project,新建项目后在 pom.xml 中添加依赖: 二、HBase API操作表和数据 注意,这部分的学习内容,我们先学习使用老版本的 API,接着再写出新版本的 API 调用方式。因为在企业中,有些时候我们需要一些过时的 API 来提供更好的兼容性。 1 阅读全文
posted @ 2018-08-15 18:52 Frankdeng 阅读(5532) 评论(0) 推荐(1) 编辑
摘要:一、进入HBase命令行 在你安装的随意台服务器节点上,执行命令:hbase shell,会进入到你的 hbase shell 客 户端 说明,先看一下提示。其实是不是有一句很重要的话: 讲述了怎么获得帮助,怎么退出客户端 help 获取帮助 help:获取所有命令提示 help "dml" :获取 阅读全文
posted @ 2018-08-14 23:53 Frankdeng 阅读(3897) 评论(0) 推荐(1) 编辑
摘要:一、系统架构 注意:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog。 从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemSto 阅读全文
posted @ 2018-08-13 23:45 Frankdeng 阅读(16088) 评论(2) 推荐(5) 编辑
摘要:一、安装前提 1、HBase 依赖于 HDFS 做底层的数据存储 2、HBase 依赖于 MapReduce 做数据计算 3、HBase 依赖于 ZooKeeper 做服务协调 4、HBase源码是java编写的,安装需要依赖JDK 1、版本选择 打开官方的版本说明http://hbase.apac 阅读全文
posted @ 2018-08-12 21:49 Frankdeng 阅读(5123) 评论(1) 推荐(1) 编辑
摘要:一 数据仓库的概念 1 什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 阅读全文
posted @ 2018-08-12 19:52 Frankdeng 阅读(30063) 评论(2) 推荐(2) 编辑
摘要:一 Hive SQL练习之影评案例 案例说明 现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072, 共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipco 阅读全文
posted @ 2018-08-12 18:54 Frankdeng 阅读(10938) 评论(1) 推荐(4) 编辑
摘要:一、Fetch抓取 1、理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default 阅读全文
posted @ 2018-08-12 18:32 Frankdeng 阅读(18827) 评论(2) 推荐(7) 编辑
摘要:一 HBase 的起源 HBase 的原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为 Hadoop 的子项目来开发维护,用于支持结构化的数据存储。 Apache HBase™是Hadoop数据库,这是一个分布式,可扩展的大数据存储。 当您需要随机,实时读取/写入您 阅读全文
posted @ 2018-08-11 22:54 Frankdeng 阅读(2795) 评论(0) 推荐(2) 编辑
摘要:1、下载 下载地址:http://www.kafkatool.com/download.html 2、安装 根据不同的系统下载对应的版本,我这里kafka版本是1.1.0,下载kafka tool 2.0.1。 双击下载完成的exe图标,傻瓜式完成安装。 3、简单使用 kafka环境搭建请参考:Ce 阅读全文
posted @ 2018-08-10 10:50 Frankdeng 阅读(194652) 评论(16) 推荐(5) 编辑
摘要:一 kafka的API操作 1.1 环境准备 1)在eclipse中创建一个java工程 2)在工程的根目录创建一个lib文件夹 3)解压kafka安装包,将安装包libs目录下的jar包拷贝到工程的lib目录下,并build path。 4)启动zk和kafka集群,在kafka集群中打开一个消费 阅读全文
posted @ 2018-08-05 18:58 Frankdeng 阅读(7315) 评论(0) 推荐(1) 编辑
摘要:一 Kafka在zookeeper中存储结构图 二 分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 2.2 partition状态信息 /brokers/topics/[topic]/partitions/[ 阅读全文
posted @ 2018-08-05 14:22 Frankdeng 阅读(9848) 评论(0) 推荐(1) 编辑
摘要:一 Kafka HA设计解析 1.1 为何需要Replication 在Kafka在0.8以前的版本中,是没有Replication的,一旦某一个Broker宕机,则其上所有的Partition数据都不可被消费,这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Pro 阅读全文
posted @ 2018-08-02 23:52 Frankdeng 阅读(9885) 评论(3) 推荐(6) 编辑
摘要:一、下载 下载地址: http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二、kafka安装 集群规划 Zookeeper集群安装参考: CentOS7.5搭建Zookeeper3.4.12 阅读全文
posted @ 2018-08-01 20:59 Frankdeng 阅读(17259) 评论(2) 推荐(2) 编辑
摘要:一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级 阅读全文
posted @ 2018-08-01 20:03 Frankdeng 阅读(43212) 评论(1) 推荐(18) 编辑

点击右上角即可分享
微信分享提示