摘要: Phoenix创建Hbase二级索引 官方文档 1. 配置Hbase支持Phoenix创建二级索引 1. 添加如下配置到Hbase的Hregionserver节点的hbase-site.xml <!-- phoenix regionserver 配置参数 --> <property> <name>h 阅读全文
posted @ 2020-02-19 13:58 啊啊啊啊鹏 阅读(1203) 评论(1) 推荐(0) 编辑
摘要: HBase的设计目标就是为了那些巨大的表,如数十亿行、数百万列。 面向列,准确的说是面向列族。每行数据列可以不同。 架构 HMaster会到ZK中进行注册,ZK中一主二备; 当主宕机时,zk通知备机, 备机中选择一个当主机;HRegionServer负责数据的存储读写;HMaster做负载均衡数据均 阅读全文
posted @ 2020-02-19 13:57 啊啊啊啊鹏 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置,Hive是一个构建在Hadoop基础之上的数据仓库,主要解决分布式存储的大数据处理和计算问题,Hive提供了类SQL语句,叫HiveQL, 通过它可以使用SQL查询存放在HDFS上的数据,sql语句最终被转化为Map/Reduc 阅读全文
posted @ 2020-02-19 13:56 啊啊啊啊鹏 阅读(750) 评论(0) 推荐(0) 编辑
摘要: ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 1 安装前的准备1.1 CentOS取消打开文件数限制 在/e 阅读全文
posted @ 2020-02-19 13:54 啊啊啊啊鹏 阅读(779) 评论(0) 推荐(0) 编辑
摘要: Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。 1.特点 1) 容易集成:如Spark,Hive,Pig,Flume和Map Reduce。 2) 性能好:直接使用HBase API以及协处理 阅读全文
posted @ 2020-02-19 11:53 啊啊啊啊鹏 阅读(810) 评论(0) 推荐(0) 编辑
摘要: |的ascII最大ctrl+shift+t查找类 ctrl+p显示提示 HBase API操作 依赖的jar包 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</arti 阅读全文
posted @ 2020-02-19 11:48 啊啊啊啊鹏 阅读(203) 评论(0) 推荐(0) 编辑
摘要: GFS -->hdfsmapreduce >hadoop mrbigtable-->hbase HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统 海量存储;列式存储;极易扩展;高并发;稀疏(针对HBase列的灵活性,在列族中,你可以指定任意多的列;稀疏性体现了它的非结构化特点) hb 阅读全文
posted @ 2020-02-19 11:46 啊啊啊啊鹏 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 概述 Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指 阅读全文
posted @ 2020-02-19 11:44 啊啊啊啊鹏 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 1.什么是DataX ​ DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 https://github.com/kris-2018/Data 阅读全文
posted @ 2020-02-19 11:43 啊啊啊啊鹏 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1. 作用: 同步mysql;做拉链表;更新redis 某些情况无法从日志中获取信息,而又无法利用sqoop等ETL工具对数据实时的监控 2. canal的工作原理: canal的工作原理很简单,就是把自己伪装成slave,假装从master复制数据。 3. mysql的binlog MySQL的二 阅读全文
posted @ 2020-02-19 11:41 啊啊啊啊鹏 阅读(711) 评论(0) 推荐(0) 编辑
摘要: Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 http:/ 阅读全文
posted @ 2020-02-19 11:39 啊啊啊啊鹏 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 简介 Linux中,周期执行的任务一般由cron这个守护进程来处理 ps -ef | grep cron cron读取一个或多个配置文件,这些配置文件中包含了命令行及其调用时间。 cron的配置文件称为“crontab”,是“cron table”的简写。 1、/var/spool/cron/ 这个 阅读全文
posted @ 2020-02-19 11:36 啊啊啊啊鹏 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1. Azkaban安装部署 https://azkaban.github.io/azkaban/docs/2.5/ 安装Azkaban 1) 在/opt/module/目录下创建azkaban目录 [kris@hadoop101 module]$ mkdir azkaban 2) 解压azkaba 阅读全文
posted @ 2020-02-19 11:34 啊啊啊啊鹏 阅读(233) 评论(0) 推荐(0) 编辑
摘要: Oozie的功能模块 workflow 由多个工作单元组成 工作单元之间有依赖关系 MR1->MR2->MR3->result hadoop jar:提交1个MR oozie:监控当前工作单元状态,完成之后自动提交下一个工作单元scheduler crontab:是linux简单调度脚本 定时调度工 阅读全文
posted @ 2020-02-19 11:33 啊啊啊啊鹏 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的,所谓文档是一种类似于JSON的结构,简单理解MongoDB这个数据库中存的是各种各样的JSON。( 阅读全文
posted @ 2020-02-19 11:31 啊啊啊啊鹏 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 1、 Redis事务 Redis不支持事务,此事务不是关系型数据库中的事务; Redis事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中,不会被其他客户端发送来的命令请求所打断。 Redis事务的主要作用就是串联多个命令防止别的命令插队; Multi(组队阶段) 阅读全文
posted @ 2020-02-19 11:30 啊啊啊啊鹏 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 1、NoSQL数据库简介 解决应用服务器的CPU和内存压力;解决数据库服务的IO压力; >>> ① session存在缓存数据库(完全在内存里),速度快且数据结构简单; 打破了传统关系型数据库以业务逻辑为依据的存储模式,而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K, V。 阅读全文
posted @ 2020-02-19 11:29 啊啊啊啊鹏 阅读(162) 评论(0) 推荐(0) 编辑
摘要: MySQL支持大型数据库,支持5000万条记录的数据仓库,32位系统表文件最大可支持4GB,64位系统支持最大的表文件为8TB。 官网下载地址:http://dev.mysql.com/downloads/mysql/ 拷贝&解压缩 1、CentOS6 rpm -qa|grep mysql如果存在m 阅读全文
posted @ 2020-02-19 11:28 啊啊啊啊鹏 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 索引简介 索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”。 在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数 阅读全文
posted @ 2020-02-19 11:27 啊啊啊啊鹏 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 1. MySQL概述 为什么要用数据库(Database)? (1)数据要持久化(从内存中把数据永久的保存到文件中) (2)有结构的管理我们的数据:方便我们检索,查询等操作 2、几个名词: DBMS:Database ManageMent System 数据库管理系统 DB:Database 数据库 阅读全文
posted @ 2020-02-19 11:25 啊啊啊啊鹏 阅读(142) 评论(0) 推荐(0) 编辑
1 2