摘要: 1 驱动拷贝 1.在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包 2.拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connect 阅读全文
posted @ 2019-10-13 21:55 花未全开*月未圆 阅读(725) 评论(0) 推荐(0) 编辑
摘要: 1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据 阅读全文
posted @ 2019-10-13 21:51 花未全开*月未圆 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 1 HBase在商业项目中的能力 每天: 1) 消息量:发送和接收的消息数超过60亿 2) 将近1000亿条数据的读写 3) 高峰期每秒150万左右操作 4) 整体读取数据占有约55%,写入占有45% 5) 超过2PB的数据,涉及冗余共6PB数据 6) 数据每月大概增长300千兆字节。 2 布隆过滤 阅读全文
posted @ 2019-10-13 21:46 花未全开*月未圆 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 1 高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 1.关闭HBase集群(如果 阅读全文
posted @ 2019-10-13 21:32 花未全开*月未圆 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1 HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 (3) 基于HDFS、MapReduce Hi 阅读全文
posted @ 2019-10-13 21:19 花未全开*月未圆 阅读(858) 评论(0) 推荐(0) 编辑
摘要: 环境准备 新建项目后在pom.xml中添加依赖: 2 HBaseAPI 2.1 获取Configuration对象 2.2 判断表是否存在 2.3 创建表 2.4 删除表 2.5 向表中插入数据 2.6 删除多行数据 public static void deleteMultiRow(String 阅读全文
posted @ 2019-10-13 21:15 花未全开*月未圆 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 读流程 HBase读数据流程如图3所示 1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息; 2)根据namespace、表名和rowkey在meta表中找到对应的region信息; 3)找到这个reg 阅读全文
posted @ 2019-10-13 21:02 花未全开*月未圆 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 1 RowKey 与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式: 1.通过单个RowKey访问 2.通过RowKey的range(正则) 3.全表扫描 RowKey行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度 阅读全文
posted @ 2019-10-13 21:01 花未全开*月未圆 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 1 基本操作 1.进入HBase客户端命令行 2.查看帮助命令 3.查看当前数据库中有哪些表 2 表的操作 1.创建表 2.插入数据到表 3.扫描查看表数据 4.查看表结构 5.更新指定字段的数据 6.查看“指定行”或“指定列族:列”的数据 7.统计表数据行数 8.删除数据 删除某rowkey的全部 阅读全文
posted @ 2019-10-13 20:58 花未全开*月未圆 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006 阅读全文
posted @ 2019-10-13 20:52 花未全开*月未圆 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 1 常见正则表达式语法 题: 1 如何实现Flume数据传输的监控的 使用第三方框架Ganglia实时监控Flume。 2 Flume的Source,Sink,Channel的作用?你们Source是什么类型? 1、作用 (1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数 阅读全文
posted @ 2019-10-13 20:33 花未全开*月未圆 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 1 自定义Source说明 Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、 阅读全文
posted @ 2019-10-13 20:29 花未全开*月未圆 阅读(1298) 评论(0) 推荐(0) 编辑
摘要: 4.1 Ganglia的安装与部署 1) 安装httpd服务与php 2) 安装其他依赖 3) 安装ganglia 4) 修改配置文件/etc/httpd/conf.d/ganglia.conf # Ganglia monitoring system php web frontend Alias / 阅读全文
posted @ 2019-10-13 20:21 花未全开*月未圆 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 概述 1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 下面我们来详细介绍一下Flume架构中的组件。 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是F 阅读全文
posted @ 2019-10-13 20:12 花未全开*月未圆 阅读(246) 评论(0) 推荐(0) 编辑