摘要: 10:Hbase­优化方案 1)预分区设计 真正存储数据的是region要维护一个区间段的rowkey startRow~endRowkey -》手动设置预分区 create 'user_p','info','partition',SPLITS => ['101','102','103','104' 阅读全文
posted @ 2019-06-01 19:06 大魔王阿黎 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 8:hbase基本API操作 这里我没在代码中写各种集群信息,而是将集群的配置文件放在了项目的resource中的,就可以直接读取到了 9:hbase-MR 官方Hbase-Mapreduce, 案例一:对一张表的rowkey进行计数 查看需要的包(由于hbase是基于hdfs之上的。所以我们要跑M 阅读全文
posted @ 2019-06-01 19:02 大魔王阿黎 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 6:Hbase shell基本操作 1)查看服务器状态 status 'bigdata11' 2)查看当前有哪些表 list 3)查看帮助 help 7:hbase表操作 1)创建表 create '表名','列族' 2)全表扫描 scan '表名' rowkey:行键:唯一 不重复 timesta 阅读全文
posted @ 2019-05-31 16:29 大魔王阿黎 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 1:Hbase概述 Apache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储。 当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托 管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布 阅读全文
posted @ 2019-05-31 16:24 大魔王阿黎 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1:Azkaban概述 Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。我们有需要按顺序运行的工作,从ETL工作到数据分析产品。 2:为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 阅读全文
posted @ 2019-05-28 09:56 大魔王阿黎 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 1:Sqoop概述 1)官网 http://sqoop.apache.org/ 2)场景 传统型缺点,分布式存储。把传统型数据库数据迁移。 Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 。 2:Sqoop安装部署 1 阅读全文
posted @ 2019-05-25 23:45 大魔王阿黎 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 1:Flume概述 1)官网地址 http://flume.apache.org/ 2)日志采集工具 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于 流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错 能力。它使用简 阅读全文
posted @ 2019-05-24 09:30 大魔王阿黎 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 十一:UDF函数 自定义函数 之前使用hive自带函数sum/avg/max/min... 三种自定义函数: UDF:一进一出(User-Defined-Function) UDAF:多进一出 (count、max、min) UDTF:一进多出 (1)导入hive依赖包 hive/lib下。编写自定 阅读全文
posted @ 2019-05-22 22:30 大魔王阿黎 阅读(777) 评论(0) 推荐(0) 编辑
摘要: 十:DDM数据操作(Data Manipulation Language 数据操作语言) A: 基本数据操作及导入导出 1)向表中加载数据 load data local inpath '/root/itstar.txt' into table hunter; 2)加载hdfs中数据 load da 阅读全文
posted @ 2019-05-21 23:16 大魔王阿黎 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 九:DDL数据定义(Data Definition Language 数据定义语言) 数据定义语言,用于定义和管理 SQL 数据库中的所有对象的语言 create table 创建表 alter table 修改表 drop table 删除表 truncate table 删除表中所有行 crea 阅读全文
posted @ 2019-05-20 15:24 大魔王阿黎 阅读(216) 评论(0) 推荐(0) 编辑