上一页 1 2 3 4 5 6 ··· 27 下一页
2020年5月11日
摘要: 1.下载资源包 2.上传并解压hbase tar -zxvf hbase-1.3.6-bin.tar.gz 3.重命名为hbase mv hbase-1.3.6 hbase 4.下载zookeeper的资源包 5.上传并解压zookeeper tar -zxvf zookeeper-3.4.6.ta 阅读全文
posted @ 2020-05-11 19:13 wnwn 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 1.HBase概述 1.1 HBase是一个基于HDFS的面向列的分布式数据库,源于Google的BIGTable论文; 1.2 HBase是Apache Hadoop生态系统中的重要组成部分,主要用于海量结构化数据存储; 1.3 HBase内部管理的文件全部存储在HDFS中; 2.NOSQL简介 阅读全文
posted @ 2020-05-11 19:11 wnwn 阅读(289) 评论(0) 推荐(0) 编辑
2020年4月25日
摘要: 1.Fetch抓取 Fetch抓取是,Hive中对某些情况的查询可以不必使用MapReduce计算;例如像select * from table这种的操作,在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台; 在hive-default.xml.te 阅读全文
posted @ 2020-04-25 15:17 wnwn 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1.什么是数据倾斜 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点;简单来说就是key的分化严重不均,造成一部分数据很多,一部分数据很少的情况; 比如:wordcount,最后的输出阶段形成了('aaa',1)这种格式,然后在reduce阶段进行value的增加操作,最后计算出value 阅读全文
posted @ 2020-04-25 14:41 wnwn 阅读(181) 评论(0) 推荐(0) 编辑
2020年4月22日
摘要: 1.视图 和关系型数据库一样,Hive也提供了视图的功能,不过请注意,Hive的视图和关系型数据的视图还是有着很大的区别: (1)只要逻辑视图,没有物理视图; (2)视图只提供查询操作,不能执行LOAD/INSERT/UPDATE/DELETE (3)视图在创建的时候,只是保存了一份元数据,当查询视 阅读全文
posted @ 2020-04-22 12:51 wnwn 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 1.Hive的分区表操作 Hive开发中,在存储数据时,为了更快地查询数据和更好地管理数据,都会对hive表中数据进行分区存储;所谓的分区,在hive表中体现的是多了一个字段;而在底层文件存储系统中,比如HDFS上,分区则是一个文件夹,或者说是一个文件目录,不同的分区,就是数据存放在根目录下的不同子 阅读全文
posted @ 2020-04-22 10:42 wnwn 阅读(279) 评论(0) 推荐(0) 编辑
2020年4月21日
摘要: 1.Hive表文件的存储格式 通过上述的stored as操作设置表的存储格式 hive文件的存储格式分为以下四种: TEXTFILE,SEQUENCEFILE,RCFILE,ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时直接把数据文件copy到HDFS上不进 阅读全文
posted @ 2020-04-21 19:42 wnwn 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 1.Hive的数据库操作 Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间;然而,对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突; 如果用户没有使用use关键字显示指定数据库,那么将会使用默认的数据库default; 1.1 查看数据库 show databa 阅读全文
posted @ 2020-04-21 15:19 wnwn 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 1.grep grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来; 1.1 匹配带有JAVA_HOME的行 grep JAVA_HOME profile 1.2 显示不被pattern匹配的行(-v) grep -v JAVA_HOME profile 1.3 忽 阅读全文
posted @ 2020-04-21 12:03 wnwn 阅读(302) 评论(0) 推荐(0) 编辑
2020年4月20日
摘要: 1.Hive的基本数据类型 由上表可以看出,Hive不支持日期类型,在Hive里日期都是字符串来标识的,而常用的日期格式转化操作则是通过自定义函数进行操作; Hive是用java开发的,Hive里的基本数据类型和java的基本数据类型也是一一对应的,除了String类型;有符号的整数类型:TINYI 阅读全文
posted @ 2020-04-20 12:47 wnwn 阅读(800) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 27 下一页