随笔分类 -  hive

摘要:原文:https://www.jianshu.com/p/4e72b22edf49 1、数据仓库与数据库 数据仓库是数据库概念的升级,和数据库相比,数据仓库要比数据库更加庞大; 数据仓库主要用于分析数据,数据库主要用于捕获数据; 数据仓库主要存储历史数据,数据库存储在线交易数据; 数据仓库的基本元素 阅读全文
posted @ 2020-04-21 17:43 米兰的小铁將 阅读(1076) 评论(0) 推荐(0) 编辑
摘要:一、时间函数 # 按照指定时间格式获取当前时间 select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss') ; # 时间戳转日期 select from_unixtime(1505456567); select from_unixtime 阅读全文
posted @ 2019-12-23 17:10 米兰的小铁將 阅读(350) 评论(0) 推荐(0) 编辑
摘要:1、说明 2、启动hiveserver2 3、查看 4、使用beeline连接 5、可能的问题 <property> <name>hive.server2.authentication</name> <value>NONE</value> </property> <property> <name>d 阅读全文
posted @ 2019-12-11 11:02 米兰的小铁將 阅读(2515) 评论(0) 推荐(0) 编辑
摘要:1、说明hive默认使用分隔符如空格,分号,"|",制表符\t来格式化数据记录,对于复杂数据类型如json,nginx日志等,就没有办法拆分了,这时候需要更加强大的SerDe来处理复杂数据,如使用JsonSerDe或者使用正则表达式RegSerDe来处理。2、下载jar包json-serde-1.3.8-jar-with-dependencies.jar:http://www.congiu.net... 阅读全文
posted @ 2019-12-02 10:33 米兰的小铁將 阅读(897) 评论(0) 推荐(0) 编辑
摘要:1、map通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小;假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数;假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个... 阅读全文
posted @ 2019-09-06 15:49 米兰的小铁將 阅读(569) 评论(0) 推荐(0) 编辑
摘要:一、hive分桶 概述 hive 分桶 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。 对于hive中每一个表、分区都可以进一步进行分桶。 由列的哈希值除以桶的个数求余的方式来决定每条数据划分在哪个桶中。 适用场景: 数据抽样( sampling )、map-join 数据抽样: 数据 阅读全文
posted @ 2019-08-27 15:00 米兰的小铁將 阅读(594) 评论(0) 推荐(0) 编辑
摘要:一、创建表并导入日志数据,引出问题##建表hive (default)> create table IF NOT EXISTS default.bf_log_src( > remote_addr string, > remote_user string, > time_local string, ... 阅读全文
posted @ 2019-05-05 17:45 米兰的小铁將 阅读(252) 评论(0) 推荐(0) 编辑
摘要:一、查看HQL执行计划explain1、explainhive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行,但是具体的MR执行信息我们怎样才能看出来呢?这里就用到了explain的关键字,他可详细的表示出在执行所对应的语句所对应的MR代码。语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。Hive提供了一个EXPLAIN显示查询执行计划的命令。该语句... 阅读全文
posted @ 2019-04-28 16:22 米兰的小铁將 阅读(394) 评论(0) 推荐(0) 编辑
摘要:一、Fetch Task在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下所示:#在hive-default.xml.template默认配置中可知:SELECT STAR, FILTER on partition columns... 阅读全文
posted @ 2019-04-28 15:03 米兰的小铁將 阅读(164) 评论(0) 推荐(0) 编辑
摘要:一、file formatORCFile在HDP 2:更好的压缩,更好的性能:https://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/官方ORCfile介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManua... 阅读全文
posted @ 2019-04-26 14:21 米兰的小铁將 阅读(257) 评论(0) 推荐(0) 编辑
摘要:一、数据压缩1、数据压缩 数据量小 *本地磁盘,IO *减少网络IOHadoop作业通常是IO绑定的;压缩减少了跨网络传输的数据的大小;通过简单地启用压缩,可以提高总体作业性能;要压缩的数据必须支持可分割性;2、什么时候压缩?1、Use Compressed Map Input· Mapreduce jobs read input from HDFS· Compress if i... 阅读全文
posted @ 2019-04-25 15:47 米兰的小铁將 阅读(480) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients一、HiveServer2、Beeline 1、HiveServer2HiveServer2是作为hive的一个服务启动的;#启动,也可以让它在后台启动[root@hadoop-senior hive-0.13.1]# bin/hiveserver22、beeli... 阅读全文
posted @ 2019-04-24 17:03 米兰的小铁將 阅读(1362) 评论(0) 推荐(0) 编辑
摘要:UDF:User Definition Function一、function#查看自带的函数hive (db_hive)> show functions;#查看一个函数的详细用法hive (db_hive)> desc function extended split;OKtab_namesplit(str, regex) - Splits str around occurances that ma... 阅读全文
posted @ 2019-04-24 16:05 米兰的小铁將 阅读(1855) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy一、order by对全局数据的排序,仅仅只有一个reduce;Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reduce... 阅读全文
posted @ 2019-04-24 11:29 米兰的小铁將 阅读(326) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport一、Export、ImportExport 导出,将Hive表中的数据,导出到外部Import 导入,将外部数据导入Hive表中二、Export1、语法EXPORT TABLE tablename TO 'export_target_p... 阅读全文
posted @ 2019-04-24 10:30 米兰的小铁將 阅读(603) 评论(0) 推荐(0) 编辑
摘要:一、查询语句https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select1、select语法SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY co... 阅读全文
posted @ 2019-04-24 10:00 米兰的小铁將 阅读(260) 评论(0) 推荐(0) 编辑
摘要:一、导入数据进hive表1、语法LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename[PARTITION (partcol1=val1,partcol2=val2...)]##* 原始文件的存储位置 *在本地要写local *在HDFS不用写local* ‘filepath’ 文件路径要加引号* 对表的数... 阅读全文
posted @ 2019-04-23 13:51 米兰的小铁將 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一、背景#########分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成更小的数据集。在查询时通过WHERE子句中的表达式来选择查询所需要的指定的分区,这样的查询效率会提高很多。#########在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫... 阅读全文
posted @ 2019-04-23 11:07 米兰的小铁將 阅读(187) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示