hive - 随笔分类 - 打杂滴

kettle连接hive

摘要：1.将hive目录下面的jdbc的jar包复制这个jar文件到Kettle的lib目录下E:\kettle7.0\data-integration\lib [datalink@slave3 jdbc]$ sz hive-jdbc-3.1.2-standalone.jar rz zmodem trl 阅读全文

posted @ 2021-04-21 17:08 打杂滴阅读(2277) 评论(0) 推荐(0) |

hive 聚合报错

摘要：Error: Java heap space 解决 set io.sort.mb=10; 默认值是100，问题轻松解决阅读全文

posted @ 2021-04-19 13:54 打杂滴阅读(89) 评论(0) 推荐(0) |

数据集市

摘要：数据集市是一种比数据仓库更集中、更小、更便捷、更简单的数据集合，适用于小型企业的数据分析。数据集市属于数据仓库的一种，支持特定应用和服务，以具体部门或应用为主。数据集市属于面向工作组、部门、小型的、集中的数据仓库。额定领域内的数据通常存储在数据集市里，继承了数据仓库的特征。可以在相同或不同的物理平台阅读全文

posted @ 2019-11-12 14:06 打杂滴阅读(2000) 评论(0) 推荐(0) |

HiveServer2的WEB UI界面

摘要：1.hive-site.xml配置如下： <property> <name>hive.server2.webui.host</name> <value>192.168.53.122</value> <description>The host address the HiveServer2 WebUI 阅读全文

posted @ 2019-03-07 17:59 打杂滴阅读(3444) 评论(1) 推荐(0) |

hive 索引

摘要：hive 有限的支持索引，不支持主键外键，可以对表添加索引，也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源。创建索引需要指定索引处理器如 as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' in tab 阅读全文

posted @ 2018-09-18 11:32 打杂滴阅读(432) 评论(0) 推荐(0) |

hive数据倾斜原因以及解决办法

摘要：何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。表现为整体任务基本完成，但仍有少量子任务的reduce还在运行。数据倾斜的原因: 1.join 一个表较小，但key集中，阅读全文

posted @ 2018-09-11 17:53 打杂滴阅读(2424) 评论(0) 推荐(0) |

hive设置参数的方法

摘要：1.修改环境变量 ${HIVE_HOME}/conf/hive-site.xml 2.命令行参数 -e : 执行短命令 -f : 执行文件（适合脚本封装） -S : 安静模式，不显示MR的运行过程 -hivevar : 传参数，专门提供给用户自定义变量。 -hiveconf : 传参数，包括了hi 阅读全文

posted @ 2018-09-11 16:09 打杂滴阅读(562) 评论(0) 推荐(0) |

hive文件格式

摘要：hive 默认格式为文本格式，便于文本查看数据，便于与其他工具共享,与二进制文件相比占用较大的空间 hive> create table tb_test(id int,name string) stored as textfile;OKTime taken: 0.968 secondshive> s 阅读全文

posted @ 2018-09-11 13:47 打杂滴阅读(609) 评论(0) 推荐(0) |

hive 测试

摘要：hive> use gamedw;OKTime taken: 0.049 secondshive> select current_database();OKgamedwTime taken: 0.485 seconds, Fetched: 1 row(s) scala> hivecon.sql("s 阅读全文

posted @ 2018-09-10 17:27 打杂滴阅读(1759) 评论(0) 推荐(0) |

hive 函数

摘要：collect_set(x) 列转行函数没有重复，组装多列的数据的结构体collect_list(x) 列转行函数可以有重复，组装多列的数据的结构体concat_ws 拼接函数，用于多列转成同一行字段后，间隔符 UDF(User-Defined-Function) 用户定义（普通）函数，只对阅读全文

posted @ 2018-09-07 16:10 打杂滴阅读(210) 评论(0) 推荐(0) |

hive基础知识

摘要：hive的数据模型包括：database、table、partition和bucket。 Hive 的架构设计与运行流程，及其各模块的主要作用，请画出架构图 Hive 支持的文件格式和压缩格式，及其各自的特点 Hive 内外表的区分方法，及内外表的差异点未被external修饰的是内部表（mana 阅读全文

posted @ 2018-09-07 15:46 打杂滴阅读(345) 评论(0) 推荐(0) |

beeline 连接hive

摘要：HiveServer2是一个能使客户端针对hive执行查询的一种服务，与HiverServer1比较，它能够支持多个客户端的并发请求和授权的；HiveCLI 和 hive –e的方式比较单一，HS2允许远程客户端使用多种语言诸如Java,Python等向Hive提交请求，然后取回结果. $HIVE_ 阅读全文

posted @ 2018-09-06 16:20 打杂滴阅读(3478) 评论(0) 推荐(0) |

hive随机采样

摘要：hive> select * from account limit 10;OKaccount.accountname account.accid account.platid account.dateid account.createtime1004210 1004210 6 20180116 20 阅读全文

posted @ 2018-08-30 15:49 打杂滴阅读(2542) 评论(0) 推荐(0) |

Hive高级聚合GROUPING SETS,ROLLUP以及CUBE

摘要：scala> import org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.hive.HiveContext scala> val hcon=new HiveContext(sc)warning: there was 阅读全文

posted @ 2018-07-19 16:11 打杂滴阅读(468) 评论(0) 推荐(0) |

hive命令的执行方式

摘要：1.通过cli直接执行 2.hive -e "hql" 如：[root@host ~]# hive -e "use gamedw;show tables" [root@host ~]# hive -e 'use gamedw;show tables' 3.执行文件[root@host tmpdata 阅读全文

posted @ 2018-06-12 16:31 打杂滴阅读(291) 评论(0) 推荐(0) |

HQL/SQL

摘要：阅读全文

posted @ 2018-06-12 15:19 打杂滴阅读(90) 评论(0) 推荐(0) |

Hive QL

摘要：将查询结果写入到本地指定目录(也可以写入hdfs) insert overwrite local directory '/root/tmpdata/queryout_20180607' select * from gamedw.t_name where id=1 一个源可以同时插入到多个目标表或目标阅读全文

posted @ 2018-06-07 15:14 打杂滴阅读(213) 评论(0) 推荐(0) |

hive简介

摘要：hive是hadoop的一个重要子项目，利于mapreduce编程技术，实现部分sql语句,提供类SQL的编程接口。 hive是一个基于hadoop文件系统的数据仓库架构，它为数据仓库管理提供了许多功能：数据ETL，数据存储管理，大数据集的查询和分析能力。由于hadoop是批处理系统，任务是高延迟阅读全文

posted @ 2018-06-07 14:06 打杂滴阅读(391) 评论(0) 推荐(0) |

了解数据仓库

摘要：一.数据仓库定义数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题，与传统关系数据库面向应用相对应。二.数据仓库与传统数据的区别数据仓库是用于分析的数据库，传统的关系型数据库是面向业务的，为具体的业务提供阅读全文

posted @ 2018-05-31 15:48 打杂滴阅读(205) 评论(0) 推荐(0) |

hive整合hbase

摘要：Hive整合HBase后的好处：通过Hive把数据加载到HBase中，数据源可以是文件也可以是Hive中的表。通过整合，让HBase支持JOIN、GROUP等SQL查询语法。通过整合，不仅可完成HBase的数据实时查询，也可以使用Hive查询HBase中的数据完成复杂的数据分析。使用Hive 阅读全文

posted @ 2018-05-17 16:59 打杂滴阅读(188) 评论(0) 推荐(0) |

努力，奋斗

公告

随笔分类 - hive