随笔分类 -  hive

摘要:1.将hive目录下面的jdbc的jar包 复制这个jar文件到Kettle的lib目录下E:\kettle7.0\data-integration\lib [datalink@slave3 jdbc]$ sz hive-jdbc-3.1.2-standalone.jar rz zmodem trl 阅读全文

posted @ 2021-04-21 17:08 打杂滴 阅读(2239) 评论(0) 推荐(0) 编辑 |

摘要:Error: Java heap space 解决 set io.sort.mb=10; 默认值是100,问题轻松解决 阅读全文

posted @ 2021-04-19 13:54 打杂滴 阅读(65) 评论(0) 推荐(0) 编辑 |

摘要:数据集市是一种比数据仓库更集中、更小、更便捷、更简单的数据集合,适用于小型企业的数据分析。数据集市属于数据仓库的一种,支持特定应用和服务,以具体部门或应用为主。数据集市属于面向工作组、部门、小型的、集中的数据仓库。额定领域内的数据通常存储在数据集市里,继承了数据仓库的特征。可以在相同或不同的物理平台 阅读全文

posted @ 2019-11-12 14:06 打杂滴 阅读(1986) 评论(0) 推荐(0) 编辑 |

摘要:1.hive-site.xml配置如下: <property> <name>hive.server2.webui.host</name> <value>192.168.53.122</value> <description>The host address the HiveServer2 WebUI 阅读全文

posted @ 2019-03-07 17:59 打杂滴 阅读(3345) 评论(1) 推荐(0) 编辑 |

摘要:hive 有限的支持索引,不支持主键外键,可以对表添加索引,也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源。 创建索引需要指定索引处理器 如 as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' in tab 阅读全文

posted @ 2018-09-18 11:32 打杂滴 阅读(406) 评论(0) 推荐(0) 编辑 |

摘要:何谓数据倾斜?数据倾斜指的是,并行处理的数据集 中,某一部分(如Spark的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 表现为整体任务基本完成,但仍有少量子任务的reduce还在运行。 数据倾斜的原因: 1.join 一个表较小,但key集中, 阅读全文

posted @ 2018-09-11 17:53 打杂滴 阅读(2385) 评论(0) 推荐(0) 编辑 |

摘要:1.修改环境变量 ${HIVE_HOME}/conf/hive-site.xml 2.命令行参数 -e : 执行短命令 -f : 执行文件(适合脚本封装) -S : 安静模式,不显示MR的运行过程 -hivevar : 传参数 ,专门提供给用户自定义变量。 -hiveconf : 传参数,包括了hi 阅读全文

posted @ 2018-09-11 16:09 打杂滴 阅读(542) 评论(0) 推荐(0) 编辑 |

摘要:hive 默认格式为文本格式,便于文本查看数据,便于与其他工具共享,与二进制文件相比占用较大的空间 hive> create table tb_test(id int,name string) stored as textfile;OKTime taken: 0.968 secondshive> s 阅读全文

posted @ 2018-09-11 13:47 打杂滴 阅读(594) 评论(0) 推荐(0) 编辑 |

摘要:hive> use gamedw;OKTime taken: 0.049 secondshive> select current_database();OKgamedwTime taken: 0.485 seconds, Fetched: 1 row(s) scala> hivecon.sql("s 阅读全文

posted @ 2018-09-10 17:27 打杂滴 阅读(1741) 评论(0) 推荐(0) 编辑 |

摘要:collect_set(x) 列转行函数 没有重复, 组装多列的数据的结构体collect_list(x) 列转行函数 可以有重复,组装多列的数据的结构体concat_ws 拼接函数, 用于多列转成同一行字段后,间隔符 UDF(User-Defined-Function) 用户定义(普通)函数,只对 阅读全文

posted @ 2018-09-07 16:10 打杂滴 阅读(192) 评论(0) 推荐(0) 编辑 |

摘要:hive的数据模型包括:database、table、partition和bucket。 Hive 的架构设计与运行流程,及其各模块的主要作用,请画出架构图 Hive 支持的文件格式和压缩格式,及其各自的特点 Hive 内外表的区分方法,及内外表的差异点 未被external修饰的是内部表(mana 阅读全文

posted @ 2018-09-07 15:46 打杂滴 阅读(330) 评论(0) 推荐(0) 编辑 |

随笔 - 224, 文章 - 0, 评论 - 1, 阅读 - 12万

Copyright © 2025 打杂滴
Powered by .NET 9.0 on Kubernetes

点击右上角即可分享
微信分享提示