上一页 1 2 3 4 5 6 7 ··· 14 下一页
摘要: HBase 是什么 Apache HBase 是 Hadoop 数据库,一个分布式的,可扩展的,大数据存储。 HBase 集群可以托管非常大的表——数十亿行X数百万列(真正意义的大数据存储数据库) HBase 数据的最终持久化存储是基于 HDFS,存储容量可以随时在线扩容,而且数据存储的安全性、可靠 阅读全文
posted @ 2021-12-22 23:29 追こするれい的人 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job 或 I/O 过多、MapReduce 分配不合理等等。 对 Hive 的调优主要包括三方面: HQL 语句调优 Hive 配置项调优 MapReduce 调优 1. 列裁剪和分区裁剪 所谓列裁剪就是在查询时只读取需要的列,分 阅读全文
posted @ 2021-12-19 22:59 追こするれい的人 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 内置函数介绍 查看 Hive 所有内置函数 show functions; Hive 测试函数的方法 # 通过常量值测试函数的使用 select substr("abcdefg",1,3); Hive 的所有函数手册 https://cwiki.apache.org/confluence/displ 阅读全文
posted @ 2021-12-19 22:26 追こするれい的人 阅读(73) 评论(0) 推荐(0) 编辑
摘要: Hive 数据类型 操作符 算术操作符 运算符作用 + 加法 - 减法 * 乘法 / 或 DIV 除法 % 或 MOD 取余 比较操作符 符号描述备注 = 等于 <>, != 不等于 > 大于 < 小于 <= 小于等于 >= 大于等于 BETWEEN 在两值之间 >=min&&<=max NOT B 阅读全文
posted @ 2021-12-14 20:32 追こするれい的人 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 查询语法结构 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLU 阅读全文
posted @ 2021-12-14 18:01 追こするれい的人 阅读(165) 评论(0) 推荐(0) 编辑
摘要: Hive 支持的文件格式 Text File(文本格式文件) Sequence File(hadoop 专用序列格式二进制文件) Hadoop 提供的 Sequence File 文件格式提供一对 Key-Value 形式的不可变的数据结构。同时,HDFS 和 MapReduce 使用Sequenc 阅读全文
posted @ 2021-12-14 17:50 追こするれい的人 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 内部表与外部表 内部表(默认) 内部表(MANAGED_TABLE):表目录按照 Hive 的规范来部署 默认情况下,Hive 创建内部表,其中的表数据、元数据和统计数据由内部 Hive 进程管理 内部表数据存储在 Hive 仓库的 /user/hive/warehouse/database_nam 阅读全文
posted @ 2021-12-14 14:55 追こするれい的人 阅读(350) 评论(0) 推荐(0) 编辑
摘要: Hive 交互式客户端 [root@node-01 ~]# hive 执行 HQL 语句 hive (default)> show databases; 操作 HDFS 文件系统 hive (default)> dfs -ls /; 操作 Linux 本地文件系统 hive (default)> ! 阅读全文
posted @ 2021-12-14 14:18 追こするれい的人 阅读(226) 评论(0) 推荐(0) 编辑
摘要: Hive 概念 Hive 由 Facebook 实现并开源 是基于 Hadoop 的一个数据仓库工具 可以将结构化的数据映射为一张数据库表 并提供 HQL(Hive SQL)查询功能 底层数据是存储在 HDFS 上 Hive 的本质是将 SQL 语句转换为 MapReduce/Spark 任务运行 阅读全文
posted @ 2021-12-14 09:49 追こするれい的人 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 数据仓库概念 数据仓库,英文名称为 Data Warehouse ,可简写为 DW 或 DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析报告和决策支持目的而创建。 数据仓库是数据库概念的升级。 从逻辑上理解, 数据库和数据仓库没有区别, 都是通过数据库软件实现的存放 阅读全文
posted @ 2021-12-11 00:05 追こするれい的人 阅读(292) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 14 下一页