09 2022 档案

摘要:DataX基本使用 1.打印输入流在控制台 获取模板 datax.py -r 输入数据源名字 -w 输出数据源名字(可以到官网上找到准确的名字) 如:datax.py -r mysqlreader -w hbase11xwriter 编写stream2stream.json文件 streamread 阅读全文
posted @ 2022-09-26 22:30 伍点 阅读(998) 评论(0) 推荐(0) 编辑
摘要:Hbase概述与读写流程 一、Hbase概述 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通 阅读全文
posted @ 2022-09-21 21:15 伍点 阅读(507) 评论(0) 推荐(0) 编辑
摘要:hive的查询语法(DQL) 全局排序 order by 会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间 使用 order by子句排序 :ASC(ascend)升序(默认)| DESC(descend)降序 order by放在select语句的结尾 局 阅读全文
posted @ 2022-09-14 21:54 伍点 阅读(237) 评论(0) 推荐(0) 编辑
摘要:Hive的分区、分桶 Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多 阅读全文
posted @ 2022-09-14 16:45 伍点 阅读(667) 评论(0) 推荐(0) 编辑
摘要:数据仓库与hive hive——数据仓库建模工具之一 一、数据库、数据仓库 1.1 数据库 关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。 1 阅读全文
posted @ 2022-09-14 15:26 伍点 阅读(223) 评论(0) 推荐(0) 编辑
摘要:Hive的基本知识与操作 Hive的基本概念 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接 阅读全文
posted @ 2022-09-07 21:38 伍点 阅读(837) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示