2022 年 9月随笔档案 - 伍点

DataX基本使用

摘要：DataX基本使用 1.打印输入流在控制台获取模板 datax.py -r 输入数据源名字 -w 输出数据源名字（可以到官网上找到准确的名字）如：datax.py -r mysqlreader -w hbase11xwriter 编写stream2stream.json文件 streamread 阅读全文

posted @ 2022-09-26 22:30 伍点阅读(998) 评论(0) 推荐(0) 编辑

Hbase概述与读写流程

摘要：Hbase概述与读写流程一、Hbase概述 Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的） HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通阅读全文

posted @ 2022-09-21 21:15 伍点阅读(507) 评论(0) 推荐(0) 编辑

hive的常用函数与连续登录问题

摘要：hive的查询语法（DQL）全局排序 order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间使用 order by子句排序 :ASC（ascend）升序（默认）| DESC（descend）降序 order by放在select语句的结尾局阅读全文

posted @ 2022-09-14 21:54 伍点阅读(237) 评论(0) 推荐(0) 编辑

Hive的分区、分桶

摘要：Hive的分区、分桶 Hive分区在大数据中，最常见的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每小时切分成一个个小的文件，这样去操作小的文件就会容易很多阅读全文

posted @ 2022-09-14 16:45 伍点阅读(667) 评论(0) 推荐(0) 编辑

数据仓库与hive

摘要：数据仓库与hive hive——数据仓库建模工具之一一、数据库、数据仓库 1.1 数据库关系数据库本质上是一个二元关系，说的简单一些，就是一个二维表格，对普通人来说，最简单的理解就是一个Excel表格。这种数据库类型，具有结构化程度高，独立性强，冗余度低等等优点，一下子就促进了计算机的发展。 1 阅读全文

posted @ 2022-09-14 15:26 伍点阅读(223) 评论(0) 推荐(0) 编辑

Hive的基本知识与操作

摘要：Hive的基本知识与操作 Hive的基本概念 Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。为什么使用Hive? 如果直接阅读全文

posted @ 2022-09-07 21:38 伍点阅读(837) 评论(0) 推荐(0) 编辑

bfy0221

09 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜