大数据（HBase/Hadoop/ES） - 随笔分类 - @ 小浩

ES基本查询语句教程

摘要：前言 es是什么？ es是基于Apache Lucene的开源分布式（全文）搜索引擎，，提供简单的RESTful API来隐藏Lucene的复杂性。 es除了全文搜索引擎之外，还可以这样描述它： 1、分布式的实时文件存储，每个字段都被索引并可被搜索 2、分布式的实时分析搜索引擎 3、可以扩展到成百上阅读全文

posted @ 2020-05-27 08:02 @ 小浩阅读(109099) 评论(3) 推荐(8) 编辑

Elasticsearch5.0 安装问题集锦

摘要：elasticsearch 5.0 安装过程中遇到了一些问题，通过查找资料几乎都解决掉了，这里简单记录一下，供以后查阅参考，也希望可以帮助遇到同样问题的你。问题一：警告提示 [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to 阅读全文

posted @ 2020-05-05 18:40 @ 小浩阅读(184) 评论(0) 推荐(0) 编辑

干货 | Elasticsearch多表关联设计指南

摘要：0、题记Elasticsearch多表关联问题是讨论最多的问题之一，如：博客和评论的关系，用户和爱好的关系。多表关联通常指：1对多，或者多对多。本文以星球问题会出发点，引申出ES多表关联认知，分析了4种关联关系的适用场景、优点、缺点，希望对你有所启发，为你的多表关联方案选型、实战提供帮助。 1、抛出阅读全文

posted @ 2020-04-25 19:43 @ 小浩阅读(9304) 评论(0) 推荐(2) 编辑

ES分布式文档数据库讲解

摘要：简介ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。同时ES还是一个分布式文档数据库，其中每个字段均可被索引，而且每个字段的数据均可被搜索，能够横向扩展至数以百计的服务器存储以及处理PB级的数据。可以在极短的时间内存储、搜索和分析大量的数据。阅读全文

posted @ 2020-01-12 16:01 @ 小浩阅读(2108) 评论(0) 推荐(0) 编辑

Hive分区和桶的概念

摘要：Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个Hadoop/Hiv 阅读全文

posted @ 2017-02-22 15:49 @ 小浩阅读(21828) 评论(0) 推荐(3) 编辑

Hive数据类型

摘要：数据类型 Hive基本的数据类型： Hive集合数据类型：另外还有一个复合数据类型，可以综合上面的数据类型组合到一起。 · union: UNIONTYPE<data_type, data_type, ...> 类型说明时间戳支持传统的unix时间戳,可选的纳秒级精度。支持的转换: l 整型阅读全文

posted @ 2017-02-20 21:07 @ 小浩阅读(639) 评论(0) 推荐(0) 编辑

Hive文件的存储格式

摘要：hive文件存储格式包括以下几类： TEXTFILE SEQUENCEFILE RCFILE 自定义格式其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据，数据阅读全文

posted @ 2017-02-20 21:04 @ 小浩阅读(2698) 评论(0) 推荐(0) 编辑

Hive-表连接

摘要：Hive只支持等值连接，即ON子句中使用等号连接，不支持非等值连接。 Hive内置的数据存储类型，TextFile, SequenceFile, ORC(列式存储) 如果连接语句中有WHERE子句，会先执行JOIN子句，再执行WHERE子句。[吴超1] 假设有以下测试数据表user数据如下 Use 阅读全文

posted @ 2017-02-20 20:25 @ 小浩阅读(700) 评论(0) 推荐(0) 编辑

Hive任务优化--控制hive任务中的map数和reduce数

摘要：一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修阅读全文

posted @ 2017-02-20 13:02 @ 小浩阅读(2072) 评论(0) 推荐(0) 编辑

hive优化之------控制hive任务中的map数和reduce数

摘要：、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义阅读全文

posted @ 2017-02-16 00:32 @ 小浩阅读(3157) 评论(0) 推荐(0) 编辑

Hive新功能 Cube, Rollup介绍

摘要：说明：Hive之cube、rollup，还有窗口函数，在传统关系型数据（Oracle、sqlserver）中都是有的，用法都很相似。 GROUPING SETS GROUPING SETS作为GROUP BY的子句，允许开发人员在GROUP BY语句后面指定多个统计选项，可以简单理解为多条group 阅读全文

posted @ 2017-02-16 00:15 @ 小浩阅读(535) 评论(0) 推荐(0) 编辑

Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By

摘要：order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set 阅读全文

posted @ 2017-02-15 23:46 @ 小浩阅读(1393) 评论(0) 推荐(0) 编辑

Hive修改表

摘要：本章将介绍如何修改表的属性，如，修改表名，修改列名，添加列，并删除或替换列。 Alter Table 语句它是在Hive中用来修改的表。语法声明接受任意属性，我们希望在一个表中修改以下语法。 Rename To… 语句下面是查询重命名表，把 employee 修改为 emp。 JDBC 程序阅读全文

posted @ 2017-02-15 21:49 @ 小浩阅读(752) 评论(0) 推荐(0) 编辑

Hive 体系结构

摘要：1、Hive架构与基本组成下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分：（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive 阅读全文

posted @ 2017-02-15 14:43 @ 小浩阅读(3853) 评论(0) 推荐(0) 编辑

Hive 查看日志

摘要：日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hiv 阅读全文

posted @ 2017-02-15 14:32 @ 小浩阅读(14220) 评论(0) 推荐(0) 编辑

Hive 安装操作

摘要：本篇为安装篇较简单：前提：1: 安装了hadoop-1.0.4（1.0.3也可以）正常运行2:安装了hbase-0.94.3, 正常运行接下来，安装Hive，基于已经安装好的hadoop，步骤如下：1：下载从http://hive.apache.org/下载hive-0.9.0/创建目录/hive将阅读全文

posted @ 2017-02-15 14:31 @ 小浩阅读(376) 评论(0) 推荐(0) 编辑

Hive组件以及执行过程

摘要：对Hive的基本组成进行了总结： 1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query C 阅读全文

posted @ 2017-02-15 14:29 @ 小浩阅读(2078) 评论(0) 推荐(0) 编辑

Hive基本操作

摘要：阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the 阅读全文

posted @ 2017-02-15 14:27 @ 小浩阅读(808) 评论(0) 推荐(0) 编辑

Hive中创建结构体、数组以及map

摘要：ROW FORMAT DELIMITED 分隔符设置开始语句 FIELDS TERMINATED BY：设置字段与字段之间的分隔符 COLLECTION ITEMS TERMINATED BY：设置一个复杂类型（array,struct)字段的各个item之间的分隔符 MAP KEYS TERMIN 阅读全文

posted @ 2017-02-15 14:08 @ 小浩阅读(2634) 评论(0) 推荐(0) 编辑

Hive默认分割符

摘要：1、Hive默认的分隔符 Hive的表数据，不管导出到HDFS还是本地文件系统，如果用户在导出时没有指定分割符，那么Hive表的数据在写入文件时，会使用默认的分隔符作为列分隔符，该默认的分割是“CTR+A”，ASCII码排第二位的字符，是不可见字符，二进制表示：'\u0001'。 2、显示Hive默阅读全文

posted @ 2017-02-15 13:41 @ 小浩阅读(2010) 评论(0) 推荐(0) 编辑

随笔分类 - 大数据（HBase/Hadoop/ES）

搜索

常用链接

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论