ES基本查询语句教程
摘要:前言 es是什么? es是基于Apache Lucene的开源分布式(全文)搜索引擎,,提供简单的RESTful API来隐藏Lucene的复杂性。 es除了全文搜索引擎之外,还可以这样描述它: 1、分布式的实时文件存储,每个字段都被索引并可被搜索 2、分布式的实时分析搜索引擎 3、可以扩展到成百上
阅读全文
posted @
2020-05-27 08:02
@ 小浩
阅读(109099)
推荐(8) 编辑
Elasticsearch5.0 安装问题集锦
摘要:elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同样问题的你。 问题一:警告提示 [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to
阅读全文
posted @
2020-05-05 18:40
@ 小浩
阅读(184)
推荐(0) 编辑
干货 | Elasticsearch多表关联设计指南
摘要:0、题记Elasticsearch多表关联问题是讨论最多的问题之一,如:博客和评论的关系,用户和爱好的关系。多表关联通常指:1对多,或者多对多。本文以星球问题会出发点,引申出ES多表关联认知,分析了4种关联关系的适用场景、优点、缺点,希望对你有所启发,为你的多表关联方案选型、实战提供帮助。 1、抛出
阅读全文
posted @
2020-04-25 19:43
@ 小浩
阅读(9304)
推荐(2) 编辑
ES分布式文档数据库讲解
摘要:简介ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。 同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向扩展至数以百计的服务器存储以及处理PB级的数据。 可以在极短的时间内存储、搜索和分析大量的数据。
阅读全文
posted @
2020-01-12 16:01
@ 小浩
阅读(2108)
推荐(0) 编辑
Hive分区和桶的概念
摘要:Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hiv
阅读全文
posted @
2017-02-22 15:49
@ 小浩
阅读(21828)
推荐(3) 编辑
Hive数据类型
摘要:数据类型 Hive基本的数据类型: Hive集合数据类型: 另外还有一个复合数据类型,可以综合上面的数据类型组合到一起。 · union: UNIONTYPE<data_type, data_type, ...> 类型说明 时间戳 支持传统的unix时间戳,可选的纳秒级精度。 支持的转换: l 整型
阅读全文
posted @
2017-02-20 21:07
@ 小浩
阅读(639)
推荐(0) 编辑
Hive文件的存储格式
摘要:hive文件存储格式包括以下几类: TEXTFILE SEQUENCEFILE RCFILE 自定义格式 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据
阅读全文
posted @
2017-02-20 21:04
@ 小浩
阅读(2698)
推荐(0) 编辑
Hive-表连接
摘要:Hive只支持等值连接,即ON子句中使用等号连接,不支持非等值连接。 Hive内置的数据存储类型,TextFile, SequenceFile, ORC(列式存储) 如果连接语句中有WHERE子句,会先执行JOIN子句,再执行WHERE子句。[吴超1] 假设有以下测试数据 表user数据如下 Use
阅读全文
posted @
2017-02-20 20:25
@ 小浩
阅读(700)
推荐(0) 编辑
Hive任务优化--控制hive任务中的map数和reduce数
摘要:一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修
阅读全文
posted @
2017-02-20 13:02
@ 小浩
阅读(2072)
推荐(0) 编辑
hive优化之------控制hive任务中的map数和reduce数
摘要:、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义
阅读全文
posted @
2017-02-16 00:32
@ 小浩
阅读(3157)
推荐(0) 编辑
Hive新功能 Cube, Rollup介绍
摘要:说明:Hive之cube、rollup,还有窗口函数,在传统关系型数据(Oracle、sqlserver)中都是有的,用法都很相似。 GROUPING SETS GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group
阅读全文
posted @
2017-02-16 00:15
@ 小浩
阅读(535)
推荐(0) 编辑
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
摘要:order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set
阅读全文
posted @
2017-02-15 23:46
@ 小浩
阅读(1393)
推荐(0) 编辑
Hive修改表
摘要:本章将介绍如何修改表的属性,如,修改表名,修改列名,添加列,并删除或替换列。 Alter Table 语句 它是在Hive中用来修改的表。 语法 声明接受任意属性,我们希望在一个表中修改以下语法。 Rename To… 语句 下面是查询重命名表,把 employee 修改为 emp。 JDBC 程序
阅读全文
posted @
2017-02-15 21:49
@ 小浩
阅读(752)
推荐(0) 编辑
Hive 体系结构
摘要:1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive
阅读全文
posted @
2017-02-15 14:43
@ 小浩
阅读(3853)
推荐(0) 编辑
Hive 查看日志
摘要:日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hiv
阅读全文
posted @
2017-02-15 14:32
@ 小浩
阅读(14220)
推荐(0) 编辑
Hive 安装操作
摘要:本篇为安装篇较简单:前提:1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行2:安装了hbase-0.94.3, 正常运行接下来,安装Hive,基于已经安装好的hadoop,步骤如下:1:下载从http://hive.apache.org/下载hive-0.9.0/创建目录/hive将
阅读全文
posted @
2017-02-15 14:31
@ 小浩
阅读(376)
推荐(0) 编辑
Hive组件以及执行过程
摘要:对Hive的基本组成进行了总结: 1、组件: 元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器(Query C
阅读全文
posted @
2017-02-15 14:29
@ 小浩
阅读(2078)
推荐(0) 编辑
Hive基本操作
摘要:阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the
阅读全文
posted @
2017-02-15 14:27
@ 小浩
阅读(808)
推荐(0) 编辑
Hive中创建结构体、数组以及map
摘要:ROW FORMAT DELIMITED 分隔符设置开始语句 FIELDS TERMINATED BY:设置字段与字段之间的分隔符 COLLECTION ITEMS TERMINATED BY:设置一个复杂类型(array,struct)字段的各个item之间的分隔符 MAP KEYS TERMIN
阅读全文
posted @
2017-02-15 14:08
@ 小浩
阅读(2634)
推荐(0) 编辑
Hive默认分割符
摘要:1、Hive默认的分隔符 Hive的表数据,不管导出到HDFS还是本地文件系统,如果用户在导出时没有指定分割符,那么Hive表的数据在写入文件时,会使用默认的分隔符作为列分隔符,该默认的分割是“CTR+A”,ASCII码排第二位的字符,是不可见字符,二进制表示:'\u0001'。 2、显示Hive默
阅读全文
posted @
2017-02-15 13:41
@ 小浩
阅读(2010)
推荐(0) 编辑