随笔 - 684  文章 - 0  评论 - 156  阅读 - 399万

随笔分类 -  大数据(HBase/Hadoop/ES)

1 2 下一页
常见的大数据分类
ES基本查询语句教程
摘要:前言 es是什么? es是基于Apache Lucene的开源分布式(全文)搜索引擎,,提供简单的RESTful API来隐藏Lucene的复杂性。 es除了全文搜索引擎之外,还可以这样描述它: 1、分布式的实时文件存储,每个字段都被索引并可被搜索 2、分布式的实时分析搜索引擎 3、可以扩展到成百上 阅读全文
posted @ 2020-05-27 08:02 @ 小浩 阅读(109099) 评论(3) 推荐(8) 编辑
Elasticsearch5.0 安装问题集锦
摘要:elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同样问题的你。 问题一:警告提示 [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to 阅读全文
posted @ 2020-05-05 18:40 @ 小浩 阅读(184) 评论(0) 推荐(0) 编辑
干货 | Elasticsearch多表关联设计指南
摘要:0、题记Elasticsearch多表关联问题是讨论最多的问题之一,如:博客和评论的关系,用户和爱好的关系。多表关联通常指:1对多,或者多对多。本文以星球问题会出发点,引申出ES多表关联认知,分析了4种关联关系的适用场景、优点、缺点,希望对你有所启发,为你的多表关联方案选型、实战提供帮助。 1、抛出 阅读全文
posted @ 2020-04-25 19:43 @ 小浩 阅读(9304) 评论(0) 推荐(2) 编辑
ES分布式文档数据库讲解
摘要:简介ES是一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。 同时ES还是一个分布式文档数据库,其中每个字段均可被索引,而且每个字段的数据均可被搜索,能够横向扩展至数以百计的服务器存储以及处理PB级的数据。 可以在极短的时间内存储、搜索和分析大量的数据。 阅读全文
posted @ 2020-01-12 16:01 @ 小浩 阅读(2108) 评论(0) 推荐(0) 编辑
Hive分区和桶的概念
摘要:Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hiv 阅读全文
posted @ 2017-02-22 15:49 @ 小浩 阅读(21828) 评论(0) 推荐(3) 编辑
Hive数据类型
摘要:数据类型 Hive基本的数据类型: Hive集合数据类型: 另外还有一个复合数据类型,可以综合上面的数据类型组合到一起。 · union: UNIONTYPE<data_type, data_type, ...> 类型说明 时间戳 支持传统的unix时间戳,可选的纳秒级精度。 支持的转换: l 整型 阅读全文
posted @ 2017-02-20 21:07 @ 小浩 阅读(639) 评论(0) 推荐(0) 编辑
Hive文件的存储格式
摘要:hive文件存储格式包括以下几类: TEXTFILE SEQUENCEFILE RCFILE 自定义格式 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。 SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据 阅读全文
posted @ 2017-02-20 21:04 @ 小浩 阅读(2698) 评论(0) 推荐(0) 编辑
Hive-表连接
摘要:Hive只支持等值连接,即ON子句中使用等号连接,不支持非等值连接。 Hive内置的数据存储类型,TextFile, SequenceFile, ORC(列式存储) 如果连接语句中有WHERE子句,会先执行JOIN子句,再执行WHERE子句。[吴超1] 假设有以下测试数据 表user数据如下 Use 阅读全文
posted @ 2017-02-20 20:25 @ 小浩 阅读(700) 评论(0) 推荐(0) 编辑
Hive任务优化--控制hive任务中的map数和reduce数
摘要:一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修 阅读全文
posted @ 2017-02-20 13:02 @ 小浩 阅读(2072) 评论(0) 推荐(0) 编辑
hive优化之------控制hive任务中的map数和reduce数
摘要:、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义 阅读全文
posted @ 2017-02-16 00:32 @ 小浩 阅读(3157) 评论(0) 推荐(0) 编辑
Hive新功能 Cube, Rollup介绍
摘要:说明:Hive之cube、rollup,还有窗口函数,在传统关系型数据(Oracle、sqlserver)中都是有的,用法都很相似。 GROUPING SETS GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group 阅读全文
posted @ 2017-02-16 00:15 @ 小浩 阅读(535) 评论(0) 推荐(0) 编辑
Hadoop Hive 中的排序 Order by ,Sort by ,Distribute by以及 Cluster By
摘要:order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set 阅读全文
posted @ 2017-02-15 23:46 @ 小浩 阅读(1393) 评论(0) 推荐(0) 编辑
Hive修改表
摘要:本章将介绍如何修改表的属性,如,修改表名,修改列名,添加列,并删除或替换列。 Alter Table 语句 它是在Hive中用来修改的表。 语法 声明接受任意属性,我们希望在一个表中修改以下语法。 Rename To… 语句 下面是查询重命名表,把 employee 修改为 emp。 JDBC 程序 阅读全文
posted @ 2017-02-15 21:49 @ 小浩 阅读(752) 评论(0) 推荐(0) 编辑
Hive 体系结构
摘要:1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive 阅读全文
posted @ 2017-02-15 14:43 @ 小浩 阅读(3853) 评论(0) 推荐(0) 编辑
Hive 查看日志
摘要:日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hiv 阅读全文
posted @ 2017-02-15 14:32 @ 小浩 阅读(14220) 评论(0) 推荐(0) 编辑
Hive 安装操作
摘要:本篇为安装篇较简单:前提:1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行2:安装了hbase-0.94.3, 正常运行接下来,安装Hive,基于已经安装好的hadoop,步骤如下:1:下载从http://hive.apache.org/下载hive-0.9.0/创建目录/hive将 阅读全文
posted @ 2017-02-15 14:31 @ 小浩 阅读(376) 评论(0) 推荐(0) 编辑
Hive组件以及执行过程
摘要:对Hive的基本组成进行了总结: 1、组件: 元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器(Query C 阅读全文
posted @ 2017-02-15 14:29 @ 小浩 阅读(2078) 评论(0) 推荐(0) 编辑
Hive基本操作
摘要:阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the 阅读全文
posted @ 2017-02-15 14:27 @ 小浩 阅读(808) 评论(0) 推荐(0) 编辑
Hive中创建结构体、数组以及map
摘要:ROW FORMAT DELIMITED 分隔符设置开始语句 FIELDS TERMINATED BY:设置字段与字段之间的分隔符 COLLECTION ITEMS TERMINATED BY:设置一个复杂类型(array,struct)字段的各个item之间的分隔符 MAP KEYS TERMIN 阅读全文
posted @ 2017-02-15 14:08 @ 小浩 阅读(2634) 评论(0) 推荐(0) 编辑
Hive默认分割符
摘要:1、Hive默认的分隔符 Hive的表数据,不管导出到HDFS还是本地文件系统,如果用户在导出时没有指定分割符,那么Hive表的数据在写入文件时,会使用默认的分隔符作为列分隔符,该默认的分割是“CTR+A”,ASCII码排第二位的字符,是不可见字符,二进制表示:'\u0001'。 2、显示Hive默 阅读全文
posted @ 2017-02-15 13:41 @ 小浩 阅读(2010) 评论(0) 推荐(0) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示