随笔分类 - 开源大数据
摘要:Alter Table 语句 Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作 它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name RE
阅读全文
摘要:说明 query.max-memory: The maximum amount of distributed memory that a query may use. query.max-memory-per-node: The maximum amount of user memory that
阅读全文
摘要:本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题。以及日常Hive开发中如何进行性能调优。1.Hive有哪些参数,如何查看这些参数 Hive自带的配置属性列表封装
阅读全文
摘要:什么是Flink Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。 Flink特性 支持高吞吐、低延迟、高性能的流式数据处理,而不是用批处理模拟流式处理。 支持多种时间窗口,如事件时间窗口、处理时
阅读全文
摘要:背景 因为hadoop/hive本质上不支持更新,所以hive不能够采用update行级别的维度数据的更新。可以采用的变通的方式。 hive和hbase结合 我认为这是首选的方式,hbase本质上也是不支持行级更新,只不过是追加行加上时间戳,然后取最新的时间戳的数据而已,但是对于我们来说是透明的。可
阅读全文
摘要:分享来源地址:http://bigdata.51cto.com/art/201705/538648.htm Cube的高级设置 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cubo
阅读全文
摘要:优化Cube 层次结构 理论上,对于N维,你最终会得到2 ^ N维组合。但是对于某些维度组,不需要创建这么多组合。例如,如果您有三个维度:洲,国家,城市(在层次结构中,“更大”维度首先出现)。在深入分析时,您只需要以下三种组合组合: 按大陆分组 按大陆,国家分组 按大陆,国家,城市分组 在这种情况下
阅读全文
摘要:本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。 Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP
阅读全文
摘要:简介 大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据
阅读全文
摘要:简介 Kafka经常用于实时流数据架构,用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广泛应用。 简介 Kafka经常用于实时流数据架构,用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广泛应用。 kafka的增长是爆炸性的。2017年超过三分之一的世界五百强公司在使用ka
阅读全文
摘要:转载:https://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为
阅读全文
摘要:介绍 本篇主要通过汇总网上的大牛的知识,简单介绍一下如何使用mysql的执行计划,并根据执行计划判断如何优化和是否索引最优。 执行计划可显示估计查询语句执行计划,从中可以分析查询的执行情况是否最优,有助于对不使用索引的语句进行优化。EXPLAIN对每个查询返回一行信息,列出了有序的表格,MySQL处
阅读全文
摘要:转译:(https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html#_finding_exact_values) 当进行精确值查找时, 我们会使用过滤器(filters)。过滤器很重要,
阅读全文
摘要:最近开始大面积使用ES,很多地方都是知其然不知其所以然,特地翻看了很多资料和大牛的文档,简单汇总一篇。内容多为摘抄,说是深入其实也是一点浅尝辄止的理解。希望大家领会精神。 首先学习要从官方开始地址如下。 es官网原文:https://www.elastic.co/guide/en/elasticse
阅读全文
摘要:最近用hive比较多,虽然效率低,但是由于都是T+1的业务模式。所以也就不要求太多了,够用就行。其中用的吧比较多就是时间了,由于大数据中很多字段都不是标准的时间类型字段,所以期间涉及了很多的时间日期字段的处理,这里做一个汇总。一遍以后查询使用。也方便大家学习。 下面列举几个用的比较多的情况进行说明:
阅读全文
摘要:背景 最近处理文本文档时(文件约2GB大小),出现memoryError错误和文件读取太慢的问题,后来找到了两种比较快Large File Reading 的方法,本文将介绍这两种读取方法。 原味地址 准备工作 我们谈到“文本处理”时,我们通常是指处理的内容。Python 将文本文件的内容读入可以操
阅读全文
摘要:1、安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说是
阅读全文
摘要:背景 目前对于时序大数据的存储和处理往往采用关系型数据库的方式进行处理,但由于关系型数据库天生的劣势导致其无法进行高效的存储和数据的查询。时序大数据解决方案通过使用特殊的存储方式,使得时序大数据可以高效存储和快速处理海量时序大数据,是解决海量数据处理的一项重要技术。该技术采用特殊数据存储方式,极大提
阅读全文
摘要:背景 上一篇介绍了在阿里云上部署ES(www.cnblogs.com/wenBlog/p/7451696.html),本文将主要介绍ELK的可视化工具Kibana的部署和使用。主要分为三个步骤来实现最终呈现: 1.导入数据到ES; 2.部署kibana并完成配置; 3.使用kibana生成可视化数据
阅读全文
摘要:背景 最近越来越多的公司把业务搬迁到云上,公司也有这个计划,自己抽时间在阿里云和Azure上做了一些小的尝试,现在把阿里云上部署ES和kibana记录下来。为以后做一个参考,也希望对其他人有帮助。 这里以阿里云为例,由于测试只有一台机器所以这里就展开到集群了,下面介绍下详细的步骤。 步骤: 1.申请
阅读全文