2020 年 3月 8 日随笔档案 - bonelee

2020年3月8日

都是 HBase 上的 SQL 引擎，Kylin 和 Phoenix 有什么不同？——Kylin 利用 MapReduce/Spark 将原始数据进行聚合计算，转成了 OLAP Cube 并加载到 HBase 中，以 Key-Value 的形式存储。Cube 按照时间范围划分为多个 segment，每个 segment 是一张 HBase 表，每张表会根据数据大小切分成多个 region

摘要：都是 HBase 上的 SQL 引擎，Kylin 和 Phoenix 有什么不同？ from：https://www.jianshu.com/p/5d98cf84f6e7 大数据时代，数据的价值越来越被重视，企业从海量大数据中挖掘所需要的信息，用来驱动业务决策以获得更大的商业价值。与此同时，出现了阅读全文

posted @ 2020-03-08 15:53 bonelee 阅读(476) 评论(0) 推荐(0) 编辑

sparkSQL原理和使用——一般在生产中，基本都是使用hive做数据仓库存储数据，然后用spark从hive读取数据进行处理

摘要：一、spark SQL概述 1.1 什么是spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。 1.2 spark SQL的特点 1、容易集成：安装Spark的时候，已阅读全文

posted @ 2020-03-08 15:41 bonelee 阅读(4516) 评论(0) 推荐(1) 编辑

spark sql架构和原理——和Hive类似 dataframe无非是内存中的table而已底层原始数据存储可以是parquet hive json avro等

摘要： from：https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后阅读全文

posted @ 2020-03-08 15:31 bonelee 阅读(784) 评论(0) 推荐(0) 编辑

Hive架构和工作原理

摘要： Hive架构和工作原理 from：https://cloud.tencent.com/developer/news/362488 一、Hive 架构下面是Hive的架构图。 Hive的体系结构可以分为以下几部分： 1、用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cl 阅读全文

posted @ 2020-03-08 12:01 bonelee 阅读(3610) 评论(0) 推荐(0) 编辑

一文弄懂Hive基本架构和原理——Hive元数据信息存储在Hive MetaStore中，Hive 中所有的数据都存储在 HDFS 中，Hive 中数据模型：Table，External Table，Partition，Bucket;最后将一个SQL变成hadoop MapReduce作业

摘要：一文弄懂Hive基本架构和原理from：https://blog.csdn.net/oTengYue/article/details/91129850文章目录概述 Hive架构 Hive数据模型 Hive SQL的编译 Hive执行计划 Hive Sql的MapReduce实现原理 Join的实现阅读全文

posted @ 2020-03-08 11:52 bonelee 阅读(1837) 评论(0) 推荐(0) 编辑

大数据不就是写sql吗？—— Hive：把sql解析后用MapReduce跑 SparkSQL：把sql解析后用Spark跑，比hive快点 Drill/Impala/Presto：交互式查询OLAP Druid/Kylin：强调预计算，同样是OLAP

摘要：应届生小祖参加了个需求分析会回来后跟我说被产品怼了一句： "不就是写SQL吗，要那么久吗" 我去，欺负我小弟，这我肯定不能忍呀，于是我写了一篇文章发在了公司的wiki：贴出来给大家看看，省略了一些敏感的内容。当然内部版言辞也会温和一点，嘻嘻在哪里写SQL？这个问题高级点的问法是用哪种SQL引阅读全文

posted @ 2020-03-08 11:32 bonelee 阅读(676) 评论(0) 推荐(0) 编辑

数据倾斜

摘要：大数据 “数据倾斜”的问题大数据首席数据师 0.7862018.11.13 11:21:28字数 897阅读 4,411 一、Hadoop中的数据倾斜：什么是数据倾斜？（见下图）简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。举个 word cou 阅读全文

posted @ 2020-03-08 11:27 bonelee 阅读(622) 评论(0) 推荐(0) 编辑

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告