随笔分类 - 大数据/Spark
摘要:一. 功能综述 OLAP引擎为存储和计算二合一的引擎,自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部,外部系统不允许直接操作底层数据,而是需要通过暴露出来的接口来读写引擎内部数据。 目前整体来说OLAP功能由两部分组成:数据管理,查询引擎。 1.1 数据管理 引擎中数据核心概
阅读全文
摘要:SparkSession.read() 创建DataFrameReader对象,进行数据读取任务。 DataFrameReader format schema option json、csv、text… 通过format函数设置格式,并调用load函数加载数据。 load 调用DataSource.
阅读全文
摘要:1.么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力,它可以方便地把不同的数据格式通过DataSource API注册成Spark的表,然后通过Spark SQL直
阅读全文
摘要:1.问题 原表数据1400MB左右; spark sql查询后对dataframe使用reparation,再写入结果表; 结果表有12个800多MB的parquet文件,严重膨胀。 2.结论 先说明两个函数区别: repartition : 把record完全打乱最终随机插入到10个文件 有Shu
阅读全文
摘要:Druid是Apache 下开源的一款存储与计算一体的olap查询引擎,spark则是纯计算引擎。Druid的数据存储在历史节点,通过broker节点查询,整体的查询流程是两阶段的聚合。数据分布在多个历史节点,查询时,第一阶段在各个历史节点并行计算,第二阶段,多个历史节点的数据汇聚到broker节点
阅读全文
摘要:引言 Scala Product、case类和元组 case 关键字不仅可以推断出val,同时自动增加一些方法,那么增加了那些方法呢? 你定义的case 类会混入scala.Product 特征,它提供了几个关于实例字段的通用方法。例如,对于Person 的实例: package cn.com.te
阅读全文
摘要:1. 文章开始之前 先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。 SQL: SQL> select avg(cs_ext_discount_amt) from catalog_sales, date_dim where d_date between '1999-02-22' a
阅读全文
摘要:转发原文:Spark自定义HBase数据源 Spark内置很多数据源,却没有HBase的数据源,需要调用rdd的api,如果能有下面这种方式就非常完美了: frame.write.format("hbase") .mode(SaveMode.Append) .option(ZK_HOST_HBASE
阅读全文
摘要:【转】Spark源码系列(九)Spark SQL初体验之解析过程详解 好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动
阅读全文
摘要:原文: 1. 背景 搞了快两年OLAP平台的开发,其中sql的解析优化通过SparkSQL完成,这里简单介绍一下原理 2. Demo 假设你已经搭建了spark,hive环境,我们这边查询下hive表,代码如下: 这里主要做了三件事: 1、构建SparkSession 2、执行sql构建DataFr
阅读全文
摘要:1.Spark-Parent包test_classpath飘红 1.1问题描述 编译完pom.xml文件变量报红 <spark.test.home>${session.executionRootDirectory}</spark.test.home> <SPARK_DIST_CLASSPATH>${
阅读全文
摘要:1.Spark编译报错SqlBaseParser Spark源码编译报错:cannot resolve symbol SqlBaseParser,如下图所示。 2.SqlBaseParser缺失原因 Antlr 是一个基于 Java 开发的功能强大的语言识别工具,Antlr 以其简介的语法和高速的运
阅读全文