随笔分类 - 大数据/Spark

苏宁OLAP架构设计

摘要：一. 功能综述 OLAP引擎为存储和计算二合一的引擎，自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部，外部系统不允许直接操作底层数据，而是需要通过暴露出来的接口来读写引擎内部数据。目前整体来说OLAP功能由两部分组成：数据管理，查询引擎。 1.1 数据管理引擎中数据核心概阅读全文

posted @ 2024-01-16 23:52 江东邮差阅读(46) 评论(0) 推荐(0) 编辑

Spark DataSource 源码解析

摘要：SparkSession.read() 创建DataFrameReader对象，进行数据读取任务。 DataFrameReader format schema option json、csv、text… 通过format函数设置格式，并调用load函数加载数据。 load 调用DataSource. 阅读全文

posted @ 2023-02-27 16:50 江东邮差阅读(336) 评论(0) 推荐(0) 编辑

Spark DataSource API 分析

摘要：1.么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力，它可以方便地把不同的数据格式通过DataSource API注册成Spark的表，然后通过Spark SQL直阅读全文

posted @ 2023-02-27 15:45 江东邮差阅读(127) 评论(0) 推荐(0) 编辑

[转]Spark SQL repartition 为啥生成的文件变大了？

摘要：1.问题原表数据1400MB左右； spark sql查询后对dataframe使用reparation，再写入结果表；结果表有12个800多MB的parquet文件，严重膨胀。 2.结论先说明两个函数区别： repartition ：把record完全打乱最终随机插入到10个文件有Shu 阅读全文

posted @ 2022-09-01 15:18 江东邮差阅读(599) 评论(0) 推荐(0) 编辑

【转】SparkSQL扩展到自定义数据源之Druid-Spark查询druid

摘要：Druid是Apache 下开源的一款存储与计算一体的olap查询引擎，spark则是纯计算引擎。Druid的数据存储在历史节点，通过broker节点查询，整体的查询流程是两阶段的聚合。数据分布在多个历史节点，查询时，第一阶段在各个历史节点并行计算，第二阶段，多个历史节点的数据汇聚到broker节点阅读全文

posted @ 2022-07-09 15:00 江东邮差阅读(304) 评论(0) 推荐(0) 编辑

SparkSQL Catalyst中的TreeNode

摘要：引言 Scala Product、case类和元组 case 关键字不仅可以推断出val，同时自动增加一些方法，那么增加了那些方法呢？你定义的case 类会混入scala.Product 特征，它提供了几个关于实例字段的通用方法。例如，对于Person 的实例： package cn.com.te 阅读全文

posted @ 2022-06-28 21:53 江东邮差阅读(200) 评论(0) 推荐(0) 编辑

【转】Spark2.1和2.2 SQL物理执行策略关键源码分析

摘要：1. 文章开始之前先附上一句SQL，使用tpc-ds的表结构，我们围绕这句SQL讲。 SQL： SQL> select avg(cs_ext_discount_amt) from catalog_sales, date_dim where d_date between '1999-02-22' a 阅读全文

posted @ 2022-06-28 12:07 江东邮差阅读(79) 评论(0) 推荐(0) 编辑

[转]Spark自定义HBase数据源

摘要：转发原文：Spark自定义HBase数据源 Spark内置很多数据源，却没有HBase的数据源，需要调用rdd的api，如果能有下面这种方式就非常完美了： frame.write.format("hbase") .mode(SaveMode.Append) .option(ZK_HOST_HBASE 阅读全文

posted @ 2022-06-15 16:31 江东邮差阅读(185) 评论(0) 推荐(0) 编辑

【转】Spark SQL初体验之解析过程详解

摘要：【转】Spark源码系列（九）Spark SQL初体验之解析过程详解好久没更新博客了，之前学了一些R语言和机器学习的内容，做了一些笔记，之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了，因为一些别的事情耽误了，今天就简单写点，Spark1.2马上就要出来了，不知道变动阅读全文

posted @ 2022-04-08 16:28 江东邮差阅读(182) 评论(0) 推荐(0) 编辑

【转】SparkSQL sql解析

摘要：原文： 1. 背景搞了快两年OLAP平台的开发，其中sql的解析优化通过SparkSQL完成，这里简单介绍一下原理 2. Demo 假设你已经搭建了spark，hive环境，我们这边查询下hive表，代码如下：这里主要做了三件事： 1、构建SparkSession 2、执行sql构建DataFr 阅读全文

posted @ 2022-04-08 16:19 江东邮差阅读(229) 评论(0) 推荐(0) 编辑

Spark编译报错汇总

摘要：1.Spark-Parent包test_classpath飘红 1.1问题描述编译完pom.xml文件变量报红 <spark.test.home>${session.executionRootDirectory}</spark.test.home> <SPARK_DIST_CLASSPATH>${ 阅读全文

posted @ 2022-01-15 20:06 江东邮差阅读(441) 评论(0) 推荐(0) 编辑

Spark源码编译-cannot resolve symbol SqlBaseParser

摘要：1.Spark编译报错SqlBaseParser Spark源码编译报错：cannot resolve symbol SqlBaseParser，如下图所示。 2.SqlBaseParser缺失原因 Antlr 是一个基于 Java 开发的功能强大的语言识别工具，Antlr 以其简介的语法和高速的运阅读全文

posted @ 2022-01-13 20:11 江东邮差阅读(457) 评论(0) 推荐(0) 编辑