SparkSql - 随笔分类 - 来自遥远的水星

Spark源码01【搭建Spark源码调试环境】

摘要：搭建Spark源码调试环境 1.调试环境可以根据官网的Spark 3.2的pom依赖查看各组件的版本 Mac + Jdk1.8 + Maven 3.63 + scala 2.12.15 + antlr + Spark 分支 3.2 1.1 java环境 1）编辑vi ~/.zshrc JAVA_H 阅读全文

posted @ 2022-08-03 15:10 来自遥远的水星阅读(754) 评论(0) 推荐(0) 编辑

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

摘要：SparkSQL读取Kudu,写出到Kafka 背景：通过spark SQL读kudu表，写入到kafka 参考：1.spark向kafka写入数据 2.通过Spark向Kafka写入数据 1. pom.xml 依赖 <dependencies> <dependency> <groupId>mysq 阅读全文

posted @ 2021-06-30 16:14 来自遥远的水星阅读(862) 评论(0) 推荐(0) 编辑

Spark(二十)【SparkSQL将CSV导入Kudu】

摘要：SparkSql 将CSV导入kudu pom 依赖 <properties> <spark.version>2.1.0</spark.version> <scala.version>2.11</scala.version> <project.build.sourceEncoding>UTF-8</ 阅读全文

posted @ 2021-04-15 11:24 来自遥远的水星阅读(225) 评论(0) 推荐(0) 编辑

Spark(十二)【SparkSql中数据读取和保存】

摘要：一. 读取和保存说明 SparkSQL提供了通用的保存数据和数据加载的方式，还提供了专用的方式读取：通用和专用保存保存有四种模式：默认： error : 输出目录存在就报错 append: 向输出目录追加 overwrite : 覆盖写 ignore: 忽略，不写二. 数据格式 1. Pa 阅读全文

posted @ 2020-08-13 16:44 来自遥远的水星阅读(1393) 评论(0) 推荐(0) 编辑

Spark(十三)【SparkSQL自定义UDF/UDAF函数】

摘要：一.UDF(一进一出) 步骤 ① 注册UDF函数，可以使用匿名函数。 ② 在sql查询的时候使用自定义的UDF。示例 import org.apache.spark.sql.{DataFrame, SparkSession} /** * @description: UDF一进一出 * @autho 阅读全文

posted @ 2020-08-13 16:15 来自遥远的水星阅读(1038) 评论(0) 推荐(0) 编辑

Spark(十四)【SparkSQL集成Hive】

摘要：1.内嵌的HIVE 如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可. Hive 的元数据存储在 derby 中, 默认仓库地址:$SPARK_HOME/spark-warehouse 实际使用中, 几乎没有不会使用内置的 Hive 2.集成外部的Hive spark-she 阅读全文

posted @ 2020-08-10 15:01 来自遥远的水星阅读(1544) 评论(0) 推荐(0) 编辑

Spark(十一)【SparkSQL的基本使用】

摘要：一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿，区别在阅读全文

posted @ 2020-08-07 20:21 来自遥远的水星阅读(467) 评论(0) 推荐(0) 编辑

来自遥远的水星

随笔分类 - SparkSql

积分与排名

随笔分类

随笔档案

阅读排行榜