随笔分类 - SparkSql
摘要:搭建Spark源码调试环境 1.调试环境 可以根据官网的Spark 3.2的pom依赖查看各组件的版本 Mac + Jdk1.8 + Maven 3.63 + scala 2.12.15 + antlr + Spark 分支 3.2 1.1 java环境 1)编辑vi ~/.zshrc JAVA_H
阅读全文
摘要:SparkSQL读取Kudu,写出到Kafka 背景:通过spark SQL读kudu表,写入到kafka 参考:1.spark向kafka写入数据 2.通过Spark向Kafka写入数据 1. pom.xml 依赖 <dependencies> <dependency> <groupId>mysq
阅读全文
摘要:SparkSql 将CSV导入kudu pom 依赖 <properties> <spark.version>2.1.0</spark.version> <scala.version>2.11</scala.version> <project.build.sourceEncoding>UTF-8</
阅读全文
摘要:一. 读取和保存说明 SparkSQL提供了通用的保存数据和数据加载的方式,还提供了专用的方式 读取:通用和专用 保存 保存有四种模式: 默认: error : 输出目录存在就报错 append: 向输出目录追加 overwrite : 覆盖写 ignore: 忽略,不写 二. 数据格式 1. Pa
阅读全文
摘要:一.UDF(一进一出) 步骤 ① 注册UDF函数,可以使用匿名函数。 ② 在sql查询的时候使用自定义的UDF。 示例 import org.apache.spark.sql.{DataFrame, SparkSession} /** * @description: UDF一进一出 * @autho
阅读全文
摘要:1.内嵌的HIVE 如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可. Hive 的元数据存储在 derby 中, 默认仓库地址:$SPARK_HOME/spark-warehouse 实际使用中, 几乎没有不会使用内置的 Hive 2.集成外部的Hive spark-she
阅读全文
摘要:一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在
阅读全文