来自遥远的水星

2020年8月14日

摘要： 1.创建一个test.sh文件 vim test.sh 在文件中添加如下内容 #!/bin/bash do_date=$1 echo "$do_date" echo '$do_date' echo "'$do_date'" echo '"$do_date"' echo `date` 2.执行test 阅读全文

posted @ 2020-08-14 20:12 来自遥远的水星阅读(141) 评论(0) 推荐(0) 编辑

Hive(十三)【Hive on Spark 部署搭建】

摘要： Hive on Spark 官网详情：https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started 一.安装Hive 具体安装参考：Hive(一)【基本概念、安装】安装和Spark对应版本一起编译的阅读全文

posted @ 2020-08-14 18:39 来自遥远的水星阅读(3338) 评论(0) 推荐(0) 编辑

2020年8月13日

Spark(十二)【SparkSql中数据读取和保存】

摘要：一. 读取和保存说明 SparkSQL提供了通用的保存数据和数据加载的方式，还提供了专用的方式读取：通用和专用保存保存有四种模式：默认： error : 输出目录存在就报错 append: 向输出目录追加 overwrite : 覆盖写 ignore: 忽略，不写二. 数据格式 1. Pa 阅读全文

posted @ 2020-08-13 16:44 来自遥远的水星阅读(1329) 评论(0) 推荐(0) 编辑

Spark(十三)【SparkSQL自定义UDF/UDAF函数】

摘要：一.UDF(一进一出) 步骤 ① 注册UDF函数，可以使用匿名函数。 ② 在sql查询的时候使用自定义的UDF。示例 import org.apache.spark.sql.{DataFrame, SparkSession} /** * @description: UDF一进一出 * @autho 阅读全文

posted @ 2020-08-13 16:15 来自遥远的水星阅读(953) 评论(0) 推荐(0) 编辑

Spark(十七)【SparkStreaming需求练习】

摘要：一.环境准备 1.pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </dep 阅读全文

posted @ 2020-08-13 10:20 来自遥远的水星阅读(483) 评论(0) 推荐(0) 编辑

2020年8月11日

Spark(十六)【SparkStreaming基本使用】

摘要：一. SparkStreaming简介 1. 相关术语流式数据：指数据源源不断。实时数据：当前正在产生的数据。离线数据：过去（不是当下产生的）已经产生的数据。实时计算：理想上，实时计算一定是对实时数据的计算，理想期望立刻当前计算出结果(要在公司规定的时效范围内)。离线计算：计算通阅读全文

posted @ 2020-08-11 19:30 来自遥远的水星阅读(485) 评论(0) 推荐(0) 编辑

2020年8月10日

Spark(十四)【SparkSQL集成Hive】

摘要： 1.内嵌的HIVE 如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可. Hive 的元数据存储在 derby 中, 默认仓库地址:$SPARK_HOME/spark-warehouse 实际使用中, 几乎没有不会使用内置的 Hive 2.集成外部的Hive spark-she 阅读全文

posted @ 2020-08-10 15:01 来自遥远的水星阅读(1437) 评论(0) 推荐(0) 编辑

2020年8月7日

Spark(十一)【SparkSQL的基本使用】

摘要：一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿，区别在阅读全文

posted @ 2020-08-07 20:21 来自遥远的水星阅读(436) 评论(0) 推荐(0) 编辑

Scala和Java的List集合互相转换

摘要： import java.util import scala.collection.mutable /** * 集合互相转换 */ object ScalaToJava { def main(args: Array[String]): Unit = { //新版的Scala用这个：import sca 阅读全文

posted @ 2020-08-07 16:41 来自遥远的水星阅读(2256) 评论(0) 推荐(0) 编辑

2020年8月6日

Spark(十)【RDD的读取和保存】

摘要：一.文件类型 1.Text文件读写读取 scala> val hdfsFile = sc.textFile("hdfs://hadoop102:9000/fruit.txt") hdfsFile: org.apache.spark.rdd.RDD[String] = hdfs://hadoop1 阅读全文

posted @ 2020-08-06 10:19 来自遥远的水星阅读(1082) 评论(0) 推荐(0) 编辑