上一页 1 2 3 4 5 6 7 8 ··· 46 下一页
摘要: Spark SQL API DSL 代码 --> DSL ←- SQL package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFrame, Spar 阅读全文
posted @ 2022-03-11 22:08 赤兔胭脂小吕布 阅读(165) 评论(0) 推荐(0) 编辑
摘要: Dataframe Data Source API 我们来看一下 构建 Dataframe 的方式有哪些 读取数据源,可以读哪些数据 package com.shujia.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSessi 阅读全文
posted @ 2022-03-11 21:18 赤兔胭脂小吕布 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,DataFrame也支 持嵌套数据类 阅读全文
posted @ 2022-03-11 20:04 赤兔胭脂小吕布 阅读(238) 评论(0) 推荐(0) 编辑
摘要: PageRank 网页排名算法 什么是PageRank? PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。 PageRank实现了将链接价值概念作为排名因素。 如果一个网页可以被 阅读全文
posted @ 2022-03-11 11:05 赤兔胭脂小吕布 阅读(181) 评论(0) 推荐(0) 编辑
摘要: spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccumulator import org.apache.spa 阅读全文
posted @ 2022-03-11 10:07 赤兔胭脂小吕布 阅读(43) 评论(0) 推荐(0) 编辑
摘要: spark 缓存 spark 比 MapReduce 快的一个原因 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apa 阅读全文
posted @ 2022-03-11 00:10 赤兔胭脂小吕布 阅读(92) 评论(0) 推荐(0) 编辑
摘要: spark 程序的执行架构 任意的 spark 代码都可以分成两个部分 算子里面 和 算子外面 算子里面 -- task -- 在Executor中执行 算子外面 -- 在Driver中执行 spark on yarn 中 client 模式和 cluster 模式提交任务(资源调度)的区别 Spa 阅读全文
posted @ 2022-03-10 22:31 赤兔胭脂小吕布 阅读(72) 评论(0) 推荐(0) 编辑
摘要: spark pi org.apache.spark.examples.SparkPi 原理 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContex 阅读全文
posted @ 2022-03-09 00:23 赤兔胭脂小吕布 阅读(220) 评论(0) 推荐(0) 编辑
摘要: Spark Standalone -- 独立集群模式 这里仅仅只是记录一下 Spark Standalone -- 独立集群模式 如何搭建 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 所以不需要搭建 Standalone 架构图 Standalon 阅读全文
posted @ 2022-03-08 23:52 赤兔胭脂小吕布 阅读(446) 评论(0) 推荐(0) 编辑
摘要: spark 算子的分类 转换算子 transformations 延迟执行--针对RDD的操作 操作算子 Action 触发执行 常用算子归纳 程序示例 transformations map、mapPartitions、mapPartitionsWithIndex package com.shuj 阅读全文
posted @ 2022-03-07 23:56 赤兔胭脂小吕布 阅读(63) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 46 下一页