摘要: Spark SQL API DSL 代码 --> DSL ←- SQL package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFrame, Spar 阅读全文
posted @ 2022-03-11 22:08 赤兔胭脂小吕布 阅读(152) 评论(0) 推荐(0) 编辑
摘要: Dataframe Data Source API 我们来看一下 构建 Dataframe 的方式有哪些 读取数据源,可以读哪些数据 package com.shujia.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSessi 阅读全文
posted @ 2022-03-11 21:18 赤兔胭脂小吕布 阅读(87) 评论(0) 推荐(0) 编辑
摘要: 首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,DataFrame也支 持嵌套数据类 阅读全文
posted @ 2022-03-11 20:04 赤兔胭脂小吕布 阅读(232) 评论(0) 推荐(0) 编辑
摘要: PageRank 网页排名算法 什么是PageRank? PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。 PageRank实现了将链接价值概念作为排名因素。 如果一个网页可以被 阅读全文
posted @ 2022-03-11 11:05 赤兔胭脂小吕布 阅读(172) 评论(0) 推荐(0) 编辑
摘要: spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccumulator import org.apache.spa 阅读全文
posted @ 2022-03-11 10:07 赤兔胭脂小吕布 阅读(42) 评论(0) 推荐(0) 编辑
摘要: spark 缓存 spark 比 MapReduce 快的一个原因 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apa 阅读全文
posted @ 2022-03-11 00:10 赤兔胭脂小吕布 阅读(89) 评论(0) 推荐(0) 编辑