spark - 随笔分类 - lshan

sparkStreming kafka offset 管理

摘要：Direct Approach (No Receivers) 简化的并行性：不需要创建多个输入Kafka流并将其合并。使用directStream，Spark Streaming将创建与使用Kafka分区一样多的RDD分区，这些分区将全部从Kafka并行读取数据。所以在Kafka和RDD分区阅读全文

posted @ 2020-11-17 12:37 lshan 阅读(178) 评论(0) 推荐(0) 编辑

spark hive 小结

摘要：依赖：  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2. 阅读全文

posted @ 2020-11-12 15:25 lshan 阅读(661) 评论(0) 推荐(0) 编辑

spark 通过隐式值排序 Ordering.on &元组的封装

摘要：方式1 ：隐式值（remark:隐式调用顺序隐式Object > 隐式值> 隐式函数> 隐式方法） def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").se 阅读全文

posted @ 2020-11-06 15:28 lshan 阅读(215) 评论(0) 推荐(0) 编辑

spark 集群（standaloane）

该文被密码保护。

posted @ 2020-10-15 12:03 lshan 阅读(0) 评论(0) 推荐(0) 编辑

spark-mongo （3 数据读写）

该文被密码保护。

posted @ 2020-09-08 17:25 lshan 阅读(0) 评论(0) 推荐(0) 编辑

spark-monog(2 数据读写)

摘要：原文：https://blog.csdn.net/u011098327/article/details/72865934 依赖： <dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2 阅读全文

posted @ 2020-09-08 12:04 lshan 阅读(318) 评论(0) 推荐(0) 编辑

spark-mongo(1 读写数据)

摘要：参考链接 MongoDB Connector for Spark官方文档 Mongo Spark 源码原文：https://www.jianshu.com/p/dbac491317cc 场景：适用于数据清洗，如只需要部分字段：依赖： <dependency> <groupId>org.mongo 阅读全文

posted @ 2020-09-08 11:48 lshan 阅读(837) 评论(2) 推荐(0) 编辑

spark 调优多线程并行处理任务

摘要：方式1: 1. 明确 Spark中Job 与 Streaming中 Job 的区别1.1 Spark Core一个 RDD DAG Graph 可以生成一个或多个 Job（Action操作）一个Job可以认为就是会最终输出一个结果RDD的一条由RDD组织而成的计算Job在spark里应用里是一个被调阅读全文

posted @ 2020-07-21 16:57 lshan 阅读(3699) 评论(0) 推荐(0) 编辑

sparkStreaming Windows 函数

摘要：原文: https://blog.csdn.net/MyronCham/article/details/85706089 参考上文即可! 案例一: reduceByKeyAndWindow // 热点搜索词滑动统计，每隔10秒钟，统计最近60秒钟的搜索词的搜索频次，并打印出排名最靠前的3个搜索词以及阅读全文

posted @ 2020-07-20 18:16 lshan 阅读(521) 评论(0) 推荐(0) 编辑

spark sql

摘要：入门与使用参考这一片文档即可： https://www.cnblogs.com/takemybreathaway/articles/10172339.html 方法(sql使我们定义的sql = new SQLContext(sc)) df是一个DataFrame对象实例说明 sql.read.t 阅读全文

posted @ 2020-07-15 16:27 lshan 阅读(272) 评论(0) 推荐(0) 编辑

SaprkApi常用案例

摘要：原文请参考：https://blog.csdn.net/youbitch1/java/article/details/88581251 aggregate: https://blog.csdn.net/bitcarmanlee/article/details/78088304 原理: 源码 : de 阅读全文

posted @ 2020-07-02 18:29 lshan 阅读(138) 评论(0) 推荐(0) 编辑

spark streaming 　　(wordcount)

该文被密码保护。

posted @ 2020-07-02 12:45 lshan 阅读(1) 评论(0) 推荐(0) 编辑

Spark Java学习小结（一）

摘要：参考：https://blog.csdn.net/hellozhxy/article/details/80523499?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecas 阅读全文

posted @ 2020-05-09 22:53 lshan 阅读(467) 评论(0) 推荐(0) 编辑

spark streaming 整和kafka (java)

该文被密码保护。

posted @ 2020-05-08 16:55 lshan 阅读(6) 评论(0) 推荐(0) 编辑

spark sql and df (join ) (java)

该文被密码保护。

posted @ 2020-05-08 01:50 lshan 阅读(0) 评论(0) 推荐(0) 编辑

Spark MySQL使用（java&scala) 大表问题

摘要：如果是大表, 会出现OOM 原本是这样，直接写Table名称，就会读整张Table .option("dbtable", "test_table")可以改写成：.option("dbtable", "(select * from test_table where dt >= '2017-05-01' 阅读全文

posted @ 2020-05-07 23:39 lshan 阅读(826) 评论(0) 推荐(0) 编辑

sprongboot 解决spark报错：Failed to locate the winutils binary in the hadoop binary path

摘要：1.下载hadoop-common-2.2.0-bin并解压到某个目录 https://github.com/srccodes/hadoop-common-2.2.0-bin 2.设置hadoop.home.dir System.setProperty("hadoop.home.dir", "D:\ 阅读全文

posted @ 2020-05-07 21:26 lshan 阅读(313) 评论(0) 推荐(0) 编辑

springboot 整合spark

摘要：参考：https://my.oschina.net/woter/blog/1843755 依赖： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan 阅读全文

posted @ 2020-05-07 13:38 lshan 阅读(4744) 评论(1) 推荐(0) 编辑

spark ALS算法

摘要：ALS算法参数: // ALS关键代码 val model =ALS.train(训练集,rank,循环次数iter,lambda) 那是怎么想到要这样设置的呢？那就要在了解算法的基础上来设置此参数； 1、训练集，数据格式：（用户id 物品id 评分(0-1) ） 2、rank，根据数据的分散情况测阅读全文

posted @ 2020-05-06 10:43 lshan 阅读(1111) 评论(0) 推荐(1) 编辑

随笔分类 - spark