随笔 - 835  文章 - 1 评论 - 40 阅读 - 102万
< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

随笔分类 -  spark

sparkStreming kafka offset 管理
摘要:Direct Approach (No Receivers) 简化的并行性:不需要创建多个输入Kafka流并将其合并。 使用directStream,Spark Streaming将创建 与使用Kafka分区一样多的RDD分区,这些分区将全部从Kafka并行读取数据。 所以在Kafka和RDD分 区 阅读全文
posted @ 2020-11-17 12:37 lshan 阅读(178) 评论(0) 推荐(0) 编辑
spark hive 小结
摘要:依赖: <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2. 阅读全文
posted @ 2020-11-12 15:25 lshan 阅读(661) 评论(0) 推荐(0) 编辑
spark 通过隐式值排序 Ordering.on &元组的封装
摘要:方式1 :隐式值 (remark:隐式 调用 顺序 隐式Object > 隐式值> 隐式函数> 隐式方法) def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").se 阅读全文
posted @ 2020-11-06 15:28 lshan 阅读(215) 评论(0) 推荐(0) 编辑
spark 集群(standaloane)
该文被密码保护。
posted @ 2020-10-15 12:03 lshan 阅读(0) 评论(0) 推荐(0) 编辑
spark-mongo (3 数据读写)
该文被密码保护。
posted @ 2020-09-08 17:25 lshan 阅读(0) 评论(0) 推荐(0) 编辑
spark-monog(2 数据读写)
摘要:原文:https://blog.csdn.net/u011098327/article/details/72865934 依赖: <dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2 阅读全文
posted @ 2020-09-08 12:04 lshan 阅读(318) 评论(0) 推荐(0) 编辑
spark-mongo(1 读写数据)
摘要:参考链接 MongoDB Connector for Spark官方文档 Mongo Spark 源码 原文:https://www.jianshu.com/p/dbac491317cc 场景:适用于数据清洗,如只需要部分字段: 依赖: <dependency> <groupId>org.mongo 阅读全文
posted @ 2020-09-08 11:48 lshan 阅读(837) 评论(2) 推荐(0) 编辑
spark 调优 多线程并行处理任务
摘要:方式1: 1. 明确 Spark中Job 与 Streaming中 Job 的区别1.1 Spark Core一个 RDD DAG Graph 可以生成一个或多个 Job(Action操作)一个Job可以认为就是会最终输出一个结果RDD的一条由RDD组织而成的计算Job在spark里应用里是一个被调 阅读全文
posted @ 2020-07-21 16:57 lshan 阅读(3699) 评论(0) 推荐(0) 编辑
sparkStreaming Windows 函数
摘要:原文: https://blog.csdn.net/MyronCham/article/details/85706089 参考上文即可! 案例一: reduceByKeyAndWindow // 热点搜索词滑动统计,每隔10秒钟,统计最近60秒钟的搜索词的搜索频次,并打印出排名最靠前的3个搜索词以及 阅读全文
posted @ 2020-07-20 18:16 lshan 阅读(521) 评论(0) 推荐(0) 编辑
spark sql
摘要:入门与使用参考这一片文档即可: https://www.cnblogs.com/takemybreathaway/articles/10172339.html 方法(sql使我们定义的sql = new SQLContext(sc)) df是一个DataFrame对象 实例说明 sql.read.t 阅读全文
posted @ 2020-07-15 16:27 lshan 阅读(272) 评论(0) 推荐(0) 编辑
SaprkApi常用案例
摘要:原文请参考:https://blog.csdn.net/youbitch1/java/article/details/88581251 aggregate: https://blog.csdn.net/bitcarmanlee/article/details/78088304 原理: 源码 : de 阅读全文
posted @ 2020-07-02 18:29 lshan 阅读(138) 评论(0) 推荐(0) 编辑
spark streaming   (wordcount)
该文被密码保护。
posted @ 2020-07-02 12:45 lshan 阅读(1) 评论(0) 推荐(0) 编辑
Spark Java学习小结(一)
摘要:参考:https://blog.csdn.net/hellozhxy/article/details/80523499?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecas 阅读全文
posted @ 2020-05-09 22:53 lshan 阅读(467) 评论(0) 推荐(0) 编辑
spark streaming 整和kafka (java)
该文被密码保护。
posted @ 2020-05-08 16:55 lshan 阅读(6) 评论(0) 推荐(0) 编辑
spark sql and df (join ) (java)
该文被密码保护。
posted @ 2020-05-08 01:50 lshan 阅读(0) 评论(0) 推荐(0) 编辑
Spark MySQL使用 (java&scala) 大表问题
摘要:如果是大表, 会出现OOM 原本是这样,直接写Table名称,就会读整张Table .option("dbtable", "test_table")可以改写成:.option("dbtable", "(select * from test_table where dt >= '2017-05-01' 阅读全文
posted @ 2020-05-07 23:39 lshan 阅读(826) 评论(0) 推荐(0) 编辑
sprongboot 解决spark报错:Failed to locate the winutils binary in the hadoop binary path
摘要:1.下载hadoop-common-2.2.0-bin并解压到某个目录 https://github.com/srccodes/hadoop-common-2.2.0-bin 2.设置hadoop.home.dir System.setProperty("hadoop.home.dir", "D:\ 阅读全文
posted @ 2020-05-07 21:26 lshan 阅读(313) 评论(0) 推荐(0) 编辑
springboot 整合spark
摘要:参考:https://my.oschina.net/woter/blog/1843755 依赖: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instan 阅读全文
posted @ 2020-05-07 13:38 lshan 阅读(4744) 评论(1) 推荐(0) 编辑
spark ALS算法
摘要:ALS算法参数: // ALS关键代码 val model =ALS.train(训练集,rank,循环次数iter,lambda) 那是怎么想到要这样设置的呢?那就要在了解算法的基础上来设置此参数; 1、训练集,数据格式:(用户id 物品id 评分(0-1) ) 2、rank,根据数据的分散情况测 阅读全文
posted @ 2020-05-06 10:43 lshan 阅读(1111) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示