随笔分类 -  Spark

大数据相关工具的使用
摘要:KMeans 阅读全文
posted @ 2022-04-06 18:05 木叶流云 阅读(422) 评论(0) 推荐(0) 编辑
摘要:pyspark计算余弦相似度可用于相似文章推荐 import findspark findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder. \ appName("mllib"). \ getOrCreate() sc 阅读全文
posted @ 2022-04-02 15:58 木叶流云 阅读(249) 评论(0) 推荐(0) 编辑
摘要:pyspark的排序rdd排序 阅读全文
posted @ 2021-11-12 11:17 木叶流云 阅读(1518) 评论(0) 推荐(0) 编辑
摘要:pyspark streaming一、一个例子 from pyspark import SparkContext from pyspark.streaming import StreamingContext # create sc with two working threads sc = SparkContext("local[2 阅读全文
posted @ 2021-10-21 18:40 木叶流云 阅读(374) 评论(0) 推荐(0) 编辑
摘要:pyspark连接kafka 阅读全文
posted @ 2021-08-24 11:50 木叶流云 阅读(3588) 评论(0) 推荐(1) 编辑
摘要:使用 saveAsTable() 阅读全文
posted @ 2021-07-13 17:52 木叶流云 阅读(4476) 评论(0) 推荐(2) 编辑
摘要:pyspark写入hive分区表 阅读全文
posted @ 2021-06-24 14:18 木叶流云 阅读(4336) 评论(0) 推荐(0) 编辑
摘要:pyspark使用udf 阅读全文
posted @ 2021-06-03 18:31 木叶流云 阅读(1412) 评论(0) 推荐(0) 编辑
摘要:pyspark错误记录 阅读全文
posted @ 2020-09-11 11:47 木叶流云 阅读(789) 评论(1) 推荐(0) 编辑
摘要:pyspark 阅读全文
posted @ 2020-08-20 16:22 木叶流云 阅读(891) 评论(0) 推荐(0) 编辑
摘要:kafak指令 阅读全文
posted @ 2020-08-04 09:28 木叶流云 阅读(828) 评论(0) 推荐(0) 编辑
摘要:spark为何要持久化rdd 阅读全文
posted @ 2020-07-31 10:10 木叶流云 阅读(967) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示