随笔分类 -  Spark

大数据相关工具的使用
摘要:KMeans 阅读全文
posted @ 2022-04-06 18:05 木叶流云 阅读(455) 评论(0) 推荐(0)
摘要:pyspark计算余弦相似度可用于相似文章推荐 import findspark findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder. \ appName("mllib"). \ getOrCreate() sc 阅读全文
posted @ 2022-04-02 15:58 木叶流云 阅读(278) 评论(0) 推荐(0)
摘要:pyspark的排序rdd排序 阅读全文
posted @ 2021-11-12 11:17 木叶流云 阅读(1590) 评论(0) 推荐(0)
摘要:pyspark streaming一、一个例子 from pyspark import SparkContext from pyspark.streaming import StreamingContext # create sc with two working threads sc = SparkContext("local[2 阅读全文
posted @ 2021-10-21 18:40 木叶流云 阅读(411) 评论(0) 推荐(0)
摘要:pyspark连接kafka 阅读全文
posted @ 2021-08-24 11:50 木叶流云 阅读(3761) 评论(0) 推荐(1)
摘要:使用 saveAsTable() 阅读全文
posted @ 2021-07-13 17:52 木叶流云 阅读(4710) 评论(0) 推荐(2)
摘要:pyspark写入hive分区表 阅读全文
posted @ 2021-06-24 14:18 木叶流云 阅读(4513) 评论(0) 推荐(0)
摘要:pyspark使用udf 阅读全文
posted @ 2021-06-03 18:31 木叶流云 阅读(1468) 评论(0) 推荐(0)
摘要:pyspark错误记录 阅读全文
posted @ 2020-09-11 11:47 木叶流云 阅读(831) 评论(1) 推荐(0)
摘要:pyspark 阅读全文
posted @ 2020-08-20 16:22 木叶流云 阅读(952) 评论(0) 推荐(0)
摘要:kafak指令 阅读全文
posted @ 2020-08-04 09:28 木叶流云 阅读(875) 评论(0) 推荐(0)
摘要:spark为何要持久化rdd 阅读全文
posted @ 2020-07-31 10:10 木叶流云 阅读(996) 评论(0) 推荐(0)