1 2 3 4 5 ··· 24 下一页
摘要: 知识点: MLlib 组成:基础统计、分类、回归、聚类、协同过滤、特征工程 数据类型:Vector(稠密向量、稀疏向量)、LabeledPoint(带标签的数据) 特征工程基础:StringIndexer、OneHotEncoder、VectorAssembler 练习: 创建稠密向量和稀疏向量,构 阅读全文
posted @ 2026-02-05 12:06 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)
摘要: 知识点: 逻辑回归原理:二分类算法,基于线性回归的概率映射 MLlib 流水线(Pipeline):Pipeline、PipelineStage、Fit、Transform 模型评估:BinaryClassificationEvaluator(二分类评估) 练习: 用逻辑回归实现鸢尾花二分类,使用 阅读全文
posted @ 2026-02-05 12:06 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)
摘要: 知识点: GraphX 核心概念:顶点(Vertex)、边(Edge)、三元组(Triplet) 图的存储结构:顶点 RDD、边 RDD、三元组 RDD GraphX 与 Spark Core 的关系:基于 RDD 实现的图计算框架(Python 不支持,用 Scala 演示) 练习: 用 Scal 阅读全文
posted @ 2026-02-05 12:06 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)
摘要: 知识点: Spark SQL 与 Spark Core 的关系:基于 RDD 的高层 API DataFrame:带 Schema 的分布式数据集,类似关系型数据库表 DataSet:强类型的 DataFrame,仅支持 Scala/Java,Python 不支持 练习: 创建 DataFrame 阅读全文
posted @ 2026-01-24 09:51 再报错就堵桥0 阅读(4) 评论(0) 推荐(0)
摘要: 知识点: 数据查询:select、filter、where、orderBy 数据聚合:groupBy、agg、count、sum、avg 数据修改:withColumn、drop、rename 练习: 实现 DataFrame 版词频统计: df = spark.read.text("test.tx 阅读全文
posted @ 2026-01-24 09:51 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
摘要: 知识点: 临时视图:createOrReplaceTempView(会话级)、createGlobalTempView(全局级) Spark SQL 执行:spark.sql()方法执行标准 SQL 语句 视图与表的区别:临时视图仅存在于当前 SparkSession,表持久化到元数据 用 SQL 阅读全文
posted @ 2026-01-24 09:51 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 知识点: 实时计算概念:批处理 vs 流处理,微批处理模型(Spark Streaming 的核心) DStream:离散流,本质是一系列连续的 RDD Spark Streaming 与 Spark Core 的关系:复用 Spark Core 的调度引擎 练习: 搭建本地实时流环境,实现单词实时 阅读全文
posted @ 2026-01-24 09:51 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
摘要: 知识点: DStream 转换算子:与 RDD 算子类似,支持map、filter、reduceByKey等 有状态转换算子:updateStateByKey(维护全局状态)、window(窗口计算) DStream 行动算子:pprint、saveAsTextFiles、foreachRDD 练习 阅读全文
posted @ 2026-01-24 09:51 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
摘要: 知识点: 基础行动算子:count、collect、first、take、foreach 聚合行动算子:reduce、fold、aggregate 持久化行动算子:saveAsTextFile、saveAsSequenceFile 聚合算子对比练习: rdd = spark.sparkContext 阅读全文
posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(3) 评论(0) 推荐(0)
摘要: 知识点: 持久化原因:避免重复计算,提升性能 持久化级别:MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等 缓存与检查点:cache() vs checkpoint() 持久化代码实现与性能对比: from pyspark import StorageLevel rdd 阅读全文
posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(2) 评论(0) 推荐(0)
1 2 3 4 5 ··· 24 下一页