摘要: SparkCore RDD基础 定义 ​ 在 Spark 的编程接口中,每一个数据集都被表示为一个对象,称为 RDD。RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称,是一个只读的(不可变的)、分区的(分布式的)、容错的、延迟计算的、类型推断的和可缓 阅读全文
posted @ 2023-07-28 00:29 ZeroZeroSeven 阅读(37) 评论(0) 推荐(0) 编辑
摘要: Scala基础篇 数据类型 下表中列出的数据类型都是对象,可以直接对它们调用方法。 数据类型 描述 Byte 8位有符号补码整数。数值区间为 -128 到 127 Short 16位有符号补码整数。数值区间为 -32768 到 32767 Int 32位有符号补码整数。数值区间为 -21474836 阅读全文
posted @ 2023-07-14 18:50 ZeroZeroSeven 阅读(75) 评论(0) 推荐(0) 编辑
摘要: # 决策树相关概念及简单实现 ​ 决策树是一种机器学习的方法。决策树的生成算法有ID3(信息增益), C4.5(信息增益率)和CART(Gini系数)等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。 ​ 构造树的基本想法 阅读全文
posted @ 2023-05-31 21:28 ZeroZeroSeven 阅读(103) 评论(0) 推荐(0) 编辑