上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页
摘要: 概述 降维是减少所考虑的变量的数量,它可以从原始和杂乱特征中提取潜在特征或者说价值更高的特征,能够在压缩数据的大小的时候尽量不影响算法的结果。 奇异分解(SVD) 给出一篇比较好的博客:https://www.cnblogs.com/pinard/p/6251584.html 在Spark mlli 阅读全文
posted @ 2023-02-13 22:38 青山新雨 阅读(12) 评论(0) 推荐(0) 编辑
摘要: TF-IDF TF-IDF的算法步骤: TF(词频)=\farc IDF(逆文档频率)=log(+1),分母加1是为了不让等于0. TF-IDF=TF*IDF 可以看出计算出的每个词的TF-IDF 阅读全文
posted @ 2023-02-13 22:38 青山新雨 阅读(11) 评论(0) 推荐(0) 编辑
摘要: FP-growth 可调参数: minSupport:被识别为频繁项集的最小支持度。例如,如果一个项目在 5 个事务中出现 3 个,则它的支持率为 3/5=0.6。 numPartitions: 用于分发工作的分区数。 阅读全文
posted @ 2023-02-13 22:38 青山新雨 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 分类与回归 | 问题类型 | 解决方法 | | | | | 二元分类 | 线性SVM,逻辑回归,决策树,随机森林,梯度提升树,朴素贝叶斯 | | 多元分类 | 逻辑回归,决策树,随机森林,朴素贝叶斯 | | 回归问题 | 线性最小二乘法,套索,岭回归,决策树,随机森林,梯度提升树,等渗回归 | 线性 阅读全文
posted @ 2023-02-13 22:35 青山新雨 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 概述 Spark MLlib分为基于RDD的API和基于**DataStream的API,**其中基于RDD的API是MLlib的主要API。数据类型 MLlib支持存储在一台机器上的本地向量和矩阵,以及由一个或多个 RDD 支持的分布式矩阵。本地向量和本地矩阵用于公共接口的简单数据。 本地矢量 M 阅读全文
posted @ 2023-02-13 22:35 青山新雨 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 将相同国家进行分组,然后将count相加sum(count), 对sum(count)进行排序,输出top5 val path="/Volumes/Data/BigData_code/data/flight-data/csv/2015-summary.csv" val data = spark.re 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 聚合操作 注意:任何的聚合操作都有默认的分组,聚合是在分组的基础上进行的。比如,对整体进行求和,那么分组就是整体。所以,在做聚合操作之前,一定要明确是在哪个分组上进行聚合操作 注意:聚合操作,本质上是一个多对一(一对一是多对一的特殊情况)的操作。特别注意的是这个’一‘,可以是一个值(mean, su 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(314) 评论(0) 推荐(0) 编辑
摘要: val path="/Volumes/Data/BigData_code/data/retail-data/by-day/2010-12-01.csv" spark.read.format("csv").option("header", "true").option("inferSchema", " 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 读时模式 val path="/Volumes/Data/BigData_code/data/" //读取json生成dataframe val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.jso 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 在聚合操作中,需要指定键或分组方式,以及指定如何转换一列或多列数据的聚合函数。s 除了处理任意类型的值之外,Spark还可以创建以下分组类型: * 最简单的分组通过在select语句中执行聚合来汇总整个DataFrame * “group by”指定一个或者多个key也可以指定一个或者多个聚合函数, 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(305) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页
more_horiz
keyboard_arrow_up light_mode palette
选择主题
点击右上角即可分享
微信分享提示