Loading

上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页
摘要: TF-IDF TF-IDF的算法步骤: TF(词频)=$\farc{某个词在该文章出现的次数}{该文章的总词数}$ IDF(逆文档频率)=$log(\frac{语料库的文档总数}{包含该词的文档数+1})$,分母加1是为了不让等于0. TF-IDF=TF*IDF 可以看出计算出的每个词的TF-IDF 阅读全文
posted @ 2023-02-13 22:38 青山新雨 阅读(7) 评论(0) 推荐(0) 编辑
摘要: FP-growth 可调参数: minSupport:被识别为频繁项集的最小支持度。例如,如果一个项目在 5 个事务中出现 3 个,则它的支持率为 3/5=0.6。 numPartitions: 用于分发工作的分区数。 阅读全文
posted @ 2023-02-13 22:38 青山新雨 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 分类与回归 | 问题类型 | 解决方法 | | | | | 二元分类 | 线性SVM,逻辑回归,决策树,随机森林,梯度提升树,朴素贝叶斯 | | 多元分类 | 逻辑回归,决策树,随机森林,朴素贝叶斯 | | 回归问题 | 线性最小二乘法,套索,岭回归,决策树,随机森林,梯度提升树,等渗回归 | 线性 阅读全文
posted @ 2023-02-13 22:35 青山新雨 阅读(52) 评论(0) 推荐(0) 编辑
摘要: 概述 Spark MLlib分为基于RDD的API和基于**DataStream的API,**其中基于RDD的API是MLlib的主要API。数据类型 MLlib支持存储在一台机器上的本地向量和矩阵,以及由一个或多个 RDD 支持的分布式矩阵。本地向量和本地矩阵用于公共接口的简单数据。 本地矢量 M 阅读全文
posted @ 2023-02-13 22:35 青山新雨 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 将相同国家进行分组,然后将count相加sum(count), 对sum(count)进行排序,输出top5 val path="/Volumes/Data/BigData_code/data/flight-data/csv/2015-summary.csv" val data = spark.re 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 聚合操作 注意:任何的聚合操作都有默认的分组,聚合是在分组的基础上进行的。比如,对整体进行求和,那么分组就是整体。所以,在做聚合操作之前,一定要明确是在哪个分组上进行聚合操作 注意:聚合操作,本质上是一个多对一(一对一是多对一的特殊情况)的操作。特别注意的是这个’一‘,可以是一个值(mean, su 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(283) 评论(0) 推荐(0) 编辑
摘要: val path="/Volumes/Data/BigData_code/data/retail-data/by-day/2010-12-01.csv" spark.read.format("csv").option("header", "true").option("inferSchema", " 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 读时模式 val path="/Volumes/Data/BigData_code/data/" //读取json生成dataframe val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.jso 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 在聚合操作中,需要指定键或分组方式,以及指定如何转换一列或多列数据的聚合函数。s 除了处理任意类型的值之外,Spark还可以创建以下分组类型: * 最简单的分组通过在select语句中执行聚合来汇总整个DataFrame * “group by”指定一个或者多个key也可以指定一个或者多个聚合函数, 阅读全文
posted @ 2023-02-13 22:33 青山新雨 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 1.计算图的概念: 计算图:输入和计算函数都以节点的形式出现,而节点的输出项之间的关系以有向线段表示所构成的计算图形。 如:向量a, b 相加: 2. 计算图的使用: 注意:Tensorflow程序一般分两步:定义计算图中所有计算;执行计算 在tensorflow代码执行的时候,tensorflow 阅读全文
posted @ 2023-02-13 22:30 青山新雨 阅读(175) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 31 下一页