11 2019 档案

摘要:一.相关性分析 1.简介 计算两个系列数据之间的相关性是统计中的常见操作。在spark.ml中提供了很多算法用来计算两两的相关性。目前支持的相关性算法是Pearson和Spearman。Correlation使用指定的方法计算输入数据集的相关矩阵。输出是一个DataFrame,其中包含向量列的相关矩 阅读全文
posted @ 2019-11-29 15:09 云山之巅 阅读(2824) 评论(0) 推荐(0) 编辑
摘要:一.分区策略 GraphX采用顶点分割的方式进行分布式图分区。GraphX不会沿着边划分图形,而是沿着顶点划分图形,这可以减少通信和存储的开销。从逻辑上讲,这对应于为机器分配边并允许顶点跨越多台机器。分配边的方法取决于分区策略PartitionStrategy并且对各种启发式方法进行了一些折中。用户 阅读全文
posted @ 2019-11-27 16:09 云山之巅 阅读(2016) 评论(0) 推荐(0) 编辑
摘要:一.算法 非形式地说,算法【algorithm】就是任何定义的计算过程,该过程取某个值或值的集合作为输入并产生某个值或值的集合作为输出。这样算法就是把输入转换成输出的计算步骤的一个序列。 我们也可以把算法看成是用于求解计算问题的工具。一般来说,问题陈述说明了期望的输入/输出关系。算法则描述一个特定的 阅读全文
posted @ 2019-11-23 21:31 云山之巅 阅读(1654) 评论(0) 推荐(0) 编辑
摘要:一.概述 在许多数据中,都存在类别的数据,在一些功能中需要根据类别分别获取前几或后几的数据,用于数据可视化或异常数据预警。在这种情况下,实现分组TopN就显得非常重要了,因此,使用了Spark聚合函数和排序算法实现了分布式TopN计算功能。 二.代码实现 1 package scala 2 3 im 阅读全文
posted @ 2019-11-20 19:22 云山之巅 阅读(2993) 评论(0) 推荐(0) 编辑
摘要:一.案例SparkPi代码 1 package scala 2 3 import org.apache.spark.sql.SparkSession 4 5 import scala.math.random 6 7 /** Computes an approximation to pi */ 8 o 阅读全文
posted @ 2019-11-11 15:48 云山之巅 阅读(561) 评论(0) 推荐(0) 编辑
摘要:一.图构建器 GraphX提供了几种从RDD或磁盘上的顶点和边的集合构建图形的方法。默认情况下,没有图构建器会重新划分图的边;相反,边保留在默认分区中。Graph.groupEdges要求对图进行重新分区,因为它假定相同的边将在同一分区上放置,因此在调用Graph.partitionBy之前必须要调 阅读全文
posted @ 2019-11-08 20:40 云山之巅 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:一.概述 强化学习是根据奖励信号以改进策略的机器学习方法。策略和奖励是强化学习的核心元素。强化学习试图找到最大化总奖励的策略。强化学习不是监督学习,因为强化学习的学习过程中没有参考答案;强化学习也不是非监督学习,因为强化学习需要利用奖励信号来学习。 强化学习任务常用“智能体/环境”接口建模。学习和决 阅读全文
posted @ 2019-11-06 17:12 云山之巅 阅读(3940) 评论(0) 推荐(0) 编辑
摘要:一.缓存原理 缓存,带来急速性能体验! Solr提供了一系列的内置缓存来优化查询性能。Solr的缓存原理主要涉及以下4个方面: 1.缓存大小及缓存置换法 从缓存大小的角度来看,不能将缓存设置的太大,否则它会消耗JVM大量的内存。Solr能将所有的缓存对象都保存到内存中,不会溢写到磁盘中。为了控制缓存 阅读全文
posted @ 2019-11-01 22:00 云山之巅 阅读(1123) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示