摘要: SparkR 是一个 R package, 它提供了一个轻量级的前端以从 R 中使用 Apache Spark. 在 Spark 2.2.0 中, SparkR 提供了一个分布式的 data frame, 它实现了像 selection, filtering, aggregation etc 一系列所支持的操作.(dplyr 与 R data frames 相似) ), 除了可用于海量数据上之外. SparkR 还支持使用 MLlib 来进行分布式的 machine learning(机器学习). 阅读全文
posted @ 2017-09-26 12:43 片刻 阅读(394) 评论(0) 推荐(0) 编辑
摘要: GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上, GraphX 通过引入一个新的图形抽象来扩展 Spark RDD :一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图形计算,GraphX 公开了一组基本运算符(例如: subgraph ,joinVertices 和 aggregateMessages)以及 Pregel API 的优化变体。此外,GraphX 还包括越来越多的图形算法 和 构建器,以简化图形分析任务。 阅读全文
posted @ 2017-09-26 12:38 片刻 阅读(553) 评论(0) 推荐(0) 编辑
摘要: 命令如下:git clone -b [remote repository address]主要就是在clone的时候,后面添加branch的信息。报错:> git clone -b jiangzhonglian https://github.com/p1cn/putong-recommendation-offline.gitInitialized empty Git repository in ... 阅读全文
posted @ 2017-09-26 10:34 片刻 阅读(276) 评论(0) 推荐(0) 编辑