摘要: 概要 为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题, 我们提出了 RDDs 的概念. 当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是 RDDs 的提出的动机. 如果能将数据保存在内存中, 将会使的上面两种场景的性能提高一个数量级. 为了能达到高效的容错, RDDs 提供了一种受限制的共享内存的方式, 这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状态. 然而, 我们分析表明 RDDs 可以表达出很多种类的计算, 包括目前专门从事迭代任务的编程计算模型, 比如 Pregel, 当然也可以表达出目前模型表达不出的计算. 我们通过 Spark 系统来实现了 RDDs, 并且通过各种各样的用户应用和测试来评估了这个系统. 阅读全文
posted @ 2017-09-20 21:26 片刻 阅读(626) 评论(2) 推荐(0) 编辑
摘要: 快速入门 使用 Spark Shell 进行交互式分析 基础 Dataset 上的更多操作 缓存 独立的应用 快速跳转 本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scala 和 Python 来编写应用程序。 为了继续阅读本指南, 首先从 Spark 官网 下载 Spark 的发行包。因为我们将不使用 HDFS, 所以你可以下载一个任何 Hadoop 版本的软件包。 请注意, 在 Spark 2.0 之前, Spark 的主要编程接口是弹性分布式数据集(RDD)。 在 Spark 2.0 之后, RDD 被 Dataset 替换, 它是像RDD 一样的 strongly-typed(强类型), 但是在引擎盖下更加优化。 RDD 接口仍然受支持, 您可以在 RDD 编程指南 中获得更完整的参考。 但是, 我们强烈建议您切换到使用 Dataset(数据集), 其性能要更优于 RDD。 请参阅 SQL 编程指南 获取更多 阅读全文
posted @ 2017-09-20 13:43 片刻 阅读(429) 评论(0) 推荐(0) 编辑
摘要: Spark 概述 Apache Spark 是一个快速的, 多用途的集群计算系统。 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及 Spark Streaming。 阅读全文
posted @ 2017-09-20 13:42 片刻 阅读(302) 评论(0) 推荐(0) 编辑
摘要: Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 官方文档: http://storm.apache.org 中文文档: http://storm.apachecn.org ApacheCN 最近组织了翻译 Storm 1.1.0 中文文档 的活动,整体 翻译进度 为 96%. 感谢大家参与到该活动中来 感谢无私奉献的 贡献者,才有了这份 Storm 1.1.0 中文文档 感谢一路有你的陪伴,我们才可以做的更好,走的更快,走的更远,我们一直在努力 。。。 网页地址: http://storm.apachecn.org/releases/cn/1.1.0/ github: https://github.com/apachecn/storm-doc-zh 如果您有任何意见建议,问题反馈,或者也想参与该翻译,或者想成为该项目的负责人,麻烦联系企鹅: 1042658081 技术交流企鹅群: 214293307 阅读全文
posted @ 2017-09-20 12:32 片刻 阅读(483) 评论(0) 推荐(0) 编辑
摘要: KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法主要是用来进行分类的. 阅读全文
posted @ 2017-09-20 12:21 片刻 阅读(902) 评论(0) 推荐(1) 编辑
摘要: 机器学习 概述 机器学习就是把无序的数据转换成有用的信息。 获取海量的数据 从海量数据中获取有用的信息 我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义。 阅读全文
posted @ 2017-09-20 12:16 片刻 阅读(404) 评论(0) 推荐(0) 编辑
摘要: MachineLearning 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远 ApacheCN - 学习机器学习群【629470233】 Machine Learning in Action (机器学习实战) | ApacheCN(apache中文网) 电子版书籍:【机器学习实 阅读全文
posted @ 2017-09-20 12:10 片刻 阅读(585) 评论(0) 推荐(0) 编辑