摘要: 11.1 概述 MLlib的设计理念非常简单,把数据以RDD的形式表示,然后分布式数据集上调用各种算法。 需要注意的是,MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中,就是因为他们不嗯给你并行执行。相反地,一些较新的研究得出的算法因为适用于集群,也被包含在ML 阅读全文
posted @ 2017-01-26 16:42 cyoutetsu 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 许多应用需要即时处理收到的数据,Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 阅读全文
posted @ 2017-01-26 16:30 cyoutetsu 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 9.1 连接Spark SQL Apache Hive是Hadoop上SQL的引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。如果你不能引入Hive依赖,那就应该使用工件spark-sql-2.10来替代spark-hive-2.10。 9.2 在应用中使用Spark SQL 要以 阅读全文
posted @ 2017-01-26 16:24 cyoutetsu 阅读(450) 评论(0) 推荐(0) 编辑