2017 年 1月 26 日随笔档案 - cyoutetsu

2017年1月26日

摘要： 11.1 概述 MLlib的设计理念非常简单，把数据以RDD的形式表示，然后分布式数据集上调用各种算法。需要注意的是，MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中，就是因为他们不嗯给你并行执行。相反地，一些较新的研究得出的算法因为适用于集群，也被包含在ML 阅读全文

posted @ 2017-01-26 16:42 cyoutetsu 阅读(179) 评论(0) 推荐(0) 编辑

（10）Spark Streaming

摘要：许多应用需要即时处理收到的数据，Spark Streaming是Spark为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的API来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。阅读全文

posted @ 2017-01-26 16:30 cyoutetsu 阅读(131) 评论(0) 推荐(0) 编辑

（9）Spark SQL

摘要： 9.1 连接Spark SQL Apache Hive是Hadoop上SQL的引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。如果你不能引入Hive依赖，那就应该使用工件spark-sql-2.10来替代spark-hive-2.10。 9.2 在应用中使用Spark SQL 要以阅读全文

posted @ 2017-01-26 16:24 cyoutetsu 阅读(450) 评论(0) 推荐(0) 编辑

cyoutetsu

公告