上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 34 下一页
摘要: Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51 yuerspring 阅读(135) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51 yuerspring 阅读(97) 评论(0) 推荐(0) 编辑
摘要: Kafka 是一个分布式的,高吞吐量,易于扩展地基于主题发布/订阅的消息系统,最早是由 Linkedin 开发,并于 2011 年开源并贡献给 Apache 软件基金会。一般来说,Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐... 阅读全文
posted @ 2016-10-10 12:49 yuerspring 阅读(116) 评论(0) 推荐(0) 编辑
摘要: Spark 应用程序在提交执行后,控制台会打印很多日志信息,这些信息看起来是杂乱无章的,但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的,这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念... 阅读全文
posted @ 2016-10-10 12:39 yuerspring 阅读(373) 评论(0) 推荐(0) 编辑
摘要: SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkCont... 阅读全文
posted @ 2016-10-10 12:38 yuerspring 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 本节内容简单介绍怎么在集群上运行spark 应用程序 1.spark 运行时架构在集群模式下 ,spark 是采用的主从结构,一个中央协调节点被称为驱动器driver ,多个工作节点被成为执行器 executor 。分别对应多个java 进程,,driver & e... 阅读全文
posted @ 2016-10-08 11:21 yuerspring 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 本文内容来自(Spark高级数据分析) 阅读全文
posted @ 2016-09-26 21:04 yuerspring 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 勾勒一幅图 阅读全文
posted @ 2016-09-24 21:40 yuerspring 阅读(267) 评论(0) 推荐(0) 编辑
摘要: Mysql 的读写分离 与 DB2 中不同数据库(同库中的不同表也可以使用replication)的replication 是异曲同工db2 示例 ODS -----> DWDW table 1 ------> DW table2Mysql 主从复制的几种方案从数... 阅读全文
posted @ 2016-09-24 21:31 yuerspring 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 有两个概念需要弄清楚:1 ROC2 AUCpackage org.apache.spark.mllib.classificationimport org.apache.log4j.Loggerimport org.apache.log4j.Levelimport or... 阅读全文
posted @ 2016-09-24 20:17 yuerspring 阅读(1118) 评论(0) 推荐(0) 编辑
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 34 下一页