摘要: Flume与Kafka Flume 是一个分布式,可靠的,可用的服务,有效的收集,聚合和移动海量的日志数据。它有一个简单而灵活的架构,基于流数据流。具有很好的冗余和容错性,以及可靠性和多故障转移和恢复机制。它使用一个简单的可扩展数据模型,并允许在线分析应用。简单的认为Flume是一个收集日志数据的服 阅读全文
posted @ 2016-07-29 11:39 木石头 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 转自 http://www.cnblogs.com/rollenholt/p/4112833.html Scala 允许你指明函数的最后一个参数可以是重复的。这可以允许客户向函数传入可变长度参数列表。想要标注一个重复参数,在参数的类型之后放一个星号。例如: 这样定义, echo 可以被零个至多个 S 阅读全文
posted @ 2016-07-27 17:23 木石头 阅读(5205) 评论(0) 推荐(1) 编辑
摘要: 我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer,之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中,通常并不希望另外起一个服务进程,自然就要问:可以在Spark dirver program里启一 阅读全文
posted @ 2016-07-12 17:49 木石头 阅读(2951) 评论(0) 推荐(0) 编辑
摘要: Spark是基于内存的计算模型,但是当compute chain非常长或者某个计算代价非常大时,能将某些计算的结果进行缓存就显得很方便了。Spark提供了两种缓存的方法 Cache 和 checkPoint。本章只关注 Cache (基于spark-core_2.10),在后续的章节中会提到 che 阅读全文
posted @ 2016-07-07 17:28 木石头 阅读(6486) 评论(0) 推荐(0) 编辑
摘要: 避免null使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”,在Java,它是null。在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人疑惑的选择。为什么要在程序员希望返回一个对象的时候返回一个关键字呢? 阅读全文
posted @ 2016-07-07 09:45 木石头 阅读(11056) 评论(1) 推荐(0) 编辑
摘要: Spark中一个action触发一个job的执行,在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析,生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认,即生成相应的Task,将生成的Task 阅读全文
posted @ 2016-03-16 17:55 木石头 阅读(543) 评论(0) 推荐(0) 编辑
摘要: Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输, 阅读全文
posted @ 2016-03-16 17:41 木石头 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 一、在jetty中部署web应用 Jetty 和 Tomcat 一样都是一个web server的container, 用户可以在里面 deploy 自己的 war 包,然后启动 Jetty, 进而通过浏览器去访问你的 web content. 从jetty官网下载jetty 9的压缩包,并解压到本 阅读全文
posted @ 2016-03-10 17:54 木石头 阅读(2885) 评论(0) 推荐(0) 编辑
摘要: From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/how_many_partitions_does_an_rdd_have.html For tun 阅读全文
posted @ 2016-02-17 16:22 木石头 阅读(423) 评论(0) 推荐(0) 编辑
摘要: fold and reduce both aggregate over a collection by implementing an operation you specify, the major different is the starting point of the aggregatio 阅读全文
posted @ 2016-02-17 16:19 木石头 阅读(571) 评论(0) 推荐(0) 编辑