上一页 1 2 3 4 5 6 ··· 11 下一页
摘要: 本文翻译之cloudera的博客,本系列有两篇,第二篇看心情了 概论 当我们理解了transformation,action和rdd后,我们就可以写一些基础的spark的应用了,但是如果需要对应用进行调优就需要了解spark的底层执行模型,理解job,stage,task等概念。 本文你将会了解sp 阅读全文
posted @ 2015-12-13 19:12 高兴的博客 阅读(3691) 评论(1) 推荐(0) 编辑
摘要: 本文转之Pivotal的一个工程师的博客。觉得极好。 作者本人经常在StackOverflow上回答一个关系Spark架构的问题,发现整个互联网都没有一篇文章能对Spark总体架构进行很好的描述,作者可怜我们这些菜鸟,写了这篇文章,太感动了。本文读者需要一定的Spark的基础知识,至少了解Spark 阅读全文
posted @ 2015-12-12 20:49 高兴的博客 阅读(15485) 评论(2) 推荐(1) 编辑
摘要: hadoop2.2的分布式环境需要配置的参数更多。但是需要安装的系统软件和单节点环境是一样的。 运行hadoop在非安全环境 hadoop的配置文件有两类: 1:只读的默认配置文件: core-default.xml,hdfs-default.xml,yarn-default.xml mapred- 阅读全文
posted @ 2015-11-27 16:56 高兴的博客 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 异步操作的有两个经典接口:Future和Promise,其中的 Future 表示一个可能还没有实际完成的异步任务的结果,针对这个结果可以添加 Callback 以便在任务执行成功或失败后做出对应的操作,而 Promise 交由任务执行者,任务执行者通过 Promise 可以标记任务完成或者失败。 阅读全文
posted @ 2015-11-22 22:01 高兴的博客 阅读(7031) 评论(0) 推荐(0) 编辑
摘要: TransportContext用来创建TransportServer和TransportclientFactory,同时使用TransportChannelHandler用来配置channel的pipelines,TransportClient提供了两种传输协议,一个是数据层(fetch chun 阅读全文
posted @ 2015-11-22 13:17 高兴的博客 阅读(629) 评论(0) 推荐(0) 编辑
摘要: spark将在1.6中替换掉akka,而采用netty实现整个集群的rpc的框架,netty的内存管理和NIO支持将有效的提高spark集群的网络传输能力,为了看懂这块代码,在网上找了两本书看《netty in action》和《netty权威指南》,结合了spark的源码既学习了netty也看完了 阅读全文
posted @ 2015-11-22 12:09 高兴的博客 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 在上节的解读中发现spark的源码中大量使用netty的buffer部分的api,该节将看到netty核心的一些api,比如channel: 在Netty里,Channel是通讯的载体(网络套接字或组件的连接),而ChannelHandler负责Channel中的逻辑处理,channel支持读,写, 阅读全文
posted @ 2015-11-22 12:09 高兴的博客 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 最近给客户做POC,为了测试大数据的框架的一个并发能力,使用loadrunner进行相关的测试,目前发现几个要注意的地方 1: loadrunner的Java脚本必须使用jdk1.6的32位版本 2:loadrunner的java vuser只能运行在windows操作系统上 3:loadrunne 阅读全文
posted @ 2015-11-17 20:33 高兴的博客 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 非常怀恋eclipse的的代码快捷方式tryc,今天给IDEA也添加了一个 阅读全文
posted @ 2015-11-06 22:35 高兴的博客 阅读(1039) 评论(0) 推荐(0) 编辑
摘要: JDK里面有TimeUnit,看spark源码有个ByteUnit。这个类还是挺不错的。 阅读全文
posted @ 2015-11-06 10:20 高兴的博客 阅读(437) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页