njuzhoubing - 博客园

2015年1月

摘要： Interesting ReadingsBig Data Benchmark– Benchmark of Redshift, Hive, Shark, Impala and Stiger/Tez.NoSQL Comparison– Cassandra vs MongoDB vs CouchDB vs... 阅读全文

posted @ 2015-01-04 09:49 njuzhoubing 阅读(528) 评论(0) 推荐(0) 编辑

2014年12月

Bloom Filter 实例

摘要：转自http://www.dbafree.net/?p=36BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一.实例为了说明... 阅读全文

posted @ 2014-12-30 14:32 njuzhoubing 阅读(191) 评论(0) 推荐(0) 编辑

bash脚本中出现[[:not found错误的解决方法

摘要： bash脚本中出现[[:not found错误的解决方法--bash脚本总结1今天在写脚本的时候，发生了一个奇怪的问题：在脚本中使用[[的时候报错“[[: not found”。遇到问题自然是解决问题。1. 使用的bash版本太低？bash --version查看bash版本信息如下lee@lee:... 阅读全文

posted @ 2014-12-26 10:32 njuzhoubing 阅读(3294) 评论(0) 推荐(0) 编辑

Apache Spark源码走读之3 -- Task运行期之函数调用关系分析

摘要：回到目录转自：http://www.cnblogs.com/hseagle/p/3673132.html概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的，另外试图讲清楚运行着的task其输入的数据从哪获取，处理的结果返回到哪里，如何返回。准备spark已经安装完毕sp... 阅读全文

posted @ 2014-12-18 13:40 njuzhoubing 阅读(235) 评论(0) 推荐(0) 编辑

Apache Spark源码走读之2 -- Job的提交与运行

摘要：回到目录转自http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例，详细说明spark创建和运行job的过程，重点是在进程及线程的创建。实验环境搭建在进行后续操作前，确保下列条件已满足。下载spark binary 0.9.1安装s... 阅读全文

posted @ 2014-12-18 13:24 njuzhoubing 阅读(178) 评论(0) 推荐(0) 编辑

Apache Spark源码走读之1 -- Spark论文阅读笔记

摘要：回到目录转自http://www.cnblogs.com/hseagle/p/3664933.html版本：未知楔子源码阅读是一件非常容易的事，也是一件非常难的事。容易的是代码就在那里，一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计，设计之初要解决的主要问题是什么。在对Spark的源... 阅读全文

posted @ 2014-12-18 12:47 njuzhoubing 阅读(120) 评论(0) 推荐(0) 编辑

Spark 常见问题汇总-1

摘要：回到目录转自:http://www.cnblogs.com/Scott007/p/3889959.html, 博客时间2014-08-05版本：未知1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Applic... 阅读全文

posted @ 2014-12-18 11:28 njuzhoubing 阅读(1646) 评论(0) 推荐(0) 编辑

Spark 1.1.1 Running On Yarn

摘要：回到目录Running Spark on YARNSupport for running onYARN (Hadoop NextGen)was added to Spark in version 0.6.0, and improved in subsequent releases.Preparati... 阅读全文

posted @ 2014-12-18 09:19 njuzhoubing 阅读(493) 评论(0) 推荐(0) 编辑

Spark 1.1.1 Submitting Applications

摘要：回到目录Submitting ApplicationsThespark-submitscript in Spark’sbindirectory is used to launch applications on a cluster. It can use all of Spark’s support... 阅读全文

posted @ 2014-12-18 09:17 njuzhoubing 阅读(220) 评论(0) 推荐(0) 编辑

Spark 1.1.1 Programing Guide

摘要：回到目录Spark Programming GuideOverviewLinking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelized CollectionsExt... 阅读全文

posted @ 2014-12-17 17:04 njuzhoubing 阅读(313) 评论(0) 推荐(0) 编辑

公告