摘要:
Interesting ReadingsBig Data Benchmark– Benchmark of Redshift, Hive, Shark, Impala and Stiger/Tez.NoSQL Comparison– Cassandra vs MongoDB vs CouchDB vs... 阅读全文
摘要:
转自http://www.dbafree.net/?p=36BloomFilter–大规模数据处理利器 Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。一.实例 为了说明... 阅读全文
摘要:
bash脚本中出现[[:not found错误的解决方法--bash脚本总结1今天在写脚本的时候,发生了一个奇怪的问题:在脚本中使用[[的时候报错“[[: not found”。遇到问题自然是解决问题。1. 使用的bash版本太低?bash --version查看bash版本信息如下lee@lee:... 阅读全文
摘要:
回到目录转自:http://www.cnblogs.com/hseagle/p/3673132.html概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕sp... 阅读全文
摘要:
回到目录转自http://www.cnblogs.com/hseagle/p/3673123.html概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装s... 阅读全文
摘要:
回到目录转自http://www.cnblogs.com/hseagle/p/3664933.html版本:未知楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源... 阅读全文
摘要:
回到目录转自:http://www.cnblogs.com/Scott007/p/3889959.html, 博客时间2014-08-05版本:未知1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Applic... 阅读全文
摘要:
回到目录Running Spark on YARNSupport for running onYARN (Hadoop NextGen)was added to Spark in version 0.6.0, and improved in subsequent releases.Preparati... 阅读全文
摘要:
回到目录Submitting ApplicationsThespark-submitscript in Spark’sbindirectory is used to launch applications on a cluster. It can use all of Spark’s support... 阅读全文
摘要:
回到目录Spark Programming GuideOverviewLinking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelized CollectionsExt... 阅读全文