摘要: 添加 GNOME 3 PPA(Personal Package Archives)我们先给Ubuntu的Software Sources增加GNOME 3 PPA。这可以不用命令行就做到,但出于简单化的目的,这么做要容易的多。打开一个新的Terminal 窗口,仔细输入下面的命令。sudo add-apt-repository ppa:gnome3-team/gnome3升级或安装 GNOME Shell在PPA添加以后,现在你需要根据你安装的东西做两个步骤中的一个。如果你没有安装GNOME Shell,那么在一个新的终端程序中执行下面的命令,在提示的地方输入你的密码:sudo apt-get 阅读全文
posted @ 2013-10-02 14:24 vincent_hv 阅读(2083) 评论(1) 推荐(0) 编辑
摘要: 安装包dpkg -i package.deb sudo apt-get install package 安装包sudo apt-get install package - - reinstall 重新安装包sudo apt-get -f install 修复安装"-f = ——fix-missing"显示该包的版本、安装信息等 dpkg -l package dpkg -s package (详细)apt-cache show package 获取包的相关信息,如说明、大小、版本等搜索特定的包apt-cache search package 列出当前所有已安装的包dpkg 阅读全文
posted @ 2013-10-02 14:15 vincent_hv 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 想把中文Ubuntu主目录下的文档文件夹改回英文,在Terminal下面操作的时候要输入中文特别不方便,于是便用了更改名字的想法方法一:首先把那几个中文名称修改成相应的英文,比如Desktop、 Documents、 Music、 Pictures、 Videos ……然后编辑配置文件:gedit ~/.config/user-dirs.dirs把文件夹指向改掉,例如:XDG_DESKTOP_DIR="$HOME/Desktop"XDG_DOWNLOAD_DIR="$HOME/Desktop"XDG_TEMPLATES_DIR="$HOME/T 阅读全文
posted @ 2013-10-01 23:36 vincent_hv 阅读(5233) 评论(2) 推荐(2) 编辑
摘要: 本文只针对含有AMD双显卡的部分机型,已经测试过的包括DELL Vostro 3550/DELL Inspiron 14R(AMD 6630 和 Intel HD 3000)。整个安装过程需要使用命令行,但是对于一个初学者来说依然很简单,你只需要将命令粘贴进命令行,并记得按。 Linux版本为Ubuntu12.04,同时本人也尝试过12.10,不过由于驱动和X的兼容性有问题,最终放弃了12.10。详细方式参见http://wiki.cchtml.com/i...Catalyst一、 卸载和删除原有驱动sudo sh /usr/share/ati/fglrx-uninstall.shsudo a 阅读全文
posted @ 2013-09-30 16:35 vincent_hv 阅读(4665) 评论(1) 推荐(1) 编辑
摘要: 原文地址:http://www.cnblogs.com/jerrylead/archive/2012/08/13/2636149.html基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 (1亿9千万个三维点)Capacity10GBHDFS Location/user/LijieXu/K 阅读全文
posted @ 2013-09-27 16:08 vincent_hv 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://spark.incubator.apache.org/docs/0.7.3/tuning.html译文地址:http://www.oschina.net/translate/spark-tuning译文作者:http://my.oschina.net/u/559738我的英语水平有限,此文是上传到oschina网站上由一位热心的网友(@sdzzboy)翻译的。oschina上的学习氛围不错,提出的问题会有很多热心的大牛帮忙解答,国内这样的社区还是比较少的,期待国内涌现例如google group,github,stack overflow这类的学习氛围的社区站点。以下为 阅读全文
posted @ 2013-09-27 09:55 vincent_hv 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://jerryshao.me/architecture/2013/04/21/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-scheduler%E6%A8%A1%E5%9D%97/BackgroundSpark在资源管理和调度方式上采用了类似于HadoopYARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层 阅读全文
posted @ 2013-09-23 13:51 vincent_hv 阅读(1156) 评论(0) 推荐(1) 编辑
摘要: 原文地址:http://jerryshao.me/architecture/2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-deploy%E6%A8%A1%E5%9D%97/Background在前文Spark源码分析之-scheduler模块中提到了Spark在资源管理和调度上采用了HadoopYARN的方式:外层的资源管理器和应用内的任务调度器;并且分析了Spark应用内的任务调度模块。本文就Spark的外层资源管理器-deploy模块进行分析,探究Spark是如何协调应用之间的资源调度和管理的。Spark最初是交 阅读全文
posted @ 2013-09-23 13:46 vincent_hv 阅读(559) 评论(0) 推荐(1) 编辑
摘要: 原文地址:http://blog.csdn.net/aiuyjerry/article/details/8595991Storage模块主要负责数据存取,包括MapReduce Shuffle中间结果、MapReduce task中间stage结果、cache结果。下面从架构和源码细节上来分析Storage模块的实现。Storage模块主要由两大部分组成:BlockManager部分主要负责Master和Slave之间的block通信,主要包括BlockManager状态上报、心跳,add, remove, update block.BlockStore部分主要负责数据存取,Spark根据不同 阅读全文
posted @ 2013-09-23 13:35 vincent_hv 阅读(1200) 评论(0) 推荐(2) 编辑
摘要: 原文出处:http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf译文原处:http://bbs.sciencenet.cn/home.php?mod=space&uid=425672&do=blog&id=520947摘要:本文提出了弹性分布式数据集(RDD,Resilient Distributed Datasets),这是一种分布式的内存抽象,允许在大型集群上执行基于内存的计算(In-Memory Computing),与此同时还保持了MapReduce等数据流模型的容错特性。现有的数据流系统 阅读全文
posted @ 2013-09-22 16:38 vincent_hv 阅读(1014) 评论(0) 推荐(1) 编辑
摘要: 原文地址:http://blog.csdn.net/kthq/article/details/8618052堆内存设置原理JVM堆内存分为2块:PermanentSpace 和 Heap Space。Permanent 即持久代(Permanent Generation),主要存放的是Java类定义信息,与垃圾收集器要收集的Java对象关系不大。Heap = { Old + NEW = {Eden, from, to} },Old 即 年老代(Old Generation),New 即年轻代(Young Generation)。年老代和年轻代的划分对垃圾收集影响比较大。年轻代所有新生成的对象首 阅读全文
posted @ 2013-09-21 17:45 vincent_hv 阅读(719) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数,可以极大的减少由于GC工作,而导致的程序运行中断方面的问题,进而适当的提高Java程序的工作效率。但是调整GC是以个极为复杂的过程,由于各个程序具备不同的特点,如:web和GUI程序就有很大区别(Web可以适当的停顿,但GUI停顿是客户无法接受的),而且由于跑在各个机器上的配置不同(主要cup个数,内存不同),所以使用的GC种类也会不同(如何选 阅读全文
posted @ 2013-09-21 16:42 vincent_hv 阅读(484) 评论(0) 推荐(0) 编辑
摘要: SPARK_MEM:设置每个Job(程序)在每个节点可用的内存量;(默认为512m)SPARK_WORKER_MEMORY:设置集群中每个节点分配的最大内存量;(默认为内存总量减去1G) 阅读全文
posted @ 2013-09-17 17:50 vincent_hv 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 原文地址:http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:Spark与Hadoop的对比Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于 阅读全文
posted @ 2013-09-16 14:36 vincent_hv 阅读(999) 评论(0) 推荐(1) 编辑
摘要: 尊重原创,注重版权,转贴请注明原文地址:http://www.cnblogs.com/vincent-hv/p/3322966.html1、配置程序使用资源:System.setProperty("spark.executor.memary", "512m")2、创建自己的SparkContext对象:val sc = new SparkContext("master", "Job name", "$SPARK_HOME", "Job JARs")3、创建RDDssc.par 阅读全文
posted @ 2013-09-15 19:17 vincent_hv 阅读(1420) 评论(0) 推荐(0) 编辑