随笔分类 - 分布式计算
摘要:关于win上安装MPI开发环境,网上能搜到的教程貌似都很老,还需要在管理员账户开发,感觉很诡异,于是自己摸索了下,不需要管理员账户,总结如下。 1. 准备 VS 2013(VS 2010及以上都行) Windows 8.1操作系统(Win7及以上都行) 2. 下载并安装MPICH For Windo
阅读全文
摘要:今天犯了一个致命理解错误,Spark中的RDD Map操作只是一个计算式的传递,并不是Action,也就是在for循环中不会产生真正的计算。 因此,如果for循环中出现了RDD的Map类似操作,都会引起异常,例如栈溢出等等,属于相互引用错误。 把我的错误代码贴在下面,加深理解。
阅读全文
摘要:Windows下搭建Spark+Hadoop开发环境需要一些工具支持。 只需要确保您的电脑已装好Java环境,那么就可以开始了。 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装) 下载地址:http://apache.f
阅读全文
摘要:Spark默认采用Java的序列化器,这里建议采用Kryo序列化提高性能。实测性能最高甚至提高一倍。 Spark之所以不默认使用Kryo序列化,可能的原因是需要对类进行注册。 Java程序中注册很简单:
阅读全文
摘要:如果运行Spark集群时状态一直为Accepted且不停止不报错,比如像下面这样的情况: 一般是由于有多个用户同时向集群提交任务或一个用户向集群同时提交了多个任务导致Yarn资源的分配错误。解决这个问题,只需要更改Hadoop的配置文件:/etc/hadoop/conf/capacity-sched
阅读全文
摘要:例如对一个JavaPairRDD<String, String>做遍历操作,常见的,我们可以通过先通过collect()操作将它转化为Map对象再进行遍历,也可以使用Spark提供的mapToPair方法进行遍历。然而两者的性能差距是非常显著的。 仅仅遍历1500条长度为155的序列,前者需要消耗6
阅读全文
摘要:参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默认的spark的内存设置就不行了,需要重新设置。还没有看Spark源码,只能先搜搜相关的博客解决问题
阅读全文
摘要:对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse。Intellij分为Community版和Ultimate版,前者免费,后者付费。付费版同样是集成了更多的框架
阅读全文
摘要:JAligner是一个集成多个罚分矩阵的蛋白质序列比对工具包,提供充足的API供开发人员调用。 但是,不可否认的是,它的结构写得不够规范。以前我是将它放在普通的Java项目里使用,没有问题。但是,今天,放在Maven目录里却出现问题,起初还以为是我的多线程或者是Hadoop部分出错,debug后却发
阅读全文
摘要:为了将Hadoop和Spark的安装简单化,今日写下此帖。 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录。 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行,
阅读全文