摘要:
今天犯了一个致命理解错误,Spark中的RDD Map操作只是一个计算式的传递,并不是Action,也就是在for循环中不会产生真正的计算。 因此,如果for循环中出现了RDD的Map类似操作,都会引起异常,例如栈溢出等等,属于相互引用错误。 把我的错误代码贴在下面,加深理解。 阅读全文
摘要:
Windows下搭建Spark+Hadoop开发环境需要一些工具支持。 只需要确保您的电脑已装好Java环境,那么就可以开始了。 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装) 下载地址:http://apache.f 阅读全文
摘要:
Ubuntu下安装mod_python3.4.1版本报出如下错误: 已经证实,这是这个版本的bug。网上有说“git init”可解决,我试了并不行,会产生新的报错。我的解决方法是,找到mod_python的dist文件夹下的version.sh文件,注释或者直接删掉: 同时修改最后一行为: 重新编 阅读全文
摘要:
Spark默认采用Java的序列化器,这里建议采用Kryo序列化提高性能。实测性能最高甚至提高一倍。 Spark之所以不默认使用Kryo序列化,可能的原因是需要对类进行注册。 Java程序中注册很简单: 阅读全文
摘要:
如果运行Spark集群时状态一直为Accepted且不停止不报错,比如像下面这样的情况: 一般是由于有多个用户同时向集群提交任务或一个用户向集群同时提交了多个任务导致Yarn资源的分配错误。解决这个问题,只需要更改Hadoop的配置文件:/etc/hadoop/conf/capacity-sched 阅读全文
摘要:
参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默认的spark的内存设置就不行了,需要重新设置。还没有看Spark源码,只能先搜搜相关的博客解决问题 阅读全文
摘要:
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse。Intellij分为Community版和Ultimate版,前者免费,后者付费。付费版同样是集成了更多的框架 阅读全文
摘要:
JAligner是一个集成多个罚分矩阵的蛋白质序列比对工具包,提供充足的API供开发人员调用。 但是,不可否认的是,它的结构写得不够规范。以前我是将它放在普通的Java项目里使用,没有问题。但是,今天,放在Maven目录里却出现问题,起初还以为是我的多线程或者是Hadoop部分出错,debug后却发 阅读全文
摘要:
为了将Hadoop和Spark的安装简单化,今日写下此帖。 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录。 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行, 阅读全文
摘要:
pip安装的-i参数: https://pypi.tuna.tsinghua.edu.cn/simple conda 设置: conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/con 阅读全文
摘要:
很简单,就一行命令: sudo dpkg-reconfigure mysql-server-5.5 来源:https://ubuntuforums.org/showthread.php?t=2296259 阅读全文
只有注册用户登录后才能阅读该文。 阅读全文