lz3018

2016年6月22日

摘要： 1）使用gnuplot画图代码如下： 2）如果直接在工具栏选择保存为图片，然后插入到word中发现图片太小，解决方法是在terminal中使用命令行将图片导出的方式，代码如下：效果图如下所示：参考：http://blog.sciencenet.cn/blog-373392-535918.html 阅读全文

posted @ 2016-06-22 14:39 lz3018 阅读(426) 评论(0) 推荐(0) 编辑

2016年5月14日

Linux虚拟机小问题解决方法系列

摘要： 1）使用虚拟机的过程中，会碰到虚拟机占用的空间越来越大的情况，即使删除了虚拟机里的文件，磁盘空间还是似乎还是没有释放，使用“vmware-vdiskmanager”工具解决。解决方法在这里：参考。合并多个vmdk文件：参考，使用vmdk创建新虚拟机：参考 2）使用以下命令安装Sun jdk： 3）卸阅读全文

posted @ 2016-05-14 20:39 lz3018 阅读(210) 评论(0) 推荐(0) 编辑

2016年4月27日

Spark1.4远程调试

摘要： 1）首先，我们是在使用spark-submit提交作业时，使用参数来指明本作业使用远程调试的方式运行，也就是打开JVM的调试特性，实例如下：，回车确定提交作业之后，并没有像之前直接运行程序，而是出现一个提示语句“Listening for transport dt_socket at addr 阅读全文

posted @ 2016-04-27 13:50 lz3018 阅读(321) 评论(0) 推荐(0) 编辑

2016年4月25日

Spark小问题合集

摘要： 1）在win7下使用spark shell运行spark程序，通过以下形式读取文件时偶尔会出现“Input path does not exist”，原因是没有使用“file:///”表示文件时本地文件系统上的文件，相对路径形式如下：不过，还可以使用绝对路径，更保险些。 2)在Ubuntu上读取阅读全文

posted @ 2016-04-25 22:48 lz3018 阅读(1569) 评论(0) 推荐(0) 编辑

Scala学习总结

摘要： 1）将Array转化为String，toStrings()方法应该是序列化了的。 2）函数参数的传名调用和传值调用：传名调用只在函数体中需要计算参数的时候才计算参数，而传值调用在进入函数体之前就计算参数值。参考0 3）scala中的数组。参考1 4）scala中没有自增和自减，使用a+=1完成自增，阅读全文

posted @ 2016-04-25 22:42 lz3018 阅读(1004) 评论(0) 推荐(1) 编辑

2016年4月24日

Spark使用总结

摘要： 1）spark通常把shuffle操作定义为划分stage的边界，其实stage的边界有两种：ShuffleMapTask和ResultTask。ResultTask就是输出结果，输出结果的称为ResultTask，都为引起stage的划分，比如以下代码：每个stage内部，一定有一个Shuffl 阅读全文

posted @ 2016-04-24 21:10 lz3018 阅读(2219) 评论(0) 推荐(0) 编辑

2016年4月22日

Spark IDEA 调试(反编译)

摘要： 1）以WordCount为例，具体代码如下：如果我们希望深入到sc.textFile()内部搞清楚都做了什么操作，如果是Java的话，我们直接CTRL+B，IDEA就自动把jar包中的字节码反编译为Java源码，并且，我们可以直接下个断点调试程序，但是对于Scala，IDEA的反编译效果并不是很好阅读全文

posted @ 2016-04-22 10:15 lz3018 阅读(8028) 评论(0) 推荐(0) 编辑

2016年4月21日

Spark1.4安装问题

摘要： 1）按照《大数据Spark企业级实战》第2章中的方法构建Spark集群，最后发现master可以正常启动，但是worker却都没有启动，原因是不能直接使用在slave模版文件需要创建一个新文件，文件名就是slaves，因为之前已经在slaves.template中配置了各个worker节点，所以使阅读全文

posted @ 2016-04-21 10:25 lz3018 阅读(165) 评论(0) 推荐(0) 编辑

2016年4月11日

矩阵相乘的两种方法

摘要：矩阵相乘最简单的形式就是一个三层循环，首先给出表示形式：C=A*B，其中A是左矩阵，是i*k的矩阵，B是右矩阵，是k*j的矩阵。 1）第一种方法就是以“行*列”的方式来计算，代码如下：运行时间是551s 2）第二种方法不是直接采用“行*列”的方式来计算，而是直接取出右矩阵的一行，分别与左矩阵的一个阅读全文

posted @ 2016-04-11 11:27 lz3018 阅读(3963) 评论(0) 推荐(0) 编辑

2016年4月10日

使用history命令查看作业的整体执行情况

摘要： 1）通过使用history命令，我们可以深入到一个Job的任务级层面查看执行最快的任务，以及执行最慢的任务，以及其他的有用信息。命令如下： “/ouptut”就是要查询的job的输出路径，如果输出路径位于hdfs的根目录下，有时候会忘记添加“/”，也就是使用如下命令：就会出现如下提示：就是因为没阅读全文

posted @ 2016-04-10 13:37 lz3018 阅读(412) 评论(0) 推荐(0) 编辑

公告