上一页 1 2 3 4 5 6 7 ··· 19 下一页
摘要: 1)使用gnuplot画图代码如下: 2)如果直接在工具栏选择保存为图片,然后插入到word中发现图片太小,解决方法是在terminal中使用命令行将图片导出的方式,代码如下: 效果图如下所示: 参考:http://blog.sciencenet.cn/blog-373392-535918.html 阅读全文
posted @ 2016-06-22 14:39 lz3018 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 1)使用虚拟机的过程中,会碰到虚拟机占用的空间越来越大的情况,即使删除了虚拟机里的文件,磁盘空间还是似乎还是没有释放,使用“vmware-vdiskmanager”工具解决。解决方法在这里:参考。合并多个vmdk文件:参考,使用vmdk创建新虚拟机:参考 2)使用以下命令安装Sun jdk: 3)卸 阅读全文
posted @ 2016-05-14 20:39 lz3018 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 1)首先,我们是在使用spark-submit提交作业时,使用 参数来指明本作业使用远程调试的方式运行,也就是打开JVM的调试特性,实例如下: , 回车确定提交作业之后,并没有像之前直接运行程序,而是出现一个提示语句“Listening for transport dt_socket at addr 阅读全文
posted @ 2016-04-27 13:50 lz3018 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 1)在win7下使用spark shell运行spark程序,通过以下形式读取文件时 偶尔会出现“Input path does not exist”,原因是没有使用“file:///”表示文件时本地文件系统上的文件,相对路径形式如下: 不过,还可以使用绝对路径,更保险些。 2)在Ubuntu上读取 阅读全文
posted @ 2016-04-25 22:48 lz3018 阅读(1564) 评论(0) 推荐(0) 编辑
摘要: 1)将Array转化为String,toStrings()方法应该是序列化了的。 2)函数参数的传名调用和传值调用:传名调用只在函数体中需要计算参数的时候才计算参数,而传值调用在进入函数体之前就计算参数值。参考0 3)scala中的数组。参考1 4)scala中没有自增和自减,使用a+=1完成自增, 阅读全文
posted @ 2016-04-25 22:42 lz3018 阅读(1003) 评论(0) 推荐(1) 编辑
摘要: 1)spark通常把shuffle操作定义为划分stage的边界,其实stage的边界有两种:ShuffleMapTask和ResultTask。ResultTask就是输出结果,输出结果的称为ResultTask,都为引起stage的划分,比如以下代码: 每个stage内部,一定有一个Shuffl 阅读全文
posted @ 2016-04-24 21:10 lz3018 阅读(2198) 评论(0) 推荐(0) 编辑
摘要: 1)以WordCount为例,具体代码如下: 如果我们希望深入到sc.textFile()内部搞清楚都做了什么操作,如果是Java的话,我们直接CTRL+B,IDEA就自动把jar包中的字节码反编译为Java源码,并且,我们可以直接下个断点调试程序,但是对于Scala,IDEA的反编译效果并不是很好 阅读全文
posted @ 2016-04-22 10:15 lz3018 阅读(8014) 评论(0) 推荐(0) 编辑
摘要: 1)按照《大数据Spark企业级实战》第2章中的方法构建Spark集群,最后发现master可以正常启动,但是worker却都没有启动,原因是不能直接使用在slave模版文件 需要创建一个新文件,文件名就是slaves,因为之前已经在slaves.template中配置了各个worker节点,所以使 阅读全文
posted @ 2016-04-21 10:25 lz3018 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 矩阵相乘最简单的形式就是一个三层循环,首先给出表示形式:C=A*B,其中A是左矩阵,是i*k的矩阵,B是右矩阵,是k*j的矩阵。 1)第一种方法就是以“行*列”的方式来计算,代码如下: 运行时间是551s 2)第二种方法不是直接采用“行*列”的方式来计算,而是直接取出右矩阵的一行,分别与左矩阵的一个 阅读全文
posted @ 2016-04-11 11:27 lz3018 阅读(3889) 评论(0) 推荐(0) 编辑
摘要: 1)通过使用history命令,我们可以深入到一个Job的任务级层面查看执行最快的任务,以及执行最慢的任务,以及其他的有用信息。命令如下: “/ouptut”就是要查询的job的输出路径,如果输出路径位于hdfs的根目录下,有时候会忘记添加“/”,也就是使用如下命令: 就会出现如下提示: 就是因为没 阅读全文
posted @ 2016-04-10 13:37 lz3018 阅读(408) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 19 下一页