摘要: 问题说明: 一般来说,我编写Spark,MapReduce程序都是会在本地IDEA中进行,开发。本地跑通了,才会把代码放到集群上去跑。 当我在运行一个简单的Spark Job 的时候,控制台出现如下的错误: java.io.IOException: Could not locate executab 阅读全文
posted @ 2019-02-27 15:29 liuge36 阅读(572) 评论(0) 推荐(0) 编辑
摘要: 写在前面: A DataFrame is a Dataset organized into named columns. A Dataset is a distributed collection of data. 贴代码: 简单的csv文件: infos.csv 更多相关小demo:每天一个程序: 阅读全文
posted @ 2019-02-27 15:24 liuge36 阅读(3369) 评论(0) 推荐(0) 编辑
摘要: 写在前面: 当得到一个DataFrame对象之后,可以使用对象提供的各种API方法进行直接调用,进行数据的处理。 另,也可以将DataFrame对象通过createOrReplaceTempView()方法,将其转为一张表,从而使用SQL来进行数据处理。 主要介绍一下API的基本操作,因为SQL的话 阅读全文
posted @ 2019-02-27 15:24 liuge36 阅读(530) 评论(0) 推荐(0) 编辑
摘要: ~~ 前置 ~~ Spark Streaming 常常对接 :本地文件、HDFS、端口、flume、kafka 更多相关小demo:每天一个程序:https://blog.csdn.net/liuge36/column/info/34094 阅读全文
posted @ 2019-02-27 15:23 liuge36 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 写在前面 主要是加载文件为RDD,再把RDD转换为DataFrame,进而使用DataFrame的API或Sql进行数据的方便操作 简单理解:DataFrame=RDD+Schema 贴代码 更多相关小demo:每天一个程序:https://blog.csdn.net/liuge36/column/ 阅读全文
posted @ 2019-02-27 15:23 liuge36 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 写在前面 因为觉得自己的代码量实在是太少了,所以,想着,每周至少写5个小的demo程序。现在的想法是,写一些Spark,Storm,MapReduce,Flume,kafka等等单独或组合使用的一些小的Demo。 然后,我会尽力记录好,自己编码过程中遇到的问题,方便自己巩固复习。 废话不多说,我们直 阅读全文
posted @ 2019-02-27 15:22 liuge36 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 写在前面:当得到一个DataFrame对象之... 阅读全文
posted @ 2019-02-27 14:58 liuge36 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 问题说明:一般来说,我编写Spark,Map... 阅读全文
posted @ 2019-02-27 10:41 liuge36 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 写在前面:A DataFrame is a ... 阅读全文
posted @ 2019-02-27 09:39 liuge36 阅读(484) 评论(0) 推荐(0) 编辑