摘要: DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav 阅读全文
posted @ 2019-04-13 09:06 _Meditation 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 1 package ML.collaborativeFilltering; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaDoubleRDD; 5 import org.apache.spark.api.java.JavaPairRDD; 6 import org.apac... 阅读全文
posted @ 2019-04-10 16:23 _Meditation 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 二分类:SVMs,logistic regression,decision trees,random forests,gradient-boosted trees,naive Bayes 多分类: logistic regression,decision trees,random forests, 阅读全文
posted @ 2019-04-09 18:22 _Meditation 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 一, jar依赖,jsc创建。 二。Summary statistics 三。Correlations:相关性 三,Stratified sampling:分层抽样 四。Hypothesis testing 假设检验 五。Random data generation 六。Kernel density 阅读全文
posted @ 2019-04-04 16:13 _Meditation 阅读(306) 评论(0) 推荐(0) 编辑
摘要: package ML.DataType; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.linalg.*; import o... 阅读全文
posted @ 2019-04-04 15:22 _Meditation 阅读(396) 评论(0) 推荐(0) 编辑
摘要: package action; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import o... 阅读全文
posted @ 2019-04-02 11:35 _Meditation 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 在java中,RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。 都必须要进行的一步。 一。javaRDDs 二。JavaPairRDDs. zip: 最后都要加上 aggregateByKey算子详解 repartitionAndSortWithinPartitions算子 阅读全文
posted @ 2019-04-02 10:44 _Meditation 阅读(198) 评论(0) 推荐(0) 编辑
摘要: package transfor; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.ArrayList; public class demo { private static ArrayList filelist = new ArrayList(); ... 阅读全文
posted @ 2019-03-29 14:19 _Meditation 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: python: java: 阅读全文
posted @ 2019-03-29 13:45 _Meditation 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1,首先确保hadoop和spark已经运行。(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动)。 2.打开idea,创建maven工程。编辑pom.xml文件。增加dependency. <dependency> <!-- Spark dependency --> 阅读全文
posted @ 2019-03-26 15:44 _Meditation 阅读(400) 评论(0) 推荐(0) 编辑