_Meditation - 博客园

2019年4月13日

摘要： DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav 阅读全文

posted @ 2019-04-13 09:06 _Meditation 阅读(182) 评论(0) 推荐(0) 编辑

2019年4月10日

spark MLlib collaborativeFilltering学习

摘要： 1 package ML.collaborativeFilltering; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaDoubleRDD; 5 import org.apache.spark.api.java.JavaPairRDD; 6 import org.apac... 阅读全文

posted @ 2019-04-10 16:23 _Meditation 阅读(256) 评论(0) 推荐(0) 编辑

2019年4月9日

spark MLlib Classification and regression 学习

摘要：二分类：SVMs，logistic regression，decision trees，random forests，gradient-boosted trees，naive Bayes 多分类： logistic regression，decision trees，random forests，阅读全文

posted @ 2019-04-09 18:22 _Meditation 阅读(238) 评论(0) 推荐(0) 编辑

2019年4月4日

spark MLlib BasicStatistics 统计学基础

摘要：一， jar依赖，jsc创建。二。Summary statistics 三。Correlations:相关性三，Stratified sampling：分层抽样四。Hypothesis testing 假设检验五。Random data generation 六。Kernel density 阅读全文

posted @ 2019-04-04 16:13 _Meditation 阅读(312) 评论(0) 推荐(0) 编辑

spark MLlib DataType ML中的数据类型

摘要： package ML.DataType; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.linalg.*; import o... 阅读全文

posted @ 2019-04-04 15:22 _Meditation 阅读(398) 评论(0) 推荐(0) 编辑

2019年4月2日

spark actions 算子

摘要： package action; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import o... 阅读全文

posted @ 2019-04-02 11:35 _Meditation 阅读(127) 评论(0) 推荐(0) 编辑

spark Transformations算子

摘要：在java中，RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。都必须要进行的一步。一。javaRDDs 二。JavaPairRDDs. zip: 最后都要加上 aggregateByKey算子详解 repartitionAndSortWithinPartitions算子阅读全文

posted @ 2019-04-02 10:44 _Meditation 阅读(198) 评论(0) 推荐(0) 编辑

2019年3月29日

读文件/写文件。http请求。读取文件列表。

摘要： package transfor; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.ArrayList; public class demo { private static ArrayList filelist = new ArrayList(); ... 阅读全文

posted @ 2019-03-29 14:19 _Meditation 阅读(1642) 评论(0) 推荐(0) 编辑

遍历文件路径python版，java版

摘要： python: java: 阅读全文

posted @ 2019-03-29 13:45 _Meditation 阅读(229) 评论(0) 推荐(0) 编辑

2019年3月26日

spark学习之路1--用IDEA编写第一个基于java的程序打包，放standalone集群，client和cluster模式上运行

摘要： 1,首先确保hadoop和spark已经运行。（如果是基于yarn，hdfs的需要启动hadoop,否则hadoop不需要启动）。 2.打开idea，创建maven工程。编辑pom.xml文件。增加dependency. <dependency>  阅读全文

posted @ 2019-03-26 15:44 _Meditation 阅读(407) 评论(0) 推荐(0) 编辑

Meditation

埋滴忒深

公告