随笔分类 -  Spark

摘要:Spark数据分区调研 Spark以textFile方式读取文件源码 textFile方法位于 spark-core_2.11/org.apache.spark.api.java/JavaSparkContent.scala 参数分析: path :String是一个URI,可以是HDFS、本地文件 阅读全文
posted @ 2019-06-22 13:37 _Meditation 阅读(1335) 评论(0) 推荐(0) 编辑
摘要:版本:V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 资源的分配在使 阅读全文
posted @ 2019-04-29 16:42 _Meditation 阅读(412) 评论(0) 推荐(0) 编辑
摘要:一。pipeline 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。 在介绍工作流之前,我们先来了解几个重要概念: DataFrame:使用 阅读全文
posted @ 2019-04-13 10:38 _Meditation 阅读(274) 评论(0) 推荐(0) 编辑
摘要:一。介绍 Spark Streaming最主要的抽象是DStream(Discretized Stream,离散化数据流),表示连续不断的数据流。在内部实现上,Spark Streaming的输入数据按照时间片(如1秒)分成一段一段的DStream,每一段数据转换为Spark中的RDD,并且对DSt 阅读全文
posted @ 2019-04-13 09:38 _Meditation 阅读(448) 评论(0) 推荐(0) 编辑
摘要:一。读写Parquet(DataFrame) Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源。前面的介绍中,我们已经涉及到了JSON、文本格式的加载,这里不再赘述。这里介绍Parquet,下一节会介绍JDBC数据库连接。 Parquet是一种 阅读全文
posted @ 2019-04-13 09:19 _Meditation 阅读(6424) 评论(0) 推荐(0) 编辑
摘要:一。 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess 阅读全文
posted @ 2019-04-13 09:09 _Meditation 阅读(4822) 评论(0) 推荐(0) 编辑
摘要:DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav 阅读全文
posted @ 2019-04-13 09:06 _Meditation 阅读(182) 评论(0) 推荐(0) 编辑
摘要:1 package ML.collaborativeFilltering; 2 3 import org.apache.spark.SparkConf; 4 import org.apache.spark.api.java.JavaDoubleRDD; 5 import org.apache.spark.api.java.JavaPairRDD; 6 import org.apac... 阅读全文
posted @ 2019-04-10 16:23 _Meditation 阅读(256) 评论(0) 推荐(0) 编辑
摘要:二分类:SVMs,logistic regression,decision trees,random forests,gradient-boosted trees,naive Bayes 多分类: logistic regression,decision trees,random forests, 阅读全文
posted @ 2019-04-09 18:22 _Meditation 阅读(239) 评论(0) 推荐(0) 编辑
摘要:一, jar依赖,jsc创建。 二。Summary statistics 三。Correlations:相关性 三,Stratified sampling:分层抽样 四。Hypothesis testing 假设检验 五。Random data generation 六。Kernel density 阅读全文
posted @ 2019-04-04 16:13 _Meditation 阅读(315) 评论(0) 推荐(0) 编辑
摘要:package ML.DataType; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.mllib.linalg.*; import o... 阅读全文
posted @ 2019-04-04 15:22 _Meditation 阅读(398) 评论(0) 推荐(0) 编辑
摘要:package action; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import o... 阅读全文
posted @ 2019-04-02 11:35 _Meditation 阅读(127) 评论(0) 推荐(0) 编辑
摘要:在java中,RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。 都必须要进行的一步。 一。javaRDDs 二。JavaPairRDDs. zip: 最后都要加上 aggregateByKey算子详解 repartitionAndSortWithinPartitions算子 阅读全文
posted @ 2019-04-02 10:44 _Meditation 阅读(198) 评论(0) 推荐(0) 编辑
摘要:1,首先确保hadoop和spark已经运行。(如果是基于yarn,hdfs的需要启动hadoop,否则hadoop不需要启动)。 2.打开idea,创建maven工程。编辑pom.xml文件。增加dependency. <dependency> <!-- Spark dependency --> 阅读全文
posted @ 2019-03-26 15:44 _Meditation 阅读(409) 评论(0) 推荐(0) 编辑
摘要:1.启动spark集群。 启动Hadoop集群 cd /usr/local/hadoop/ sbin/start-all.sh 启动Spark的Master节点和所有slaves节点 cd /usr/local/spark/ sbin/start-master.sh sbin/start-slave 阅读全文
posted @ 2019-03-25 14:58 _Meditation 阅读(1345) 评论(0) 推荐(0) 编辑
摘要:apache的各个软件各个版本下载: http://archive.apache.org/dist/ 1.下载spark. sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo 阅读全文
posted @ 2019-03-25 14:03 _Meditation 阅读(625) 评论(0) 推荐(0) 编辑
摘要:虽然可以正常运行,但是会出异常,现给出解决方法。 1.问题: 2. 问题解决: 仔细查看报错是缺少winutils.exe程序。 Hadoop都是运行在Linux系统下的,在windows下eclipse中运行mapreduce程序,要首先安装Windows下运行的支持插件 3. 安装并配置插件(我 阅读全文
posted @ 2019-03-22 16:21 _Meditation 阅读(1858) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示